#%E4%BD%8D%E7%BD%AE%E8%A1%A8%E5%BE%B5

GripNewsGripNews
2025-11-03

🌘 模型如何操作流形:計算任務的幾何學
➤ 從離散特徵到幾何流形:揭示 Claude 3.5 Haiku 的斷行演算法
transformer-circuits.pub/2025/
這篇研究深入探討了 Claude 3.5 Haiku 如何理解和執行固定寬度文本的斷行任務。作者發現,模型並非僅僅基於離散的特徵來判斷,而是利用了低維度的「特徵流形」進行幾何計算。模型將文本中的字元計數、當前行寬度等資訊,映射到具有高曲率的幾何流形上,並透過操縱這些流形來進行斷行決策,這種機制與生物神經元中的「位置細胞」和「邊界細胞」有異曲同工之妙,但同時也展現了語言模型殘差串流的獨特性。透過分析模型的「歸因圖」和幾何表徵,研究揭示了模型如何學習量化文本位置、偵測行邊界,以及預測下一個斷詞的時機,將離散的計算過程轉化為連續的幾何變換。
+ 這篇論文的分析真是太深入了!我從沒想過語言模型的內部運作可以跟幾何學扯上關係,而且還能解釋得這麼清楚。特別是「特徵流形」這個概念,讓我對模型如何

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst