Listen

Description

神經網路內部充滿反映現實結構的「神經幾何」,理解它能精準解釋、改善與控制模型。

Goodfire AI 團隊從 2026 年 5 月 7 日發布研究系列,強調神經網路雖以英文「說話」,卻以形狀「思考」,其內在幾何結構如時間、空間、數字、顏色、生命樹等,沿著彎曲路徑與曲面呈現,此結構橫跨模型、模態與領域。透過新方法探索此「神經幾何」,能解鎖模型的本體論(ontology)、內部演算法與智慧行為,進而實現科學知識提取與更安全模型設計。

神經幾何的普遍性
神經網路內世界充滿結構,反映外部現實:語言模型中,數字、星期與月份形成圓形迴圈,歷史年份與文字角色沿順暢曲線排列;影像模型中,物件空間配置在啟動空間重現,顏色則以色相、飽和度與明度結構的順暢曲面表示;在基因組模型中,整個生命樹位於複雜流形上,甚至在表觀基因組模型中發現阿茲海默症(Alzheimer's)新生物標記物作為乾淨曲線。此證據已然豐沛且無可否認,證明彎曲幾何結構普遍存在。

理解神經幾何的必要性
如同無法不了解資料結構就理解電腦,神經網路的表現形式(representations)塑造其內部演算法與行為,忽略此形狀就無法精準理解模型。新方法探測此幾何是關鍵前沿,能帶來更深層洞察、改善與控制,進而預測失敗、除錯、評估審核、調整訓練,並以工程方式建構模型,而非充滿神秘。

山車範例:幾何導向控制
在經典強化學習環境「mountain car」中,訓練簡單影像-動作模型預測下一幀(基於當前位置、動量與左右加速動作),作為物理系統的世界模型。
車輛位置在影像編碼器的嵌入向量(彩色點)中形成明顯的義大利麵狀路徑,鄰近位置對應鄰近影像。
驗證假設時,先擬合一維流形(順暢曲線)描述此路徑,再介入隱藏啟動以沿流形「導向」(steering),車輛即順暢上下山丘移動。
相對地,典型線性導向(以對比對啟動差異產生向量,如真實陳述減去類似虛假陳述)穿越啟動空間「空洞」,導致輸出混亂或車輛瞬間傳送(teleport),證明即使單一純量概念如位置,也可能位於彎曲流形而非直線,忽略幾何將推模型入不自然混亂狀態。

表現、運算與行為的連結
神經幾何幫助精準理解三層結構:表現形式被運算消耗與產生,如資料結構(堆疊、查詢表)經運算子(推入、彈出、讀寫)轉換,新結構由此生成。無表現知識,運算理解永遠殘缺,如不知位元就無法全解筆電排序。神經幾何即神經網路的資料結構,與運算結合,方能照亮智慧行為;完全掌握二者,即能實現前述工程願景。

神經幾何的起源
概念非魔法出現,而是訓練資料中世界結構的反映。資料集源自結構化現實(如 Reddit 貼文或山車模擬),有限參數優化巨量資料,迫使網路發展內在幾何重現外部結構。以月份為例:現實中一月鄰二月與十二月、遠離六七月,此統計痕跡在文字脈絡顯現,語言模型訓練捕捉此規律,將月份排列成循環結構,運算在其上執行,產生訓練誘因的輸出行為。

對稀疏自編碼器(SAEs)的批判
SAEs 傾向「粉碎」(shatter)概念流形成多個看似無關小片,模糊整體語意結構;如韻腳詞流形(fire/higher、near/dear),SAE 特徵僅標記局部屬性,錯過底層語意(詞語音韻結尾)。此圖像來自無監督管線,從真實語言模型提取,顯示整體流形觀察更清晰。SAEs 雖有價值(如無監督大規模分解特徵),但限制明顯;未來文章將詳述從 SAE 特徵重建流形,並介紹新方法(監督與無監督)尊重神經幾何,以達更深精準理解與控制。

系列研究議程
Goodfire AI 發布系列文章,首兩篇見 The World Inside Neural Networks。後續將詳述:
作用於流形的範例機制
無監督流形發現 + 與 SAE 特徵連結
脈絡內幾何(in-context geometry)

結論與願景
神經網路內世界具結構化幾何,反映現實;開發尊重其理論與方法,將解鎖更深詮釋性、可靠控制與更安全優質人工智慧。許多人稱神經網路「黑箱」難解,但作者堅信此為當今最大科學挑戰與機會。如達爾文所言,其心智成「從大量事實磨出一般法則的機器」,以往缺足夠事實與收集能力;如今配備神經幾何工具的研究 Agent,將大規模蒐集經驗資料,進而提煉思維一般法則。

作者包括 Atticus Geiger、Ekdeep Singh Lubana、Thomas Fel、Jack Merullo、Michael Jae Byun、Owen Lewis、Tom McGrath,此系列建基於相關努力,兼具好奇驅動與實用應用,如從基礎模型提取科學知識與有意設計更佳模型。透過腦外科式介入與流形導向,神經幾何不僅驗證假設,更展現精準操控潛力,對抗線性方法的局限。總體而言,此議程挑戰傳統詮釋工具,主張整體結構觀察優於碎片化,預示人工智慧工程的轉折。