網易首頁 > 網易號 > 正文申請入駐

AI語言模型學習新技能的順序，竟然驚人地相似

2026-04-26 19:06:21　來源: 科技行者

天津舉報

分享至

這項由卡內基梅隆大學語言技術研究所、約翰斯·霍普金斯大學計算機系、東北大學Khoury計算機學院以及南加州大學計算機系聯合完成的研究，于2026年4月發布在arXiv預印本平臺，論文編號為arXiv:2604.08510。感興趣的讀者可通過該編號查閱完整原文。

**一個困擾研究者多年的謎題**

每當一個孩子學語言，我們會發現他們幾乎總是先學會叫"媽媽"，然后學會說簡單名詞，再學會造句，最后才能講述復雜的故事。這個學習順序不是隨機的，而是有內在規律的。那么，人工智能語言模型呢？它們在接受大量文字訓練時，是否也存在這樣一個固定的"學習成長順序"？

卡內基梅隆大學等高校的研究團隊對這個問題展開了深入研究，并提出了一個令人興奮的猜想，他們將其命名為"隱性課程假說"（Implicit Curriculum Hypothesis）。簡單來說，他們猜測：不同的AI語言模型，即使來自不同的公司、用不同的數據訓練，在學習各種技能的順序上，會呈現出出人意料的一致性——就像不同國家的孩子，雖然學的是不同的母語，但都會先學簡單詞匯再學復雜語法一樣。

這個問題之所以重要，是因為現代AI語言模型的訓練極其昂貴，有時甚至需要耗資數百萬美元。然而，工程師們監控模型訓練進展的方式，一直停留在觀察一個叫做"交叉熵損失"的數字上——這個數字雖然會隨著訓練持續下降，但它就像只告訴你學生"總分提高了多少"，而完全無法告訴你"這個學生現在會不會做加減法"、"會不會寫作文"。研究團隊希望填補這一空白，找到一套更精細的方法來理解AI究竟在什么時候學會了什么。

**一、給AI設計一套"能力測試題"**

要研究AI學習技能的順序，首先需要一套設計精良的測試題。研究團隊設計了一套共91道測試任務，涵蓋了從極簡單到相對復雜的各類技能。

這些任務分為兩大類。第一類叫做"基礎任務"，共53個，每個任務只考查一種特定能力。比如，"復制"任務就是把輸入的文字原樣輸出；"大寫"任務是把輸入的小寫字母變成大寫；"翻譯英譯法"任務是把英文單詞翻譯成法文；"提取數字"任務是從一段文字描述中找出數字。這些任務涵蓋了字符串操作（比如倒序、取首字母）、詞形變換（比如把動詞變成進行時形式）、知識檢索（比如回答某個國家的首都是哪里）、翻譯、算術計算以及邏輯推理等多個維度。

第二類叫做"組合任務"，共38個，是將多個基礎任務串聯起來完成的。比如，"動詞進行時＋大寫"這個任務，要求先把輸入的動詞變成進行時形式，再把結果全部大寫——輸入"run"，正確答案是"RUNNING"。再比如，"法譯英＋倒序"任務，需要先把法語單詞翻譯成英語，再把英語單詞的字母倒序排列——輸入"bonjour"，正確答案是"olleh"。這種設計的妙處在于，每個組合任務的"先決條件"是已知的：要完成"動詞進行時＋大寫"，模型必須先會"動詞進行時"和"大寫"這兩個基礎任務。

這套測試的評分方式也很簡潔：完全匹配才算正確，沒有模糊地帶。這讓研究者能夠精確地追蹤每個模型在每個訓練時間點上，到底有沒有掌握某項技能。

**二、橫跨四個"模型家族"的追蹤實驗**

測試題有了，接下來需要"被測者"。研究團隊選擇了9個不同的AI語言模型，來自4個不同的模型家族，參數規模從4億到130億不等。

這4個家族分別是：OLMo-2系列，包含10億、70億和130億參數的三個版本，可以研究同一家族內規模變化的影響；OLMo-3系列，有一個70億參數版本，可以與OLMo-2進行跨代比較；LLM360系列，包含Crystal（7B）和Amber（7B）兩個模型，它們的特別之處在于訓練數據完全不同——Crystal偏向代碼數據，Amber偏向自然語言數據，這讓研究者可以在控制模型架構的同時，研究數據組成對學習順序的影響；以及Pythia系列，包含4億、14億和120億參數三個版本，這是一個較早期的模型系列，用不同于前三者的數據訓練。

每個模型都提供了訓練過程中保存的"中間檢查點"——可以把它們理解為模型成長過程中不同時間點的"快照"。研究團隊聚焦于每個模型訓練的前1萬億個詞元（token）階段，并在這段時間內大約均勻采樣20個檢查點，相當于每隔200億詞元"拍一張照"。通過對這些快照逐一進行91道測試題的測評，就可以描繪出每個技能在每個模型中隨時間變化的"成長曲線"。

**三、技能出現的順序，跨模型高度一致**

研究的第一個核心發現，是對"隱性課程假說"第一個預測的驗證：不同模型學習技能的順序，高度相似。

研究團隊定義了一個"技能出現時間點"：當某個模型在某項任務上的準確率首次超過80%時，認為該模型"掌握"了這項技能。然后，他們比較不同模型的技能掌握順序是否一致。

結果令人印象深刻。在所有45對模型的兩兩比較中，技能掌握順序的斯皮爾曼秩相關系數（一種衡量兩個排名序列是否相似的統計指標）平均高達0.81，最低也有0.64，最高達到0.93，且所有相關系數的統計顯著性都極高，p值遠小于10的負7次方。換句話說，如果你知道了某個模型掌握各項技能的順序，你就能以相當高的準確度預測另一個完全不同的模型的掌握順序——哪怕這兩個模型來自不同的公司、用不同的數據訓練、參數量相差數倍。

那么，這個順序具體是什么樣的？最先被所有模型掌握的技能是"復制"，即把輸入原樣輸出。這也許并不令人驚訝，因為這是最簡單的信息傳遞任務。緊隨其后的是各類簡單的字符串操作，比如大寫、小寫、提取首字母等。然后是詞形變換，比如把動詞變成進行時形式，把單數名詞變成復數。接下來是知識檢索類任務，比如翻譯和回答簡單事實性問題。再往后，簡單的邏輯推斷開始出現。最后才出現的是多步驟算術計算和更復雜的推理任務。

同族模型之間的相關性尤其高，比如OLMo-2的7B和13B版本相關系數高達0.93。但即便是跨越家族、跨越數據類型、跨越年代的比較，相關性也依然顯著——比如Amber與OLMo-2系列的相關系數在0.82到0.88之間，即便是最"風格迥異"的組合，比如僅有4億參數的Pythia-410M與130億參數的OLMo-2-13B，相關系數也達到了0.60。

這里有一個重要的細節：這種高度一致性，只在使用絕對準確率閾值（比如固定在80%）時成立。如果改用相對閾值（比如達到該模型在該任務上歷史最高分的80%），跨模型的相關性就會大幅下降，平均只有0.50左右。研究團隊對此給出了合理的解釋：相對閾值依賴于每個模型自己的"天花板"，一個能力較弱的模型可能在某項任務上永遠無法達到有意義的準確率，卻可能因為偶然性較早觸發了相對閾值；而絕對閾值更接近"這個模型真正學會了這件事"這個概念，因此能更準確地捕捉"技能出現"這一事件。

**四、復雜任務總是在其組成部分之后出現**

研究的第二個核心發現，驗證了假說的第二個預測：組合任務通常在其組成的基礎任務之后才被模型掌握。

在總共76對"組合任務-基礎任務"的比較中，有54對符合預期——組合任務確實在基礎任務之后出現。這個比例大約是71%，算不上完美，但已經提供了相當強的支持證據。

剩余的違反情況可以分為兩類。其中19個屬于"弱違反"——組合任務的出現時間比其中一個基礎任務早，但另一個基礎任務還是先出現了；另外只有3個屬于"強違反"——組合任務比它的所有基礎任務都更早出現。有意思的是，這3個強違反的案例，全都涉及同一個基礎任務："提取首字母"。這個發現暗示，"提取首字母"這個任務，雖然在測試框架中被設計為其他任務的組成部分，但它在實際訓練動態中的位置可能與其他基礎任務不太一樣——可能是因為直接取首字母這個操作，在現實中往往會和更復雜的任務同時出現在訓練數據里，從而讓模型在學會"單獨"做這件事之前，就在組合情境下見過它了。

這個發現的意義在于，它將我們對AI學習的理解從"AI只是在隨機學習"推向了"AI的學習遵循一種結構性的從簡到難的順序"。當你理解了這種順序，就可以用它來診斷模型訓練是否正常：如果模型在某個復雜任務上表現差勁，你可以檢查它的"先決技能"是否都已經掌握了；如果連先決技能都沒學好，那就找到問題的根源了。

**五、技能的"形狀"決定了它的"命運"**

研究的第三個，也是最令人著迷的發現，涉及到模型內部的表示空間。

在AI語言模型內部，每個任務都可以被表示為一個高維空間中的"方向向量"——研究團隊把這些向量稱為"功能向量"（function vector）。你可以把它理解為模型內部對"如何完成這個任務"的一種壓縮摘要。兩個任務的功能向量越相似（就像兩個指向差不多方向的箭頭），說明模型執行這兩個任務時用到的內部機制越相似。

研究團隊提出了第三個預測：內部表示相似的任務，學習軌跡也應該相似。通俗地說，如果模型處理"法譯英"和"西譯英"的方式在內部高度相似，那么這兩項技能的成長曲線也應該高度相似——比如都在訓練到大約200億詞元時開始明顯提升，都在600億詞元時趨于穩定。

為了驗證這個預測，研究團隊設計了一個精巧的實驗。他們把38個組合任務一個一個地"藏起來"，假裝自己從來沒有觀測過那個任務的訓練軌跡，然后只用其他任務的功能向量和訓練軌跡信息，來預測那個被藏起來的任務的訓練軌跡——整個過程不用對那個任務做任何實際測試，完全依賴表示空間中的"鄰居關系"來推斷。

這個實驗的結果出乎意料地好。在包含所有任務（基礎任務和其他組合任務）作為參考的條件下，預測質量的R?（判定系數，越接近1說明預測越準確）在不同模型上介于0.68到0.84之間，其中部分單個任務的預測精度甚至超過了0.95。以OLMo-2 7B為例，對"法譯英再大寫"這個組合任務的預測，R?高達0.99，平均絕對誤差只有0.017——幾乎與真實軌跡完全重合。對"復數再小寫"的預測R?也達到了0.89。

當然，也有預測效果較差的案例，比如"英譯法再大寫"的R?只有0.51，說明這個任務的訓練軌跡與它在表示空間中的鄰居不夠相似，或者鄰居本身的軌跡也比較雜亂。

更有趣的是，研究團隊還比較了兩種參考條件：用"所有任務"作為參考，還是只用"基礎任務"作為參考。結果發現，一旦把組合任務從參考集中移除，預測誤差（MAE，平均絕對誤差）在所有模型上都顯著增加，平均增加了0.135。這說明，組合任務之間共享的某種特殊結構，是無法完全用基礎任務來"替代"的——也就是說，"組合本身"這件事在模型的內部表示中也留下了獨特的痕跡。研究者把這種現象稱為"組合瓶頸"，意指學習如何將技能組合起來，是一種超越了單獨學習每項技能的額外能力。

**六、這套發現意味著什么**

歸根結底，這項研究揭示了一件很有意思的事：AI語言模型的訓練，并不像表面上看起來那么混亂和不可預測。在平滑下降的損失曲線背后，隱藏著一個有序的技能習得過程，這個過程在不同模型、不同數據、不同規模上保持著令人驚訝的一致性。

這對AI研究和應用來說有幾層實際意義。其一，這為"AI訓練監控"提供了一種新思路。以往，工程師只能盯著損失曲線，看不出模型到底學到了什么。而這套任務測試體系，可以作為一組"能力里程碑"，幫助工程師判斷模型是否在以正常節奏發展各項能力。如果某個預期早出現的技能遲遲沒有出現，這可能是一個需要排查的異常信號。

其二，這為理解AI的"能力瓶頸"提供了新工具。當一個AI在某個復雜任務（比如數學應用題）上表現不佳時，研究者現在可以系統地檢查該任務所依賴的先決技能鏈，而不是面對一個黑盒手足無措。這就像是給了醫生一套完整的癥狀-病因圖譜，而不是只有一個"患者病得很重"的診斷結論。

其三，技能習得順序與功能向量空間之間的關聯，暗示了AI內部表示的幾何結構本身就攜帶了關于學習動態的信息。換句話說，通過分析一個充分訓練好的模型的內部結構，我們或許可以推斷出它在訓練過程中經歷了怎樣的發展路徑。這開辟了一個用"解剖學"來倒推"發育史"的研究方向。

當然，這項研究也有其局限性。研究選取的任務，整體上還是比較簡單、結構清晰的，與現實世界中復雜的語言理解和生成任務之間存在一定距離。此外，研究僅覆蓋了訓練前1萬億詞元的階段，對于更后期的訓練動態，是否同樣規律依然成立，還有待進一步探索。研究使用的模型參數量上限為130億，當代最大的前沿模型動輒千億參數，這套規律在超大規模模型上是否仍然適用，同樣是一個開放問題。

這就像我們發現了兒童語言習得有固定順序一樣——這個發現本身很重要，但它只是更宏大的、關于智能如何發展這一問題的一個開端。那些更大的模型、更復雜的技能組合、更長的訓練周期，都在等待著后續研究的探索。

Q&A

Q1：隱性課程假說是什么意思，它和真正的課程有什么關系？

A：隱性課程假說說的是，AI語言模型在用大量文字訓練時，并沒有人為設計學習順序，但模型自發地會先學簡單技能、后學復雜技能，而且不同模型的這種學習順序高度相似。這里的"課程"是個比喻，指學習的先后安排，"隱性"則是說這個順序不是人刻意設定的，而是訓練過程自然涌現出來的。

Q2：為什么用絕對準確率閾值來定義"技能出現"，而不是相對閾值？

A：用相對閾值（比如達到模型自身歷史最高分的80%）時，跨模型的順序一致性會大幅下降。原因是不同模型的"天花板"差異很大——弱模型可能在某項任務上永遠達不到有意義的水平，但可能因為隨機波動較早觸發了相對閾值。絕對閾值（固定在80%準確率）更準確地反映了模型真正學會了這件事，所以能更清楚地捕捉技能出現的時間點。

Q3：功能向量是怎么提取出來的，它真的能代表模型"如何理解一項任務"嗎？

A：功能向量是通過讓模型完成某項任務的示例題目，然后記錄模型內部特定位置（注意力頭的輸出或殘差流的隱藏狀態）的激活值，再對多個例題的激活值取平均來得到的。研究中只使用了模型答對的例題，確保提取的是"成功執行任務"時的內部狀態。這個向量能在一定程度上代表模型執行該任務的內部機制，因為它能預測任務的學習軌跡，但它并不是對模型內部機制的完整描述，更像是一種有用的近似表示。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.