![]()
近日,前 OpenAI 研究成員、GPT 之父 Alec Radford 和加拿大多倫多大學(xué)副教授 David Duvenaud 等人打造出一款只讀過 1930 年以前文字、從未接觸過任何現(xiàn)代信息的大模型,這款大模型的名字叫做 talkie,是一個 130 億參數(shù)的時代語言模型,只用了 2,600 億個 1930 年以前的英文詞元作為訓(xùn)練數(shù)據(jù)。
當(dāng)你問它是誰,talkie 自稱自己生活在 20 世紀(jì) 30 年代。你問它貝比·魯斯是誰,它會說出這位棒球巨星的綽號和效力球隊,還能講出他的身高體重和擊球風(fēng)格。不過,它會把魯斯在 1927 年創(chuàng)造的 60 支本壘打記錄說成 69 支,還會告訴你魯斯曾在一場比賽中打出 100 支安打(Hit,簡稱 H,是棒球和壘球運動中的核心統(tǒng)計指標(biāo)),但這在現(xiàn)實中根本不可能。
![]()
圖 | 貝比·魯斯(來源:維基百科)
也就是說,它雖然知道魯斯,也知道一些相關(guān)信息,但是在回答魯斯的具體成就時,給出了完全錯誤甚至荒謬的數(shù)據(jù)。你問它人類面臨的最大挑戰(zhàn)是什么,它回答要終止戰(zhàn)爭。你追問如何實現(xiàn)和平,它會說是國際主義和世界性精神。
這款模型是研究語言模型行為的一個相對干凈的參照系,因為作為一款時代語言模型它提供了一種新的實驗方法,那就是如果把訓(xùn)練數(shù)據(jù)的截止時間卡在 1930 年,那么這個模型對于之后的一切歷史一無所知。它不知道二戰(zhàn),不知道登月,不知道計算機(jī)和互聯(lián)網(wǎng),更不知道它自己是一種叫做 AI 的東西。
![]()
(來源:GitHub)
很多人可能知道,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)和人類的學(xué)習(xí)經(jīng)歷存在根本性的差異。人是在時間中線性長大的,昨天發(fā)生的事情不會改變前天已經(jīng)固化的認(rèn)知。
但是,大模型的訓(xùn)練是把所有數(shù)據(jù)混在一起,模型會同時讀到古羅馬的書籍和 2026 年某天的 X 推文。大模型沒有時間線,這就讓研究者很難知道一個模型到底知道什么、不知道什么,以及它的知識是從哪一層數(shù)據(jù)里學(xué)來的。
![]()
(來源:GitHub)
為此,研究團(tuán)隊使用 talkie 做了很多有趣的實驗。
在編程任務(wù)中,他們給 talkie 幾個 Python 代碼的例子,讓它模仿著寫新的程序。真實生活在 1930 年代的人根本不知道計算機(jī)程序是什么,但是 talkie 居然能夠?qū)W會。它寫出來的正確程序都非常短,大多是兩數(shù)相加或者針對示例代碼做一個小修改。
![]()
(來源:GitHub)
其中有一個任務(wù)是實現(xiàn)旋轉(zhuǎn)密碼的解碼函數(shù),示例中只給了編碼函數(shù),但是 talkie 通過把加法改成減法就完成了任務(wù)。這個改動只有一個字符,這說明模型理解了逆運算的概念。
在知識測試中,talkie 的表現(xiàn)遠(yuǎn)遠(yuǎn)不如它的現(xiàn)代版本,不過假如把那些 1930 年以后才出現(xiàn)的問題去掉,兩者的差距會縮小一半,這說明 talkie 在語言理解和基礎(chǔ)算術(shù)上的能力并不差,差的主要是知識儲備。
![]()
(來源:GitHub)
對于訓(xùn)練一個時代語言模型來說,最大的挑戰(zhàn)是數(shù)據(jù)污染,算力反而是小事。因為研究團(tuán)隊要確保 talkie 讀到的每一個詞元都來自 1930 年以前,不能混入任何的現(xiàn)代文本。
傳統(tǒng)的文字識別系統(tǒng)在掃描舊書時錯誤率很高,經(jīng)過去噪之后,模型的學(xué)習(xí)效率也只有人工轉(zhuǎn)錄版本的百分之三十。研究團(tuán)隊還發(fā)現(xiàn)文字識別模型會自己編造現(xiàn)代內(nèi)容,比如在一本 1899 年的《綠野仙蹤》掃描件里出現(xiàn)了 20 世紀(jì)才有的詞匯。
為此,他們不得不專門開發(fā)了一套識別舊時代錯亂的過濾器。即使這樣,talkie 還是沒能完全隔絕信息泄露。早期的 7B 版本清楚地知道富蘭克林·羅斯福的總統(tǒng)任期和新政立法,甚至對二戰(zhàn)和聯(lián)合國也有模糊的了解,這說明訓(xùn)練數(shù)據(jù)里可能混入了帶有后記或編者按的舊書重印本。
![]()
(來源:GitHub)
在對話能力上 talkie 的風(fēng)格非常獨特,其所使用的詞匯和句式與現(xiàn)代 AI 完全不同,讀起來像 20 世紀(jì)的紳士在寫信。
研究團(tuán)隊讓其描述如何做一頓正宗的英式早餐,它給出了水果、麥片、雞蛋、培根的順序,還特意提醒用餐房間要保持通風(fēng),用餐者要穿得暖和但不要太厚重。這種維多利亞時代的健康衛(wèi)生觀念已經(jīng)被訓(xùn)練數(shù)據(jù)深深烙印在模型的輸出里。
為了讓 talkie 學(xué)會對話,研究團(tuán)隊沒有使用任何現(xiàn)代的指令微調(diào)數(shù)據(jù),改為從歷史文獻(xiàn)中自己構(gòu)建一套訓(xùn)練材料,包括禮儀手冊、書信指南、烹飪書籍、百科全書和寓言集。他們還使用強(qiáng)化學(xué)習(xí)讓模型學(xué)會遵循指令,不過評判標(biāo)準(zhǔn)也是用現(xiàn)代的 Claude 模型來打分,因此這多少會帶入一些時代錯位的痕跡。
從科學(xué)研究的視角來看,時代語言模型提供了一個觀察大模型本質(zhì)的窗口。所有的現(xiàn)代大模型都共享同一類訓(xùn)練數(shù)據(jù)和互聯(lián)網(wǎng)文本。它們看似不同,但是底層的文化偏見和能力邊界可能是高度同源的。
如果使用完全不同的語料訓(xùn)練一個模型,也許其會表現(xiàn)出不同的特性。時代語言模型還提供了一種研究未來預(yù)測能力的方法。比如,盡管是一個 1930 年代的模型,然而 talkie 對氣候變化的描述很有意思,它知道二氧化碳在增加,也知道這會改變氣候,但是它把時間尺度放在了數(shù)萬年而不是幾十年。這種預(yù)測反映了 1930 年科學(xué)界當(dāng)時的共識,也讓研究者可以使用歷史數(shù)據(jù)來校準(zhǔn)模型對于未來事件的預(yù)測能力。
![]()
(來源:GitHub)
下一步,研究團(tuán)隊打算繼續(xù)擴(kuò)大時代語言模型的規(guī)模,計劃訓(xùn)練一個 GPT-3 級別的模型,最終達(dá)到 GPT-3.5 的水平。他們還正在專門開發(fā)針對歷史文獻(xiàn)優(yōu)化的文字識別系統(tǒng),希望能把整個語料庫重新轉(zhuǎn)錄一遍。最終旨在助力人們理解這樣一個問題,那就是一個不知道二戰(zhàn)的模型或許能夠幫助人們更好地理解“那些知道一切的模型,到底是怎么知道一切的”。
參考資料:
https://talkie-lm.com/introducing-talkie
https://zh.wikipedia.org/zh-cn/%E8%B2%9D%E6%AF%94%C2%B7%E9%AD%AF%E6%96%AF#/media/File:Babe_Ruth2.jpg
運營/排版:何晨龍
注:封面/首圖由 AI 輔助生成
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.