穿越100年前打造的AI，不知道互聯(lián)網(wǎng)，卻從幾個例子學(xué)會了Python

2026-04-29 14:17:21　來源: DeepTech深科技

北京舉報

分享至

近日，前 OpenAI 研究成員、GPT 之父 Alec Radford 和加拿大多倫多大學(xué)副教授 David Duvenaud 等人打造出一款只讀過 1930 年以前文字、從未接觸過任何現(xiàn)代信息的大模型，這款大模型的名字叫做 talkie，是一個 130 億參數(shù)的時代語言模型，只用了 2,600 億個 1930 年以前的英文詞元作為訓(xùn)練數(shù)據(jù)。

當(dāng)你問它是誰，talkie 自稱自己生活在 20 世紀(jì) 30 年代。你問它貝比·魯斯是誰，它會說出這位棒球巨星的綽號和效力球隊，還能講出他的身高體重和擊球風(fēng)格。不過，它會把魯斯在 1927 年創(chuàng)造的 60 支本壘打記錄說成 69 支，還會告訴你魯斯曾在一場比賽中打出 100 支安打（Hit，簡稱 H，是棒球和壘球運動中的核心統(tǒng)計指標(biāo)），但這在現(xiàn)實中根本不可能。

圖 | 貝比·魯斯（來源：維基百科）

也就是說，它雖然知道魯斯，也知道一些相關(guān)信息，但是在回答魯斯的具體成就時，給出了完全錯誤甚至荒謬的數(shù)據(jù)。你問它人類面臨的最大挑戰(zhàn)是什么，它回答要終止戰(zhàn)爭。你追問如何實現(xiàn)和平，它會說是國際主義和世界性精神。

這款模型是研究語言模型行為的一個相對干凈的參照系，因為作為一款時代語言模型它提供了一種新的實驗方法，那就是如果把訓(xùn)練數(shù)據(jù)的截止時間卡在 1930 年，那么這個模型對于之后的一切歷史一無所知。它不知道二戰(zhàn)，不知道登月，不知道計算機(jī)和互聯(lián)網(wǎng)，更不知道它自己是一種叫做 AI 的東西。

（來源：GitHub）

很多人可能知道，神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)和人類的學(xué)習(xí)經(jīng)歷存在根本性的差異。人是在時間中線性長大的，昨天發(fā)生的事情不會改變前天已經(jīng)固化的認(rèn)知。

但是，大模型的訓(xùn)練是把所有數(shù)據(jù)混在一起，模型會同時讀到古羅馬的書籍和 2026 年某天的 X 推文。大模型沒有時間線，這就讓研究者很難知道一個模型到底知道什么、不知道什么，以及它的知識是從哪一層數(shù)據(jù)里學(xué)來的。

（來源：GitHub）

為此，研究團(tuán)隊使用 talkie 做了很多有趣的實驗。

在編程任務(wù)中，他們給 talkie 幾個 Python 代碼的例子，讓它模仿著寫新的程序。真實生活在 1930 年代的人根本不知道計算機(jī)程序是什么，但是 talkie 居然能夠?qū)W會。它寫出來的正確程序都非常短，大多是兩數(shù)相加或者針對示例代碼做一個小修改。

（來源：GitHub）

其中有一個任務(wù)是實現(xiàn)旋轉(zhuǎn)密碼的解碼函數(shù)，示例中只給了編碼函數(shù)，但是 talkie 通過把加法改成減法就完成了任務(wù)。這個改動只有一個字符，這說明模型理解了逆運算的概念。

在知識測試中，talkie 的表現(xiàn)遠(yuǎn)遠(yuǎn)不如它的現(xiàn)代版本，不過假如把那些 1930 年以后才出現(xiàn)的問題去掉，兩者的差距會縮小一半，這說明 talkie 在語言理解和基礎(chǔ)算術(shù)上的能力并不差，差的主要是知識儲備。

（來源：GitHub）

對于訓(xùn)練一個時代語言模型來說，最大的挑戰(zhàn)是數(shù)據(jù)污染，算力反而是小事。因為研究團(tuán)隊要確保 talkie 讀到的每一個詞元都來自 1930 年以前，不能混入任何的現(xiàn)代文本。

傳統(tǒng)的文字識別系統(tǒng)在掃描舊書時錯誤率很高，經(jīng)過去噪之后，模型的學(xué)習(xí)效率也只有人工轉(zhuǎn)錄版本的百分之三十。研究團(tuán)隊還發(fā)現(xiàn)文字識別模型會自己編造現(xiàn)代內(nèi)容，比如在一本 1899 年的《綠野仙蹤》掃描件里出現(xiàn)了 20 世紀(jì)才有的詞匯。

為此，他們不得不專門開發(fā)了一套識別舊時代錯亂的過濾器。即使這樣，talkie 還是沒能完全隔絕信息泄露。早期的 7B 版本清楚地知道富蘭克林·羅斯福的總統(tǒng)任期和新政立法，甚至對二戰(zhàn)和聯(lián)合國也有模糊的了解，這說明訓(xùn)練數(shù)據(jù)里可能混入了帶有后記或編者按的舊書重印本。

（來源：GitHub）

在對話能力上 talkie 的風(fēng)格非常獨特，其所使用的詞匯和句式與現(xiàn)代 AI 完全不同，讀起來像 20 世紀(jì)的紳士在寫信。

研究團(tuán)隊讓其描述如何做一頓正宗的英式早餐，它給出了水果、麥片、雞蛋、培根的順序，還特意提醒用餐房間要保持通風(fēng)，用餐者要穿得暖和但不要太厚重。這種維多利亞時代的健康衛(wèi)生觀念已經(jīng)被訓(xùn)練數(shù)據(jù)深深烙印在模型的輸出里。

為了讓 talkie 學(xué)會對話，研究團(tuán)隊沒有使用任何現(xiàn)代的指令微調(diào)數(shù)據(jù)，改為從歷史文獻(xiàn)中自己構(gòu)建一套訓(xùn)練材料，包括禮儀手冊、書信指南、烹飪書籍、百科全書和寓言集。他們還使用強(qiáng)化學(xué)習(xí)讓模型學(xué)會遵循指令，不過評判標(biāo)準(zhǔn)也是用現(xiàn)代的 Claude 模型來打分，因此這多少會帶入一些時代錯位的痕跡。

從科學(xué)研究的視角來看，時代語言模型提供了一個觀察大模型本質(zhì)的窗口。所有的現(xiàn)代大模型都共享同一類訓(xùn)練數(shù)據(jù)和互聯(lián)網(wǎng)文本。它們看似不同，但是底層的文化偏見和能力邊界可能是高度同源的。

如果使用完全不同的語料訓(xùn)練一個模型，也許其會表現(xiàn)出不同的特性。時代語言模型還提供了一種研究未來預(yù)測能力的方法。比如，盡管是一個 1930 年代的模型，然而 talkie 對氣候變化的描述很有意思，它知道二氧化碳在增加，也知道這會改變氣候，但是它把時間尺度放在了數(shù)萬年而不是幾十年。這種預(yù)測反映了 1930 年科學(xué)界當(dāng)時的共識，也讓研究者可以使用歷史數(shù)據(jù)來校準(zhǔn)模型對于未來事件的預(yù)測能力。

（來源：GitHub）

下一步，研究團(tuán)隊打算繼續(xù)擴(kuò)大時代語言模型的規(guī)模，計劃訓(xùn)練一個 GPT-3 級別的模型，最終達(dá)到 GPT-3.5 的水平。他們還正在專門開發(fā)針對歷史文獻(xiàn)優(yōu)化的文字識別系統(tǒng)，希望能把整個語料庫重新轉(zhuǎn)錄一遍。最終旨在助力人們理解這樣一個問題，那就是一個不知道二戰(zhàn)的模型或許能夠幫助人們更好地理解“那些知道一切的模型，到底是怎么知道一切的”。

參考資料：

https://talkie-lm.com/introducing-talkie

https://zh.wikipedia.org/zh-cn/%E8%B2%9D%E6%AF%94%C2%B7%E9%AD%AF%E6%96%AF#/media/File:Babe_Ruth2.jpg

運營/排版：何晨龍

注：封面/首圖由 AI 輔助生成

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.