![]()
新智元報(bào)道
編輯:桃子
【新智元導(dǎo)讀】你敢信?一個(gè)活在95年前的AI,竟寫(xiě)出了Python代碼。GPT之父下場(chǎng),用2600億Token煉出了一個(gè)「老古董」AI。
一個(gè)從未見(jiàn)過(guò)電腦的AI,竟寫(xiě)出了現(xiàn)代編程語(yǔ)言!
這可不是什么科幻的設(shè)定。
就在今天,GPT之父Alec Radford帶隊(duì)發(fā)布了震撼全網(wǎng)的「talkie」——
總參數(shù)130億,一個(gè)只讀過(guò)1931年之前舊文獻(xiàn)的大模型。
![]()
talkie的「世界觀」(全部訓(xùn)練數(shù)據(jù)),被凍結(jié)在了1930年12月31日。
那個(gè)時(shí)代,沒(méi)有互聯(lián)網(wǎng),沒(méi)有維基百科,更沒(méi)有任何現(xiàn)代代碼。
它讀過(guò)的最「新」的東西,是近百年前的專(zhuān)利書(shū)、科學(xué)期刊、禮儀手冊(cè)和私人書(shū)信。
![]()
但就是這樣一個(gè)「活在95年前」的AI,居然能寫(xiě)出Python代碼。
![]()
![]()
![]()
沒(méi)學(xué)過(guò)編程,
卻寫(xiě)出了Python,理解了「逆函數(shù)」
talkie最炸裂的發(fā)現(xiàn),藏在一組編程測(cè)試?yán)铩?/p>
Alec Radford團(tuán)隊(duì)突發(fā)奇想,用HumanEval去測(cè)試talkie的編程能力——
給它幾個(gè)Python函數(shù)作為上下文示例,然后讓它解決新的編程問(wèn)題。
要知道,talkie的訓(xùn)練數(shù)據(jù)中,沒(méi)有任何一行現(xiàn)代代碼。連數(shù)字計(jì)算機(jī)的概念,都不存在于它的「知識(shí)體系」中。
![]()
但結(jié)果令人震驚,通過(guò)少樣本學(xué)習(xí),它竟然能寫(xiě)出正確的Python程序。
雖然目前只能完成簡(jiǎn)單的單行程序,比如兩個(gè)數(shù)相加,或者對(duì)上下文示例做微小修改。
![]()
Alec Radford:GPT、CLIP、Whisper背后核心大佬
但其中一個(gè)案例讓人印象深刻:給定一個(gè)旋轉(zhuǎn)密碼的編碼函數(shù)encode_shift,它的邏輯是把每個(gè)字母在字母表中向后移動(dòng)5位。
talkie自己寫(xiě)出了對(duì)應(yīng)的解碼函數(shù),整個(gè)修改只有一個(gè)字符:把+5改成了-5,加號(hào)換成了減號(hào)。
它真正理解了「逆函數(shù)」:加密是加,解密就是減」這個(gè)逆運(yùn)算的概念。
![]()
傳送門(mén):https://talkie-lm.com/chat
2600億Token,專(zhuān)喂百年前的紙
Alec Radford團(tuán)隊(duì)為什么要費(fèi)這么大勁,手動(dòng)OCR近百年前的物理文獻(xiàn),來(lái)訓(xùn)練一個(gè)「老古董」?
因?yàn)樗麄円卮餉I領(lǐng)域最核心的一個(gè)問(wèn)題:LLM的能力,到底是推理,還是背誦?
talkie可以寫(xiě)出Python,證明了——
LLM可以用19世紀(jì)的知識(shí)做推理,并非只是檢索。不得不說(shuō),這才是真正意義上的「泛化」!
![]()
再來(lái)看talkie的訓(xùn)練語(yǔ)料庫(kù),可以稱(chēng)得上是一個(gè)龐大的「考古工程」。
它的訓(xùn)練語(yǔ)料達(dá)到了2600億token,全部來(lái)自1931年之前的英語(yǔ)文本,包括書(shū)籍、報(bào)紙、期刊、科學(xué)論文、美國(guó)專(zhuān)利、判例法。
要知道,這么多文本皆需要從實(shí)體文檔掃描并OCR轉(zhuǎn)錄。
![]()
而選擇1930年作為截止日期,原因很實(shí)際:這是美國(guó)公共版權(quán)法(public domain)的分界線。
不過(guò),這帶來(lái)了一個(gè)意想不到的瓶頸:數(shù)據(jù)質(zhì)量。
團(tuán)隊(duì)做了一組對(duì)照實(shí)驗(yàn):用傳統(tǒng)OCR系統(tǒng)轉(zhuǎn)錄的舊文本訓(xùn)練模型,和用人工轉(zhuǎn)錄的同一批文本訓(xùn)練模型相比,前者的學(xué)習(xí)效率只有后者的30%。
簡(jiǎn)單的正則清洗能把這個(gè)數(shù)字提升到70%,但仍然有巨大的差距。
![]()
在評(píng)估talkie性能實(shí)驗(yàn)中,團(tuán)隊(duì)又打造了一個(gè)「現(xiàn)代孿生體」(talkie-web-13b-base)。
后者用FineWeb的現(xiàn)代網(wǎng)絡(luò)數(shù)據(jù)訓(xùn)練,兩款模型用了「相同的算力」。
顯而易見(jiàn),在核心語(yǔ)言理解、數(shù)學(xué)推理任務(wù)上,talkie的表現(xiàn)與現(xiàn)代孿生體相當(dāng)。
但在通用知識(shí)評(píng)測(cè)上,即使剔除了對(duì)1930年視角來(lái)說(shuō)「穿越」的題目,talkie仍然落后。
![]()
團(tuán)隊(duì)?wèi)岩桑@跟數(shù)據(jù)質(zhì)量有很大關(guān)系。
為此,Radford團(tuán)隊(duì)計(jì)劃從零開(kāi)始訓(xùn)練「復(fù)古OCR系統(tǒng)」,專(zhuān)門(mén)用于重新轉(zhuǎn)錄1931年前的文本。
用最現(xiàn)代的Claude 4.6
訓(xùn)練最古老的AI
talkie的「后訓(xùn)練」方案也很有意思。
要把一個(gè)只讀過(guò)舊書(shū)的「基礎(chǔ)模型」變成能對(duì)話的聊天機(jī)器人,根本沒(méi)有現(xiàn)成的指令微調(diào)的數(shù)據(jù)可用。
![]()
團(tuán)隊(duì)的做法是,從1930年之前的結(jié)構(gòu)化參考書(shū)中提取指令-回答對(duì):禮儀手冊(cè)、書(shū)信寫(xiě)作指南、菜譜、百科全書(shū)、詩(shī)歌集。
然后,再用這些「復(fù)古教材」做第一輪SFT。
在接下來(lái)的RLAIF階段,團(tuán)隊(duì)用在線DPO來(lái)提升talkie的指令遵循能力,Claude Sonnet 4.6作為裁判。
一個(gè)2026年最先進(jìn)的AI,給一個(gè)「活在」1930年的AI打分。
最終的精調(diào)階段,團(tuán)隊(duì)甚至用Claude Opus 4.6生成多輪對(duì)話數(shù)據(jù),來(lái)打磨talkie的對(duì)話能力。
訓(xùn)練過(guò)程中,Claude對(duì)talkie指令遵循能力的評(píng)分從2.0提升到了3.4(滿分5分)。
最后一步,用Claude Opus 4.6與talkie進(jìn)行多輪合成對(duì)話,再做一輪拒絕采樣+SFT,打磨對(duì)話能力。
團(tuán)隊(duì)也坦承了一個(gè)諷刺之處:用現(xiàn)代大模型訓(xùn)練一個(gè)本該凍結(jié)在1930年的模型,本身就是一種「時(shí)間污染」。
他們的長(zhǎng)期目標(biāo)是用復(fù)古基座模型自身作為裁判,實(shí)現(xiàn)完全「自舉式」的后訓(xùn)練流水線。
值得一提的是,talkie的7B版本在RL訓(xùn)練后出現(xiàn)了一個(gè)搞笑的副作用——
它開(kāi)始用列表體說(shuō)話,純屬是被現(xiàn)代AI的「壞習(xí)慣」傳染了。
AI界最干凈的一次「開(kāi)卷考試」
研究團(tuán)隊(duì)還做了另一個(gè)有趣的實(shí)驗(yàn)。
他們從《紐約時(shí)報(bào)》的「歷史上的今天」欄目中提取了近5000條歷史事件描述,計(jì)算talkie對(duì)每條事件的「驚訝度」。
![]()
結(jié)果非常清晰,1930年之前的事件,talkie不太驚訝。1930年之后的事件,驚訝度開(kāi)始攀升。
到了1950年代和1960年代達(dá)到峰值,然后趨于平穩(wěn)。
這條曲線本身就是一個(gè)關(guān)于預(yù)測(cè)能力的實(shí)驗(yàn)。隨著模型規(guī)模增大,這條曲線會(huì)怎么變化?
谷歌DeepMind CEO Demis Hassabis曾提出一個(gè)思想實(shí)驗(yàn)——
一個(gè)只訓(xùn)練到1911年的模型,能不能像愛(ài)因斯坦在1915年那樣獨(dú)立發(fā)現(xiàn)廣義相對(duì)論?
talkie目前當(dāng)然做不到。但它提供了一條路徑,往上Scale就行了。
今夏擴(kuò)展到GPT-3級(jí)別
talkie目前是130億參數(shù),團(tuán)隊(duì)的路線圖相當(dāng)激進(jìn)——
今年夏天,發(fā)布GPT-3級(jí)別的復(fù)古模型。
![]()
更遠(yuǎn)期的目標(biāo):將語(yǔ)料擴(kuò)展到超過(guò)一萬(wàn)億token,理論上足夠訓(xùn)練一個(gè)GPT-3.5級(jí)別的模型,能力接近初代ChatGPT。
一個(gè)凍結(jié)在1930年的ChatGPT。
參考資料:
https://x.com/status_effects/status/2048878495539843211?s=20
https://talkie-lm.com/introducing-talkie
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.