Jay 發自 凹非寺
量子位 | 公眾號 QbitAI
勞動節,馬上100歲的vintage大模型也得勞動。
是的,有人給只有1930年知識的大模型,微調成軟件工程師了……
過程比想象中輕松,僅用250個訓練樣本,強悍的老頭便解決了自己人生中的第一個編程問題——
給xarray庫打了個補丁。
![]()
一個連電視機都沒見過的AI,現在也開始跟Claude們「學壞」,要跟程序員搶飯碗了。(bushi)
中古硅基軟件工程師
先補充下背景,1930是誰?
這是最近爆火的「老頭AI」,全名叫talkie-1930-13b。
操盤手是AI研究員Nick Levine、多倫多大學副教授David Duvenaud,以及大家熟悉的那位——真·GPT系列之父Alec Radford。
![]()
而他們對老頭最有趣的設計,就是其訓練數據有條鐵律:1931年1月1日之后的任何一個字,全部不準進!
是的,它不知道電視機,不知道互聯網,更不知道二戰怎么收場……
老頭的世界,永遠停在了1930年12月31日的午夜。
但讓全網「癱軟」的點在于,就這么個老古董,當扔給它一道Python編程題時,這個跨越近百年的「過去之靈」,竟然寫出了人生第一行Python代碼。
離離原上譜。
![]()
如今,老頭再次發力。
有人對Alec Radford的這個1930 vintage LLM做了微調,讓它去解SWE-bench上的真實軟件工程問題。
誰曾想,真讓老頭干成了。
250個訓練樣本之后,它落地了第一個fix——一個針對xarray庫的小補丁。
百歲老人,硬核上崗。
對了,團隊放出了老頭在落地這個xarray庫補丁的全過程。
說實話,如果以看前沿LLM的標準,這個demo看著真有點惱火。
一個簡單的問題,老頭足足花了49輪才搞定,又長又慢。
其中有些輪次實在看不下去了,真的太笨了,著急死了,但你又不好意思對老頭發脾氣。
但,這在某些時刻,反而讓人更興奮。跟看爽文一樣。
我舉個最「直接、不繞彎」的例子。(bushi)
老頭一開始其實搞砸了。
在第12輪對話的時候,它嘗試apply patch失敗了。
![]()
代碼可以報錯,但,老兵不死。
老頭沒有放棄,它仍在繼續嘗試,直到終于意識到自己錯在哪……
然后,在第44輪,它給修好了!!
![]()
我知道,fix本身很簡單,別說AI SOTA了,代碼水平跟小白比估計都夠嗆。
但真正重要的,是老頭在整個解題過程中的思考。
這個過程展示出的那種推理能力,跟我們在現代模型上看到的如出一轍。
一個1930年的模型,也會試錯,會反思,會自我修正。
demo之外,benchmark的表現同樣亮眼。
當微調時的訓練數據規模擴展到大約75K條trajectory,也就是10億token的時候,模型在SWE-bench-Verified上達到了4.5%的pass@1。
要知道,它原來在HumanEval上才4%的pass@100。這進步幅度相當可觀。
雖然絕對值還很低,但對一個1930年知識模型來說,已經很離譜了。
![]()
更有意思的是另一個對照實驗。
事實上,團隊還同時給老頭訓練了一個兄弟模型,叫talkie-web,這個模型是在互聯網數據上預訓練的。
同樣的微調配方,talkie-web在SWE-bench-Verified上的成績是5.5%的。
沒錯,即便團隊偏心,給孿生兄弟加上互聯網數據,也就比老頭高了1個百分點。
![]()
以上結果,歡迎復現。
這不是什么穿越爽文,團隊已經在GitHub上開源了項目,鏈接放在文章結尾,感興趣的朋友可以去跑跑看。
團隊自己也很興奮,在README里喊話:
如果你手頭有更多算力,我們很想看到1930模型和互聯網模型在后訓練持續擴展時的完整scaling曲線對比。
想看想看,這可比單純秀肌肉的benchmark有意思多了。
什么是智能?
團隊并沒有剖析背后的原因,但我看了不少網友在帖子下面的評論,覺得這是一個值得討論的話題。
我們一直以為,AI需要吃掉整個互聯網才能變聰明。
但如果一個只讀過1930年以前書的模型,經過一點點后訓練就能寫代碼修bug……
那我們對「什么是智能」的理解,是不是也得重新想想?
4.5%的pass@1,放在今天的SOTA面前當然不夠看。但它證明的那件事,比任何benchmark分數都重要。
一個1930年代的人,如果擁有幾乎相同的教育體系,完全可以理解現代軟件工程。
一百年前的數據量,加上正確的后訓練方法,就足以產生現代意義上的推理。
智能的瓶頸,或許從來不在于預訓練數據的多少。
你不需要一個訓練過所有知識的模型,它只需要具備基本的語言理解能力,這就夠了。
或許,當我們在Scaling路上一路狂奔的間隙,也可以稍微停一停,抬起頭來跟身邊人侃侃大山、扯扯淡——
誒,你說……
智能的本質,到底是什么?
GitHub:
https://github.com/RicardoDominguez/talkie-coder
參考鏈接:
[1]
https://x.com/rdolmedo_/status/2050665193374732430?s=20
[2]
https://github.com/RicardoDominguez/talkie-coder
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.