<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      穿越100年前打造的AI,不知道互聯(lián)網(wǎng),卻從幾個例子學(xué)會了Python

      0
      分享至



      近日,前 OpenAI 研究成員、GPT 之父 Alec Radford 和加拿大多倫多大學(xué)副教授 David Duvenaud 等人打造出一款只讀過 1930 年以前文字、從未接觸過任何現(xiàn)代信息的大模型,這款大模型的名字叫做 talkie,是一個 130 億參數(shù)的時代語言模型,只用了 2,600 億個 1930 年以前的英文詞元作為訓(xùn)練數(shù)據(jù)。

      當(dāng)你問它是誰,talkie 自稱自己生活在 20 世紀(jì) 30 年代。你問它貝比·魯斯是誰,它會說出這位棒球巨星的綽號和效力球隊,還能講出他的身高體重和擊球風(fēng)格。不過,它會把魯斯在 1927 年創(chuàng)造的 60 支本壘打記錄說成 69 支,還會告訴你魯斯曾在一場比賽中打出 100 支安打(Hit,簡稱 H,是棒球和壘球運動中的核心統(tǒng)計指標(biāo)),但這在現(xiàn)實中根本不可能。


      圖 | 貝比·魯斯(來源:維基百科)

      也就是說,它雖然知道魯斯,也知道一些相關(guān)信息,但是在回答魯斯的具體成就時,給出了完全錯誤甚至荒謬的數(shù)據(jù)。你問它人類面臨的最大挑戰(zhàn)是什么,它回答要終止戰(zhàn)爭。你追問如何實現(xiàn)和平,它會說是國際主義和世界性精神。

      這款模型是研究語言模型行為的一個相對干凈的參照系,因為作為一款時代語言模型它提供了一種新的實驗方法,那就是如果把訓(xùn)練數(shù)據(jù)的截止時間卡在 1930 年,那么這個模型對于之后的一切歷史一無所知。它不知道二戰(zhàn),不知道登月,不知道計算機(jī)和互聯(lián)網(wǎng),更不知道它自己是一種叫做 AI 的東西。


      (來源:GitHub)

      很多人可能知道,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)和人類的學(xué)習(xí)經(jīng)歷存在根本性的差異。人是在時間中線性長大的,昨天發(fā)生的事情不會改變前天已經(jīng)固化的認(rèn)知。

      但是,大模型的訓(xùn)練是把所有數(shù)據(jù)混在一起,模型會同時讀到古羅馬的書籍和 2026 年某天的 X 推文。大模型沒有時間線,這就讓研究者很難知道一個模型到底知道什么、不知道什么,以及它的知識是從哪一層數(shù)據(jù)里學(xué)來的。


      (來源:GitHub)

      為此,研究團(tuán)隊使用 talkie 做了很多有趣的實驗。

      在編程任務(wù)中,他們給 talkie 幾個 Python 代碼的例子,讓它模仿著寫新的程序。真實生活在 1930 年代的人根本不知道計算機(jī)程序是什么,但是 talkie 居然能夠?qū)W會。它寫出來的正確程序都非常短,大多是兩數(shù)相加或者針對示例代碼做一個小修改。


      (來源:GitHub)

      其中有一個任務(wù)是實現(xiàn)旋轉(zhuǎn)密碼的解碼函數(shù),示例中只給了編碼函數(shù),但是 talkie 通過把加法改成減法就完成了任務(wù)。這個改動只有一個字符,這說明模型理解了逆運算的概念。

      在知識測試中,talkie 的表現(xiàn)遠(yuǎn)遠(yuǎn)不如它的現(xiàn)代版本,不過假如把那些 1930 年以后才出現(xiàn)的問題去掉,兩者的差距會縮小一半,這說明 talkie 在語言理解和基礎(chǔ)算術(shù)上的能力并不差,差的主要是知識儲備。


      (來源:GitHub)

      對于訓(xùn)練一個時代語言模型來說,最大的挑戰(zhàn)是數(shù)據(jù)污染,算力反而是小事。因為研究團(tuán)隊要確保 talkie 讀到的每一個詞元都來自 1930 年以前,不能混入任何的現(xiàn)代文本。

      傳統(tǒng)的文字識別系統(tǒng)在掃描舊書時錯誤率很高,經(jīng)過去噪之后,模型的學(xué)習(xí)效率也只有人工轉(zhuǎn)錄版本的百分之三十。研究團(tuán)隊還發(fā)現(xiàn)文字識別模型會自己編造現(xiàn)代內(nèi)容,比如在一本 1899 年的《綠野仙蹤》掃描件里出現(xiàn)了 20 世紀(jì)才有的詞匯。

      為此,他們不得不專門開發(fā)了一套識別舊時代錯亂的過濾器。即使這樣,talkie 還是沒能完全隔絕信息泄露。早期的 7B 版本清楚地知道富蘭克林·羅斯福的總統(tǒng)任期和新政立法,甚至對二戰(zhàn)和聯(lián)合國也有模糊的了解,這說明訓(xùn)練數(shù)據(jù)里可能混入了帶有后記或編者按的舊書重印本。


      (來源:GitHub)

      在對話能力上 talkie 的風(fēng)格非常獨特,其所使用的詞匯和句式與現(xiàn)代 AI 完全不同,讀起來像 20 世紀(jì)的紳士在寫信。

      研究團(tuán)隊讓其描述如何做一頓正宗的英式早餐,它給出了水果、麥片、雞蛋、培根的順序,還特意提醒用餐房間要保持通風(fēng),用餐者要穿得暖和但不要太厚重。這種維多利亞時代的健康衛(wèi)生觀念已經(jīng)被訓(xùn)練數(shù)據(jù)深深烙印在模型的輸出里。

      為了讓 talkie 學(xué)會對話,研究團(tuán)隊沒有使用任何現(xiàn)代的指令微調(diào)數(shù)據(jù),改為從歷史文獻(xiàn)中自己構(gòu)建一套訓(xùn)練材料,包括禮儀手冊、書信指南、烹飪書籍、百科全書和寓言集。他們還使用強(qiáng)化學(xué)習(xí)讓模型學(xué)會遵循指令,不過評判標(biāo)準(zhǔn)也是用現(xiàn)代的 Claude 模型來打分,因此這多少會帶入一些時代錯位的痕跡。

      從科學(xué)研究的視角來看,時代語言模型提供了一個觀察大模型本質(zhì)的窗口。所有的現(xiàn)代大模型都共享同一類訓(xùn)練數(shù)據(jù)和互聯(lián)網(wǎng)文本。它們看似不同,但是底層的文化偏見和能力邊界可能是高度同源的。

      如果使用完全不同的語料訓(xùn)練一個模型,也許其會表現(xiàn)出不同的特性。時代語言模型還提供了一種研究未來預(yù)測能力的方法。比如,盡管是一個 1930 年代的模型,然而 talkie 對氣候變化的描述很有意思,它知道二氧化碳在增加,也知道這會改變氣候,但是它把時間尺度放在了數(shù)萬年而不是幾十年。這種預(yù)測反映了 1930 年科學(xué)界當(dāng)時的共識,也讓研究者可以使用歷史數(shù)據(jù)來校準(zhǔn)模型對于未來事件的預(yù)測能力。


      (來源:GitHub)

      下一步,研究團(tuán)隊打算繼續(xù)擴(kuò)大時代語言模型的規(guī)模,計劃訓(xùn)練一個 GPT-3 級別的模型,最終達(dá)到 GPT-3.5 的水平。他們還正在專門開發(fā)針對歷史文獻(xiàn)優(yōu)化的文字識別系統(tǒng),希望能把整個語料庫重新轉(zhuǎn)錄一遍。最終旨在助力人們理解這樣一個問題,那就是一個不知道二戰(zhàn)的模型或許能夠幫助人們更好地理解“那些知道一切的模型,到底是怎么知道一切的”。

      參考資料:

      https://talkie-lm.com/introducing-talkie

      https://zh.wikipedia.org/zh-cn/%E8%B2%9D%E6%AF%94%C2%B7%E9%AD%AF%E6%96%AF#/media/File:Babe_Ruth2.jpg

      運營/排版:何晨龍

      注:封面/首圖由 AI 輔助生成

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      溥儀這氣質(zhì)哪像傀儡?拋開立場,那時的溥儀骨子里依然是傲慢的!

      溥儀這氣質(zhì)哪像傀儡?拋開立場,那時的溥儀骨子里依然是傲慢的!

      史之銘
      2026-04-28 22:35:50
      5月1日正式生效!全國手機(jī)用戶迎來大變革,你的短信以后徹底變天

      5月1日正式生效!全國手機(jī)用戶迎來大變革,你的短信以后徹底變天

      Thurman在昆明
      2026-05-01 19:05:47
      朱元璋滅元之后,針對遺留下的數(shù)十萬蒙古女子,處理方式十分高明

      朱元璋滅元之后,針對遺留下的數(shù)十萬蒙古女子,處理方式十分高明

      大運河時空
      2026-04-28 09:30:03
      廣東德比生死大戰(zhàn)!賽前3大好消息2大壞消息,杜鋒成勝負(fù)關(guān)鍵

      廣東德比生死大戰(zhàn)!賽前3大好消息2大壞消息,杜鋒成勝負(fù)關(guān)鍵

      越嶺尋蹤
      2026-05-01 08:10:17
      人民日報:換主食抗炎6周見效!研究發(fā)現(xiàn):腸道菌群是“調(diào)節(jié)器”

      人民日報:換主食抗炎6周見效!研究發(fā)現(xiàn):腸道菌群是“調(diào)節(jié)器”

      腸菌科普
      2026-04-29 09:17:59
      劉曉慶被指耍大牌,現(xiàn)身河南萬歲山,和王婆同臺全場冷臉拒講話

      劉曉慶被指耍大牌,現(xiàn)身河南萬歲山,和王婆同臺全場冷臉拒講話

      喜歡歷史的阿繁
      2026-05-01 09:10:20
      全國人民代表大會常務(wù)委員會關(guān)于批準(zhǔn)《中華人民共和國和阿塞拜疆共和國關(guān)于刑事司法協(xié)助的條約》的決定

      全國人民代表大會常務(wù)委員會關(guān)于批準(zhǔn)《中華人民共和國和阿塞拜疆共和國關(guān)于刑事司法協(xié)助的條約》的決定

      金臺資訊
      2026-05-01 06:31:37
      慘遭5連鞭!22歲吳宜澤陷入巨大低迷:從6-2到6-7 全場首次落后

      慘遭5連鞭!22歲吳宜澤陷入巨大低迷:從6-2到6-7 全場首次落后

      風(fēng)過鄉(xiāng)
      2026-05-02 00:50:52
      匈牙利外長遭匈牙利新總理清算,議會領(lǐng)導(dǎo)職務(wù)黃了,未來處境堪憂

      匈牙利外長遭匈牙利新總理清算,議會領(lǐng)導(dǎo)職務(wù)黃了,未來處境堪憂

      說歷史的老牢
      2026-05-01 06:42:10
      汽油跌超0.44元/升后,7天上漲380元/噸,下次5月8日調(diào)價,變漲中

      汽油跌超0.44元/升后,7天上漲380元/噸,下次5月8日調(diào)價,變漲中

      豬友巴巴
      2026-05-01 16:30:03
      補(bǔ)時連丟兩球遭逆轉(zhuǎn)!上海申花主場2比3不敵領(lǐng)頭羊成都蓉城

      補(bǔ)時連丟兩球遭逆轉(zhuǎn)!上海申花主場2比3不敵領(lǐng)頭羊成都蓉城

      澎湃新聞
      2026-05-01 22:06:28
      真慘!張素芬唯一重倉芯片,從490萬加到1260萬,股價卻從4跌到3

      真慘!張素芬唯一重倉芯片,從490萬加到1260萬,股價卻從4跌到3

      長風(fēng)價值掘金
      2026-05-01 22:13:28
      反向威懾奏效!中國海軍夾擊呂宋島后,聯(lián)軍散伙,美日菲集體跑路

      反向威懾奏效!中國海軍夾擊呂宋島后,聯(lián)軍散伙,美日菲集體跑路

      瀲滟晴方DAY
      2026-05-02 01:00:30
      改了 8 元保號套餐后,移動竟每月白送我?guī)资瓽流量

      改了 8 元保號套餐后,移動竟每月白送我?guī)资瓽流量

      Thurman在昆明
      2026-04-28 18:33:16
      徐昕剛爆一場被杜鋒針對!被瘋狂點名,還遭雙塔限制,隱患還是有

      徐昕剛爆一場被杜鋒針對!被瘋狂點名,還遭雙塔限制,隱患還是有

      籃球資訊達(dá)人
      2026-05-01 22:13:58
      北電96級再聚首,黃曉明一身肌肉,趙薇罕見現(xiàn)身,52歲祖峰好滄桑

      北電96級再聚首,黃曉明一身肌肉,趙薇罕見現(xiàn)身,52歲祖峰好滄桑

      冷紫葉
      2026-04-30 15:43:10
      鐘楚曦身材是真好,難怪每次紅毯都秀大長腿

      鐘楚曦身材是真好,難怪每次紅毯都秀大長腿

      小椰的奶奶
      2026-05-01 12:39:24
      雷軍很努力,小米還是跌破了30港元大關(guān)

      雷軍很努力,小米還是跌破了30港元大關(guān)

      正經(jīng)社
      2026-05-02 07:28:54
      中超金哨又惹爭議!讀秒漏判絕殺點球 津門虎官方質(zhì)疑 于根偉炮轟

      中超金哨又惹爭議!讀秒漏判絕殺點球 津門虎官方質(zhì)疑 于根偉炮轟

      我愛英超
      2026-05-01 22:47:48
      失敗的引援!當(dāng)年的總冠軍功臣本賽季在掘金的表現(xiàn)令人非常失望?

      失敗的引援!當(dāng)年的總冠軍功臣本賽季在掘金的表現(xiàn)令人非常失望?

      稻谷與小麥
      2026-05-02 00:49:38
      2026-05-02 09:08:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16650文章數(shù) 514913關(guān)注度
      往期回顧 全部

      科技要聞

      AI熱潮耗盡庫存,Mac Mini起售調(diào)高200美元

      頭條要聞

      男子因健身設(shè)備鎖扣崩斷被彈飛致癱瘓 監(jiān)控?zé)o法調(diào)取

      頭條要聞

      男子因健身設(shè)備鎖扣崩斷被彈飛致癱瘓 監(jiān)控?zé)o法調(diào)取

      體育要聞

      無奈!約基奇:這要在塞爾維亞 全隊早被炒了

      娛樂要聞

      馬筱梅產(chǎn)后身材恢復(fù)超好 現(xiàn)身戶外直播

      財經(jīng)要聞

      雷軍很努力 小米還是跌破了30港元大關(guān)

      汽車要聞

      限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

      態(tài)度原創(chuàng)

      數(shù)碼
      本地
      旅游
      教育
      公開課

      數(shù)碼要聞

      蘋果因AirTag"跟蹤"爭議面臨數(shù)十起新訴訟

      本地新聞

      用青花瓷的方式,打開西溪濕地

      旅游要聞

      陪盲人一起春游,他們看不見,出去玩的樂趣是什么?

      教育要聞

      高考地理中的機(jī)制問題

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 女人腿张开让男人桶爽| 天天躁夜夜躁狠狠躁躁88| 人妻少妇精品无码专区动漫| 在线人妻无码一区二区| 人妻少妇久久久久久97人妻| 亚洲av熟女| 亚洲中文字幕毛片在线播放| 老师露双奶头无遮挡挤奶视频| 新邵县| 99热这里只有精品在线播放| 日本九州不卡久久精品一区 | 亚洲成人A电影| 奉化市| 国产在线高清视频无码| 成人硅胶娃做爰无码www| 日韩在线中文一区二区| 国产一区二区日韩经典| 国产xxxx在线视频| 国语精品一区二区三区| 亚洲精品乱码久久久久久蜜桃不卡| 国产精品视频一区国模私拍| 欧美日韩在手机线旡码可下载| 国产仑乱无码内谢| 性少妇videoxxⅹ中国69| 国产精自产拍久久久久久蜜| 女人被爽到呻吟gif动态图| 人妻av一区二区三区| 久久久久久国产精品mv| 日本欧美视频在线观看| 免费人成自慰网站| 国产精品午夜无码av体验区| 中文字幕日韩精品有码| 国产浪潮av性色av小说| 国产亚洲第一精品| 中文字幕一区二区三区乱码不卡| 精品无码一区二区三区电影| 偷拍美女厕所尿尿嘘嘘小便| 久久熟女| 亚洲亚洲人成综合网络| 白丝尤物jk自慰制服喷水| 在线观看国产小视频|