<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Dwarkesh最新播客:2025年AI進展總結(jié)

      0
      分享至

      Dwarkesh 這個名字,可能很多人有點陌生。但關(guān)注 AI 的朋友,一定在最近一段時間里,看到過 Ilya Sutskever 跟 Andrej Karpathy 的播客采訪。 他們上的就是 Dwarkesh 的播客。

      這兩人上播客的次數(shù)屈指可數(shù),能采訪到這兩個人,大概能說明 Dwarkesh 在美國 AI 圈的地位。

      這篇文章基于他最新一期播客,匯總了一些他關(guān)于 AI 進展的想法。

      在這之前,他其實已經(jīng)在個人網(wǎng)站上更新過相關(guān)內(nèi)容,所以我在文章最后還從那里精選了幾個評論。

      因為關(guān)于 AI 進展,乃至 AGI 的時間線,都是非常主觀的話題,所以除了作者的看法,評論區(qū)的反饋也很有價值。



      Dwarkesh 的一些核心判斷:

      1. 以強化學(xué)習(xí)為核心的“中訓(xùn)練”,正在成為 LLM 的重點突破方向。前沿科技公司正通過所謂的“中訓(xùn)練”(mid-training)把大量具體技能預(yù)先塞進模型里。

      Dwarkesh 認為這恰恰是 AGI 還很遠的證據(jù),因為如果模型泛化能力很強,那就不需要單獨構(gòu)建那么多強化學(xué)習(xí)環(huán)境,教它操作瀏覽器或者 Excel。

      2. 預(yù)置技能的想法是很奇怪的,人類勞動力之所以有價值,恰恰是因為訓(xùn)練成本并不笨重。

      可以根據(jù)需要,靈活掌握一些新的技能。每天你都要做上百件需要判斷力、情境感知、以及在工作中習(xí)得的技能和背景知識的事情。如果全部依賴預(yù)置技能,很可能的結(jié)果是我們連最簡單的工作都無法完全自動化。

      3. AI 經(jīng)濟擴散滯后,本質(zhì)是為能力不足找借口。企業(yè)招聘這個過程其實非常tricky,因為涉及對人的能力和品格等做估計。

      而 AI 員工完全不存在這個問題,經(jīng)過驗證的 AI 員工可以無損無限復(fù)制。

      換句話說,企業(yè)有很強的動機去雇傭 AI 勞動力。現(xiàn)在這事沒有發(fā)生,只能證明模型能力差得太遠。

      4. 回應(yīng)對 AI 空頭的批評。過去發(fā)生過的事情是,經(jīng)常有人說 AI 現(xiàn)在這不行那不行,比如通用理解、少樣本能力、推理能力。

      但隨著技術(shù)發(fā)展,這些問題 AI 都能解決了。但是空頭還是會提出新的標準,論證 AI 的能力不限。

      作者認為這種標準調(diào)整是有道理的,因為我們對于 AGI 的理解在深化,智能和勞動比我們曾經(jīng)的理解要復(fù)雜得多。

      5. 預(yù)訓(xùn)練階段的 scaling law 非常清晰,只要算力數(shù)量級提升,損失函數(shù)就會穩(wěn)定下降。

      但現(xiàn)在大家正在把這種在預(yù)訓(xùn)練上獲得的經(jīng)驗,轉(zhuǎn)移到圍繞強化學(xué)習(xí)(RLVR)的中訓(xùn)練上。

      這種技術(shù)樂觀并沒有依據(jù),有人根據(jù) o 系列做了研究,結(jié)論是:要獲得類似 GPT 級別的提升,強化學(xué)習(xí)的總算力規(guī)模可能需要提升到一百萬倍。

      6. 與人類分布的對比,會先讓我們高估 AI,然后再低估它。

      由于知識工作中相當(dāng)大一部分價值來自最頂尖的那一小撮人,如果我們把 AI 模型的智能水平與“中位數(shù)人類”相比,就會系統(tǒng)性地高估它們能創(chuàng)造的價值。

      但反過來說,一旦模型真正達到了頂級人類的水平,其影響力可能會是爆炸式的。

      7. 持續(xù)學(xué)習(xí)(continual learning)會是 AGI 之后,模型能力提升的主要驅(qū)動力。

      他預(yù)估明年前沿團隊就會發(fā)布一些持續(xù)學(xué)習(xí)的雛形功能,但要達到人類水平的持續(xù)學(xué)習(xí),可能還需要 5 到 10 年。持續(xù)學(xué)習(xí)的解決不會是一蹴而就的,所以不會有模型因為在這點上取得突破后就獲得失控式的領(lǐng)先優(yōu)勢。

      以下為原文:

      我們在Scaling什么?

      我一直很困惑:為什么有些人一方面認為 AGI 的時間線很短,另一方面卻又對當(dāng)前在大語言模型之上大規(guī)模擴展強化學(xué)習(xí)持極度樂觀態(tài)度。

      如果我們真的已經(jīng)接近一種類人學(xué)習(xí)者,那么這種基于“可驗證結(jié)果”的訓(xùn)練路徑,從根本上就是走不通的。

      目前,各家正試圖通過所謂的“中訓(xùn)練”(mid-training)把大量具體技能預(yù)先塞進模型里。

      圍繞這一點,甚至已經(jīng)形成了一整條產(chǎn)業(yè)鏈:有公司專門構(gòu)建強化學(xué)習(xí)環(huán)境,教模型如何操作網(wǎng)頁瀏覽器,或者使用 Excel 來搭建財務(wù)模型。

      要么,這些模型很快就能以自我驅(qū)動的方式在工作中學(xué)習(xí),那所有這些“預(yù)烘焙”技能就毫無意義;要么它們做不到,那就說明 AGI 并非近在咫尺。

      人類并不需要經(jīng)歷一個特殊的訓(xùn)練階段,把未來可能用到的每一個軟件都提前練一遍。

      Beren Millidge 在最近的一篇博客中對這一點提出了很有意思的看法:

      當(dāng)我們看到前沿模型在各種基準測試上取得進步時,不應(yīng)該只想到算力規(guī)模的提升或巧妙的機器學(xué)習(xí)研究思路,還應(yīng)該意識到:背后是數(shù)十億美元的投入,用來支付博士、醫(yī)生以及其他專家,讓他們圍繞這些特定能力編寫問題、給出示例答案和推理過程。從某種意義上說,這就像是專家系統(tǒng)時代的一次大規(guī)模重演,只不過這一次不是讓專家把思維直接寫成代碼,而是讓他們提供大量被形式化、被追蹤的推理樣本,然后我們通過行為克隆把這些蒸餾進模型里。這讓我對 AI 時間線略微傾向于更長,因為如此巨大的努力才能為前沿系統(tǒng)設(shè)計出高質(zhì)量的人類軌跡和環(huán)境,恰恰說明它們?nèi)匀蝗狈σ粋€真正 AGI 所必須具備的關(guān)鍵學(xué)習(xí)核心。

      這種張力在機器人領(lǐng)域表現(xiàn)得尤為明顯。從根本上說,機器人是一個算法問題,而不是硬件或數(shù)據(jù)問題。

      人類只需要很少的訓(xùn)練,就能學(xué)會遠程操控現(xiàn)有硬件去完成有用的工作。所以,如果我們真的擁有一種類人的學(xué)習(xí)者,機器人問題在很大程度上就已經(jīng)解決了。

      但正因為我們沒有這樣的學(xué)習(xí)者,才不得不跑到成千上萬戶家庭里,去學(xué)習(xí)如何端盤子、如何疊衣服。

      我聽過一個來自“五年內(nèi)起飛”陣營(極度技術(shù)樂觀派)的反駁觀點:我們之所以要搞這些笨拙的強化學(xué)習(xí),是為了先造出一個超人類的 AI 研究員,然后讓一百萬個自動化的 Ilya 去想辦法解決如何從經(jīng)驗中進行穩(wěn)健而高效的學(xué)習(xí)。

      這讓我想起那個老笑話:我們每賣一單都在虧錢,但可以靠走量把錢賺回來。一個連兒童都具備的基本學(xué)習(xí)能力都沒有的自動化研究員,卻要解決人類花了將近一個世紀都沒解決的 AGI 算法問題?我覺得這極其不可信。

      此外,即便你認為 RLVR 的規(guī)模化很快就能幫助我們自動化 AI 研究,實驗室的實際行動卻表明它們并不相信這一點。

      要自動化 Ilya,并不需要提前把做 PowerPoint 的咨詢顧問技能塞進模型里。而現(xiàn)在它們這么做,清楚地暗示了這樣一種看法:這些模型在泛化能力和在崗學(xué)習(xí)(on-the-job learning)方面仍然表現(xiàn)糟糕,因此才必須提前內(nèi)置那些他們希望在經(jīng)濟上有價值的技能。

      RLVR:Reinforcement Learning with Verifiable Rewards,指帶可驗證獎勵的強化學(xué)習(xí)

      另一種反駁是,即使模型能夠在工作中學(xué)會這些技能,把它們一次性在訓(xùn)練階段學(xué)好,總比為每個用戶或每家公司反復(fù)學(xué)習(xí)要高效得多。

      確實,把對瀏覽器、終端等常用工具的熟練度預(yù)先內(nèi)置進去是很合理的。AGI 的一個關(guān)鍵優(yōu)勢,本來就是不同實例之間可以共享知識。

      但人們嚴重低估了大多數(shù)工作對公司特定、情境特定技能的依賴程度,而目前 AI 并不存在一種穩(wěn)健且高效的方法來習(xí)得這些技能。

      人類勞動力之所以有價值,恰恰是因為訓(xùn)練成本并不笨重

      有一次我和一位 AI 研究員以及一位生物學(xué)家一起吃飯。那位生物學(xué)家說她認為 AI 的時間線很長。我們問她覺得 AI 會在哪些地方遇到困難。

      她說她最近的工作加入了看切片的部分,判斷某個小點到底是真正的巨噬細胞,還是只是看起來像。AI 研究員則回應(yīng)說:圖像分類是深度學(xué)習(xí)的教科書級問題,這個很容易訓(xùn)練。

      我覺得這段對話非常有意思,因為它揭示了我和那些期待未來幾年出現(xiàn)顛覆性經(jīng)濟影響的人之間的一個關(guān)鍵分歧。人類工作者之所以有價值,正是因為我們不需要為他們工作的每一個小環(huán)節(jié)都搭建笨重的訓(xùn)練閉環(huán)。

      針對某個實驗室特定的切片制備方式,單獨訓(xùn)練一個模型來識別巨噬細胞,然后再為下一個實驗室、下一個微任務(wù)重復(fù)一遍,這在整體上是得不償失的。真正需要的是一種 AI,能夠像人類一樣,從語義反饋或自我驅(qū)動的經(jīng)驗中學(xué)習(xí),并且實現(xiàn)泛化。

      每天,你都要做上百件需要判斷力、情境感知,以及在工作中習(xí)得的技能和背景知識的事情。這些任務(wù)不僅在不同人之間不同,甚至同一個人前后兩天做的事情都不一樣。

      僅靠預(yù)先內(nèi)置一組固定技能,連一份工作都無法完全自動化,更不用說所有工作了。

      事實上,我認為人們嚴重低估了真正 AGI 的沖擊力,因為他們只是把現(xiàn)在這一套無限延展。他們沒有意識到,真正的 AGI 意味著服務(wù)器上運行著數(shù)十億個類人智能體,能夠復(fù)制、融合彼此的全部學(xué)習(xí)成果。

      說清楚一點,我確實預(yù)計這種意義上的 AGI 會在未來一二十年內(nèi)出現(xiàn)。這實在是太瘋狂了。

      所謂經(jīng)濟擴散滯后,其實是在為能力不足找借口

      有時候人們會說,AI 之所以還沒有在企業(yè)中廣泛部署、在編程之外創(chuàng)造大量價值,是因為技術(shù)擴散本來就需要很長時間。

      我認為這是一種自我安慰,是在掩蓋一個事實:這些模型根本就缺乏創(chuàng)造廣泛經(jīng)濟價值所必需的能力。

      Steven Byrnes 就這一點以及許多相關(guān)問題寫過一篇非常出色的文章:

      新技術(shù)需要很長時間才能融入經(jīng)濟體系?那你不妨問問自己:那些高技能、有經(jīng)驗、有創(chuàng)業(yè)精神的移民,為什么能夠立刻融入經(jīng)濟體系?想清楚這個問題之后你就會發(fā)現(xiàn),AGI 也能做到同樣的事情。

      如果這些模型真的相當(dāng)于“服務(wù)器上的人類”,它們的擴散速度會快得驚人。事實上,它們比普通人類員工更容易整合和入職,可以在幾分鐘內(nèi)讀完你的 Slack 和 Drive,并立刻提煉出你其他 AI 員工掌握的全部技能。

      而且,招聘本身就很像一個檸檬市場,很難判斷誰是好員工,招錯人的成本也非常高。但當(dāng)你只是啟動另一個已經(jīng)驗證過的 AGI 實例時,這種問題根本不存在。

      檸檬市場是指在信息不對稱條件下,消費者難以辨別商品質(zhì)量而傾向壓低支付價格,結(jié)果優(yōu)質(zhì)商品退出、市場逐步被劣質(zhì)商品主導(dǎo)的現(xiàn)象。

      因此,我預(yù)計把 AI 勞動力引入企業(yè)會比招聘人類容易得多。而企業(yè)一直在不斷招人。

      如果能力真的達到了 AGI 水平,人們完全愿意每年花費數(shù)萬億美元購買 token,因為知識工作者每年的總薪酬本身就高達數(shù)十萬億美元。

      實驗室當(dāng)前收入差了四個數(shù)量級,原因只有一個:模型距離人類知識工作者的能力還差得太遠。

      調(diào)整目標標準是合理的

      AI 多頭經(jīng)常批評 AI 空頭不斷調(diào)整目標標準。這種批評在很多時候是成立的。過去十年,AI 確實取得了巨大的進展,人們很容易忽視這一點。

      但在某種程度上,調(diào)整目標標準是合理的。如果你在 2020 年給我看 Gemini 3,我一定會確信它能夠自動化一半的知識工作。

      我們不斷攻克那些曾被認為是通往 AGI 的關(guān)鍵瓶頸,比如通用理解、少樣本學(xué)習(xí)、推理能力,但我們依然沒有 AGI。如果把 AGI 定義為能夠自動化 95% 的知識工作崗位,那理性的反應(yīng)是什么?

      一個完全合理的結(jié)論是:原來智能和勞動比我以前理解的要復(fù)雜得多。盡管我們已經(jīng)非常接近,甚至在很多方面已經(jīng)超過了我過去對 AGI 的定義,但模型公司并沒有賺到數(shù)萬億美元這一事實,清楚地說明了我之前對 AGI 的定義過于狹隘。

      我預(yù)計這種情況在未來還會不斷發(fā)生。我預(yù)計到 2030 年,前沿實驗室會在我一直關(guān)注的持續(xù)學(xué)習(xí)問題上取得顯著進展,模型的年收入將達到數(shù)千億美元,但它們?nèi)匀粺o法自動化全部知識工作。

      到那時我可能會說:我們?nèi)〉昧撕艽筮M步,但還沒到 AGI。要實現(xiàn)萬億美元級別的收入,我們還需要 X、Y、Z 這些東西。

      模型在“看起來很厲害”這件事上的進步速度,符合短時間線派的預(yù)測;但在“真正變得有用”這件事上的進展速度,卻更符合長時間線派的判斷。

      預(yù)訓(xùn)練規(guī)模化的經(jīng)驗不一定使用于強化學(xué)習(xí)

      在預(yù)訓(xùn)練階段,我們看到的是一種極其干凈、普適的趨勢:隨著算力跨越多個數(shù)量級,損失函數(shù)穩(wěn)定下降,盡管這是一個冪律關(guān)系,是指數(shù)增長的反面(albeit on a power law, which is as weak as exponential growth is strong)。

      人們正試圖把這種幾乎像物理定律一樣可預(yù)測的預(yù)訓(xùn)練規(guī)模化經(jīng)驗看法,轉(zhuǎn)移到 RLVR 上,用來支撐對后者的樂觀預(yù)測。

      但事實上,RLVR 并不存在任何擬合良好的公開趨勢。當(dāng)一些勇敢的研究者試圖從零星的公開數(shù)據(jù)中拼湊結(jié)論時,得到的結(jié)果往往相當(dāng)悲觀。

      比如 Toby Ord 寫過一篇文章,巧妙地把不同 o 系列基準圖表聯(lián)系起來,得出的結(jié)論是:要獲得類似 GPT 級別的提升,強化學(xué)習(xí)的總算力規(guī)模可能需要提升到一百萬倍。

      與人類分布的對比,會先讓我們高估 AI,然后再低估它

      不同人類能夠創(chuàng)造的價值差異巨大,尤其是在存在 O-ring 理論描述的白領(lǐng)工作中。

      一個“村里的傻子”對知識工作幾乎沒有價值,而頂級 AI 研究員對馬克·扎克伯格來說可能價值數(shù)十億美元。

      O-ring理論:在由多個關(guān)鍵環(huán)節(jié)構(gòu)成的高價值工作中,整體產(chǎn)出是“乘法關(guān)系”,任何一個環(huán)節(jié)出錯都會讓全部價值大幅歸零,因此頂級能力的價值會被極端放大。

      但在任何一個時間截面上,AI 模型的能力基本是齊平的。人類存在巨大差異,而模型沒有。

      由于知識工作中相當(dāng)大一部分價值來自最頂尖的那一小撮人,如果我們把 AI 模型的智能水平與“中位數(shù)人類”相比,就會系統(tǒng)性地高估它們能創(chuàng)造的價值。但反過來說,一旦模型真正達到了頂級人類的水平,其影響力可能會是爆炸式的。

      廣泛部署帶來的智能爆炸

      人們花了大量時間討論純軟件奇點、軟硬件結(jié)合的奇點,以及各種變體。

      但這些設(shè)想都忽視了我認為 AGI 之后能力繼續(xù)提升的主要驅(qū)動力:持續(xù)學(xué)習(xí)。再想想人類是如何在任何領(lǐng)域變得更強的,主要來源就是相關(guān)領(lǐng)域的經(jīng)驗。

      在一次交流中,Beren Millidge 提出了一個很有意思的設(shè)想:未來可能是持續(xù)學(xué)習(xí)的智能體走出去做具體工作、創(chuàng)造價值,然后把所有學(xué)習(xí)成果帶回一個蜂群心智模型,由它對所有智能體進行某種批量蒸餾。

      這些智能體本身可以高度專門化,包含 Karpathy 所說的“認知核心”,再加上與其具體工作相關(guān)的知識和技能。

      持續(xù)學(xué)習(xí)的“解決”不會是一蹴而就的成就,而更像是上下文學(xué)習(xí)的解決過程。

      GPT-3 展示了上下文學(xué)習(xí)的巨大潛力。但我們并沒有在 GPT-3 出現(xiàn)時就“解決”上下文學(xué)習(xí),從理解能力到上下文長度,仍然有大量改進空間。

      我預(yù)計持續(xù)學(xué)習(xí)也會經(jīng)歷類似的演進過程。

      實驗室很可能在明年發(fā)布一些他們稱之為持續(xù)學(xué)習(xí)的功能,這確實算是向持續(xù)學(xué)習(xí)邁進了一步,但要達到人類水平的持續(xù)學(xué)習(xí),可能還需要 5 到 10 年的進一步發(fā)展。

      這也是為什么我不認為第一個在持續(xù)學(xué)習(xí)上取得突破的模型會立刻獲得失控式的領(lǐng)先優(yōu)勢。

      從部署中學(xué)習(xí)(learning-from-deployment)的收益也很可能存在邊際遞減。前一千個咨詢型智能體會從部署中學(xué)到很多,接下來的一千個就少一些。至于第一百萬個實例,真的還有可能看到前面 999999 個都沒看到的重要東西嗎?

      此外,我有一種主觀判斷:競爭仍將保持激烈。過去那些被寄予厚望的飛輪機制,幾乎都沒能削弱模型公司之間的競爭。

      幾乎每個月,頭部三家都會在領(lǐng)獎臺上輪換位置,其他競爭者也并沒有落后太遠。似乎存在某種力量,一直在消解任何一家實驗室可能獲得的失控式優(yōu)勢。

      精選評論

      Will Michaels:似乎人類能夠快速學(xué)習(xí)的原因之一是,人類可能產(chǎn)生的誤解空間受到嚴格限制,并且在很大程度上是可預(yù)測的。例如,在學(xué)習(xí)微積分時,大多數(shù)容易出錯或產(chǎn)生混淆的點都非常常見,因此在教授他人時可以直接指出。

      而 AI 所犯的錯誤既不可預(yù)測(同一個 AI 在不同情況下會犯不同的錯誤),又不直觀(我們無法準確判斷 AI 什么時候可靠,什么時候不可靠)。

      這就導(dǎo)致要創(chuàng)建一個能夠既識別所有可能錯誤,又對其進行正確懲罰的學(xué)習(xí)環(huán)境,變得異常困難。

      這當(dāng)然和你關(guān)于持續(xù)學(xué)習(xí)的更廣泛觀點相關(guān)。如果我們能夠設(shè)計出一種模型架構(gòu),使 AI 的失敗方式變得可預(yù)測,那么這似乎將是邁向持續(xù)學(xué)習(xí)的一大步。

      Argos:文章寫得不錯,但我覺得你可能有些過于自信。我感覺你引用的那些報告對你所作出的強烈論斷支持力度很弱,而且也可以有其他解讀。

      OpenAI 在其強化學(xué)習(xí)訓(xùn)練流程中使用了大量高度專業(yè)化的技能,這表明強化學(xué)習(xí)訓(xùn)練并不真正具備泛化能力。

      實際上,被引用的文章只是說 OpenAI 雇了一些華爾街人士來生成數(shù)據(jù)。我覺得更可能的情況是,OpenAI 想利用這些數(shù)據(jù)在短期內(nèi)為高付費客戶提供專業(yè)化模型,而不是作為他們通向 AGI 的通用方法。相反的證據(jù)可能是 OpenAI 從經(jīng)濟的更多不同領(lǐng)域獲取類似數(shù)據(jù)。

      AI 還沒有被廣泛部署,這表明我們還沒有達到 AGI。

      確實如此,但那些更合理、預(yù)期短時間內(nèi)會出現(xiàn) AGI 的人并沒有說我們已經(jīng)達到了 AGI。如果你有一些表現(xiàn)不錯但不夠可靠、無法完全匹配人類能力的智能體,那么擴散緩慢是一個合理的論據(jù)。據(jù)許多觀點來看,Claude Code 非常有用,但如果讓它作為自主員工,它就毫無用處。

      注意,Claude Code(CC)釋放了模型的價值:使用 Claude 的聊天界面來編程會大幅減少價值增益,而且使 CC 達到目前水平也需要大量工程努力。如果 CC 和其他編程智能體不存在,你就會錯誤地認為最前沿的模型在編程上用處沒那么大。目前很可能,模型在許多其他具有經(jīng)濟價值的任務(wù)上的價值增益,也正受制于有人投入大量資源來搭建這種“支撐體系”。

      Daniel Kokotajlo:精彩的文章!一些想法:(1)在 《AI 2027》 的設(shè)想中,持續(xù)學(xué)習(xí)會逐漸被解決。在 2027 年初之前,它只是對現(xiàn)有范式的增量改進——例如找到讓模型更頻繁更新的方法,比如每月、每周更新,而不是每幾個月更新。然后在 2027 年中期,由于研發(fā)自動化帶來的加速效應(yīng),它們會變得更加系統(tǒng)可靠、實現(xiàn)范式迭代并且更像人類。

      我仍然預(yù)計類似的事情會發(fā)生,盡管我認為可能需要更長時間。你在上文中說過“這些愚蠢、不具備持續(xù)學(xué)習(xí)能力的 LLM 智能體怎么可能學(xué)會持續(xù)學(xué)習(xí)呢?”我認為答案很簡單:它們只需要顯著加速通常的 AI 研發(fā)過程。舉個例子,如果你覺得以當(dāng)前算法進展的速度,持續(xù)學(xué)習(xí)還需要 10-20 年,那么如果你也覺得 Claude Opus 7.7 基本上能夠自動完成所有編碼工作,并且還可以很好地分析實驗結(jié)果、提出消融建議等,那么合理的結(jié)論是:幾年后,原本剩下的 5-15 年時間可能會被壓縮到剩下的 1-3 年。

      (2)現(xiàn)有范式確實似乎需要比人類更多的 RLVR 訓(xùn)練數(shù)據(jù)才能在某項任務(wù)上表現(xiàn)良好。確實如此。然而一旦足夠強大,上下文學(xué)習(xí)(in-context learning)也可能基本上成為一種持續(xù)學(xué)習(xí)形式?也許,通過足夠多樣化的 RL 環(huán)境,你可以實現(xiàn)類似預(yù)訓(xùn)練在常識理解上達成的效果,但用于智能體的自主能力。你可以獲得通用型智能體,它們可以被直接投放到新環(huán)境中,并在執(zhí)行過程中自行摸索,同時在它們的草稿板/鏈式思維(CoT)記憶庫文件系統(tǒng)中做筆記。

      也可以考慮集體而非單個 LLM 智能體,就像“公司中的公司”(由智能體集體構(gòu)成的集體)。未來,這個集體可能會自主管理一個龐大的包含數(shù)據(jù)收集、問題識別、RLVR 環(huán)境生成等各方面的處理流程,這個流程本身就像是集體的持續(xù)學(xué)習(xí)機制。例如,集體可能自主決定學(xué)習(xí)某項技能 XYZ 很重要(可能是因為分析軌跡、與客戶交流并了解有限的 XYZ 技能如何阻礙它們的工作),然后它們可以調(diào)動相當(dāng)于數(shù)千名工程師的勞動力來搭建相關(guān)環(huán)境、進行訓(xùn)練、更新模型等。

      集體仍然可能需要例如比人類多 1000 倍的數(shù)據(jù)才能在某項任務(wù)上表現(xiàn)良好,但因為它擁有數(shù)萬份復(fù)制在外收集數(shù)據(jù),并且智能地管理數(shù)據(jù)收集過程,它總體上能夠比人類更快速地學(xué)習(xí)新技能和完成工作。(至少對于那些可以通過這種方式解決的技能和工作而言。但是其他的,比如贏得一場戰(zhàn)爭的技能,它無法通過這種方式學(xué)習(xí),因為它不能把 1000 個副本投入到 1000 場不同的戰(zhàn)爭中去。)

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      如果情況不變,2026年5月以后,全國60%家庭可能面臨兩大難題

      如果情況不變,2026年5月以后,全國60%家庭可能面臨兩大難題

      心理觀察局
      2026-05-04 08:51:21
      研究表明:性經(jīng)驗越多的男性,陽痿、早泄勃起等問題越少!

      研究表明:性經(jīng)驗越多的男性,陽痿、早泄勃起等問題越少!

      燈錦年
      2026-05-04 14:09:21
      3-3!曼城絕平卻交出爭冠命門:格伊致命短路,瓜帥體系現(xiàn)死穴!

      3-3!曼城絕平卻交出爭冠命門:格伊致命短路,瓜帥體系現(xiàn)死穴!

      落夜足球
      2026-05-05 15:40:58
      明起停牌!這家公司,擬跨界并購“小巨人”

      明起停牌!這家公司,擬跨界并購“小巨人”

      新浪財經(jīng)
      2026-05-05 22:02:03
      桂綸鎂連續(xù)三天爬熊野古道,穿一整身山之道,她太瘦了像50多歲!

      桂綸鎂連續(xù)三天爬熊野古道,穿一整身山之道,她太瘦了像50多歲!

      笑談歷史阿晡
      2026-05-04 09:15:53
      2027南洋理工申請新規(guī):不再看高一高二成績,高考是核心!

      2027南洋理工申請新規(guī):不再看高一高二成績,高考是核心!

      留學(xué)咖啡館
      2026-05-05 08:34:45
      伊朗外長應(yīng)邀訪華透露的關(guān)鍵信息

      伊朗外長應(yīng)邀訪華透露的關(guān)鍵信息

      鳳眼論
      2026-05-05 19:20:10
      費利佩倒鉤絕殺,成都蓉城1比0戰(zhàn)勝遼寧鐵人,冠軍歸屬已無懸念

      費利佩倒鉤絕殺,成都蓉城1比0戰(zhàn)勝遼寧鐵人,冠軍歸屬已無懸念

      姜大叔侃球
      2026-05-05 21:49:48
      中國女排集訓(xùn)有變!趙勇帶隊,20人將全部離京,新地點公布

      中國女排集訓(xùn)有變!趙勇帶隊,20人將全部離京,新地點公布

      跑者排球視角
      2026-05-05 21:38:31
      太可怕!結(jié)婚三年無孩,妻子失業(yè)躺平3個月,IT男發(fā)帖想離婚止損

      太可怕!結(jié)婚三年無孩,妻子失業(yè)躺平3個月,IT男發(fā)帖想離婚止損

      火山詩話
      2026-05-04 06:36:10
      美軍中將:伊朗戰(zhàn)爭是代價更高的對華戰(zhàn)爭的預(yù)演,后果不堪設(shè)想

      美軍中將:伊朗戰(zhàn)爭是代價更高的對華戰(zhàn)爭的預(yù)演,后果不堪設(shè)想

      瀲滟晴方DAY
      2026-05-05 00:50:03
      廣東一女子愛喝藏紅花茶,2年后體檢,醫(yī)生納悶:你都干啥了

      廣東一女子愛喝藏紅花茶,2年后體檢,醫(yī)生納悶:你都干啥了

      荷蘭豆愛健康
      2026-05-05 01:31:52
      活久見,非競技性犯規(guī)紅變黃,艾堃哪里考的證?李欣解說更無語!

      活久見,非競技性犯規(guī)紅變黃,艾堃哪里考的證?李欣解說更無語!

      我就是一個說球的
      2026-05-05 22:26:59
      當(dāng)年在惠州買房的新深圳人,后悔了嗎?

      當(dāng)年在惠州買房的新深圳人,后悔了嗎?

      芳華青年
      2026-05-05 17:30:21
      第一集就全裸出鏡,女神新劇破格出演了

      第一集就全裸出鏡,女神新劇破格出演了

      來看美劇
      2026-04-27 16:21:10
      52歲樸樹近況:無兒無女,沒錢沒房,成了要錢不要命的“瘋子”

      52歲樸樹近況:無兒無女,沒錢沒房,成了要錢不要命的“瘋子”

      流云隨風(fēng)去遠方
      2026-04-14 12:22:59
      津門虎歷時10輪積分歸0,中超開局負分9隊至此全部清零

      津門虎歷時10輪積分歸0,中超開局負分9隊至此全部清零

      懂個球
      2026-05-05 23:29:13
      朱珠與老公在海灘上的一幕,一襲豹紋三點式泳衣身材非常的姣好

      朱珠與老公在海灘上的一幕,一襲豹紋三點式泳衣身材非常的姣好

      動物奇奇怪怪
      2026-05-04 21:51:57
      女星兩婚不幸,頭婚遭家暴出軌,二婚被騙千萬,61歲仍單身

      女星兩婚不幸,頭婚遭家暴出軌,二婚被騙千萬,61歲仍單身

      原夢叁生
      2026-05-05 23:20:08
      日本可能與中國開戰(zhàn)?日專家:與中國發(fā)生沖突,最長只能堅持一周

      日本可能與中國開戰(zhàn)?日專家:與中國發(fā)生沖突,最長只能堅持一周

      夢史
      2026-05-03 18:12:43
      2026-05-06 00:08:49
      象先志 incentive-icons
      象先志
      專注互聯(lián)網(wǎng)、電商,聚焦產(chǎn)業(yè)、核心,洞察前沿、趨勢
      153文章數(shù) 12關(guān)注度
      往期回顧 全部

      科技要聞

      傳蘋果考慮讓英特爾、三星代工設(shè)備處理器

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      內(nèi)娛真情誼!楊紫為謝娜演唱會送花籃

      財經(jīng)要聞

      瀏陽煙花往事

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態(tài)度原創(chuàng)

      家居
      親子
      旅游
      教育
      公開課

      家居要聞

      靈動實用 生活藝術(shù)場

      親子要聞

      這個五一,帶寶寶來北海看海啦~銀灘細沙海浪,是小朋友最愛的天

      旅游要聞

      “五一”鄭州低空旅游起飛 超 2700 人次云端覽山河

      教育要聞

      為什么說即將出爐的QS2027,英國大學(xué)排名一定會大提升?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 两个人看的www免费视频中文| 中文字幕亚洲制服在线看| a免费在线| 亚洲熟女乱色一区二区三区| 青草视频免费在线观看| 欧美一区二区三区久久综 | 成视人a免费观看 视频| 亚洲精品字幕| 各种姿势玩小处雏女视频| 亚洲最大有声小说AV网| 久久精品99久久久久久久久| 免费观看成人久久网免费观看| 蜜桃做爰免费网站| 色99999| 国产精品视频| 日本不卡二区高清三区| 日韩内射美女人妻一区二区三区 | 蜜桃av抽搐高潮一区二区| 自拍视频在线观看四区| 久久国产精品人妻丝袜| 四虎影视库国产精品一区| 国产美女深夜福利在线一| 亚洲天堂三区| 国内精品美女a∨在线播放| 日韩一区二区三区无码| 老子影院午夜久久亚洲| 亚洲欧美一区二区成人片| 无夜精品久久久久久| 免费的美女色视频网站| 久久久婷| 99久久99久久精品国产片| 国产尤物在线视精品在亚洲| 国产亚洲3p一区二区三区| 久久精品国产精品亚洲色婷婷| 国产人成精品一区二区三| 亚洲精品二区| 青青青青青手机视频在线观看视频 | 一区777| 色欲二区| 国产精品视频流白浆免费视频| 欧洲熟妇性色黄|