<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      牛津學者: AI 越來越像人了,但用得起嗎

      0
      分享至

      當人們熱衷于討論 AI 智能體還能變得多強時,Toby Ord 把問題拉回到了一個更現實的維度:成本。 本文基于其文章 《Are the Costs of AI Agents Also Rising Exponentially?》 做延展解讀,嘗試回答一個值得所有人關注的問題——AI 不斷突破任務時長邊界的同時,它的使用成本是否也在悄然逼近,甚至接近人類勞動成本?

      AI 智能體的成本,也在指數級上升嗎?

      關于 AI 近期發展,有一個極其重要、卻幾乎很少被認真討論的問題。

      過去幾年,我們已經反復看到 METR 的圖表:AI 智能體能夠完成的任務時長,正在以驚人的速度增長。7 年前,GPT-2 只能處理那些只需要幾秒鐘的軟件工程任務;而如今,最新模型已經能夠以約 50% 的成功率,完成那些通常需要人類數小時才能完成的任務。


      隨著這一趨勢沒有明顯放緩,許多人自然開始進一步外推:AI 何時能完成一整天的工程任務?一整周?甚至一整年?

      但在這些討論中,往往缺少一個關鍵變量——成本

      只看能力增長,還不夠

      過去 7 年間,AI 系統本身經歷了指數級擴張。模型參數量增長了數千倍,而單個任務中使用的 token 數量更是增長了數萬倍。雖然研究者也持續提升了效率,但一個完全合理的推測是:為了實現 METR 所展示的“最優表現”,其背后的成本也很可能在持續上升,甚至同樣呈指數增長。

      這件事本身未必一定糟糕。

      比如,如果 AI 每年能夠處理的任務時長增長 3 倍,而達到這種能力所需的成本也同步增長 3 倍,那么 AI 相對于人類的成本競爭力并沒有發生根本變化。甚至如果成本增長慢于能力增長,那么 AI 實際上會變得越來越便宜。

      真正值得警惕的是另一種情況:如果成本增長速度快于任務時長增長速度,會發生什么?

      如果真是這樣,那么最前沿的 AI 系統,雖然在“能力上”越來越強,但在“經濟上”可能反而越來越不劃算。METR 的時間跨度趨勢,也就可能變得具有誤導性:它展示的是技術邊界如何不斷推進,但其中一部分進步,可能只是因為投入了越來越奢侈的推理算力。

      那樣的話,最先進的 AI 更像是性能競賽中的“一級方程式賽車”——它展示了什么是可能的,卻不一定展示了什么是現實可用的。

      一個更關鍵的問題:AI 的“每小時成本”如何變化?

      因此,真正值得追問的問題應該是:

      AI 智能體的“每小時成本”究竟在如何變化?

      這里所謂的“每小時成本”,并不是指模型實際運行了多久,而是指:

      一個模型在其 50% 時間跨度附近完成任務所需的成本,除以這類任務通常需要人類花費的時間。

      舉個例子,如果某個模型能夠以 50% 的成功率,完成“人類軟件工程師通常需要 2 小時完成”的任務,那么我們就可以把它執行這類任務的費用除以 2,得到它在這種任務上的“每小時成本”。

      這個問題看似簡單,但現實中真正思考過的人并不多。

      而一旦問起大家的直覺,答案往往差異極大。有人默認 AI 完成任務的總成本大體沒變,只是任務時長在不斷增長;這意味著 AI 的單位小時成本正在快速下降。也有人認為,隨著前沿模型價格不斷上漲,AI 完成任務的總成本本身也在快速上升。

      但事實上,大多數人——包括作者自己——其實并不知道,今天讓 AI 智能體完成一小時的軟件工程工作,究竟是幾美分、幾美元,還是幾百美元。

      一個聽起來幾乎有些反直覺的問題開始出現:

      AI 智能體每小時的成本,難道真的可能接近甚至超過人類嗎?

      為什么不能直接拿“總花費”來回答這個問題

      作者曾向 METR 詢問是否能直接分享基準測試的成本數據,原本以為只要把不同模型的測試花費按發布日期畫出來,就能大致看出趨勢。

      但問題沒有這么簡單。

      原因在于,METR 的 headline time horizon,本來就不是為了衡量“達到某種表現的最低成本”,而是為了衡量:在不計成本的情況下,一個模型理論上能達到的最佳表現。

      為此,他們會讓模型在 agent scaffold 中不斷運行,直到性能明顯進入平臺期。因為他們關心的是“這個平臺到底有多高”,而不是“從哪里開始變平”,所以他們會投入相當多的算力,也不太在意是否已經超出了達到該表現所需的最優成本。

      這意味著:不同模型的總測試花費,有時只是剛好足夠進入平臺期,有時卻可能遠遠超過所需。因此,總支出不能直接視為“實現該能力所需的經濟成本”

      一張關鍵圖:性能如何隨著成本上升

      幸運的是,METR 發布了一張非常有價值的圖。它展示的不是單純的時間跨度結果,而是:


      模型性能如何隨著成本增加而提升。這里的“成本”,主要指為了完成任務而投入更多 token,也就是更多推理算力所帶來的開銷。

      圖中,黃色曲線代表人類表現。它的走勢大體接近線性:完成更長時間的任務,需要投入更多工作時間和工資,這幾乎是線性關系。比如,讓一位軟件工程師做 8 小時任務,成本大約就是 1 小時任務的 8 倍。

      而其他彩色曲線,則代表不同的 LLM 智能體。

      與人類不同,這些模型都展現出一個共同特征:邊際收益遞減

      也就是說,在一開始增加算力時,模型性能會有所提升;但隨著投入越來越多,收益開始變小,最后逐漸趨于停滯,進入平臺期。繼續投入更多推理資源,帶來的提升已經越來越有限。

      作者也提醒,這些曲線末端有時會出現短暫上翹。這并不一定意味著模型能力突然躍升,而更可能是評測偽影:某些模型傾向于等到最后時刻才輸出答案,導致圖上看起來像是前面一段時間都在“橫盤”,最后卻突然向上跳了一下。

      用“固定每小時成本線”重新看這張圖

      為了從這張圖中進一步提取信息,作者做了一個非常巧妙的處理:在圖中加入固定每小時成本線


      在雙對數坐標下,這樣的線會表現為斜率為 1 的直線。對于這些線而言,越靠左,表示每小時成本越低。


      然后,作者為每條模型曲線都找出一條“剛好與之相切”的固定每小時成本線。這個相切點,就是該模型所能達到的最低每小時成本。作者把它稱為模型的sweet spot

      這個點很重要,因為它代表的是模型在“單位成本效率”上最優的位置。

      在 sweet spot 之前,隨著成本上升,模型的任務時長增長得更快,說明此時投入算力仍然非常劃算;而一旦過了 sweet spot,邊際收益遞減開始顯著出現,繼續往上加錢就不再那么值了。

      AI 的最低“時薪”其實差異極大

      從圖中可以看出,人類軟件工程師的成本大約是120 美元/小時

      而不同 AI 模型在 sweet spot 上的成本差異極大:高的如 o3,大約40 美元/小時;低的如 Grok 4 和 Sonnet 3.5,可以低到0.4 美元/小時


      這說明,雖然這些模型在“能完成多長任務”上的差距大約只有十幾倍,但在“最佳單位成本”上的差距卻可能達到兩位數量級。

      更值得注意的是,sweet spot 只是這些模型最劃算的時候。

      一旦進入更長任務區間,尤其是接近平臺期時,它們的單位小時成本會迅速上升,往往高出 10 倍甚至 100 倍。比如,某個模型在最佳點可能只要幾角錢一小時,但一旦逼近其能力上限,成本就可能漲到十幾美元,甚至上百美元一小時。

      換句話說:

      模型越接近它的最長任務能力,往往也越不經濟。

      而這正是作者試圖強調的問題——如果人們只看“能做多久”,卻不看“做這么久要花多少錢”,就會對 AI 智能體的現實可用性產生過于樂觀的判斷。

      平臺期附近:能力還在漲,但成本可能已經不現實

      除了 sweet spot,作者還為每條曲線定義了一個saturation point(飽和點),用來近似表示“平臺期從哪里開始”。


      這個點的定義雖然帶有一定任意性,但它比 sweet spot 更接近 METR 在 headline 結果中真正展示的“接近能力上限的表現”。

      作者的分析顯示,不論看 sweet spot 還是 saturation point,結論都相似:

      時間跨度更長的模型,通常成本更高;不僅總成本更高,連單位小時成本也往往更高;

      某些模型在接近其峰值表現時,單位小時成本已經接近甚至逼近人類水平。

      這意味著一個重要判斷:我們也許正在接近這樣一個階段:AI 的“最強表現”雖然存在,但要以明顯不切實際的成本才能獲得。

      如果這種趨勢持續下去,那么簡單根據 METR 的時間跨度曲線去預測“AI 何時能做完一天、一周或一年的任務”,很可能會誤導人們。因為模型第一次達到這些能力時,也許仍然貴得難以實際部署。真正進入大規模現實應用,還需要再等待一段時間,直到成本進一步下降。

      這篇文章真正想提醒我們的是什么?

      作者并不是在否認 AI 智能體能力的快速進步。相反,他承認這條能力曲線非常驚人。

      但他想提醒的是:

      能力增長曲線,并不等于現實可用曲線。

      如果實現這些能力所需的推理成本也在快速上升,那么“原則上能做到什么”和“經濟上可行到能廣泛使用什么”之間,可能會出現越來越大的差距。

      這也意味著,AI 智能體在現實世界中的部署速度,未必會與 METR 的時間跨度趨勢同步增長。技術前沿可以繼續高速推進,但真正落地到企業、開發者和普通用戶手中的節奏,可能會慢得多。

      作者的結論

      基于現有圖表,作者認為已經有中等強度的證據表明:達到更長時間跨度所需的成本,可能也在指數上升;甚至連單位“每小時成本”本身,也可能在上升;一些模型在高端能力區間的成本,已經接近人類勞動成本。如果這些判斷成立,那么就意味著:METR 展示的趨勢,部分是由越來越高昂的推理投入推動的;AI 的“理論能力邊界”和“經濟可行邊界”會逐漸分離;現實世界中的 AI 智能體應用,將越來越落后于單純從時間跨度曲線中得出的樂觀預期。

      結語

      在今天的 AI 討論中,我們已經很習慣于追問:模型變強了多少、能完成多長任務、距離“自動化工程師”還有多遠。

      但也許我們同樣需要開始認真追問另一個問題:

      這些能力,究竟是以怎樣的成本換來的?

      因為真正決定 AI 是否會大規模改變現實世界的,未必只是“它能不能做到”,更是“它是否值得這樣去做”。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      馬斯克訪華像回家,母親已長住上海,兒子身價萬億她還做視頻帶貨

      馬斯克訪華像回家,母親已長住上海,兒子身價萬億她還做視頻帶貨

      別人都叫我阿腈
      2026-05-15 12:53:23
      西方沒料到,特朗普訪華首日最大清醒:美國已容不下對華強硬派!

      西方沒料到,特朗普訪華首日最大清醒:美國已容不下對華強硬派!

      好賢觀史記
      2026-05-15 15:25:57
      串通投標全川35個工程項目、涉案110億余元,四川公安發布十起經濟犯罪典型案例

      串通投標全川35個工程項目、涉案110億余元,四川公安發布十起經濟犯罪典型案例

      封面新聞
      2026-05-15 17:36:02
      烏克蘭炸掉俄軍4000萬美元稀缺軍機,俄羅斯后方開始失守

      烏克蘭炸掉俄軍4000萬美元稀缺軍機,俄羅斯后方開始失守

      桂系007
      2026-05-15 22:17:08
      特朗普松口:中國買伊朗石油,可能不制裁了

      特朗普松口:中國買伊朗石油,可能不制裁了

      桂系007
      2026-05-15 21:40:19
      拒絕被挑撥站隊!12歲小玥兒戳破與馬筱梅真實交情,成年人別加戲

      拒絕被挑撥站隊!12歲小玥兒戳破與馬筱梅真實交情,成年人別加戲

      橙星文娛
      2026-05-15 13:59:15
      球隊高管:詹姆斯能賣票簽他穩賺 只要是一年合同他要多少給多少

      球隊高管:詹姆斯能賣票簽他穩賺 只要是一年合同他要多少給多少

      羅說NBA
      2026-05-15 20:13:16
      5死8傷!退伍軍人當街炸死法官,背負兩宗命案瘋狂逃亡30年終落網

      5死8傷!退伍軍人當街炸死法官,背負兩宗命案瘋狂逃亡30年終落網

      易玄
      2026-05-15 19:12:31
      不瞞了!馬斯克罕見承認:美國是第一,但第二到第十全都來自中國

      不瞞了!馬斯克罕見承認:美國是第一,但第二到第十全都來自中國

      瀲滟晴方DAY
      2026-04-25 23:29:34
      根本不在乎!同樣是看儀仗隊政客和商人的區別顯出來了!

      根本不在乎!同樣是看儀仗隊政客和商人的區別顯出來了!

      阿龍聊軍事
      2026-05-15 10:48:40
      爭議!法國僅帶5中場踢世界杯 主帥棄用皇馬5千萬巨星:讓他恨我

      爭議!法國僅帶5中場踢世界杯 主帥棄用皇馬5千萬巨星:讓他恨我

      我愛英超
      2026-05-15 07:45:16
      扎心!朋友孩子的班34人處于“零就業”狀態,引熱議

      扎心!朋友孩子的班34人處于“零就業”狀態,引熱議

      火山詩話
      2026-05-13 15:02:14
      孟子義和李昀銳全程零互動、綜藝不同隊、行程全錯開,昀牽孟繞真的be了嗎?

      孟子義和李昀銳全程零互動、綜藝不同隊、行程全錯開,昀牽孟繞真的be了嗎?

      情感大頭說說
      2026-05-15 14:16:58
      標價15元結賬收29.9元,超市陰陽價格套路曝光,網友齊呼離譜……

      標價15元結賬收29.9元,超市陰陽價格套路曝光,網友齊呼離譜……

      柴狗夫斯基
      2026-05-14 20:42:23
      國家發改委主任鄭柵潔會見波音公司總裁兼首席執行官奧特伯格

      國家發改委主任鄭柵潔會見波音公司總裁兼首席執行官奧特伯格

      界面新聞
      2026-05-15 20:12:36
      科爾失去兩大重要助教!斯托茨斯塔克豪斯離隊 前鵜鶘主帥或加盟

      科爾失去兩大重要助教!斯托茨斯塔克豪斯離隊 前鵜鶘主帥或加盟

      羅說NBA
      2026-05-15 10:33:18
      多名院士調查發現:吃一口隔夜剩米飯,等于進一次毒?

      多名院士調查發現:吃一口隔夜剩米飯,等于進一次毒?

      鬼菜生活
      2026-05-14 18:27:08
      兩老人撿十幾年破爛存五六萬,這都下得去手!真正的“騙子”是誰

      兩老人撿十幾年破爛存五六萬,這都下得去手!真正的“騙子”是誰

      走讀新生
      2026-05-15 15:05:17
      伊朗隊正式發布世界杯球衣:豹子暗紋,由本國品牌贊助

      伊朗隊正式發布世界杯球衣:豹子暗紋,由本國品牌贊助

      懂球帝
      2026-05-15 00:09:05
      過氣演員到底多可憐?從拒拍裸戲,到近乎全裸拍戲,太心酸

      過氣演員到底多可憐?從拒拍裸戲,到近乎全裸拍戲,太心酸

      悠悠說世界
      2026-05-15 13:50:20
      2026-05-15 23:00:49
      圖解金融 incentive-icons
      圖解金融
      圖解金融,你的金融視界
      5495文章數 26716關注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      王毅:中美元首會晤 臺灣問題是重點議題之一

      頭條要聞

      王毅:中美元首會晤 臺灣問題是重點議題之一

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      健康
      教育
      旅游
      藝術
      軍事航空

      專家揭秘干細胞回輸的安全風險

      教育要聞

      不只699,還是數物化奧賽東城三金高中!全國首批特級教師誕生地,剛剛曝光——

      旅游要聞

      別只冬天去哈爾濱,五月花海才是正確打開方式!

      藝術要聞

      中式美學火了!特朗普、魯比奧、馬斯克小兒子點贊

      軍事要聞

      烏克蘭首都基輔遭空襲 死亡人數增至12人

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美在线视频a| 成人国产一区二区三区| 中文无码AV在线亚洲电影| 无码日本精品一区二区片| 久久国产国内精品国语对白 | 2048国产精品原创综合在线| 人妻被修空调在夫面侵犯| 曰本女人牲交视频免费| 国产精品毛片av在线看| 人妻日韩精品中文字幕| AVwww.333.rain.无码一区二区| 国内老司机精品视频在线播出| 熟女人妻水多爽中文字幕| 亚洲欧洲日产国码久在线观看 | 天天射天天日本一道| 爱草网| 免费精品国自产拍在线播放| 国产一区二区无码专区| 国产成人手机高清在线观看网站| 亚洲手机在线观看| 亚洲avav| 一本一道人人妻人人妻αv| 精品2020婷婷激情五月| 99久久精品免费看国产电影| 国产拍在线| 国产一区二区三区精品久| 色人妻| 国产国语性生话播放| 天堂av一区二区在线观看| 欧美激情乱伦| 国产精品美女久久久久av爽李琼| 国产精品毛片久久久久久l| 欧美日韩在大午夜爽爽影院| 日本亚洲精品无码专区| 92成人午夜福利一区二区| 99re一区二区三区| 亚洲人成绝费网站色www吃脚| 午夜在线视频| 亚洲国产成人综合精品| 中文国产一区| 人妻综合网|