<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      奧特曼預言與現實相差幾何?12個頂級模型“創業”一年,僅3個存活

      0
      分享至

      “在 AI 時代,一個人有可能創辦一家估值 10 億美元的獨角獸公司。”2024 年初,OpenAI CEO 山姆·奧特曼(Sam Altman)拋出考慮了這個后來被廣泛引用的判斷。

      數據似乎也正驗證這一趨勢。據股權管理平臺Carta 統計的2025 年數據顯示:超過三分之一的新公司由單人創始人創辦。從 2019 年的 23.7% 到 2025 年上半年的 36.3% ,獨立創始人創立公司的比例在六年間增長了 53% 。不僅不需要聯合創始人了,甚至一個人、一套 AI 工具就能打天下的“一人公司”案例也開始出現在科技媒體的報道中。

      AI越來越強,但一個人+AI,真的等于一家公司嗎?AI能做到什么程度?

      Collinear AI(專注企業級AI Agent的初創公司)的研究團隊認為,整個行業正在快速邁向長周期、多步驟的Agent工作流,但可靠性并沒有跟上這一進程。因此,他們發布了YC-Bench(首個帶有模擬時鐘的開源長時序 Agent 評測基準) 試圖用科學的方式回答這個問題——不是靠感覺和案例,而是把“一個人能做的事”拆解成可量化的任務,然后用全球最強的 AI 模型逐一去測試。

      研究團隊構建了一個高擬真度的模擬創業環境,AI 在里面扮演 CEO,讓 AI Agent 從零運營一家公司:管理員工、挑選項目合同、應付難纏的客戶、維持公司賬上的現金流。一年后,從起始資金 20 萬美元,到最終能活下來且賺錢的,12 個頂級模型里,只有 3 個做到了。

      論文來源: YC-Bench: Benchmarking AI Agents for Long-Term Planning and Consistent Execution https://arxiv.org/abs/2604.01212
      YC-Bench 怎么測的?

      前沿模型能經營一家創業公司嗎?

      帶著這樣的疑問,研究團隊發布了 YC Bench。其核心設計思路是:給一個前沿模型種子資金、一支小團隊和一個任務市場,讓它模擬經營一家 AI 初創公司——管理員工、按時交付、分配資源,在一年內實現利潤最大化。


      核心挑戰有三層:

      • 不確定性下的規劃:市場是部分可觀察的,AI 不能“偷看答案”,必須基于不完整信息做決策。
      • 延遲反饋:很多決策的后果要幾周甚至幾個月才顯現,AI 必須從延遲的信號中學習和調整。
      • 錯誤累積:早期的一個糟糕決策會在后期放大,最終導致破產——這正是現實創業中最殘忍的規律。

      其中,研究團隊增加了對抗性壓力:環境里有意設置了難纏的客戶、不斷上漲的人力成本,讓 AI 在壓力下做出判斷。

      評估的方法,是12 個模型(含閉源和開源),每個模型跑 3 次(不同隨機種子數據集),唯一允許在回合間“記事”的工具是 Scratchpad(草稿本)——相當于 AI 的內部筆記本,這是它跨回合保持記憶的唯一方式。

      在這個評測中,Agent = LLM + 工具 + 決策框架,LLM 是大腦,框架是手腳。

      每個被測模型都被套上了一層 Agent 框架,讓它們能:

      • 查看公司當前狀態(財務報表、員工情況)
      • 根據看到的信息做推理和決策
      • 調用工具執行動作(分配任務、招聘員工、推進時間)

      這 12 個模型做的就是這個 Agent 循環,不是單純地回答問題。YC-Bench 測的不是"哪個大模型答卷考得好",而是"哪個模型當老板當得好"。

      12 個模型,同一場壓力測試,結果:三個沒想到

      研究團隊挑選了 12 個來自不同公司的主流 AI 模型,放在同一套環境里進行三輪獨立測試。


      模型在模擬環境里的行為差異極大,主要體現在四個維度。其中,Scratchpad 寫入頻率反映了 AI 在長程任務中進行主動規劃和自我反思的強度;任務檢查比例反映了 AI 是否主動核實客戶可信度;并發任務數反映 AI 是否存在“過度并行”問題。


      在計算成本與穩定性上,API成本差異極為懸殊,而結果卻并不與成本正相關。


      圖中可以看到不同模型之間運行時間差異巨大。同樣跑完一年模擬,Claude Opus 4.6 用了70分鐘,GPT-5.4 Nano只用了3分鐘。深入拆解,有以下幾個原因:

      • 首先,運行時間和Token量強相關,這意味著AI在每個決策回合“想了多久”。Claude Opus 4.6 產生了16.7M token,而GPT-5.4 Nano只有2.0M token。這背后源于兩個行為:Scratchpad的寫入量(記錄各種情況)和每輪發出的命令數(與環境交互)。
      • 其次,不同模型本身推理速度和吞吐量差別也很大,比如Gemini Flash系列是專為速度優化,推理極快,其他GPT-5.4 Nano/Mini也是輕量級小模型,參數少、推理快,而Claude Opus 4.6是旗艦大模型,參數量大,每個Token計算量高,自然也就慢了。
      • 此外,還存在API網絡延遲的疊加效應。YC-Bench中跑了幾百個回合,每輪都要調用API,旗艦款模型的響應延遲高于輕量模型,再乘以幾百輪,延遲就會被大幅放大。

      綜合來看,結論還是有不少讓人意外之處。

      1. 頂級模型的差距,比想象中大得多

      在三輪測試中,12 個模型里,只有 3 個能持續跑贏 20 萬美元起始資金。剩下 9 個,要么勉強持平,要么在一年內走向破產。


      但更有意思的是始終存活下來的前三名對比:


      Top 3 模型最終資金對比

      其中,GLM-5 以極低成本接近 Claude Opus 的表現,可以說是 Claude Opus 的“性價比殺手”——差距極小,但算力消耗天差地別。這對那些想用 AI 運營公司的人來說,是個重要信號:最貴的模型不一定是最優的。

      2. Scratchpad 是生死線

      這是整個論文最反直覺的發現:決定輸贏的并不完全是參數量,而是Scratchpad 的使用方式。

      例如,在前文表格中,Gemini 3.1pro 作為旗艦款的Pro模型,按慣例來講應該是同系列中參數最大的,但在三次測試中破產兩次;反觀其輕量版模型Gemini 3 Flash一次都沒有破產,雖然最終資金不多,但至少活下來了。

      而其他能持續、規律地使用 Scratchpad 做規劃和自我反思的 AI(如 Opus 4.6、GLM-5、GPT-5.4),表現遠優于那些"走一步看一步"的 AI。GPT-5.4 雖然 Scratchpad 使用頻率極高(10.6次/100輪),但其高任務檢查率使其也維持了穩定盈利。


      這像極了人類創業者:那些隨時記筆記、復盤決策、做長期打算的人,往往比那些憑直覺行動的人走得更遠。AI 也不例外。

      3. 第一道坎,來自最難纏的客戶

      47% 的破產都始于對抗性客戶——AI 在沒有充分核實背景的情況下接受了不利條款,或者沒有識別出客戶的惡意意圖。其他主要失敗原因包括:員工分配不當(26%)、過度并行化(17%)以及其他因素(10%)。

      這個數字令人意外:人們通常認為 AI 在邏輯推理和數據分析上很強,但識別意圖和風險,恰恰是它最薄弱的地方。

      更諷刺的是,論文還發現前沿模型有一種獨特的失敗模式:過度并行化——Claude Sonnet 4.6 平均同時承接 7.2 個任務,遠超其他模型,但這種"多線程"策略反而導致資源分散、每條線都做不深。

      這不只是論文,更像是現實的壓力測試

      看完這些實驗數據,你會發現 YC-Bench 測的,其實就是"一個人 + AI 工具"能否真正成為一家公司的核心能力。


      換句話說,YC-Bench 用代碼模擬的,正是每一個想靠 AI 創業的"超級個體"每天都在面對的真實挑戰。

      山姆·奧特曼說,一個人可以創辦一家獨角獸。

      YC-Bench 的研究說明,前提是這個人得比 AI 更懂什么時候不該聽 AI 的。這不是對 AI 的否定,恰恰是對 AI 時代“一人公司”最誠實的定義:一個人 + AI,不是降低了對創業者的要求,而是把要求從“你會多少技能”變成了“你有多擅長做判斷”。

      YC-Bench 的價值,不在于告訴我們 AI 能做什么,而在于誠實地揭示了 AI 現在還不能做什么——以及在那些縫隙里,一個人必須自己補上的那些能力。

      最后,綜合這份論文中的判斷,或許可以給在做“一人公司”的人提供幾個提示:

      • 不要被 AI 的“智商”騙了——模型在各項評測榜單上分數很高,但在長程任務里,堅持用筆記、持續復盤、主動識別風險的做事習慣,比純粹的推理能力更重要。目前沒有哪個模型在這一點上做到完美,包括測試中的大贏家Claude Opus。
      • “最貴的”不等于“最合適的”——GLM-5 的出現說明,模型選擇上存在被嚴重低估的性價比路線。一人公司本就在資源有限的前提下運營,沒必要為最貴的模型付溢價。
      • 早期的一個失誤,真的會殺死你——這是YC-Bench最殘酷的發現:AI 在前幾個月的決策質量,直接決定了后期的發展空間。一個人創業也是如此——最初的合同、人員、方向選擇,會在12個月后被放大成巨大的優勢或劣勢。
      • AI 的盲點,在人際判斷上——47%的破產源于客戶識別失誤,這不是技術問題,而是 AI 缺乏“社會經驗”的系統性弱點。在現實中,這意味著一個人用 AI 跑公司,必須自己在關鍵決策上保持判斷力,而不是完全依賴 AI 的建議。

      (文|數智達觀,作者|蓋虹達,編輯丨楊林)

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      車臣部隊遭到開戰以來最重損失!烏克蘭襲擊俄最大炸藥廠

      車臣部隊遭到開戰以來最重損失!烏克蘭襲擊俄最大炸藥廠

      項鵬飛
      2026-05-01 21:13:25
      臺灣地區恐怕要大洗牌!島內正流傳著一個幾乎板上釘釘的預判

      臺灣地區恐怕要大洗牌!島內正流傳著一個幾乎板上釘釘的預判

      安安說
      2026-05-01 20:44:53
      新婚即翻車?阿Sa剛官宣結婚,老公被扒交友app約網紅,細節太尷尬

      新婚即翻車?阿Sa剛官宣結婚,老公被扒交友app約網紅,細節太尷尬

      攬星河的筆記
      2026-04-30 15:58:00
      季麟連事件反轉!藍營正式對趙少康出手,朱立倫陣營緊急改口

      季麟連事件反轉!藍營正式對趙少康出手,朱立倫陣營緊急改口

      阿離家居
      2026-05-01 20:55:22
      “只顧自己紋眉,不管女兒死活?”14歲女孩生日照,臉上全是槽點

      “只顧自己紋眉,不管女兒死活?”14歲女孩生日照,臉上全是槽點

      蝴蝶花雨話教育
      2026-04-25 00:45:03
      孫楊他媽是嫌孫楊“涼”得還不夠徹底嗎?

      孫楊他媽是嫌孫楊“涼”得還不夠徹底嗎?

      蔥哥說
      2026-04-30 21:24:28
      讓2追3!成都蓉城客場上演驚天逆轉,補時連進兩球擊敗上海申花

      讓2追3!成都蓉城客場上演驚天逆轉,補時連進兩球擊敗上海申花

      紅星新聞
      2026-05-01 22:55:32
      人到晚年才醒悟,每月3000退休金,別指望子女養老,親情也很現實

      人到晚年才醒悟,每月3000退休金,別指望子女養老,親情也很現實

      烙任情感
      2026-04-30 10:51:15
      調查發現:每天都走路的人,大多到了72歲后,身體或有6種變化

      調查發現:每天都走路的人,大多到了72歲后,身體或有6種變化

      觀星賞月
      2026-05-01 20:41:41
      東莞口腔醫院拒絕改名!

      東莞口腔醫院拒絕改名!

      聽心堂
      2026-04-29 10:35:17
      59歲歌手張宇患罕見病20年,妻子十一郎首度公開內情:無法徹底根治,嚴重到不唱歌連說話都可能出問題

      59歲歌手張宇患罕見病20年,妻子十一郎首度公開內情:無法徹底根治,嚴重到不唱歌連說話都可能出問題

      芒果都市
      2026-05-01 17:45:29
      弘一法師:當你開始冷漠、獨來獨往、殺伐果斷——恭喜,你重生了

      弘一法師:當你開始冷漠、獨來獨往、殺伐果斷——恭喜,你重生了

      杏花煙雨江南的碧園
      2026-04-30 13:15:03
      客場亮劍,全員開火!山東男籃16分勝遼寧,大比分1-1挺進決勝局

      客場亮劍,全員開火!山東男籃16分勝遼寧,大比分1-1挺進決勝局

      老周觀體育
      2026-05-01 22:48:38
      0-1,中國男足不敵歐洲勁旅,獲得意大利國家之杯第8名

      0-1,中國男足不敵歐洲勁旅,獲得意大利國家之杯第8名

      俯身沖頂
      2026-05-01 19:10:11
      炸了!美伊戰火重開,美軍航母突然遭襲!

      炸了!美伊戰火重開,美軍航母突然遭襲!

      大嘴說天下
      2026-04-30 19:07:44
      湯杯戰報:連爆大冷世界第2第6都輸了,梁王力助國羽大分2-0

      湯杯戰報:連爆大冷世界第2第6都輸了,梁王力助國羽大分2-0

      求球不落諦
      2026-05-01 18:07:27
      零跑7.1萬臺,理想3.4萬臺,小米超3萬臺!多家車企公布4月銷量!

      零跑7.1萬臺,理想3.4萬臺,小米超3萬臺!多家車企公布4月銷量!

      小南看車
      2026-05-01 15:12:55
      歌手張宇罹罕病消失8年!妻子曝近況,愿折壽換他痊愈

      歌手張宇罹罕病消失8年!妻子曝近況,愿折壽換他痊愈

      郭茂辰海峽傳真
      2026-05-01 22:11:00
      掘金最該送走他!1.2億場均8+3,約基奇體系的產物,都不如肯納德

      掘金最該送走他!1.2億場均8+3,約基奇體系的產物,都不如肯納德

      你的籃球頻道
      2026-05-01 14:36:23
      洛陽白馬寺發布鄭重聲明:不少游客因通過非官方第三方渠道購買非法倒賣的預約門票,導致無法正常入寺,切勿輕信

      洛陽白馬寺發布鄭重聲明:不少游客因通過非官方第三方渠道購買非法倒賣的預約門票,導致無法正常入寺,切勿輕信

      極目新聞
      2026-04-29 18:10:47
      2026-05-01 23:20:49
      鈦媒體APP incentive-icons
      鈦媒體APP
      獨立財經科技媒體
      133076文章數 862128關注度
      往期回顧 全部

      科技要聞

      DeepSeek發布多模態論文又連夜刪除

      頭條要聞

      8歲女孩跟隨鄰居長江游泳溺亡 鄰居曾抓住她又脫手

      頭條要聞

      8歲女孩跟隨鄰居長江游泳溺亡 鄰居曾抓住她又脫手

      體育要聞

      無奈!約基奇:這要在塞爾維亞 全隊早被炒了

      娛樂要聞

      馬筱梅產后身材恢復超好 現身戶外直播

      財經要聞

      GPU神話松動,AI真正的戰場變了

      汽車要聞

      限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

      態度原創

      藝術
      游戲
      家居
      親子
      公開課

      藝術要聞

      砸20億,388米!2022年中國建成最高樓,就在深圳!

      LPL第二賽段:打破魔咒,讓一追二,IG三局戰勝WBG

      家居要聞

      靈動實用 生活藝術場

      親子要聞

      弟弟嘴饞想吃藍莓,姐姐今天滿足他,不花錢免費吃真過癮

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 强被迫伦姧高潮无码bd电影| 久久天天丁香婷婷中文字幕| 99久久无码国产精品性出奶水| 日本大肚子孕妇交xxx| 亚洲国产av无码综合原创国产| 国产AV旡码专区亚洲AV| 国产精品男人的天堂| 老师黑色丝袜被躁翻了av| 亚洲中文字幕第一页在线| 亚洲精品综合av天堂| 台湾无码av一区二区三区| 成人午夜亚洲精品无码网站| 亚洲欧美精品午睡沙发| 国产日本免费最新一区| 国产在视频线在精品视频2020| 无码人妻一区二区三区在线| 神马视频| 天天摸天天做天天爽天天弄| 亚洲国产另类久久久精品| 成人伊人青草久久综合网| www.亚洲成人| 亚洲AV伊人久久综合密臀性色| 成人国产精品一区二区免费看| 中文字幕人妻有码久视频| 人妻斩0930无码视频| 中文字幕丝袜一区二区| 国产精品女同久久久久久| 国产线播放免费人成视频播放| a无码| 国产尤物在线视精品在亚洲| 欧美日韩中文国产va另类 | 福利导航网址| 国产jizz| 99热这里只有精品国产99| 精品国内在视频线2019| 免费成人网一区二区天堂| 91成人在线免费观看| 日韩av一区二区三区| 伊人色合天天久久综合网| 男人添女人下部高潮视频| 国产亚洲合集|