<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      林俊旸離職后首度發聲

      0
      分享至

      3月26日晚間,前千問技術負責人林俊旸在x上發布長文詳談自己對大模型發展路線的理解及對AI下一階段的預判,這也是林俊旸自阿里離職后,首度發聲。



      原文:Junyang Lin (@JustinLin610)

      翻譯:文心一言(注:有錯誤的希望大家指正)

      文本正文

      過去兩年重塑了我們評估模型的方式和對模型的期望。OpenAI 的 o1 證明了「思考」可以成為一種核心能力——一種你專門訓練并向用戶開放的能力。DeepSeek-R1 證明了推理風格的后訓練可以在原始實驗室之外被復現和規模化。OpenAI 將 o1 描述為一個通過強化學習訓練的模型,讓它「在回答之前先思考」。DeepSeek 則將 R1 定位為一個與 o1 競爭的開源推理模型。

      那個階段很重要。但 2025 年上半年主要是關于推理思考(reasoning thinking):如何讓模型在推理時投入更多計算,如何用更強的獎勵信號來訓練它們,如何展示或調控額外的推理投入。

      現在的問題是:下一步是什么?我認為答案是智能體思考(agentic thinking):為了行動而思考,同時與環境交互,并根據來自真實世界的反饋持續更新計劃。

      1. o1 和 R1 的崛起真正教會了我們什么

      第一波推理模型教會了我們:如果想在語言模型中擴展強化學習,我們需要確定性的、穩定的、可擴展的反饋信號。數學、代碼、邏輯和其他可驗證領域成為核心,因為這些場景中的獎勵信號比通用的偏好監督強得多。它們讓 RL 能針對「正確性」而非「看起來合理」來優化。基礎設施變得至關重要。

      一旦模型被訓練為通過更長的軌跡進行推理,RL 就不再是監督微調的輕量級附加組件,而變成了一個系統工程問題。你需要大規模的 rollout、高吞吐量的驗證、穩定的策略更新、高效的采樣。推理模型的出現既是一個基礎設施故事,也是一個建模故事。

      第一個重大轉變:從擴展預訓練到擴展推理后訓練。

      2. 真正的問題從來不只是「合并思考和指令模式」

      2025 年初,Qwen 團隊中的很多人有一個宏大的愿景:理想的系統應該統一思考模式和指令模式。它應該支持可調節的推理力度,類似于低/中/高的推理設置。更好的是,它應該能從提示和上下文中自動推斷合適的推理量,讓模型自己決定何時立即回答、何時多想一會兒、何時為真正困難的問題投入大量計算。

      概念上,這是正確的方向。Qwen3 是最清晰的公開嘗試之一。它引入了「混合思考模式」,在一個模型家族中同時支持思考和非思考行為,強調可控的思考預算,并描述了一個四階段后訓練流程,明確包含了在長 CoT 冷啟動和推理 RL 之后的「思考模式融合」。

      但合并說起來容易,做好很難。難點在于數據。當人們談論合并思考和指令時,往往首先想到模型端的兼容性:一個檢查點能否支持兩種模式,一個聊天模板能否在兩者之間切換,一個服務棧能否提供合適的控制開關。更深層的問題是,兩種模式的數據分布和行為目標有本質差異。

      我們在試圖平衡模型合并與提高后訓練數據質量和多樣性時,并沒有完全做對:

      • 一個好的指令模型通常因直接、簡潔、格式合規、低延遲而獲得獎勵——服務于重寫、標注、模板化客服、結構化提取和運營 QA 等重復性高吞吐企業任務。
      • 一個好的思考模型則因在困難問題上花更多 token、保持連貫的中間結構、探索替代路徑、保留足夠的內部計算來切實提高最終答案的正確性。

      這兩種行為配置是相互拉扯的。如果合并數據沒有精心策劃,結果通常是兩邊都平庸:「思考」行為變得噪聲大、臃腫或不夠果斷,而「指令」行為變得不夠干脆、不夠可靠,且比商業用戶實際需要的更昂貴。

      實踐中,分離仍然有吸引力。2025 年晚些時候,Qwen3 的 2507 系列發布了獨立的 Instruct 和 Thinking 更新,包括獨立的 30B 和 235B 變體。在商業部署中,大量客戶仍然需要高吞吐、低成本、高度可控的指令行為來進行批量操作。對于這些場景,合并并不是明顯的好處。

      其他實驗室選擇了相反的路線。Anthropic 公開倡導集成模型哲學:Claude 3.7 Sonnet 作為混合推理模型推出,用戶可以選擇普通回復或擴展思考,API 用戶可以設置思考預算。Anthropic 明確表示,他們相信推理應該是一種集成能力,而不是一個單獨的模型。

      關鍵問題是合并是否有機。如果思考和指令只是被共同放置在一個檢查點內,但仍然表現得像兩個尷尬縫合的人格,產品體驗就仍然不自然。真正成功的合并需要平滑的推理力度光譜。模型應該能表達多個層次的努力,并理想地在它們之間自適應選擇。GPT 風格的 effort control 指向了這一點:一種關于計算的策略,而非一個二元開關。

      3. 為什么 Anthropic 的方向是有益的矯正

      產生更長的推理軌跡并不會自動讓模型更智能。在很多情況下,過多的可見推理痕跡反而暴露了糟糕的計算分配。如果模型對什么問題都用同樣冗長的方式推理一遍,說明它無法有效排序優先級、無法精簡壓縮、也無法果斷行動。Anthropic 的路線暗示了一種更克制的理念:思考應該圍繞具體的任務目標來組織。

      這種對目標效用的強調指向更大的東西:我們正在從訓練模型的時代走向訓練 Agent 的時代。Agent 是一個能制定計劃、決定何時行動、使用工具、感知環境反饋、修訂策略、并在長時間范圍內持續運行的系統。它由與世界的閉環交互來定義。

      4. 「智能體思考」到底意味著什么

      智能體思考是一個不同的優化目標。

      • 推理思考
      • 通常以最終答案前的內部推導質量來衡量:模型能否解出定理、寫出證明、產生正確的代碼、或通過基準測試。
      • 智能體思考
      • 關注的是模型能否在與環境交互的同時持續取得進展。

      核心問題從「模型能否思考足夠長?」轉變為「模型能否以一種維持有效行動的方式來思考?

      智能體思考必須處理純推理模型大多可以避免的幾件事:

      • 決定何時停止思考并采取行動;
      • 選擇調用哪個工具,以什么順序;
      • 整合來自環境的嘈雜或不完整的觀察;
      • 在失敗后修訂計劃;
      • 在多輪和多次工具調用中保持連貫性。

      智能體思考,就是讓模型通過行動來推理。

      5. 為什么智能體 RL 基礎設施更難

      一旦目標從解決基準測試問題轉向解決交互式任務,RL 技術棧就變了。用于經典推理 RL 的基礎設施不夠用了。在智能體 RL 中,模型的策略被嵌入到一個更龐大的外圍系統中:工具服務器、瀏覽器、終端、搜索引擎、模擬器、執行沙箱、API 層、記憶系統和編排框架。環境不再是靜態的驗證器,它本身就是訓練系統的一部分。

      這創造了新的系統需求:訓練和推理必須更干凈地解耦。沒有這種解耦,rollout 吞吐量就會崩潰。想象一個編碼 Agent,需要在實時測試環境中運行它生成的代碼:推理端卡在那里等執行反饋,訓練端因為拿不到足夠的完整軌跡而空轉,整個管道運行遠低于預期的 GPU 利用率。

      環境本身也成為一級研究產物。在 SFT 時代,我們癡迷于數據多樣性。在 Agent 時代,我們應該癡迷于環境質量:穩定性、現實性、覆蓋范圍、難度、狀態多樣性、反饋豐富度、防利用性和 rollout 生成的可擴展性。環境構建已經開始從邊緣項目變成一個真正的創業品類。

      6. 下一個前沿是更有用的思考

      我的預期是智能體思考將成為主導的思考形式。它最終可能會取代大部分舊的靜態獨白式推理思考:那種過于冗長、孤立的內部軌跡,試圖通過輸出越來越多的文本來彌補缺乏交互的不足。即使在非常困難的數學或編碼任務上,一個真正先進的系統也應該有權搜索、模擬、執行、檢查、驗證和修訂。目標是穩健而高效地解決問題。

      訓練這類系統最難的挑戰是獎勵作弊(reward hacking)。一旦模型獲得有意義的工具訪問,獎勵作弊就變得危險得多。有搜索能力的模型可能在 RL 期間學會直接搜索答案。編碼 Agent 可能會利用代碼倉庫中的未來信息走捷徑。存在隱性信息泄漏的訓練環境,可以讓模型表現看起來超越人類,但實際上只是在訓練它作弊。

      智能體思考也意味著工具架工程(harness engineering)。核心智能將越來越多地來自多個 Agent 如何被組織:一個規劃和路由工作的編排者,充當領域專家的專業 Agent,以及執行更窄任務的子 Agent。未來是從訓練模型到訓練 Agent,從訓練 Agent 到訓練系統的轉變。

      結論

      更深層的轉變是從推理思考到智能體思考:從更長的思考到為了行動而思考。訓練的核心對象已經改變了。它不再是單獨的模型,而是模型加環境的系統。這改變了「好的思考」意味著什么:在真實世界約束下維持行動的最有用的軌跡,而不是最長或最可見的那個。

      在推理時代,優勢來自更好的 RL 算法、更強的反饋信號和更可擴展的訓練管道。在 Agent 時代,優勢將來自更好的環境、更緊密的訓練-服務集成、更強的工具架工程,以及讓模型的決策和決策帶來的后果形成閉環的能力。

      聲明:個人原創,僅供參考

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      約翰·沃爾重返奇才,在NBA選秀抽簽中扮演“圓滿”的角色

      約翰·沃爾重返奇才,在NBA選秀抽簽中扮演“圓滿”的角色

      好火子
      2026-05-07 23:41:19
      韓媒力挺央視:中國男足都沒進世界杯,國際足聯以為中國好對付嗎?

      韓媒力挺央視:中國男足都沒進世界杯,國際足聯以為中國好對付嗎?

      硯底沉香
      2026-05-07 10:42:21
      安妮·海瑟薇30美元平替包火了

      安妮·海瑟薇30美元平替包火了

      熱搜摘要官
      2026-05-08 00:05:35
      新加坡現2名漢坦病毒密接者:已入境近1周、強制隔離30天...

      新加坡現2名漢坦病毒密接者:已入境近1周、強制隔離30天...

      新加坡萬事通
      2026-05-07 19:45:45
      震驚!月薪9500元男子被相親女嫌棄,直言不合適,其對話登上熱搜

      震驚!月薪9500元男子被相親女嫌棄,直言不合適,其對話登上熱搜

      火山詩話
      2026-05-06 06:50:06
      亨德利與特魯姆普就世錦賽2029年易地產生分歧

      亨德利與特魯姆普就世錦賽2029年易地產生分歧

      綠茵狂熱者
      2026-05-07 18:46:47
      現在才明白,中國出臺的阻斷令,會讓這些銀行惶恐不安!

      現在才明白,中國出臺的阻斷令,會讓這些銀行惶恐不安!

      達文西看世界
      2026-05-07 16:44:24
      曝知名網紅徐州大表哥塌房!用愛國人設賺錢,花6百萬移民法國

      曝知名網紅徐州大表哥塌房!用愛國人設賺錢,花6百萬移民法國

      裕豐娛間說
      2026-05-06 15:55:19
      三星獨家供貨!iPhone 20首發極窄四曲面屏:直屏退場

      三星獨家供貨!iPhone 20首發極窄四曲面屏:直屏退場

      快科技
      2026-05-05 21:03:35
      1945年延安七大:七百余人冒險赴會,多人犧牲在路途上

      1945年延安七大:七百余人冒險赴會,多人犧牲在路途上

      小莜讀史
      2026-05-06 21:02:11
      成都一綠化帶現“情花毒”曼陀羅?官方:有毒非政府種植,將核實移除

      成都一綠化帶現“情花毒”曼陀羅?官方:有毒非政府種植,將核實移除

      上游新聞
      2026-05-07 16:35:15
      蘇炳添五一開30萬車出游,8歲兒子出鏡,妻子三胎產后1年素顏漂亮

      蘇炳添五一開30萬車出游,8歲兒子出鏡,妻子三胎產后1年素顏漂亮

      阿紿聊社會
      2026-05-05 15:57:04
      西漢姆聯CEO卡里姆·維拉尼在荒唐決定后放棄阿森納名宿

      西漢姆聯CEO卡里姆·維拉尼在荒唐決定后放棄阿森納名宿

      綠茵情報局
      2026-05-07 23:48:57
      火星捷徑被偶然發現,往返只要5個月

      火星捷徑被偶然發現,往返只要5個月

      NASA航天愛好者
      2026-05-07 08:35:41
      上觀新聞:上海海港陷入保級區是為自殺式引援還債

      上觀新聞:上海海港陷入保級區是為自殺式引援還債

      懂球帝
      2026-05-07 13:23:17
      文殊菩薩:無名指比食指長者,非常人體質,注定經歷4種修行考驗

      文殊菩薩:無名指比食指長者,非常人體質,注定經歷4種修行考驗

      紙鳶奇譚
      2025-06-27 14:24:22
      蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

      蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

      川渝視覺
      2026-04-17 22:13:14
      至今,全球還沒有完成統一的10個國家,你知道幾個?

      至今,全球還沒有完成統一的10個國家,你知道幾個?

      七號說三國
      2026-04-19 19:35:33
      醪糟再次被關注!醫生發現:高血脂患者喝醪糟,不用多久4大變化

      醪糟再次被關注!醫生發現:高血脂患者喝醪糟,不用多久4大變化

      芹姐說生活
      2026-04-19 15:52:53
      川崎工程師坦白:整個日本摩托圈,看到張雪倆字,心就咯噔一下

      川崎工程師坦白:整個日本摩托圈,看到張雪倆字,心就咯噔一下

      嘴角上翹的弧度
      2026-04-11 07:02:09
      2026-05-08 00:51:00
      互聯網坊間八卦 incentive-icons
      互聯網坊間八卦
      多平臺入駐
      5950文章數 6900關注度
      往期回顧 全部

      科技要聞

      月之暗面完成20億美元融資,估值突破200億

      頭條要聞

      日媒詢問中國是否希望恢復中日之間人員往來 中方回應

      頭條要聞

      日媒詢問中國是否希望恢復中日之間人員往來 中方回應

      體育要聞

      巴黎再進歐冠決賽,最尷尬的情況還是發生了

      娛樂要聞

      Lisa主持!寧藝卓觀看脫衣秀風波升級

      財經要聞

      人均年薪406萬,這家ST公司驚呆市場!

      汽車要聞

      雷克薩斯全新純電三排SUV 全新TZ全球首發

      態度原創

      親子
      游戲
      房產
      公開課
      軍事航空

      親子要聞

      最新回復!東湖學府幼兒園開園有變,延至明年春

      《遠星物語》團隊新作《皓白初曉》登Steam EA

      房產要聞

      負債23億,抵押482畝地!海南這家巨頭,慘遭拍賣!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普:美伊"很可能"達成協議

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久av高潮av喷水av无码| 婷婷开心深爱五月天播播| 狠狠干2025| 国产suv精品一区二av18| 久久精品国产99亚洲精品| 日韩av激情在线| 国产熟女内射oooo| 91a'v| 美女毛片一区二区三区四区| 亚洲精品久久久久久无码色欲四季 | 久久精品99国产国产精| 亚洲色吧Av| 毛多水多高潮高清视频| 无码av免费精品一区二区三区| 久草热久草热线频97精品| 边吃奶边添下面好爽| 永久黄网站色视频免费| 国产精品无码dvd在线观看| 五月天婷婷一本到伊人| 亚洲一二三四五区视频| 午夜亚洲aⅴ无码高潮片苍井空 | 自拍偷自拍亚洲精品偷一| 国产最爽的AV片在线观看| 亚洲愉拍一区二区精品| 精品国产成人高清在线| 99久久久无码国产精品性| 国产v区| 久久精品电影| 日韩激情无码av一区二区| 中文字幕亚洲综合久久综合| 精品免费国产一区二区| 亚洲国产日韩在线观看| 午夜dj在线观看高清在线视频完整版| 东京热大乱w姦| 免费播放一区二区三区| 国产成人a人亚洲精v品无码| 国产精品任我爽爆在线播放6080| 国产精品系列无码专区| 熟妇人妻无码中文字幕老熟妇| 丝袜.制服.丝袜.亚洲.日韩.中文| 久久一日本道色综合久久|