<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      做題家vs科學家:一個30B模型如何顛覆萬億參數的AI軍備競賽

      0
      分享至


      整個行業都在比誰的參數更大、誰的上下文更長時,你有沒有想過一個問題:智能的本質到底是什么?是把整個互聯網塞進參數里,還是學會如何在需要時精準地找到并驗證信息?當所有人都在用蠻力堆砌萬億參數的"做題家模型"時,陳天橋和代季峰卻選擇了一條完全相反的路:用30B參數的"科學家模型",跑出了萬億參數模型的性能。這不是什么漸進式改良,而是對整個AI發展路徑的根本性反思。

      2026年1月5日,由陳天橋和清華AI學者代季峰聯合發起的MiroMind團隊,正式發布了自研旗艦搜索智能體模型MiroThinker 1.5。這個消息本身并不算特別,畢竟最近幾個月幾乎每周都有新模型發布。但當我深入了解后發現,這個模型背后代表的思路,可能會徹底改變我們對AI能力邊界的認知。它用僅30B參數的版本,在多個基準測試中跑出了與萬億參數模型旗鼓相當甚至更好的表現。更關鍵的是,它的推理成本只有同類模型的1/20,推理速度還更快。這聽起來像是在違反物理定律,但MiroMind團隊卻找到了一個非常有說服力的解釋:他們沒有讓模型變成一個死記硬背的"做題家",而是訓練它成為一個會主動查證、反復驗證、不斷修正的"科學家"。

      參數競賽的盡頭在哪里

      我一直在思考一個問題:為什么大模型發展到現在,大家都在拼命堆參數?從幾十億到幾百億,再到現在動輒上萬億,參數規模的增長似乎永無止境。背后的邏輯其實很簡單,就是所謂的Scaling Law:模型越大,能力越強。這個規律在過去幾年確實有效,每次參數翻倍,模型性能都會有顯著提升。但我越來越感覺到,這條路可能正在接近它的天花板。

      想想看,把參數從1000億增加到10000億,需要10倍的算力、10倍的訓練時間、10倍的成本。但性能提升有10倍嗎?顯然沒有。邊際收益遞減的規律在這里體現得淋漓盡致。更重要的是,即使你把整個互聯網的內容都塞進模型參數里,它還是會出現幻覺,還是會在遇到訓練數據中沒見過的問題時給出錯誤答案。因為它本質上只是在做模式匹配和統計推斷,并不是真正的理解和推理。

      MiroMind團隊提出的"做題家模式"這個比喻特別貼切。傳統大模型就像一個死記硬背的學生,試圖把所有知識都裝進腦子里,考試時靠記憶和題感作答。這種方法在應對見過的問題時確實有效,但一旦遇到新問題,就只能靠概率猜測,給出一個"看起來合理"的答案。這就是為什么大模型經常會一本正經地胡說八道,因為它們并不知道自己不知道什么,只是根據統計規律拼湊出一個答案。

      而MiroThinker 1.5代表的是另一種思路,團隊稱之為"科學家模式"。它不是試圖記住所有知識,而是學會如何進行研究:遇到問題先提出假設,然后主動去外部世界查找證據,發現證據不符就修正假設,再次查證,不斷迭代直到證據收斂。這個過程和真正的科學研究如出一轍,也是人類解決復雜問題的方式。關鍵區別在于,它不是在參數空間里閉門造車,而是不斷與外部世界交互驗證。


      MiroThinker-v1.5

      Interactive Scaling:智能增長的第三維度

      我認為MiroMind團隊最大的貢獻,不是做出了一個性能更好的模型,而是系統性地提出了"Interactive Scaling"這個概念。過去我們談論模型能力的擴展,主要關注兩個維度:模型參數規模和上下文長度。參數越大,理論上能存儲的知識越多;上下文越長,能處理的信息越多。但MiroMind指出了第三個維度:與外部世界的交互頻率和深度。

      這個觀點聽起來簡單,但意義深遠。傳統的Scaling Law本質上是在擴展模型的"內存",試圖把世界知識都裝進參數里。但世界是無限的,參數是有限的。無論你的模型有多大,總有它沒見過的知識、沒學過的概念、沒經歷過的情況。而Interactive Scaling的思路是:與其把有限的算力都用來擴大內存,不如訓練模型學會高效地"借力"——在需要時快速從外部世界獲取信息。

      MiroThinker 1.5在訓練階段就把這種交互能力內化了。它不是把Interactive Scaling當作推理時的外掛功能,而是從訓練開始就系統性地強化這種行為模式。具體來說,訓練過程中會刻意削弱對"單次完美推理"的獎勵,轉而強化三種核心能力:主動求證、多輪校驗與自我修正、以及對推理捷徑的系統性過濾。

      主動求證這個能力特別關鍵。模型被訓練成會把每個關鍵判斷拆解為可驗證的子假設,然后主動發起對外查詢、檢索和比對。它不會滿足于給出一個"看起來合理"的答案,而是要找到可靠的信源支撐。如果輸出缺乏證據支持,在訓練中會被系統性懲罰。這就培養了模型的一種本能:在不確定時,先查證再判斷。

      多輪校驗與自我修正則讓模型學會了"慢思考"。推理不再是一次性的線性路徑,而是可以反復回溯和修正的過程。當模型發現證據沖突時,它會顯式調整假設,重新查證,而不是帶著錯誤繼續推下去。這就避免了傳統思維鏈推理中常見的問題:一旦某一步出錯,后面的所有推理都會隨著錯誤累積而崩潰。

      最后是反幻覺機制。訓練中不僅評估答案是否正確,更關注答案是如何得到的。那些依賴統計相關性、模式記憶或隱含先驗而繞過證據驗證的路徑,都會被標記為低質量推理。這種訓練方式讓模型形成了一種習慣:在高風險結論前,必須先查證再收斂。

      通過這種方式,MiroThinker 1.5用更小的參數規模,換來了更高的智能密度。它不需要記住所有知識,只需要知道如何在需要時快速、精準地找到并驗證信息。這就是為什么30B參數的模型能跑出萬億參數模型的性能——因為它的智能增長空間不在內部參數,而在外部交互。

      時序敏感訓練:破解因果律的關鍵

      除了Interactive Scaling,MiroThinker 1.5還有一個獨特的技術創新:時序敏感訓練沙盒。這個技術解決了一個長期困擾大模型的根本性問題——如何真正預測未來,而不是復述已知結果。

      我發現很多人在談論大模型的"預測能力"時,其實混淆了兩個概念。傳統大模型在訓練時通常處于一種"上帝視角",它在訓練數據里早已"見過結果",所學到的往往只是如何復述這些結果,而不是真正的預測。這就像讓學生做練習題,但題目和答案都已經告訴他了,他只需要記住就行。這種訓練方式培養不出真正的預測能力。

      MiroMind團隊設計的時序敏感訓練沙盒,為模型戴上了一個"緊箍咒":嚴格約束只能使用當前可見的信息,在信息可見性受限的情況下做出判斷。這個約束貫穿整個訓練過程,模型的每一步推理都只能訪問當前時間戳之前的信息,從機制上徹底杜絕了"未來信息泄露"的可能性。

      具體實現上,團隊構建了一個可控數據合成引擎,能夠生成覆蓋多任務類型、難度和時間戳都可控的訓練數據。關鍵是,每道題目的"正確答案"不是靜態標簽,而是隨時間戳動態演化的。模型必須在嚴格的信息可見性約束下,基于當時可獲取的信息做出判斷,而校驗過程同樣會顯式引入時間戳約束,確保推演與評分都符合真實世界的時序邏輯。

      更令我感興趣的是,這些預測不是"玄學"或事后諸葛亮,而是可以完全復盤驗證的。團隊提供的每個案例都有完整的思考過程記錄,可以看到模型是如何收集信息、如何分析情緒面和板塊走勢、如何在多個候選中做出選擇的。這種可驗證性正是時序敏感訓練帶來的:模型被迫學會在信息不完備、噪聲存在、信號延遲的真實條件下進行推演與修正。

      實測體驗:城鎮人口增長

      我花了相當長時間測試MiroThinker 1.5的實際表現,選了一個需要跨時間數據分析的問題:"從1949年到2009年,中國城鎮人口數量年均增長百分之多少?"這個問題特別有意思,因為它需要模型找到可靠的歷史統計數據,理解年均增長率的計算方法,還要確保數據源的權威性。

      MiroThinker 1.5的回答過程讓我印象深刻。它首先梳理了自己需要收集的所有信息:1949年中國城鎮人口基數、2009年城鎮人口數據、數據來源的可靠性驗證。然后逐一查證,還會在每個步驟中反思驗證當前數據的準確性。比如它會交叉對比國家統計局、歷年統計年鑒等多個權威來源的數據,確保數字的一致性。

      最終給出的結論很嚴謹,整個推理過程透明可見,數據來源清晰標注,計算步驟完整展示。我注意到MiroThinker 1.5從不會直接給出一個數字就完事,而是會呈現完整的數據獲取、驗證和計算過程,讓用戶可以完全復現和檢驗。


      實測城鎮居民增長案例

      通過這些實測,我最深刻的感受是:MiroThinker 1.5確實實現了從"給答案"到"找答案"的轉變。它不是告訴你一個結論讓你相信,而是展示完整的研究過程讓你理解。這種透明性和可驗證性,對于需要高置信度決策的場景來說,價值遠超一個簡單的答案。

      想自己試試的朋友可以訪問:https://dr.miromind.ai/

      基準測試:用數據說話

      當然,實際體驗只是一方面,更客觀的評價還是要看基準測試。MiroThinker 1.5在多個權威基準測試中的表現都達到了全球第一梯隊水平。

      在BrowseComp測試中,MiroThinker 1.5的表現尤為亮眼。這是一個專門針對網頁檢索類大模型的基準測試,要求模型能夠在互聯網環境中高效搜索、理解和整合信息。MiroThinker 1.5的235B版本在英文測試中得分69.8%,在中文版本中更是達到71.5%,直接刷新了此前ChatGPT-Agent保持的榜單紀錄。


      BrowseComp 性能對比

      在GAIA驗證集測試中,MiroThinker 1.5達到了82.4%的準確率。GAIA是一個評估AI agent真實世界任務完成能力的基準,包含需要多步推理、工具使用和復雜決策的任務。這個成績超過了OpenAI Deep Research的67.4%,證明了MiroThinker 1.5在復雜任務處理上的優勢。

      HLE測試的結果同樣令人印象深刻。這是一個號稱"人類終極測試"的基準,包含大量需要深度推理和世界知識的問題。MiroThinker 1.5在HLE-Text測試中達到29.5%,與DeepSeek-V3.1的29.8%幾乎持平,而后者的參數規模要大得多。

      更值得關注的是FutureX基準測試。這是一個專門評估模型預測未來事件能力的基準,MiroMind在2025年9月15日登頂排行榜第一,并保持了4個月的第一。他們將GPT-5對未來事件的預測準確率提升了11%,這個提升幅度非常顯著。

      這對AI行業意味著什么

      我認為MiroThinker 1.5的意義遠超一個性能優異的模型本身。它代表了AI發展路徑的一次重要反思,提出了一個根本性問題:我們是要繼續在參數規模的紅海里拼資源,還是探索更智能、更高效的增長路徑?

      過去幾年,AI行業陷入了一種"軍備競賽"的狀態。每家公司都在比拼誰的模型更大、誰的訓練數據更多、誰的算力更強。這種競爭推動了技術進步,但也導致了資源的極度消耗和邊際收益的遞減。當模型參數從千億增加到萬億,訓練成本可能增加十倍,但性能提升可能只有30%。這種投入產出比顯然是不可持續的。

      MiroThinker 1.5的出現,提供了一個完全不同的思路:與其把有限的算力都用來擴大模型內部的知識存儲,不如訓練模型學會如何高效地與外部世界交互。這個思路的核心在于認識到,智能不等于全知,而是等于會學習、會查證、會推理。一個30B參數的模型,如果知道如何精準地從外部世界獲取信息,就能解決那些需要萬億參數才能記住的問題。

      從技術演進的角度看,Interactive Scaling可能會成為繼模型規模、上下文長度之后的第三個核心擴展維度。未來的模型競爭,可能不再是比誰的參數更多,而是比誰的交互能力更強、驗證機制更嚴密、自我修正能力更好。這種轉變會從根本上改變AI系統的架構設計和訓練方法。

      對于開發者和企業來說,這意味著更低的部署成本和更高的可解釋性。一個30B參數的模型可以在單張RTX 4090上運行,這讓更多中小企業和個人開發者能夠使用先進的AI能力。而且由于MiroThinker 1.5的推理過程是透明可見的,企業可以更好地理解和控制AI的決策過程,這對于需要合規性和可審計性的應用場景特別重要。

      網站:https://dr.miromind.ai/

      Github代碼:https://github.com/MiroMindAI/MiroThinker

      Hugging Face模型:https://huggingface.co/miromind-ai/MiroThinker-v1.5-235B

      結尾

      也歡迎大家留言討論,分享你的觀點!

      覺得內容不錯的朋友能夠幫忙右下角點個贊,分享一下。您的每次分享,都是在激勵我不斷產出更好的內容。

      歡迎關注深思圈,一起探索更大的世界。




      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      5人4杰青!全是名校領導,被舉報學術造假,評論區怒火徹底壓不住

      5人4杰青!全是名校領導,被舉報學術造假,評論區怒火徹底壓不住

      譚談社會
      2026-05-14 22:46:49
      時隔9年再進西決!馬刺4比2淘汰森林狼 下輪戰雷霆

      時隔9年再進西決!馬刺4比2淘汰森林狼 下輪戰雷霆

      體壇周報
      2026-05-16 12:32:10
      深圳一建筑工地兩名工人從6樓墜亡?當地住建確認涉事項目有安全事故發生致2人死亡,已要求項目停工整改

      深圳一建筑工地兩名工人從6樓墜亡?當地住建確認涉事項目有安全事故發生致2人死亡,已要求項目停工整改

      大風新聞
      2026-05-15 17:32:44
      支付寶回應“扣款捐贈184萬元”:涉事賬戶存在與他人共用嫌疑,正在向警方尋求幫助

      支付寶回應“扣款捐贈184萬元”:涉事賬戶存在與他人共用嫌疑,正在向警方尋求幫助

      每日經濟新聞
      2026-05-15 13:22:06
      老人不死,孩子遭罪,如果八九十歲的雙親還在,要牢記這三條準則

      老人不死,孩子遭罪,如果八九十歲的雙親還在,要牢記這三條準則

      吃貨的分享
      2026-05-16 07:40:50
      我去!詹姆斯只值720萬了!?不簽了!?找濃眉去!

      我去!詹姆斯只值720萬了!?不簽了!?找濃眉去!

      柚子說球
      2026-05-15 10:27:52
      國務院常務會議:努力保持適度生育水平和人口規模,持續積累和釋放人力資源紅利

      國務院常務會議:努力保持適度生育水平和人口規模,持續積累和釋放人力資源紅利

      新京報
      2026-05-15 20:19:21
      德約紀錄雖破,但當年的決賽四連殺納達爾依舊偉大!

      德約紀錄雖破,但當年的決賽四連殺納達爾依舊偉大!

      網球之家
      2026-05-15 23:32:33
      馬斯克為啥到哪都帶著小兒子?最喜小兒亡賴:偏愛之外還有大計劃

      馬斯克為啥到哪都帶著小兒子?最喜小兒亡賴:偏愛之外還有大計劃

      老方
      2026-05-15 20:49:47
      1952年許世友返鄉,不顧老母親下跪勸阻,掏出槍對準三叔:斃了你

      1952年許世友返鄉,不顧老母親下跪勸阻,掏出槍對準三叔:斃了你

      云端小院
      2026-05-12 06:41:03
      要打奉陪到底,中方當面插旗,沉默72小時后,日本在境外發射導彈

      要打奉陪到底,中方當面插旗,沉默72小時后,日本在境外發射導彈

      靜兒家
      2026-05-16 09:54:33
      北京官方收廢品小程序上線!上門回收

      北京官方收廢品小程序上線!上門回收

      家住昌平
      2026-05-15 18:18:36
      王楚欽捐MVP獎金!許昕喊梁靖崑"梁哥" 孫穎莎穿小西裝破圈登頂《尚流》

      王楚欽捐MVP獎金!許昕喊梁靖崑"梁哥" 孫穎莎穿小西裝破圈登頂《尚流》

      好乒乓
      2026-05-16 10:32:42
      王菊回應床戲尺度大:男女正常需求,說出了多少女性的心聲

      王菊回應床戲尺度大:男女正常需求,說出了多少女性的心聲

      觀察鑒娛
      2026-05-14 11:13:31
      5月15日俄烏最新:烏克蘭的報復行動來了

      5月15日俄烏最新:烏克蘭的報復行動來了

      西樓飲月
      2026-05-15 18:44:45
       著名皮膚性病學家王仁林逝世,享年101歲

      著名皮膚性病學家王仁林逝世,享年101歲

      澎湃新聞
      2026-05-15 18:48:26
      從傲慢到沉默再到承認,三天中國行后,魯比奧給了解放軍一個排名

      從傲慢到沉默再到承認,三天中國行后,魯比奧給了解放軍一個排名

      小樾說歷史
      2026-05-16 11:17:23
      A股:大家系好安全帶了,不出意外的話,A股或將迎來黑色星期一?

      A股:大家系好安全帶了,不出意外的話,A股或將迎來黑色星期一?

      趨勢清風俠
      2026-05-16 11:02:29
      未雨綢繆!即將擔任皇馬主帥的穆帥,要求皇馬今夏補強后防線

      未雨綢繆!即將擔任皇馬主帥的穆帥,要求皇馬今夏補強后防線

      福醬的小時光
      2026-05-16 07:26:54
      愛吃楊梅的人一覺睡醒天塌了!泡藥水增甜,還說浙江人吃的最多

      愛吃楊梅的人一覺睡醒天塌了!泡藥水增甜,還說浙江人吃的最多

      一口娛樂
      2026-05-16 11:01:11
      2026-05-16 12:52:49
      深思圈
      深思圈
      挖掘和深度分析海外最新AI產品,分享實用出海戰略
      236文章數 17關注度
      往期回顧 全部

      科技要聞

      漲的是車價,要的是老命

      頭條要聞

      30歲女子用爬樓機鍛煉幾分鐘摔倒 搶救110分鐘后身亡

      頭條要聞

      30歲女子用爬樓機鍛煉幾分鐘摔倒 搶救110分鐘后身亡

      體育要聞

      35歲坎特,干了一件這輩子最吵的事

      娛樂要聞

      張嘉譯和老婆的差距讓人心酸

      財經要聞

      造詞狂魔賈躍亭

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      時尚
      手機
      家居
      數碼
      公開課

      0緩震的鞋,怎么就火了?

      手機要聞

      CounterPoint稱三星Galaxy S26系列手機首發全球銷量增長13%

      家居要聞

      110㎡淡而有致的生活表達

      數碼要聞

      華碩ROG槍神10X旗艦電競臺式機發布:內置全息風扇+RTX5080

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 春药高潮抽搐流白浆在线观看| 性欧美乱妇come| 自拍偷拍一区二区精品| 亚洲aa综合aa国产| 国产精品久久久久久久久久久不卡| 亚洲成人www| 国产成人精品人妻熟女a62v久久| 国内久久婷婷精品人双人| 日本免费高清一本视频| 国产精品久久久久久久久免费观看| 少妇与子乱毛片| 白人无码| 婷婷网址| 欧美成人精品手机在线| 日韩免费无砖专区2020狼| 强行18分钟处破痛哭av| av在线自偷自拍| 精品欧美h无遮挡在线看中文| 日韩成人av午夜福利| 一区二区日韩激情视频| 精人妻无码一区二区三区| 九九热精彩视频在线免费| 午夜黄色影院| 久久香蕉国产线看观看精品yw| 97在线视频观看| 三级片官网| 无遮挡十八禁污污网站在线观看 | 强行糟蹋人妻hd中文| 亚洲国产精品悠悠久久琪琪| 爆乳熟妇一区二区三区霸乳| 91婷婷| 中国xxx农村性视频| 中文字幕AV伊人AV无码AV狼人| 狠狠色噜噜狠狠狠狠五月婷| 久久亚洲2019中文字幕| 国产精品自在拍首页视频8| 亚洲成在线aⅴ免费视频| 91丨露脸丨熟女精品| 日韩精品人妻一区二区中文八零网| 国产寡妇树林野战在线播放| 亚洲精品区二区三区蜜桃|