<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      當AI學會了驗證自己的推理

      0
      分享至


      你有沒有想過,AI 到底能不能真正解決復雜問題?大多數人用 AI 的體驗可能是這樣的:問它一個問題,它給你一個看起來很有道理的答案,但你總覺得心里沒底,不知道該不該相信。這種不確定性正是當前 AI 系統的致命弱點。它們善于生成流暢的文字,卻不擅長保證答案的準確性。但如果我告訴你,有一個 AI 系統能在提前 15 天預測黃金價格,誤差只有 0.08%;能在一個月前準確預測超級碗冠軍;甚至能提前三周預測格萊美最大贏家,你會不會覺得這才是 AI 應該有的樣子?

      這不是科幻故事,而是由著名企業家陳天橋創立的 MiroMind 正在實現的現實。他們剛剛發布了最新的研究型 AI agent 家族:MiroThinker-1.7 和 MiroThinker-H1。我深入研究了這個系統后發現,它代表著一個重要的轉變:從概率性生成轉向可驗證的準確性。這不是簡單的模型升級,而是對 AI 系統本質的重新思考。更讓我興奮的是,這種能力很快就能通過他們的移動應用體驗到,讓普通用戶也能使用這種級別的 AI 推理能力。

      為什么我們需要重型推理系統

      我一直覺得,當前大多數 AI 系統有一個根本性問題:它們被設計成聊天機器人,而不是問題解決者。聊天機器人的目標是提供看起來合理的回答,讓對話繼續下去。但真正的問題解決需要的是完全不同的能力:長鏈推理、與現實世界的互動、對不確定性的處理,以及最重要的——驗證自己的答案是否正確。

      MiroMind 團隊提出了一個我非常認同的觀點:下一個前沿不是更廣泛的知識或更精致的對話,而是能夠持續進行長鏈推理、與不確定性交互、與世界互動,并在關鍵任務上收斂到更好答案的系統。這種系統被他們稱為"重型 AI agent",專門用來處理那些真正困難、高價值的問題。聽起來很抽象,但當你看到它能提前預測金融市場走勢、體育賽事結果甚至娛樂行業趨勢時,你就能理解這種能力的價值了。

      從性能數據來看,MiroThinker-H1 在多個關鍵基準測試上達到了業界最先進水平。在 BrowseComp 和 BrowseComp-ZH 這兩個衡量模型在英文和中文環境下執行高級研究能力的基準測試中,MiroThinker-H1 超越了所有主要競爭模型。在科學研究和高級數學領域,它在 FrontierScience-Research 和 FrontierScience-Olympiad 上創下新紀錄,甚至超過了領先的閉源前沿模型。在金融領域,它在 FinSearchComp 上領先業界,展示了其在高精度經濟分析方面的實用性。


      但我更關注的不是這些冰冷的數字,而是背后的設計理念。MiroMind 團隊認為,與現實世界反饋的交互不是問題解決的輔助手段,而是核心機制。這個觀點徹底顛覆了傳統 AI 的設計思路。傳統 AI 主要依賴訓練數據中的知識,而 MiroThinker 則被訓練成主動尋找證據、測試假設、不斷修正直到收斂,讓外部驗證成為推理本身的原生部分。

      交互質量比交互數量更重要

      在研究 MiroThinker 的技術細節時,我發現了一個特別有意思的洞察:更多的交互輪次、更多的工具調用、更多的重試,確實能在基準測試上帶來快速提升。但這種簡單的交互擴展并不等同于有效的交互擴展。當中間步驟無法真正推進解決方案時,額外的交互只會放大噪音、復合錯誤,產生表面上的運動而沒有實質進展。

      這讓我想起自己工作中的經歷。有時候為了解決一個問題,我會嘗試很多不同的方法,做很多實驗,但最后發現大部分嘗試都是無用功,甚至讓問題變得更復雜。真正有效的解決方案往往需要的是深思熟慮的步驟,而不是盲目的大量嘗試。MiroMind 團隊也意識到了這一點,他們拒絕將交互量作為能力的代理指標,而是轉向從兩個維度提高交互質量。

      一方面,他們繼續深化 AI agent 在各種場景下的推理深度和精確度,因為這是應對更長時間跨度任務的基礎核心能力。另一方面,他們致力于讓每個單獨的步驟更加準確可靠,加強中間決策的質量,使得交互擴展反映的是真正的進展,而不是累積的噪音。在實踐中,這要求 AI agent 放慢速度:暫停、驗證、權衡替代方案,然后審慎地給出答案,確保做對的事而不只是做事。

      這種"慢下來"的設計哲學一開始可能讓人覺得反直覺。在這個追求速度的時代,為什么要讓 AI 變慢?但仔細想想,這恰恰是重型解決者的特征:它不是為速度而建,而是為那些真正困難、高價值、需要準確性的問題而建。就像一個經驗豐富的工程師在做關鍵決策時,寧愿多花時間思考也不會草率下結論。

      兩大技術升級讓推理更可靠

      為了實現這種高質量的交互,MiroMind 引入了兩項重大技術升級。第一項是升級 agent 原生訓練,第二項是引入驗證為中心的重型推理模式。我覺得這兩項升級的組合非常巧妙,它們從局部和全局兩個層面提升了系統的可靠性。

      第一項升級從一個簡單的觀察開始:如果 AI agent 的基本動作是嘈雜、膚淺或弱基礎的,那么擴展交互只會擴展低效率。更多的輪次無法彌補弱步驟質量。為了讓交互擴展真正有效,首先應該提高模型的 agent 原生能力——形成可靠的局部判斷、采取可靠的中間行動、在長時間跨度的問題解決過程中保持正軌的能力。


      MiroThinker-1.7 在訓練流程中引入了中期訓練作為新的核心階段。在這個階段,系統合成了大規模專注于規劃、推理和總結的數據,同時顯著擴展了任務領域的多樣性。這為模型提供了更強的 agent 行為原生基礎:它變得更能夠分解目標、選擇合適的工具調用、解釋工具響應并綜合最終答案。結果是,交互過程中的每個單獨步驟都變得更可靠、更有根據,為有效的交互擴展建立了更強的基礎。

      在這個新基礎之上,后續的訓練階段(監督微調、偏好優化和強化學習)進一步將這些能力塑造成更結構化、更穩健的長鏈行為。這些階段共同使模型能夠在擴展的交互軌跡中保持準確的推理和有根據的行動,保持朝向任務目標的連貫進展,實現更可靠的長時間跨度問題解決。

      第二項升級更加激進。MiroThinker-H1 引入了驗證為中心的重型推理模式。這個架構背后的核心信念是,推理的可靠性最終取決于系統檢查自己推理過程的能力。驗證器作為關鍵組件貫穿始終,在兩個層面運作。在局部驗證層面,它打破概率偏差,充分探索正確的路徑,而不僅僅是可能的路徑。在全局驗證層面,它審計完整的證據鏈,讓支持最充分的答案勝出,而不是最自信的答案。


      我特別喜歡這種設計。它讓我想起科學研究的方法:提出假設、設計實驗、收集證據、驗證結論。MiroThinker-H1 本質上是在模擬這個過程,但速度快得多。在這種模式下,除了準確性的顯著提升,團隊還觀察到一個有希望的現象:交互步驟數量大幅減少。這表明驗證器本質上是在過濾掉那些不產生信息增益的步驟,將計算集中在真正推進解決方案的交互上。更少的步驟并不與"重型"矛盾,相反,它們為進一步擴展有效交互奠定了基礎。

      關于MiroThinker 1.7&H1的詳細技術解讀,可以看官方的技術報告,目前已登上了HuggingFace Daily Paper的第一名:

      https://huggingface.co/papers/2603.15726

      實際案例:預測能力的驚人展示

      理論說得再多,不如看看實際效果。MiroMind 團隊展示了三個令人印象深刻的預測案例,每一個都展示了系統在不同領域的能力。

      第一個是金融預測案例。2026 年 2 月 10 日,系統被要求預測 2 月 25 日的黃金價格。MiroThinker 預測黃金價格將達到每盎司 5185 美元。實際結果是,Fortune 報價 5181 美元,150 Currency 報價 5185.89 美元,而 CME GCG26 期貨結算價為 5206.40 美元。與 Fortune 的現貨報價相比,誤差僅為 4 美元,相對誤差 0.08%。提前 15 天預測一個波動劇烈的金融市場,誤差控制在 0.08% 以內,這個精度讓我非常震驚。


      第二個是體育預測案例。2026 年 1 月 6 日,系統被要求預測誰會贏得 2026 年超級碗。MiroThinker 識別出西雅圖海鷹隊最有可能成為超級碗 LX 冠軍。實際結果是,2 月 8 日,西雅圖海鷹隊以 29-13 擊敗新英格蘭愛國者隊,贏得超級碗 LX。提前一個月準確預測冠軍,這不是運氣,而是系統通過分析大量數據、評估各種因素后得出的結論。


      第三個是娛樂預測案例。2026 年 1 月 8 日,系統被要求預測哪位藝術家最有可能主導 2026 年格萊美獎。MiroThinker 識別出 Kendrick Lamar 最有可能主導 2026 年格萊美獎。實際結果是,在 2 月 1 日舉行的第 68 屆格萊美獎上,Kendrick Lamar 獲得 5 個獎項,包括年度唱片獎《Luther》,成為當晚最大贏家。提前三周準確預測,再次驗證了系統的分析能力。

      這三個案例覆蓋了完全不同的領域——金融、體育、娛樂,但都展示了相同的特點:系統不是在猜測,而是在通過嚴格的推理、證據收集和驗證過程來得出結論。這正是 MiroMind 所追求的"可驗證的準確性",而不是"看起來合理的答案"。

      從模型到產品:App讓AI推理觸手可及

      了解了 MiroThinker 的強大能力后,我最關心的問題是:普通用戶能不能用上這些能力?畢竟,再先進的技術如果只能停留在實驗室里,對大多數人來說都是遙不可及的。好消息是,MiroMind 剛剛在 3 月 5 日宣布正式在 iOS、Android 和網頁平臺公開發布他們的 AI 推理平臺,這標志著他們在產品化道路上的重要里程碑。

      我特別關注他們的移動應用,因為這代表著真正的普及化。MiroMind 的 App 現在已經可以在 App Store 和 Google Play 下載,讓全球用戶都能體驗到這種通用 AI 推理能力。更重要的是,MiroThinker-1.7 的最新能力即將在 App 上線,這意味著用戶很快就能在手機上使用這些先進的推理和預測功能。


      從產品設計來看,MiroMind 的定位很清晰:它不是又一個聊天機器人,而是一個為解決重要問題而設計的推理平臺。App 提供了幾個核心功能,每一個都體現了他們"驗證為中心"的設計理念。

      深度研究模式是我最感興趣的功能之一。在這個模式下,系統會自主搜索、瀏覽和綜合來自數百個來源的信息,提供全面的、有證據支持的報告。它不只是做表面的總結,而是深入挖掘復雜主題背后的真相。這對研究人員、分析師或任何需要深入了解某個話題的人來說都非常有價值。

      高級推理功能專門用于處理數學、編程、邏輯和結構化分析中的復雜問題。系統采用迭代的、多步驟的驗證來確保推理鏈每個階段的準確性。每個中間結論都會在系統繼續之前被檢查,消除了困擾傳統 AI 輸出的復合錯誤。這種嚴格的驗證過程正是 MiroThinker 與其他 AI 系統的根本區別。

      預測智能功能則是針對前瞻性分析優化的。通過評估數據模式并應用時間推理,平臺支持從金融預測、情景建模到競爭格局分析的各種應用。它為用戶提供的是 AI 驅動的遠見,而不是回顧性總結。前面提到的那些驚人預測案例,都可以通過這個功能實現。

      實時網絡智能是另一個關鍵特性。系統不僅僅依賴訓練數據,而是集成實時網絡搜索,將每個回答都建立在當前的、可驗證的信息基礎上。它不會猜測,而是主動根據最新的可用來源驗證聲明,提供用戶可以信任的答案。

      對于想要下載體驗的用戶,可以通過以下方式獲取:

      • iOS 用戶可以在 App Store 搜索 MiroMind 或訪問 https://apps.apple.com/app/id6759390724 下載;

      • Android 用戶可以在 Google Play 搜索或訪問 https://play.google.com/store/apps/details?id=ai.miromind.app 下載。

      • 網頁版可以直接訪問官網https://dr.miromind.ai/使用。

      我對未來的期待

      雖然 MiroMind 已經展示了令人印象深刻的能力,但我認為這只是開始。真正讓我興奮的是這種驗證為中心的方法論可能帶來的長遠影響。

      想象一下,如果每個企業決策都能有一個 AI 系統幫助分析、推理和驗證,會是什么樣子?如果科研人員能夠讓 AI 幫助他們探索假設、設計實驗、分析數據,同時確保每一步都經過嚴格驗證,科學發現的速度會加快多少?如果醫生在診斷疾病時能夠借助 AI 系統全面分析患者數據、文獻證據和治療方案,同時系統能夠解釋和驗證每個推理步驟,醫療質量會提升到什么程度?

      當然,這些應用場景的實現還需要時間。AI 系統再強大,也需要與人類專家的經驗和判斷相結合。但 MiroMind 提供的方向是正確的:不是用 AI 替代人類,而是讓 AI 成為人類解決復雜問題的可靠伙伴。

      從產品化的角度,我期待看到 MiroThinker-1.7 在移動應用上的表現。把如此強大的推理能力放到每個人的手機上,這本身就是一個壯舉。如果他們能夠在保持準確性的同時優化用戶體驗,讓普通用戶也能輕松使用這些高級功能,那將真正實現技術的民主化。

      API Console 的推出也值得期待。一旦開發者能夠方便地調用這些推理能力,我們可能會看到大量創新應用的涌現。從智能投資顧問到科研助手,從法律分析工具到醫療決策支持系統,各種垂直領域的應用都可能因為接入這種驗證式推理能力而獲得質的提升。

      最后,我想說的是,MiroMind 代表的不只是一個公司或一個產品,而是一種對 AI 未來的愿景。這個愿景是:AI 不應該只是一個會說話的工具,而應該是一個能夠真正思考、能夠驗證自己思考過程、能夠解決人類尚未解決問題的智能系統。這種愿景能否實現,還需要時間來驗證。但至少,MiroMind 已經邁出了重要的第一步。

      如果你也對這種新一代 AI 推理系統感興趣,我建議你去下載他們的 App 親自體驗一下。當 MiroThinker-1.7 上線后,你可以直接在手機上感受這種"驗證為中心"的推理能力。或者,如果你是開發者,可以關注他們的 GitHub 和即將推出的 API,探索如何將這種能力集成到自己的項目中。

      下一代智能不只是關于對話,而是關于審慎的、長鏈的、具有 99% 累積準確率的推理。這個未來,正在到來。

      官網:https://www.miromind.ai/

      GitHub:https://github.com/MiroMindAI

      Hugging Face:https://huggingface.co/MiroMind-ai

      招聘聯系:talent@miromind.ai

      App Store:https://apps.apple.com/app/id6759390724

      Google Play:https://play.google.com/store/apps/details?id=ai.miromind.app

      結尾

      也歡迎大家留言討論,分享你的觀點!

      覺得內容不錯的朋友能夠幫忙右下角點個贊,分享一下。您的每次分享,都是在激勵我不斷產出更好的內容。

      歡迎關注深思圈,一起探索更大的世界。

      - END -

      兩個“特別坑”的AI產品創業方向,你知道嗎


      速度將成為AI時代唯一的護城河


      a16z重磅預測:Vibe coding贏者通吃?錯了,垂直專業化才是未來


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      一瓶水擺在國宴桌上,瓶子很樸素,但人家真去了人民大會堂

      一瓶水擺在國宴桌上,瓶子很樸素,但人家真去了人民大會堂

      一口娛樂
      2026-05-16 00:28:34
      海外談中國:特朗普訪華期間 巨大車頂的紅旗SUV特種車輛引關注

      海外談中國:特朗普訪華期間 巨大車頂的紅旗SUV特種車輛引關注

      hawk26講武堂
      2026-05-16 10:10:38
      建議你一定養一個:頂嘴、拖拉、愛發脾氣的孩子,長大有好處

      建議你一定養一個:頂嘴、拖拉、愛發脾氣的孩子,長大有好處

      禾禾媽愛學習
      2026-05-15 14:42:17
      市場監管總局:覆蓋拼多多、淘寶、京東等平臺,發現1415批次產品不合格

      市場監管總局:覆蓋拼多多、淘寶、京東等平臺,發現1415批次產品不合格

      封面新聞
      2026-05-15 20:52:02
      后悔萬分啊!大廠員工哭訴被精神小妹“崩走”3000元,評論區炸鍋

      后悔萬分啊!大廠員工哭訴被精神小妹“崩走”3000元,評論區炸鍋

      火山詩話
      2026-05-16 09:38:31
      大瓜!曝某童星被抓踩縫紉機,團隊接管賬號打掩護,網傳是張一山

      大瓜!曝某童星被抓踩縫紉機,團隊接管賬號打掩護,網傳是張一山

      喜歡歷史的阿繁
      2026-05-16 06:58:46
      【英超】沃特金斯雙響,維拉4比2利物浦鎖定歐冠門票

      【英超】沃特金斯雙響,維拉4比2利物浦鎖定歐冠門票

      體壇周報
      2026-05-16 07:58:13
      普通家庭最大的通病,是把托舉的順序搞反了

      普通家庭最大的通病,是把托舉的順序搞反了

      洞見
      2026-05-15 10:08:02
      看是御姐,臉還能打,肉卻 “軟趴趴” 了

      看是御姐,臉還能打,肉卻 “軟趴趴” 了

      飛娛日記
      2026-03-13 11:31:29
      “閉嘴,xx養的”東契奇你咋又罵人!!

      “閉嘴,xx養的”東契奇你咋又罵人!!

      柚子說球
      2026-05-15 10:27:06
      伊朗沒料到,打了一仗,沒滅掉以色列,反在自家門口造出個更狠的

      伊朗沒料到,打了一仗,沒滅掉以色列,反在自家門口造出個更狠的

      共工之錨
      2026-05-14 00:06:08
      “大車時代”狂飆:誰殺死了汽車輕量化

      “大車時代”狂飆:誰殺死了汽車輕量化

      汽車預言家
      2026-05-15 17:13:25
      中國送特朗普一份大禮,剛坐上返程飛機,特朗普開始發文:很滿意

      中國送特朗普一份大禮,剛坐上返程飛機,特朗普開始發文:很滿意

      獨步天涯
      2026-05-16 07:52:24
      俄羅斯超大艦隊進入東海

      俄羅斯超大艦隊進入東海

      烽火觀天下
      2026-05-14 10:58:42
      就吃了三天!骨頭縫里的寒氣被“連根拔起”!老寒腿自己發熱了

      就吃了三天!骨頭縫里的寒氣被“連根拔起”!老寒腿自己發熱了

      房產衫哥
      2026-05-14 12:26:33
      最新:烏克蘭“風暴陰影”導彈摧毀頓涅茨克的俄軍基地!

      最新:烏克蘭“風暴陰影”導彈摧毀頓涅茨克的俄軍基地!

      項鵬飛
      2026-05-15 18:30:53
      山東榴蓮僅退款后續來了:女子被行政拘留7日,不道歉商家會起訴

      山東榴蓮僅退款后續來了:女子被行政拘留7日,不道歉商家會起訴

      映射生活的身影
      2026-05-15 15:43:54
      張柏芝給19歲大兒子提新車,不選豪車偏選國產,當媽的心思藏不住

      張柏芝給19歲大兒子提新車,不選豪車偏選國產,當媽的心思藏不住

      觀察鑒娛
      2026-05-15 13:53:47
      馬斯克黃仁勛在空軍一號熱聊照曝光,喝了可樂,皮衣黃疑似用三星

      馬斯克黃仁勛在空軍一號熱聊照曝光,喝了可樂,皮衣黃疑似用三星

      譯言
      2026-05-16 10:38:32
      騎士兩大敗因出爐,哈登直言不諱!米切爾還很自信,阿特金森該批

      騎士兩大敗因出爐,哈登直言不諱!米切爾還很自信,阿特金森該批

      魚崖大話籃球
      2026-05-16 11:11:21
      2026-05-16 11:59:00
      深思圈
      深思圈
      挖掘和深度分析海外最新AI產品,分享實用出海戰略
      236文章數 17關注度
      往期回顧 全部

      科技要聞

      漲的是車價,要的是老命

      頭條要聞

      美國媒體在天壇里尋找俄勒岡木材 被指非常耐人尋味

      頭條要聞

      美國媒體在天壇里尋找俄勒岡木材 被指非常耐人尋味

      體育要聞

      35歲坎特,干了一件這輩子最吵的事

      娛樂要聞

      張嘉譯和老婆的差距讓人心酸

      財經要聞

      造詞狂魔賈躍亭

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      藝術
      游戲
      健康
      數碼
      教育

      藝術要聞

      19位當代畫家油畫作品欣賞

      《星球大戰:舊共和國》重啟計劃遭EA董事會否決

      專家揭秘干細胞回輸的安全風險

      數碼要聞

      蘋果“產品百科”應用Mactracker迎25周年,新增對比和收藏記錄

      教育要聞

      武漢大學第1專業,就業現狀與報考性價比分析!#金榜同行人

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日本一区二区三区久久久| 亚洲性无码av在线欣赏网| 国产偷国产偷亚洲清高app| 欧美日韩亚洲国产v| 国产乱子伦视频在线播放| 粉嫩高潮美女一区二区三区| 国产国产国产国产系列| 午夜久久精品国产亚洲av| 疯狂做受XXXX高潮国产| www黄色com| 国产精品亚洲日韩欧美色窝窝色欲| 人妻少妇精品视中文字幕国语| av不卡中文| 中文一区二区视频| 天堂av一区二区在线观看| 人成视频在线观看| 无码乱人伦一区二区亚洲一| 精品视频专区| 精品国产综合成人亚洲区2022| 任我爽精品视频在线观看| aⅴ亚洲 日韩 色 图网站 播放| 人妻av无码专区久久| 亚洲欧美在线人成最新| 国产成人AV| japanese久久中文字幕| 亚洲欧洲无码av一区二区三区| 国产麻豆一区二区精彩视频| 国产熟女精品视频| 糖心vlog产精国品免费入 | 狠狠色婷婷丁香综合久久韩国电影| 国产天美传媒性色av高清| 中文字幕亚洲日韩无线码| 亚洲AV永久无码精品主页| 国产精品久久久久久久久久久免费看 | 噜噜久久噜噜久久鬼88| 亚洲欧美手机在线| 无码免费中文字幕视频| 欧美xxxxxbbbbb| 成人免费av高清在线| 国产精品538一区二区在线 | 亚洲视频中文字幕|