<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      馬斯克搶先谷歌一步放大招,Grok 4.1登頂LMArena,創意寫作直逼GPT-5.1

      0
      分享至


      作者 | 木子、高允毅

      當谷歌 Gemini 3 將上線的消息傳得沸沸揚揚時,馬斯克更快一步默默放了個大招

      今天凌晨,xAI的最新大模型Grok 4.1直接上線了,響應速率明顯提升、幻覺率大幅下降,回答既精準又“有人味兒”。

      這次一共發布了兩個“形態”Grok 4.1Grok 4.1 Thinking。Thinking 版是前者的增強推理變體,二者基于同一底層模型,僅推理配置不同。

      值得一提的是,Grok 4.1 對所有人免費開放,除了能在 Grok 官網、X 上使用,還推出了移動 APP 版,iOS 和安卓系統都照顧到了。


      如果想要更有深度、更專業的回答,可以一鍵“讓 Think 更努力思考”。

      LMArena的最新結果看,Grok 4.1 Thinking 以1483 Elo斷層領跑,比 Gemini 2.5 Pro 高出 31 分

      即使在不啟用思考鏈的情況下,Grok 4.1 仍保持在榜單第二,顯示出底層能力的穩定性。


      有不少網友發出了“真香”感嘆,Be like:


      當然,也有一些質疑聲,比如有人指出在生成代碼這塊兒,Grok 還不太有競爭力。


      “雙形態”的 Grok4.1 霸榜 LMArena

      首先,關于Grok4.1 和 Grok4.1 Thinking 是什么,我們不妨來看看Grok4.1 自己的解釋

      Grok 4.1 是 xAI 于 2025 年 11 月 17 日發布的最新前沿大語言模型(Grok 4 的升級版),在對話智能、情感理解、創意寫作、事實準確性和響應速度上大幅提升。 Grok 4.1 Thinking(有時簡稱 Grok 4.1 Thinking,代號 quasarflux)是同一模型的思考 / 推理模式(reasoning mode),會額外使用“思考令牌”進行鏈式推理(chain-of-thought),適合復雜數學、編程或多步問題。 Grok 4.1 Thinking 是 Grok4.1 的增強推理變體;二者基于同一底層模型,僅推理配置不同。


      在全球最大、最具影響力的大模型盲測平臺LMArena上,Grok4.1 展現出突破性的實力。

      作為行業普遍認可的“非官方標準榜”,LMArena 通過匿名雙盲對戰和真實用戶投票來評估模型質量,是 OpenAI、Google、Anthropic、Meta 等頭部公司測試新模型的常規陣地,也常被用于提前投放未公開版本。

      因此,在這里的勝出,幾乎意味著真實用戶偏好和模型綜合能力的雙重認可,是觀察模型真實實力的最可信風向標

      就在這樣一個競爭最激烈的公開擂臺上,xAI 的 Grok 4.1 系列拿下了極具含金量的一次“雙冠”:Grok 4.1 Thinking 版以 1483 Elo 拿下冠軍,而非推理版 Grok 4.1 也以 1465 Elo 獲得亞軍。

      特別值得注意的是,這個“即時響應”的非推理版本,成績竟然反超所有其他廠商的推理模型,首次讓“快模型”也站上了頂級性能的第一梯隊,還把前代 Grok 4 遠遠甩至第 33 名。

      亮眼成績的背后的關鍵,在于訓練方式的重構

      xAI 為 Grok 4.1 引入了大規模強化學習系統,并使用前沿推理模型作為獎勵模型,讓其能夠在訓練過程中自主評估、快速迭代。這直接帶來了更穩定的風格輸出、更可靠的事實判斷和更低的幻覺率。

      在 Grok 4.1 的后訓練階段,xAI 將優化重點集中在信息檢索類提示中的幻覺上。

      這些底層方法上的改變,很快在實際測試中體現為顯著的事實性改進。最新數據顯示,Grok 4.1 的幻覺率已從 12.09% 下降至 4.22%,降幅接近三倍,成為本次升級中最突出的進步之一。

      為了進一步驗證這種“更準事實”的能力,團隊還引入了更嚴苛的外部基準體系。其中最關鍵的指標之一是 FActScore——由 500 個真實人物傳記問題組成,專門用于檢驗模型在搜索、事實判斷和回答一致性上的表現。


      在這一測試中,Grok 4.1 的 FActScore 從 9.89 降至 2.97,可信度提升同樣顯著。結合圖表可以更直觀看到:在相同的非推理模式下,Grok 4.1 的錯誤更少、偏差更小,整體輸出更可靠。

      這意味著在涉及檢索、引用或調用外部事實的場景中,新版模型不再依賴語義猜測,而是能更準確地給出基于證據的回答。

      換句話說,Grok 4.1 在大模型最難突破的“事實穩定性”方面邁出了關鍵一步——它不僅降低了錯誤數量,更壓低了“錯誤的自信”。而這,正是大模型從“能說”走向“可信”必須跨過的門檻。

      與此同時,Grok 4.1 的“情商”也有顯著進步。

      在 EQ-Bench 測試中,Grok 4.1 拿下了 1586 Elo 的高分,比上一代整整提升了一百多點。如果光看數字還不夠直觀,那么圖片就更能說明問題:榜單上,Grok 4.1 和 Thinking 版穩穩占據前兩名,把一眾旗艦模型甩在身后,像 GPT-5 Chat、Gemini 2.5 Pro、Claude Opus 4 這種老牌強者,都被它輕松拉開了差距。

      EQ-Bench 是一個由大模型評判的大模型情商測試集,用來評估主動情緒理解、洞察、共情和人際交往能力。它并不靠單輪問答,而是由 45 個角色扮演場景構成,每個場景包含 3 個回合,模擬現實世界里真正的“情緒對話”。模型需要在連續對話中保持風格一致、理解情緒上下文、做出恰當回應。最終結果通過兩兩對比得出,并以 Elo 形式歸一化呈現。可以說,EQ-Bench 可以作為測試各模型“情商”的權威榜單。


      為什么 Grok 4.1 能在 EQ-Bench 拿下這樣亮眼的成績?

      在官方給出的一張關于“安慰失去貓咪”的對比圖中,我們能找到答案。

      舊版 Grok 的回復已經算得上溫和體貼,但 Grok 4.1 的表達明顯更細膩:它不只是在說“我理解你的難過”,還會捕捉到情緒里那些更隱微、真實的細節——比如空下來的睡窩、期待卻再聽不到的喵叫、那種像潮水一樣反復襲來的悲傷。語氣更穩、節奏更自然、情緒共鳴更到位,讀起來就像在和一個真正懂你的人對話。


      這使得 Grok 4.1 在情緒理解方面邁入第一梯隊

      除了事實層面的可靠性,Grok 4.1 在創意寫作能力上同樣出現大幅躍升。

      在 Creative Writing v3 中,Grok4.1 的得分躍升至 1722Elo,較上一版幾乎拉開 600 分,文本的敘事節奏、風格延展性與創造性都有質感躍升。

      這個基準本身,Creative Writing v3 并不是簡單的“單輪評分”。在測試中,模型需要圍繞 32 個不同類別的寫作提示進行 三輪獨立創作,涵蓋敘事、風格模仿、世界構建、人物情緒刻畫等復雜任務,考驗的不是一句話的巧思,而是持續穩定的文本創造能力。評分方式也和 EQ-Bench 類似,通過人工評分標準與模型對戰得到標準化 Elo 得分。


      在這份榜單中,Grok 4.1 Thinking 和 Grok 4.1 占據第二、第三,兩者之間僅相差十幾分;而其他強勢模型如 O3、Claude Sonnet 4.5、Kimi K2 以及舊版 Grok 3 都被穩穩甩在后面,形成了明顯的檔位分層。

      換句話說,Grok 4.1 已經進入全球最強“創意寫作梯隊”。

      而在官方給出的新舊版本對比中,我們可以明顯看出,Grok 4.1 已從“能寫段子”的模型躍升為真正具備文學筆觸的創作者:敘事更深、情緒更復雜、修辭更成熟、角色更沉浸。


      這些升級最終體現在更好的交互體驗上。Grok 4.1 擁有更穩定的“個性”,對用戶意圖的理解更細致,風格調節更自然。即便在非推理模式下,它也能穩定輸出高質量回答,同時保持極快響應速度。

      一個直觀的例子是官方展示的旅游攻略對比。舊版 Grok 給出的內容像“百科式景點總覽”,信息密度高但缺乏節奏感;而 Grok 4.1 寫舊金山,則像一位真正“去過”“懂氛圍”的本地向導,會主動提示拍照時間、推薦適合你的路線,甚至帶出城市的具體氣質,更像在和一個真實的人交流。


      在復雜任務處理中,Grok 4.1 的上下文窗口擴展至 256K tokens,Fast 模式下更可達 200 萬,使其在長文檔理解、持續協作與大型內容生成中保持高連貫度,顯著減少“斷片”。

      總體來看,Grok 4.1 的提升不是單點突破,而是從性能、事實性到情商、創意與交互體驗的一次全維升級。

      在正式亮相之前,Grok 4.1 其實已經悄悄經歷了一輪為期兩周的“靜默發布”。從 2025 年 11 月 1 日到 14 日,xAI 將一部分真實用戶流量在 grok.com、X 以及移動端應用中逐步切換到 Grok 4.1,以觀察它在真實環境下的表現。

      這一階段最直觀的結果,被清晰地體現在那張 64.78% 的餅圖上:在雙盲對比、用戶不知情的前提下,Grok 4.1 的回答有 64.78% 的概率被用戶選為“更好”。換句話說,面對同樣的問題,用戶在超過六成的情況下更偏愛 Grok 4.1。

      可以說,Grok 4.1 展現的更高的情緒理解、更穩的事實性回應、更自然的交互風格,都通過靜默測試被真實用戶用投票“蓋章”。


      無論是 LMArena 雙冠、幻覺率的斷崖式下降,還是創意寫作與情感能力的全面增強,新一代 Grok 已從“功能強”走向“體驗強”,也為 xAI 在今年的大模型競爭中交出了一份極具說服力的答卷。

      我們實測了 Grok4.1

      AI 前線也上手實測了 Grok4.1。

      首先是推理能力測試,我們設計了一道看似正常、實際“有詐”(有 2 組解)的題(各位可以自己動手驗證下):

      “四個同學參加數學競賽,分別是:小 A、小 B、小 C、小 D。 比賽結束后,他們對自己名次做了如下四個判斷: (1)小 A 說:“我不是第一名。” (2)小 B 說:“我也不是最后一名。” (3)小 C 說:“我是第二名” (4)小 D 說:“我才不是最后一名呢。” 已知:這四句中只有一句是真話,且四個人名次兩兩不同。

      問:哪一句是真話?四個人各自的名次如何?請給出推理過程。”

      Grok 成功找出了 2 組解,還主動修復題目 Bug。


      不過需要說明的是,它其實在主動修復題目 Bug 時“翻車”了,Grok 提出,如果把小 C 說的話改為:“小 B 是第二名”,這樣答案就有唯一性。

      但修改后,結果其實還有多種:第一,如果有只有 B 在說真話,此時名次唯一確定為 A1、C2、B3、D4;第二,如果只有 D 在說真話,此時只能確定 A1、B4,C 和 D 分別為第 2 第 3 名但不唯一。

      再來看看 Grok 的寫作能力

      我們給出了這樣的 Prompt:

      用講故事的口吻,準確且生動地、有感染力地講述馬斯克 xAI 發布 Grok4.1 的事。要求字數:500-600 字,必須包含:發布時間、產品亮點、市場背景等。

      Grok4.1 的回答如下,還貼心地統計了字數:578——但是,咱就是說,Grok 恐怕是統計的英文字數(或者數學不好?),我們手工用 Word 統計了字數:861 字。


      最后,我們測了一下 Grok4.1 的圖像生成能力,效果不錯:Grok 根據一段 Prompt 生成了兩張圖,還真挺像真實照片的(不過細節嘛,大家請自行評價)。


      而且還能直接根據圖像,一鍵生成視頻,效果如下:


      感興趣的讀者朋友們,也可以去上手試試。

      https://x.com/xai/status/1990530499752980638

      https://x.ai/news/grok-4-1

      https://news.ycombinator.com/item?id=45958005

      聲明:本文為 AI前線整理,不代表平臺觀點,未經許可禁止轉載。

      2025 技術年度盤點,由你來決定!

      2025 年的科技浪潮令人應接不暇。技術變化密集、層級交疊,讓人眼花繚亂。臨近年終,為了把有限的篇幅用在大家最關心的領域,我們今年希望借助投票的方式,選出數個關鍵領域進行趨勢盤點。大家可以勾選出你最想看到的 3 個方向(可多選)。

      除此之外,你還想看哪個方向的盤點? 有什么現象或爭議點你希望我們“深扒”一下?哪些趨勢你覺得太迷,需要專家帶你看懂?對于年終盤點,大家有任何想法,都非常歡迎在評論區留言告訴我們!

      會議預告

      12 月 19~20 日,AICon 2025 年度收官站在北京舉辦。現已開啟 9 折優惠。

      兩天時間,聊最熱的 Agent、上下文工程、AI 產品創新等等話題,與頭部企業與創新團隊的專家深度交流落地經驗與思考。2025 年最后一場,不容錯過。

      今日薦文

      你也「在看」嗎?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      小S曬大S高中青澀合照 告白「每分每秒都想你」:那時好快樂

      小S曬大S高中青澀合照 告白「每分每秒都想你」:那時好快樂

      ETtoday星光云
      2026-05-07 10:42:03
      山西準絕殺廣廈,潘江揭秘92-90取勝關鍵

      山西準絕殺廣廈,潘江揭秘92-90取勝關鍵

      陳赩愛體育
      2026-05-07 23:38:08
      你威脅開戰,我就以戰爭相回應!你想毀滅中國,中國就先毀滅你!

      你威脅開戰,我就以戰爭相回應!你想毀滅中國,中國就先毀滅你!

      安安說
      2026-03-20 11:13:04
      為什么全國人民都在拒接電話?

      為什么全國人民都在拒接電話?

      黯泉
      2026-04-18 17:00:56
      日本乒乓球名將水谷隼說:中國隊之所以強大,根本不是技術優勢

      日本乒乓球名將水谷隼說:中國隊之所以強大,根本不是技術優勢

      籃球看比賽
      2026-02-04 17:46:56
      49年毛主席出訪蘇聯,為何不許李銀橋跟隨,得知原因后李銀橋落淚

      49年毛主席出訪蘇聯,為何不許李銀橋跟隨,得知原因后李銀橋落淚

      大運河時空
      2026-05-05 10:55:03
      震驚!教師在朋友圈“吃喝玩樂”被家長怒斥,建議多發教育和學習

      震驚!教師在朋友圈“吃喝玩樂”被家長怒斥,建議多發教育和學習

      火山詩話
      2026-05-06 16:23:24
      看完《黑夜告白》再看《低智商犯罪》,真是沒對比就沒傷害

      看完《黑夜告白》再看《低智商犯罪》,真是沒對比就沒傷害

      往史過眼云煙
      2026-05-05 22:08:36
      報道:美伊已就緩解美國海上封鎖達成共識,以換取霍爾木茲“逐步開放”

      報道:美伊已就緩解美國海上封鎖達成共識,以換取霍爾木茲“逐步開放”

      華爾街見聞官方
      2026-05-07 16:28:29
      我敢說,大部分會跟我一樣,選擇黑色衣服那個女孩!

      我敢說,大部分會跟我一樣,選擇黑色衣服那個女孩!

      草莓解說體育
      2026-04-12 17:05:01
      澤連斯基再度暗示襲擊紅場閱兵,俄羅斯呼吁各國從基輔撤人,若勝利日遭襲將大規模導彈打擊基輔

      澤連斯基再度暗示襲擊紅場閱兵,俄羅斯呼吁各國從基輔撤人,若勝利日遭襲將大規模導彈打擊基輔

      極目新聞
      2026-05-07 11:58:53
      三名985名校“杰青”涉嫌論文造假,一人已被同濟免職

      三名985名校“杰青”涉嫌論文造假,一人已被同濟免職

      第一財經資訊
      2026-05-07 21:16:54
      豬大腸被關注!研究發現:糖尿病患者常吃豬大腸,或有5種變化

      豬大腸被關注!研究發現:糖尿病患者常吃豬大腸,或有5種變化

      芹姐說生活
      2026-05-01 14:34:43
      他接受紀律審查和監察調查

      他接受紀律審查和監察調查

      錫望
      2026-05-07 12:38:28
      顏值封神直擊果粉內心!iPhone Fold 全新外觀曝光,看完瞬間被圈粉

      顏值封神直擊果粉內心!iPhone Fold 全新外觀曝光,看完瞬間被圈粉

      數碼八叔
      2026-05-07 22:10:05
      家長群太炸裂了,有寶媽求偶、撩騷情話、意外暴露婚外戀懷孕的..

      家長群太炸裂了,有寶媽求偶、撩騷情話、意外暴露婚外戀懷孕的..

      黯泉
      2026-05-06 14:10:10
      什么事讓你瞬間感到毛骨悚然?網友:從此再沒見過她老公發脾氣

      什么事讓你瞬間感到毛骨悚然?網友:從此再沒見過她老公發脾氣

      另子維愛讀史
      2026-03-10 23:08:46
      跟隊記者:今天楚阿梅尼是讓事態升級的那個人

      跟隊記者:今天楚阿梅尼是讓事態升級的那個人

      懂球帝
      2026-05-08 00:47:10
      國際油價“2連降”,汽油預漲減至370元/噸,明晚12時調價

      國際油價“2連降”,汽油預漲減至370元/噸,明晚12時調價

      豬友巴巴
      2026-05-07 09:16:57
      1-0領先為何高興不起來?盧偉賽后指出上海最大隱患

      1-0領先為何高興不起來?盧偉賽后指出上海最大隱患

      春日筆記
      2026-05-07 05:21:25
      2026-05-08 02:43:00
      AI前線 incentive-icons
      AI前線
      面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
      1477文章數 149關注度
      往期回顧 全部

      科技要聞

      月之暗面完成20億美元融資,估值突破200億

      頭條要聞

      日媒詢問中國是否希望恢復中日之間人員往來 中方回應

      頭條要聞

      日媒詢問中國是否希望恢復中日之間人員往來 中方回應

      體育要聞

      巴黎再進歐冠決賽,最尷尬的情況還是發生了

      娛樂要聞

      Lisa主持!寧藝卓觀看脫衣秀風波升級

      財經要聞

      人均年薪406萬,這家ST公司驚呆市場!

      汽車要聞

      雷克薩斯全新純電三排SUV 全新TZ全球首發

      態度原創

      本地
      親子
      房產
      數碼
      時尚

      本地新聞

      用青花瓷的方式,打開西溪濕地

      親子要聞

      最新回復!東湖學府幼兒園開園有變,延至明年春

      房產要聞

      負債23億,抵押482畝地!海南這家巨頭,慘遭拍賣!

      數碼要聞

      大疆宣布ROMO 2代掃地機器人5月11日發布:清潔力更強 不怕零食掉渣

      今年最火的4雙平底鞋,配小黑裙好看又氣質!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲无码免费在线观看| 四虎国产成人免费观看| 久久免费视亚洲无码视频| 久久综合精品国产丝袜长腿| 亚洲色图导航| 末发育女av片一区二区| 综合久久网美利坚合众国| 中文字幕精品无码一区二区| 国产一区二区三区粉嫩av| 亚洲欧美视频在线播放| 96无码| 美女个护士一级毛片亚洲| 亚洲午夜无码久久久久| 熟女系列丰满熟妇AV| 国内裸体无遮挡免费视频| 毛片自拍| 欧美、另类亚洲日本一区二区| 亚洲精品视频久久偷拍| 国产精品无码人妻在线| 欧美日韩一线| 青青热久免费精品视频在线播放| 亚洲清纯自偷自拍另类专区| 国产免费无码一区二区视频| 日本深夜福利在线观看| 91视频亚洲| 97碰碰碰人妻制服丝袜片| 亚洲综合社区| 久久桃花网综合体| 国产成人亚洲综合网站| 无码国产偷倩在线播放| 99re国产高清| 国产丝袜视频一区二区三区| 国产三级精品三级男人的天堂| 久热这里只国产精品视频| 综合欧美视频一区二区三区| 国产精品播放| 先锋影音最新色资源站| 久久九九久精品国产| 精品久久久久久无码不卡 | 国产十八禁在线观看免费| 久久精品国产久精国产一老狼|