<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Meta發(fā)布Muse Spark:華人天團(tuán)廢墟重建,最恨Llama的果然是小扎自己

      0
      分享至


      作者 | 貓貓頭
      郵箱 | cathy@pingwest.com

      在Llama徹底“崩盤”后,Meta創(chuàng)始人兼CEO扎克伯格親手拆除過去的團(tuán)隊(duì)、架構(gòu)并徹底走向“反Llama”路線,砸百億建起華人科學(xué)家為主的AI研發(fā)天團(tuán)。今天,在9個月后,在整個硅谷關(guān)注以及不少的冷嘲熱諷下,他和這個全新團(tuán)隊(duì)終于交出了首個模型作品,試圖證明一整套從零搭建的AI棧跑通了。

      4月8日,Meta正式發(fā)布了MSL(Meta Superintelligence Labs)成立以來的第一個模型Muse Spark。九個月前Alexandr Wang加入Meta擔(dān)任首席AI官,帶著從OpenAI挖來的一眾華人核心研究員,推翻了整個Llama時代的技術(shù)?!禄A(chǔ)設(shè)施、新架構(gòu)、新數(shù)據(jù)管道,全部從零開始。Muse Spark就是這套新棧的第一個產(chǎn)出,現(xiàn)在它已經(jīng)直接上線驅(qū)動Meta AI。


      在Llama 4因benchmark造假風(fēng)波陷入被動的背景下,這是Meta的一次全面重啟。

      1

      Muse Spark是什么

      它是個處處和Llama反著來的模型:

      一個被刻意設(shè)計(jì)得小巧、輕量、高響應(yīng)速度的原生多模態(tài)推理閉源模型。

      先看它的核心能力:

      1. 原生多模態(tài):不是把視覺編碼器硬縫到文本模型上的"拼接式"架構(gòu)。從預(yù)訓(xùn)練階段起,文本、圖像、語音就在同一個高維特征空間里訓(xùn)練。這意味著它處理圖片不需要先翻譯成文字描述,而是直接從像素級別提取信息。

      2. Visual Chain of Thought(VCoT,視覺思維鏈):傳統(tǒng)的思維鏈推理是純文本的,模型在文字里逐步拆解問題。Muse Spark把這個機(jī)制引入了視覺空間——它能在圖像中"思考",自主構(gòu)建視覺元素之間的空間和邏輯關(guān)系。

      3. Contemplating Mode(沉思模式):對標(biāo)Gemini Deep Think和GPT Pro的極限推理模式。區(qū)別在于它不是單線串行推理,而是在后臺同時拉起多個并行運(yùn)算的子agent,各自處理任務(wù)的不同維度,最后由主控系統(tǒng)融合結(jié)果。沉思模式下Humanity's Last Exam達(dá)到58%,F(xiàn)rontierScience Research達(dá)到38%。

      4. 工具調(diào)用和多agent編排:原生支持,不是后期拼上去的。

      目前Muse Spark已在meta.ai和Meta AI app上線,Contemplating Mode逐步灰度中,同時向少量合作伙伴開放私有API預(yù)覽。


      1

      技術(shù)亮點(diǎn):華人天團(tuán)都是怎么說的

      今天MSL團(tuán)隊(duì)幾乎集體在X上發(fā)帖,幾個關(guān)鍵信息值得注意:

      Meta官方博客放出了一個極其重要的數(shù)據(jù):在預(yù)訓(xùn)練階段,新棧達(dá)到同等能力水平所需的算力比上一代Llama 4 Maverick減少了超過一個數(shù)量級。不是百分之幾十的優(yōu)化,是10倍以上的效率提升。博客原文稱"over an order of magnitude less compute",并且"significantly more efficient than the leading base models available for comparison"——甚至比其他家的基座模型都高效。

      Alexandr Wang的九條thread里最重要的一句話:"we saw predictable scaling across pretraining, RL, & test-time reasoning." 預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí)、測試時推理,三條線都看到了可預(yù)測的scaling——這可能比任何benchmark數(shù)字都重要。它意味著這套棧不是調(diào)出來的一個lucky shot,而是一個scaling曲線平滑的系統(tǒng)。


      首席科學(xué)家趙晟佳(@shengjia_zhao)的描述更具體:這個模型的訓(xùn)練路徑是"端到端的教育"——school(預(yù)訓(xùn)練)、homework(RL)、on-the-job training(產(chǎn)品部署后的持續(xù)學(xué)習(xí))。他強(qiáng)調(diào)"we just got started"。

      RL部分有個很有意思的技術(shù)細(xì)節(jié)。畢樹超(@shuchaobi)提到了訓(xùn)練中最痛苦的部分:大規(guī)模RL的不穩(wěn)定性,以及"fighting reward hacking"——對抗獎勵機(jī)制作弊。但官方博客顯示他們最終把RL跑到了"smooth, predictable gains"的狀態(tài),pass@1和pass@16都呈log-linear增長,而且在未見過的評測集上也能平滑泛化。


      更有意思的是RL訓(xùn)練中出現(xiàn)的"相變"現(xiàn)象:團(tuán)隊(duì)在訓(xùn)練時引入了thinking time penalty(思考時間懲罰),模型先是通過更長的思考來提升表現(xiàn),然后在懲罰壓力下學(xué)會了"思想壓縮"——用更少的token解決同樣的問題,之后又再次延伸推理以達(dá)到更高性能。Ananya Kumar(@ananyaku)在帖中稱這個過程"pretty neat"。

      Ananya放出的另一組圖表顯示了多agent推理的關(guān)鍵insight:多個agent并行推理,在相同延遲下能達(dá)到比單agent更高的性能。換句話說,Contemplating Mode不只是"讓模型想得更久",而是"讓多個模型同時想不同的事"。


      余家輝(@jhyuxm)作為多模態(tài)底座的總架構(gòu)師,說了一句很有意思的話:"It's been a fulfilling journey not just building the model, but the team and culture behind it." 建模型是一回事,建團(tuán)隊(duì)和文化是另一回事——他們在九個月里兩件事同時干了。


      Jason Wei(@_jasonwei)的回憶最有畫面感:"第一周我們在食堂吃了一頓漫長的晚餐,暢想研究方向,然后回到桌前寫了一個基本的inference llama腳本。現(xiàn)在我們有了一套相當(dāng)完整的技術(shù)棧,第一個模型已經(jīng)發(fā)布。"


      1

      Benchmark:什么領(lǐng)先不領(lǐng)先,回到牌桌先

      再來看看benchmark數(shù)據(jù):

      • HealthBench Hard(極高難度醫(yī)學(xué)問答):Muse Spark 42.8,GPT-5.4是40.1,Gemini 3.1 Pro只有20.6,Claude Opus 4.6只有14.8。絕對領(lǐng)先,接近其他模型的兩到三倍。

      • CharXiv Reasoning(科研論文圖表深度理解):86.4,全行業(yè)最高。

      • SWE-bench Pro(真實(shí)軟件工程任務(wù)):55.0%,超過Claude Opus 4.6的51.9%。

      • Artificial Analysis綜合智能指數(shù):52分,而GPT-5.4和Gemini 3.1 Pro都是57分。

      Meta想借此說明:Muse Spark在醫(yī)療多模態(tài)和科研圖表理解這兩個需要"真正看懂圖"的領(lǐng)域,已經(jīng)是毫無爭議的第一。在代碼工程上也進(jìn)入了第一梯隊(duì)。

      不過,目前它綜合能力距離GPT-5.4和Gemini 3.1 Pro還有5分的差距,純文本高級推理方面也還沒撼動Anthropic和Google的積累。

      這樣的表現(xiàn)繼續(xù)引來一些批評,Ndea的cofounder Fran?ois Chollet直接稱Muse Spark"已經(jīng)看起來是個令人失望的模型",他認(rèn)為模型過度優(yōu)化了公開benchmark,犧牲了實(shí)際可用性——而Alexandr Wang的回應(yīng)很克制:承認(rèn)模型在ARC AGI 2等評測上表現(xiàn)不佳,并強(qiáng)調(diào)這些數(shù)據(jù)已主動公開。

      Chollet的質(zhì)疑不是沒有道理。Llama 4時代Meta就因benchmark造假風(fēng)波傷過一次信譽(yù)。這次Muse Spark在Artificial Analysis綜合指數(shù)上仍落后GPT-5.4和Gemini 3.1 Pro五分,醫(yī)療和科研圖表上的斷檔領(lǐng)先,是否來自對特定benchmark的定向優(yōu)化,還是原生多模態(tài)架構(gòu)帶來的真實(shí)能力?這個問題需要更多第三方獨(dú)立測試來回答。

      Muse Spark當(dāng)然重要,但它最重要的意義不在于今天的benchmark分?jǐn)?shù)。

      從這個模型的設(shè)計(jì),到這些研究員此次重點(diǎn)介紹的技術(shù)亮點(diǎn),一切都指向?qū)lama的反對:Llama 4的大潰敗在扎克伯格眼里是個要徹底翻篇的事情,所以不只是它的開源路線,它的模型架構(gòu)要改,更重要的是它整個訓(xùn)練基礎(chǔ)設(shè)施都得給它掀翻了。此次這幾位核心作者的x發(fā)文,看起來都在圍繞底層技術(shù)棧的重構(gòu)來介紹。Muse Spark這次發(fā)布也讓人更明白扎克伯格挖來Alexander Wang的目的。

      最恨Llama的還得是扎克伯格自己,他必須得全盤給它推翻,在廢墟里重建。


      此次的發(fā)布也是Meta招兵買馬后那支華人天團(tuán)交出的第一個模型。余家輝(前OpenAI感知團(tuán)隊(duì)負(fù)責(zé)人、GPT-4o核心開發(fā)者)、趙晟佳(前OpenAI合成數(shù)據(jù)研發(fā)領(lǐng)頭人、ChatGPT聯(lián)合創(chuàng)作者)、任泓宇(前OpenAI o1/o3推理核心貢獻(xiàn)者)、畢樹超(前OpenAI多模態(tài)后訓(xùn)練負(fù)責(zé)人)、林紀(jì)(前OpenAI核心優(yōu)化專家)——這些被Meta用上億美元的簽字費(fèi)挖過來的AI科學(xué)家,在紙面上自然是一個明星團(tuán)隊(duì),他們必須先用一個模型讓Meta回到牌桌上。這是扎克伯格的當(dāng)務(wù)之急。

      扎克伯格在九個月前交給他們的是一張白紙。今天他們交出的答案其實(shí)更多是一整套預(yù)訓(xùn)練、RL、測試時推理的完整棧,并且——關(guān)鍵在這——scaling曲線是平滑的、可預(yù)測的。

      更大的模型已經(jīng)在路上了。


      點(diǎn)個愛心,再走 吧

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      “花28.5億建高標(biāo)準(zhǔn)農(nóng)田,查出446個問題”,江西鄱陽通報(bào)

      “花28.5億建高標(biāo)準(zhǔn)農(nóng)田,查出446個問題”,江西鄱陽通報(bào)

      觀察者網(wǎng)
      2026-05-07 06:28:04
      “四大小生”重新洗牌:張若昀下桌,朱一龍啞火,榜首實(shí)至名歸

      “四大小生”重新洗牌:張若昀下桌,朱一龍啞火,榜首實(shí)至名歸

      老黯談娛
      2026-05-05 10:31:16
      讓人寒心!比亞迪“興旗系”爆雷,誰在為車企的獻(xiàn)祭式擴(kuò)張買單?

      讓人寒心!比亞迪“興旗系”爆雷,誰在為車企的獻(xiàn)祭式擴(kuò)張買單?

      藍(lán)色海邊
      2026-05-07 02:01:09
      做藝人沒有藝德!在上海被抓捕的 4 位明星,你們知道都有誰嗎?

      做藝人沒有藝德!在上海被抓捕的 4 位明星,你們知道都有誰嗎?

      她時尚丫
      2026-02-17 21:56:13
      女子在高速上開車化妝、吃東西、雙手隨音樂舞動,被查后稱“作為女司機(jī),我覺得它比我開得好”……

      女子在高速上開車化妝、吃東西、雙手隨音樂舞動,被查后稱“作為女司機(jī),我覺得它比我開得好”……

      金融界
      2026-05-06 16:47:15
      世界冠軍又怎樣!吳宜澤奪得世錦賽冠軍,回家照樣被姐姐揪耳朵

      世界冠軍又怎樣!吳宜澤奪得世錦賽冠軍,回家照樣被姐姐揪耳朵

      童叔不飆車
      2026-05-06 19:42:57
      中國移動原董事長楊杰迎來新任命

      中國移動原董事長楊杰迎來新任命

      最通信
      2026-05-06 20:22:52
      虧損超1.5億!《寒戰(zhàn)1994》票房崩塌,我感慨:這塊金字招牌砸了

      虧損超1.5億!《寒戰(zhàn)1994》票房崩塌,我感慨:這塊金字招牌砸了

      靠譜電影君
      2026-05-05 10:40:44
      三星獨(dú)家供貨!iPhone 20首發(fā)極窄四曲面屏:直屏退場

      三星獨(dú)家供貨!iPhone 20首發(fā)極窄四曲面屏:直屏退場

      快科技
      2026-05-05 21:03:35
      不肝不氪不聯(lián)網(wǎng),人到中年,終于懂了為什么只愛玩單機(jī)老游戲

      不肝不氪不聯(lián)網(wǎng),人到中年,終于懂了為什么只愛玩單機(jī)老游戲

      單機(jī)時代
      2026-05-06 16:11:31
      轉(zhuǎn)移余廢藥物、加固受損房屋 瀏陽煙花廠爆炸事故相關(guān)處置工作正在進(jìn)行

      轉(zhuǎn)移余廢藥物、加固受損房屋 瀏陽煙花廠爆炸事故相關(guān)處置工作正在進(jìn)行

      新京報(bào)
      2026-05-07 07:23:15
      可怕!開放性脫臼!比我們想象的還要嚴(yán)重啊!

      可怕!開放性脫臼!比我們想象的還要嚴(yán)重啊!

      柚子說球
      2026-05-06 23:15:23
      我今年72了,用一生的經(jīng)驗(yàn)告訴你:永遠(yuǎn)不要跟任何人,透露這3個底牌,哪怕是最親的人

      我今年72了,用一生的經(jīng)驗(yàn)告訴你:永遠(yuǎn)不要跟任何人,透露這3個底牌,哪怕是最親的人

      東林夕亭
      2026-05-07 09:32:41
      生前喊沒綁緊!16歲女粉舉應(yīng)援旗墜亡懸崖秋千!宋亞軒發(fā)文回應(yīng)

      生前喊沒綁緊!16歲女粉舉應(yīng)援旗墜亡懸崖秋千!宋亞軒發(fā)文回應(yīng)

      草莓解說體育
      2026-05-07 00:13:37
      烏國總理訪華,要趕在俄羅斯前,游說中國軌距問題上不要輕易點(diǎn)頭

      烏國總理訪華,要趕在俄羅斯前,游說中國軌距問題上不要輕易點(diǎn)頭

      愛下廚的阿釃
      2026-05-07 10:27:09
      第一個幫助中國的日本企業(yè),不留余力提供技術(shù)!如今怎么樣了?

      第一個幫助中國的日本企業(yè),不留余力提供技術(shù)!如今怎么樣了?

      博覽歷史
      2025-10-07 17:13:05
      弘歷登基時還有10位叔叔在,有兩位比乾隆年幼,他們的結(jié)局如何

      弘歷登基時還有10位叔叔在,有兩位比乾隆年幼,他們的結(jié)局如何

      老范談史
      2026-05-06 15:46:59
      33歲的皇后嫁給了7歲的“曾孫”,生下了8個孩子,至今被百姓崇拜

      33歲的皇后嫁給了7歲的“曾孫”,生下了8個孩子,至今被百姓崇拜

      芳芳?xì)v史燴
      2026-05-06 22:04:17
      突發(fā)!中國男女籃國家隊(duì)增補(bǔ)球員進(jìn)隊(duì),徐昕留洋沒開始就結(jié)束了?

      突發(fā)!中國男女籃國家隊(duì)增補(bǔ)球員進(jìn)隊(duì),徐昕留洋沒開始就結(jié)束了?

      格斗聯(lián)盟王大錘
      2026-05-07 11:37:13
      特朗普“自由計(jì)劃”36小時即告失敗,沙特王儲憤怒回應(yīng)!

      特朗普“自由計(jì)劃”36小時即告失敗,沙特王儲憤怒回應(yīng)!

      菁菁子衿
      2026-05-07 09:48:41
      2026-05-07 12:11:00
      硅星人 incentive-icons
      硅星人
      硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個星球。
      3061文章數(shù) 10495關(guān)注度
      往期回顧 全部

      科技要聞

      凌晨突發(fā)!馬斯克租22萬塊GPU給“死敵”

      頭條要聞

      北京三位女大學(xué)生青海自駕游2死1傷 傷者一審獲刑4年

      頭條要聞

      北京三位女大學(xué)生青海自駕游2死1傷 傷者一審獲刑4年

      體育要聞

      阿森納巴黎會師歐冠決賽!5月31日開戰(zhàn)

      娛樂要聞

      小S阿雅重返大S母校,翻看大S畢業(yè)照

      財(cái)經(jīng)要聞

      特朗普:美伊“很有可能”達(dá)成協(xié)議

      汽車要聞

      理想為什么不做轎車,有了解釋……

      態(tài)度原創(chuàng)

      時尚
      親子
      游戲
      房產(chǎn)
      軍事航空

      “白色闊腿褲”今年夏天又火了!這樣穿時髦又高級

      親子要聞

      女星堅(jiān)持母乳喂養(yǎng)引熱議!研究顯示,寶寶25%腸菌來自媽媽,乳汁可塑造天然免疫力

      《文明7》更新“Test of Time”5月19日上線 新系統(tǒng)導(dǎo)入

      房產(chǎn)要聞

      五一海南樓市,太淡了!

      軍事要聞

      特朗普:美伊"很可能"達(dá)成協(xié)議

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 欧美日韩a| 成人在线男人天堂av| 亚洲精品综合一区二区三区在线 | 亚洲日韩操| 337p日本欧洲亚洲大胆人人| 成人亚欧欧美激情在线观看| 偷拍福利视频一区二区三区| 内射人妻无套中出无码| 成人免费毛片aaaaaa片| 狼人大香伊蕉国产www亚洲| 色噜噜一区二区三区| 在线无码不卡app| 国产精品美女久久久久久丫| 人妻少妇偷人一区二区| 中文字幕在线无遮挡| 国产精品嫩草影院一二三区入口| 97国产超碰一区二区三区| 亚洲国产精久久久久久久春色| 日本精品视频| 少妇的肉体k8经典| 国产无遮挡猛进猛出免费软件| 丰满人妻被黑人连续中出| www.jizzjizz| wwwjizzjizzjizz| 亚洲国产成人AV片在线播放| 91久久国产综合精品女同我| 男女久久久国产一区二区三区| 好紧好湿好爽免费视频| 久久精品九九亚洲精品| 亚洲国产中文字幕在线视频综合 | 少妇人妻偷人精品免费| 无码精品a∨在线观看十八禁| 国内情侣在线高清国语自产拍| 涪陵区| 天天躁夜夜躁狠狠躁躁88| 国产太嫩了在线观看| 日本www色| 久久久精品人妻一区二区三区蜜桃| 久久久久久久一线毛片| 无遮无挡爽爽免费毛片| 波多野结衣在线精品视频|