汪滔的第一款大模型，讓Meta終于重新上桌了

2026-04-09 13:23:06　來源: 字母榜

北京舉報

分享至

從汪滔（Alexandr Wang）加入Meta算起，已經(jīng)過去大約十個月了，世界眼瞅著就要從一個夏天走到另一個夏天，Meta的“牛油果”終于熟了。

當(dāng)?shù)貢r間4月8日，Meta官宣發(fā)布Muse系列的第一款模型Spark。這也是Meta吸納汪滔并建立“超級智能實驗室（MSL）”之后端上來的第一盤菜。

汪滔在X上連發(fā)數(shù)條消息介紹新模型，表示：“九個月前，我們從零開始重建了人工智能技術(shù)棧，包括全新的基礎(chǔ)設(shè)施、架構(gòu)和數(shù)據(jù)管道。Muse Spark 正是這項工作的成果。”

就連之前傳聞與汪滔不和的Meta前首席科學(xué)家楊立昆（Yann LeCun）都趕來恭喜，氣氛一片祥和。

Meta官方強調(diào)，Spark的設(shè)計初衷是“小巧快速”，用這樣一個模型打頭陣，而不是“憋大招”直接發(fā)布碾壓態(tài)勢的模型，Meta也清楚時間不等人。

目前來看這一招奏效了，Meta的股價在當(dāng)日一度上漲約9%。

新模型Muse Spark

首先，讓我們來看看Meta發(fā)了個什么模型。

新模型名叫Muse Spark，其中Muse是模型系列的名稱。這個名字也挺有意思的，Muse即“繆斯”，Spark是“火花”。

Meta表示，Muse Spark是Meta迄今為止功能最強大的模型。它目前為Meta AI應(yīng)用和網(wǎng)站提供支持，并將于未來幾周內(nèi)陸續(xù)登陸WhatsApp、Instagram、Facebook、Messenger和AI眼鏡。Meta還將通過API向部分合作伙伴提供該模型的私有預(yù)覽版。

很明顯，Meta想要充分發(fā)揮自己的平臺優(yōu)勢，明確表示Muse Spark是專為Meta的產(chǎn)品而打造的。

它將為Meta AI提供更智能、更快速的支持，并隨著時間的推移解鎖新功能，這些功能可以引用用戶在Instagram、Facebook和Threads上分享的推薦內(nèi)容和信息。

“我們正朝著個人超級智能的目標邁進：打造一款能夠隨時隨地幫助任何人處理他們最關(guān)心之事的智能助手。”

Muse Spark的設(shè)計初衷是小巧快速，卻足以應(yīng)對科學(xué)、數(shù)學(xué)和健康領(lǐng)域的復(fù)雜問題，其核心是一個原生多模態(tài)推理模型。

與以往將視覺和文本“拼接”在一起的版本不同，Muse Spark從底層架構(gòu)開始重建，將視覺信息整合到其內(nèi)部邏輯中。這種架構(gòu)轉(zhuǎn)變實現(xiàn)了“視覺思維鏈”，使模型能夠標注動態(tài)環(huán)境——例如識別復(fù)雜咖啡機的組件，或通過并排視頻分析糾正用戶的瑜伽姿勢。

然而，最重要的技術(shù)飛躍是新增的“思考”模式。

Meta聲稱，該功能協(xié)調(diào)多個子智能體并行推理，使Meta能夠與谷歌的Gemini Deep Think和OpenAI的GPT-5.4 Pro等極端推理模型相媲美。

單模型測試結(jié)果來看。

Meta的新模型Muse Spark在綜合智能指數(shù)上表現(xiàn)亮眼。它在Artificial Analysis Intelligence Index（一個涵蓋多維度基準的綜合智能評分）上拿到了52分，位列全球第4名。排在前面的分別是Gemini 3.1 Pro和GPT-5.4（均為約57分），以及Claude Opus 4.6（約53分）。

相比去年Llama 4 Maverick的僅18分，這已經(jīng)是巨大的進步，顯示Meta在前沿模型上明顯追趕了回來。

具體強項和弱項：

. PhD級科學(xué)推理（GPQA Diamond）：Muse Spark達到了89.5%的準確率，表現(xiàn)相當(dāng)強勁，但仍略微落后于Gemini 3.1 Pro（94.3%）、GPT-5.4（92.8%）和Claude Opus 4.6（92.7%）。

. 圖表與視覺理解（CharXiv Reasoning，在Contemplating模式下）：得分86.4，在這項多模態(tài)視覺推理任務(wù)上明顯優(yōu)于競品——超過了Gemini 3.1 Pro（80.2）、GPT-5.4（82.8）和Claude Opus 4.6（65.3）。視覺理解和圖表推理是Muse Spark的突出優(yōu)勢之一。

. 醫(yī)療硬推理（HealthBench Hard）：得分42.8%，大幅領(lǐng)先所有主要競品，包括GPT-5.4（40.1%）、Gemini 3.1 Pro（20.6%）和Claude Opus 4.6（14.8%）。Meta表示，這得益于他們與超過1000名醫(yī)生合作進行的針對性訓(xùn)練，醫(yī)療相關(guān)能力是它的亮點。

. 軟件工程與編碼（SWE-Bench Verified）：得分77.4%，落后于Claude Opus 4.6（80.8%）和Gemini 3.1 Pro（80.6%）。Meta自己也坦承，在長時程多步自主任務(wù)（agentic tasks）和復(fù)雜編碼工作流上還有差距，需要繼續(xù)投入。

. 多模態(tài)多學(xué)科理解（MMMU Pro）：得分約80.4–80.5%，僅次于Gemini 3.1 Pro（83.9%），在視覺多模態(tài)任務(wù)中排名第二。

總體來看，Muse Spark在視覺多模態(tài)推理、醫(yī)療領(lǐng)域和高效推理上表現(xiàn)突出，尤其適合Meta自己的社交、內(nèi)容和健康生態(tài)；但在純編碼和長鏈條自主任務(wù)上仍有追趕空間。

推遲數(shù)次的“牛油果”

在X上，發(fā)生了一個有趣的小插曲。

作為Meta如今的AI掌舵手，汪滔（Alexandr Wang）在X上咣咣發(fā)布消息宣傳新模型。

這個時候，有人指出，Meta給出的benchmark圖表太混淆視聽，“簡直是犯罪”。在這張圖表中，Muse Spark的分數(shù)排在第一列并且全部標成突出高亮色，乍一看，感覺是全面領(lǐng)先，但是細看便知其實有些分數(shù)是較低的。

在圖表上玩花樣，其實并不新鮮，OpenAI此前已經(jīng)多次因此受到指責(zé)。

有意思的是，汪滔這次選擇了立刻“滑跪”，回復(fù)該質(zhì)疑：

“抱歉，我們并非有意暗示我們的得分最高。恰恰相反，大多數(shù)評估結(jié)果表明，我們的模型還有很多需要改進的地方。我們不會再犯同樣的錯誤。”

不難看出，Meta也并非要讓Muse Spark達到全面碾壓之勢，而是要回到AI的競爭行列當(dāng)中。

從種種跡象來看，Muse系列應(yīng)該就是Meta此前內(nèi)部代號“牛油果（Avocado）”的項目。

牛油果已經(jīng)跳票太久，Meta如今采取了“先小后大”的策略。Meta在官方博文中強調(diào)，Spark主打快速小巧，這只是個開始：

“我們的模型正在按預(yù)期發(fā)展。Muse Spark是我們發(fā)展歷程中的一個早期數(shù)據(jù)點，我們正在開發(fā)更大規(guī)模的模型。”

這和AI行業(yè)（尤其是頭部玩家）習(xí)慣于“炸場”“驚世駭俗”的節(jié)奏不同，但是Meta確實也沒時間慢慢來了。

去年初，Meta發(fā)布Llama 4系列后，模型表現(xiàn)未達預(yù)期（尤其是Behemoth大模型性能提升不足），隨后暫停了Llama系列的進一步開源研發(fā)。

到了去年夏天，Meta斥資143億美元投資Scale AI（持股49%），并直接挖來Scale AI創(chuàng)始人兼CEO、28歲的汪滔（Alexandr Wang）擔(dān)任首席AI官，正式成立Meta Superintelligence Labs（MSL）。

同時Meta展開瘋狂挖角，從OpenAI、Google等公司高薪招募數(shù)十名頂尖研究員，部分offer達到數(shù)百萬至上億美元。

成本方面，Meta2025年全年AI相關(guān)資本支出達722.2億美元；2026年1月財報指引顯示，這一數(shù)字將大幅提升至1150億—1350億美元，幾乎翻倍，主要用于MSL的模型訓(xùn)練和數(shù)據(jù)中心擴建。

過去這十個月的時間里，Meta以及扎克伯格、Meta的AI一把手汪滔身上，都壓力山大。人們迫切地想看到汪滔加入、Meta重組之后，究竟會端上來一盤什么菜。

至少從市場的第一時間反饋來看，Meta放棄“憋大招”轉(zhuǎn)而先上小菜的策略是奏效的，Meta股價當(dāng)日一度大漲近9%，創(chuàng)下自今年1月以來最大單日漲幅。截至收盤，Meta收漲6.5%。

一個值得注意的信息是，過去外界一直認為“牛油果”將完全轉(zhuǎn)向閉源，但Meta這次卻沒有把話說死。未來，Meta可能走開源與閉源并行的混合策略，將旗艦?zāi)Ｐ秃酮毤壹夹g(shù)保留在內(nèi)部的同時保持新鮮模型對廣泛開發(fā)者群體的開源可用性。

Meta總算把“牛油果”端上桌了，但這還遠遠不是終點。對汪滔和扎克伯格來說，Muse Spark更像是一聲發(fā)令槍，未來如何，還要看“越來越強”的承諾能不能兌現(xiàn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.