網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

文心一言5.1預(yù)覽版上線LMSYS競技場，暫列總榜第13位

2026-04-30 18:12:54　來源: i黑馬

北京舉報

分享至

百度文心一言5.1預(yù)覽版近日悄然登陸LMSYS Chatbot Arena，這一國際大模型盲測平臺已更新其榜單。

截至4月30日的數(shù)據(jù)顯示，文心5.1 Preview在包含GPT、Claude、Gemini等近百款模型的全球總榜中排名第13。

百度官方尚未就此發(fā)布公告，外界多將其視為一次低調(diào)的技術(shù)驗證。

在LMArena的文本排行榜上，文心5.1 Preview以1476分的Elo評分成為前十五名中唯一上榜的中國國產(chǎn)模型。

從實時排名看，該版本位于GPT-5.2 Chat與Grok-4.20 Multi Agent之間，與Claude 4.5 Opus、Gemini Ultra 2.5等模型處于同一競爭區(qū)間。

目前百度未公開5.1預(yù)覽版的具體參數(shù)規(guī)模或架構(gòu)細(xì)節(jié)，但知情人士稱，該版本基于文心5.0的“多維彈性預(yù)訓(xùn)練”技術(shù)開發(fā)，能以更低成本實現(xiàn)一次訓(xùn)練、產(chǎn)出多種規(guī)模的模型。

LMSYS Chatbot Arena的評測機(jī)制為用戶盲測雙匿名投票，通過Bradley-Terry模型計算得分，因其真實模擬了人類偏好，被業(yè)內(nèi)視為當(dāng)前較具參考價值的第三方評測方式之一。

不過，有公開討論也指出，該平臺的測試數(shù)據(jù)集、采樣比例以及廠商是否選擇展示特定模型版本等變量，會影響排名結(jié)果的解釋范圍。

例如，OpenAI的GPT系列、Google的Gemini以及Anthropic的Claude等模型在該平臺上頻繁迭代，排名波動較為常見。

對于此次文心5.1 Preview的登場，有開發(fā)者注意到，百度已在千帆模型廣場開啟限時邀測，優(yōu)先面向企業(yè)及開發(fā)者開放試用。

結(jié)合過往節(jié)奏，業(yè)內(nèi)猜測百度很可能在2026年5月的Create開發(fā)者大會上正式推出完整版文心5.1。屆時，模型的實際性能、推理成本以及多模態(tài)能力是否同步升級，將獲得更明確的答案。

一個值得探討的問題是，LMSYS競技場的高排名是否足以衡量大模型在實際業(yè)務(wù)場景中的可用性？不同評測體系如SuperGLUE、MMLU、C-Eval等各有側(cè)重，而商業(yè)落地更關(guān)注延遲、成本、領(lǐng)域適配等維度。

對于百度而言，此次低調(diào)上線預(yù)覽版，既是對自身迭代速度的一次檢驗，也是在與GPT、Claude等競品同臺競爭中獲取真實用戶反饋的務(wù)實做法。

最終文心5.1能否在性能與成本之間找到平衡點，還需要更多公開Benchmark和行業(yè)應(yīng)用案例來交叉驗證。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

ClaudeCode之父：“全員編程”時代，企業(yè)真正領(lǐng)先在于“組織流程的代差”

華爾街見聞官方 2026-05-05 14:09:40
20 跟貼 20
“DeepSeek版Claude Code”，Github 2.3k星

量子位 2026-05-04 14:03:17
14 跟貼 14

Doc-V*：讀100頁文檔不如只翻對5頁，80頁場景「暴打」RAG 10個點

機(jī)器之心Pro 2026-04-29 18:16:19
0 跟貼 0

月產(chǎn)僅4臺，機(jī)器人「祖師爺」波士頓動力塌房了！核心CTO已叛逃谷歌

新智元 2026-05-04 15:04:50
4 跟貼 4
Claude design限速，谷歌開源輕松做動態(tài)網(wǎng)頁，實力打臉？

機(jī)器之心Pro 2026-04-29 17:20:04
0 跟貼 0

巴菲特已建倉谷歌阿貝爾接班后很可能擁抱AI

究竟視頻 2026-05-03 13:23:38
0 跟貼 0

Xbox美女CEO需要擊潰微軟！最大勁敵并非索尼老任

游民星空 2026-05-05 12:11:36
1 跟貼 1
廠商老板相親上海清純美女，心定即是歸處！

藏心魚圓 2026-05-02 04:18:11
20 跟貼 20

時隔兩周中國AI大模型周調(diào)用量再超美國，騰訊Hy3 preview (free)位居榜首，DeepSeek-V4-Flash上榜環(huán)比增344%

每日經(jīng)濟(jì)新聞 2026-05-04 10:04:06
82 跟貼 82
吳宜澤斯諾克世錦賽奪冠成首位00后斯諾克世錦賽冠軍

央視新聞客戶端 2026-05-05 05:39:09
11861 跟貼 11861
「龍蝦之父」吐槽人類互聯(lián)網(wǎng)后，終于有人把這當(dāng)個事兒辦了

機(jī)器之心Pro 2026-03-31 11:09:26
0 跟貼 0
老外荷蘭評測：續(xù)航500公里！全新比亞迪B12.b LE電動公交車亮相

孤獨(dú)熏煙了全心 2026-05-04 02:44:48
0 跟貼 0
中山大學(xué)通報“附屬醫(yī)院康某某相關(guān)學(xué)術(shù)論文圖片及數(shù)據(jù)存疑”：已正式啟動調(diào)查程序

環(huán)球網(wǎng)資訊 2026-05-05 14:54:11
684 跟貼 684
使命召喚拋棄PS4，老玩家被迫二選一？

像素與芯片 2026-05-06 03:47:00
0 跟貼 0
莫氏雞煲上線湯料包5分鐘售罄4000多份，累計賣出4萬多份，總銷售額破160萬元，記者實測：1分鐘搶到兩包

極目新聞 2026-05-04 09:46:46
8620 跟貼 8620
越野家用全能兼顧試駕2026款iCAR V27

車質(zhì)網(wǎng) 2026-05-05 09:17:01
1 跟貼 1
微軟降價后首波大招：13款游戲入庫，地平線6領(lǐng)銜

字節(jié)漫游指南 2026-05-06 03:22:24
0 跟貼 0
LLM數(shù)據(jù)量大管飽，機(jī)器人數(shù)據(jù)卻連1%的起跑線都沒夠到？

量子位 2026-04-13 20:54:19
0 跟貼 0
母親節(jié)促銷清單：WIRED評測團(tuán)隊篩選的三款折扣好物

算力游俠 2026-05-05 10:15:43
1 跟貼 1
Xbox給世嘉游戲辦專場，圖什么？

Ping值焦慮 2026-05-05 10:25:42
0 跟貼 0
微軟砍掉游戲助手：新CEO三個月推翻前任戰(zhàn)略

硬核玩家2哈 2026-05-06 04:12:45
0 跟貼 0
美國海關(guān)傳票要求谷歌提供加拿大用戶數(shù)據(jù)

閃存獵手 2026-05-05 10:15:27
0 跟貼 0
谷歌記錄了一對印度尼西亞老夫婦晚年最后的人生歷程！

花令 2026-05-05 22:51:51
0 跟貼 0
亦莊機(jī)器人馬拉松現(xiàn)場名場面合集

量子位 2026-04-20 00:34:54
0 跟貼 0
海上鉆井平臺能在波濤洶涌的大海中屹立不倒，真相令人震驚

快樂猿 2026-05-05 10:16:36
1 跟貼 1
安心養(yǎng)蝦！從OpenClaw 看云上AI安全落地路徑

量子位 2026-04-18 19:55:39
0 跟貼 0
生肖虎的良緣：這3個生肖最適配，白頭偕老更靠譜

接谷蘭 2026-05-06 01:48:48
0 跟貼 0
央視官宣！殲35AE出口版首次亮相，該國將成首個海外用戶！

芮予豬豬 2026-05-05 03:53:31
1 跟貼 1
ACL 2026｜AI for聾啞群體，港理工開源思考型手語翻譯模型

機(jī)器之心Pro 2026-05-05 15:22:29
0 跟貼 0
馬斯克用Grok替代X員工，裁員90%

量子位 2025-11-29 16:58:47
30 跟貼 30
百度沈抖自曝：老忘吃藥，用AI做了個小程序

量子位 2026-03-27 11:25:23
0 跟貼 0
景區(qū)裝電梯無痛爬山被質(zhì)疑過度開發(fā)

極目新聞 2026-05-02 17:18:12
3875 跟貼 3875
WIRED實測3款母親節(jié)促銷：778美元室內(nèi)農(nóng)場、150美元全能鍋、150美元膠囊咖啡機(jī)

算力游俠 2026-05-05 10:57:05
0 跟貼 0
300萬對樣本、200萬對實拍：深度估計的數(shù)據(jù)荒，終于被打破

機(jī)器之心Pro 2026-03-31 11:08:33
0 跟貼 0
華為乾崑在做更難被復(fù)制的能力

財經(jīng)網(wǎng)科技 2026-05-01 20:37:58
0 跟貼 0
華誼兄弟余波未了：濟(jì)南長清電影小鎮(zhèn)摘牌，西城集團(tuán)血虧數(shù)億投資

中國能源網(wǎng) 2026-05-05 17:32:04
58 跟貼 58
Steam Deck把Linux掌機(jī)做火了，但Valve沒想到后面的事

摸魚算法 2026-05-05 23:15:34
4 跟貼 4
荒野求生（機(jī)器狗全自主版），2025ATEC挑戰(zhàn)真實戶外無遙操

量子位 2025-12-08 19:24:34
0 跟貼 0
俄羅斯宣布與烏克蘭實施勝利日停火

財聯(lián)社 2026-05-05 09:57:03
4544 跟貼 4544
讓你的龍蝦秒變電影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟貼 0

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

文心一言5.1預(yù)覽版上線LMSYS競技場，暫列總榜第13位

傳蘋果考慮讓英特爾、三星代工設(shè)備處理器

媒體：中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

媒體：中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

全世界都等著看他笑話，他帶國米拿下冠軍

內(nèi)娛真情誼！楊紫為謝娜演唱會送花籃

瀏陽煙花往事

態(tài)度原創(chuàng)

用青花瓷的方式，打開西溪濕地

這個五一，帶寶寶來北海看海啦～銀灘細(xì)沙海浪，是小朋友最愛的天

小米18再曝光，小折疊手機(jī)產(chǎn)品線已暫停