<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      騰訊 Hy3 preview來了!姚順雨印跡明顯,混元重回牌桌|附實測

      0
      分享至


      作者 | 董道力
      郵箱 | dongdaoli@pingwest.com

      4 月 23 日,騰訊正式發布 Hy3 preview。這是混元經歷團隊重組、架構重構,以及明星科學家姚順雨接手關鍵團隊后,交出的第一份成績單。

      官方口徑稱:Hy3 preview 有295B 總參數、21B 激活參數、256K 上下文,快慢思考融合的 MoE 架構,定位"解決真實世界復雜工程問題"。


      我們在第一時間測試后發現,Hy3 preview 并不是當前最強的模型,但此前騰訊真正的問題是沒有一個夠用的基座,能撐起自己的產品線,同時在模型能力上回到牌桌上。


      從這個標準看,Hy3 preview 給出了一個肯定的答案。

      我們的測試圍繞這個定位設計:真實世界的復雜工程問題,這也是姚順雨加入騰訊后一直在強調的方向。

      他到騰訊參與的第一篇論文叫CL-bench,全稱Context Learning Benchmark,在這個研究里它沒有考察模型推理能力或代碼生成,而是在追問一件更基礎的事:對于上下文,模型真的讀進去了嗎?這對真實世界至關重要。


      當時的研究結論很難看,十個前沿模型平均任務解決率只有 17.2%。

      在模型發布后,騰訊首席AI科學家姚順雨表示,Hy3 preview是混元大模型重建的第一步。“我們希望通過這次開源和發布,獲得來自開源社區和用戶的真實反饋,幫助我們提升 Hy3 正式版的實用性。與此同時,我們也在繼續擴大預訓練和強化學習的規模,提升模型的智能上限,并通過與騰訊眾多產品的深度Co-Design,持續提升模型在真實場景中的綜合表現,并開始探索特色模型能力。”

      我們在這次第一時間的測試里,就用了姚順雨“辣評”其他模型的方法,來看看Hy3 preview的表現。

      1

      實測 Hy3 preview

      測試 1:做個人展示頁

      網站開發對模型來說并不稀奇,但可以看出一個模型的審美能力。

      在 workbuddy 中,選擇 Hy3 preview,模型。讓其幫我設計一個個人展示頁,UI 設計要有現代藝術感,要有炫酷的動效。

      可以看到,Hy3 preview 首選的是比較科幻的風格,開頭文字的報錯設計,以及后續滾動彈出效果,以及鼠標交互效果都有,并不是常見的 AI 味很重的網頁。

      測試 2:核實內容,打敗幻覺

      AI 時代,流言滿天飛,DeepSeek V4 鴿了又鴿,永遠在"下周發布";家族群每隔幾天就冒出一條 AI 生成的假新聞,真假混在一起,比以前更難分辨。

      我們決定換個思路,既然 AI 會制造噪音,那讓 AI 來核實噪音呢?

      我們嘗試讓 Hy3 preview,核實一下最近比較火的“魚油到底有沒有用的爭議”

      任務不是簡單的"查一查",而是需要其提供完整的信源分析,搜集不同背景的來源,識別矛盾點,給出信度評分。

      Hy3 preview 同時調取了央視、騰訊新聞、澎湃、FTC 執法記錄、Nature/Scientific Reports 以及 PubMed/Cochrane,共 7 個信源。此外,它沒有給出模糊的"存在爭議"式結論,而是把問題拆開,針對健康人群給出 35 分低信度,針對心血管疾病患者給出 65 分,有效性高度依賴人群、劑量和產品純度等。

      它還識別出市場層面的信息污染,央視調查發現有直播間銷售的"高純度魚油"實際未檢出任何 EPA、DHA;FTC 執法記錄顯示 BASF 自己贊助的臨床試驗中產品效果不優于安慰劑。


      當然,報告也有局限,信度評分有偽精確感,對小鼠實驗的篇幅略重,對人體意義并不大。但重點是 Hy3 preview 引用信源的能力,知道什是官媒、什么是專業作者,什么是學術論文。

      測試 3:針對權限虛假文檔答題

      為了驗證 Hy3 preview 的 context learning 能力,我們參照 CL-Bench 的核心設計原則,測試材料必須是模型預訓練階段從未見過的內容,正確答案只能從當下提供的文檔中推導,設計了道工業操作手冊題。

      我們虛構了一份參數密集的《Helios-7 壓縮機組操作手冊》,將關鍵判斷條件藏在第 4.3 節的注意事項中:振動超限期間,若同時出現主軸承溫度超過 82°C,須立即停機,不得嘗試降速運行。

      Hy3 preview 回答正確。它找到了第 4.3 節的禁止條款,判斷操作員做法不正確,理由準確指向軸承溫度 84°C 已超過 82°C 閾值這一關鍵事實,沒有用"降速是保守操作"的工程常識覆蓋文檔規則。


      但有一個細節值得注意。Hy3 preview 的回答開頭出現了一段思維鏈獨白,其中寫道"I need to check what those steps are to determine if reducing speed is the correct response",緊接著卻直接給出了結論。

      這個到底是真實推理軌跡還是一種“偽裝”,在解決這種搭建出來的環境里的問題時,模型的推理過程是否真實反映了它讀取文檔的路徑,值得更多研究。

      單題答對不足以定論。CL-Bench 的測試結論是,當前前沿模型的平均任務解決率只有 17.2%,最強模型也不過 23.7%,失敗的主要原因是"讀到了但用錯了"。Hy3 preview 在這道題上沒有犯這個錯誤。

      根據騰訊的數據,Hy3 preview在CL-Bench的表現也較上一代模型有明顯提升。


      測試 4:Agent 能力

      說實話,當前模型能力正在趨同,真正拉開差距的反而是 Harness 構建的水平。那么模型能不能用好 Skill,能不能更好適配 Harness,有時比跑分更能說明問題。

      我們以 Hy3 Preview 為例,調用瀏覽器 Skill(要配置 Chrome 遠程調試)和騰訊在線文檔 Skill,完成了一個世界杯賽程網頁的制作任務,任務中既涵蓋表格、PDF 等多模態輸出,也將直接檢驗 Hy3 Preview 的 Skill 調用能力。


      可以看到,Hy3 Preview 在 workbuddy 環境下,為這個任務調用了 32 個工具,也不知道為啥能那么多。



      第一步搜索階段,Hy3 Preview 先完成了瀏覽器環境檢查,然后檢索并整理出了基本賽事信息:48 支參賽隊、16 個舉辦城市、12 個小組的分組結果,以及賽制和獎金方案。值得注意的是,在啟動瀏覽器之前,它識別出了環境未就緒的問題,主動停下來提示完成 Node.js 版本檢查和遠程調試端口配置。

      第二步內容生成階段,任務切換后模型明顯提速:其直接生成了賽程網頁并完成預覽。相比第一步的大量工具調用,面對結構清晰、輸出目標明確的任務,模型能夠收斂調用鏈路。


      過程中有一個細節,當我打斷環境安裝步驟后,Hy3 Preview 會識別并選擇新的方式。在經歷瀏覽器自動化和辦公 Skill調用后,Hy3 preview也成功生成了網頁和對應的多模態內容。

      1

      補齊短板之后?

      四項測試測下來,Hy3 preview 的表現不輸當前主流模型的日常使用水準。代碼生成有審美判斷,信息核實能區分信源權威度,context learning 的測試里沒有用常識覆蓋規則,Agent 任務里能識別環境變化并調整路徑。

      但也有值得持續觀察的地方。思維鏈的"表演感"是當前推理模型的通病,Hy3 preview 也沒有跳出來。信度評分的偽精確、對小鼠實驗的過度展開,說明信息篩選的權重判斷還有空間。32 步工具調用完成任務,效率層面不算極致。

      這些問題都還在。但它們不是這次評測的主角。

      沒人懷疑在AI競爭里,騰訊強大的c端產品能起到的作用。但它有天花板——當用戶開始用 AI 做多步推理、長文檔分析、復雜 Agent 任務,底層模型的能力終究會直接影響留存。產品層能彌補的差距是有限的。

      騰訊在 AI 這場仗里,產品腿和模型腿的長度一直不一樣。

      Hy3 preview 的出現是一次基模補齊,而不是在模型能力上的超越。

      騰訊從來不是靠最強技術贏的公司。微信贏的時候,技術并不比米聊強多少。但技術弱到一定程度,是會拖死產品。

      Hy3 preview 在此刻的“任務”也許就在這里:不是要做最強的模型,而是讓騰訊的 AI 產品終于有底氣只用自家的基座。

      據透露,該系列更大尺寸的模型接下來也會發布,競爭會變得更加有趣了。


      點個愛心,再走 吧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      曝國際足聯要價不是20億而是40億!央視最多只給5.5億 差距懸殊

      曝國際足聯要價不是20億而是40億!央視最多只給5.5億 差距懸殊

      念洲
      2026-05-06 23:06:44
      16歲女生玩秋千墜亡后續:多視角曝光,死因非沒綁緊,細節披露

      16歲女生玩秋千墜亡后續:多視角曝光,死因非沒綁緊,細節披露

      李晚書
      2026-05-06 13:21:59
      19時48分27秒,我國正式進入……

      19時48分27秒,我國正式進入……

      譚老師地理大課堂
      2026-05-06 14:52:48
      中美局勢徹底大反轉?經濟還沒超車,這兩張"王牌"已讓美國慌了

      中美局勢徹底大反轉?經濟還沒超車,這兩張"王牌"已讓美國慌了

      介知
      2026-05-07 13:35:24
      至今,還有13個國家和中國沒有建交,他們都是誰?

      至今,還有13個國家和中國沒有建交,他們都是誰?

      深度報
      2026-04-22 22:30:57
      中國女性最私密的創傷,終于有人敢拍了

      中國女性最私密的創傷,終于有人敢拍了

      一條
      2026-05-06 11:43:59
      皇馬訓練場再爆沖突:一周內第三起內訌,曼聯目標卷入

      皇馬訓練場再爆沖突:一周內第三起內訌,曼聯目標卷入

      體育硬核說
      2026-05-07 15:33:47
      JR:詹姆斯已經終結GOAT懸念了!別人無法41歲單核過首輪!

      JR:詹姆斯已經終結GOAT懸念了!別人無法41歲單核過首輪!

      歷史第一人梅西
      2026-05-07 10:22:45
      社保嚴查全面收緊!無數中小企業,正在為十年前的小聰明買單

      社保嚴查全面收緊!無數中小企業,正在為十年前的小聰明買單

      芳姐侃社會
      2026-04-25 18:32:12
      趙心童一根球桿19萬,吳宜澤他爸連房子賣了,斯諾克貧富差距扎心

      趙心童一根球桿19萬,吳宜澤他爸連房子賣了,斯諾克貧富差距扎心

      小娛樂悠悠
      2026-05-06 00:08:26
      等了一天一夜,日本高官見不到中方,高市不甘心,想派百人團訪華

      等了一天一夜,日本高官見不到中方,高市不甘心,想派百人團訪華

      混沌錄
      2026-05-06 23:01:06
      五一假期突傳噩耗!4位名人相繼離世,平均年齡未滿60結局太唏噓

      五一假期突傳噩耗!4位名人相繼離世,平均年齡未滿60結局太唏噓

      花小貓的美食日常
      2026-05-07 13:30:55
      張萌在上海時裝周上一個雙手托胸的動作,照片炸了全網。

      張萌在上海時裝周上一個雙手托胸的動作,照片炸了全網。

      阿廢冷眼觀察所
      2026-05-06 02:00:26
      與柯文哲黃國昌有不正當男女關系?臺灣民眾黨美女候選人發文回擊

      與柯文哲黃國昌有不正當男女關系?臺灣民眾黨美女候選人發文回擊

      海峽導報社
      2026-05-07 12:12:04
      吳宜澤僅有3個代言在手,奪冠后商業價值飆漲,收入或將突破3000萬

      吳宜澤僅有3個代言在手,奪冠后商業價值飆漲,收入或將突破3000萬

      體壇最前線66
      2026-05-06 15:37:10
      范冰冰又拿獎了?烏迪內電影節“杰出藝術獎”含金量有多高

      范冰冰又拿獎了?烏迪內電影節“杰出藝術獎”含金量有多高

      今古深日報
      2026-05-07 09:25:57
      12天10個漲停板!股民:感覺天下無敵了!

      12天10個漲停板!股民:感覺天下無敵了!

      數據挖掘分析
      2026-05-07 15:15:08
      越來越猖狂的早餐店“鋁包子”,我們應提高警惕,該如何辨別呢?

      越來越猖狂的早餐店“鋁包子”,我們應提高警惕,該如何辨別呢?

      心中的麥田
      2026-05-04 18:47:55
      芭提雅海灣8名外國游客不雅行為引爭議,當地民眾表示強烈不滿

      芭提雅海灣8名外國游客不雅行為引爭議,當地民眾表示強烈不滿

      曼谷陳大叔
      2026-05-06 15:05:34
      新華時評|安全紅線不容僥幸逾越

      新華時評|安全紅線不容僥幸逾越

      新華社
      2026-05-06 22:45:05
      2026-05-07 16:08:49
      硅星人 incentive-icons
      硅星人
      硅(Si)是創造未來的基礎,歡迎來到這個星球。
      3061文章數 10495關注度
      往期回顧 全部

      科技要聞

      月之暗面完成20億美元融資,估值突破200億

      頭條要聞

      記者詢問"是否敦促美方從霍爾木茲撤出軍艦" 中方回應

      頭條要聞

      記者詢問"是否敦促美方從霍爾木茲撤出軍艦" 中方回應

      體育要聞

      巴黎再進歐冠決賽,最尷尬的情況還是發生了

      娛樂要聞

      小S阿雅重返大S母校,翻看大S畢業照

      財經要聞

      特朗普:美伊“很有可能”達成協議

      汽車要聞

      理想為什么不做轎車,有了解釋……

      態度原創

      房產
      游戲
      數碼
      旅游
      公開課

      房產要聞

      五一海南樓市,太淡了!

      NS"代表作"之一終登NS2:原版玩家還要付費升級!

      數碼要聞

      歷經三年終于出貨!高端Linux筆記本正式開售 起售價1.28萬元

      旅游要聞

      藍花楹盛開,列車浪漫穿花海|封面視頻

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 曰批全过程免费视频在线观看无码| 999久久久国产精品消防器材| 国产亚洲情侣一区二区无码av| 在线看免费无码av天堂| 毛片无码喷水| 一本大道久久久久精品嫩草| 国产精品美女av| 国产成人99| 欧美国产日韩久久久| 亚洲精品无线乱码一区| 国产午夜一区二区在线观看| 精品国产91久久粉嫩懂色| 精品女人久久久| 久久高潮少妇视频免费| 中文有码亚洲制服av片| 国产乱码精品一区二三| 少妇无码太爽了在线播放| 国产精品99在线观看| 国产乱老熟女乱老熟女视频| 亚洲一区二区激情| 一区二区丝袜美腿视频| 久久中文字幕人妻丝袜系列| 亚洲AV一二三区成人影片| 富源县| 国产精品原创不卡在线| 亚洲综合精品一区二区三区| 免费观看黄色网址| 国产播放91色在线观看| 亚洲国产成人一区二区在线| 亚洲老女人区一区二视频| 日韩精品中文字幕人妻 | 亚洲久久婷婷| 亚洲蜜桃精久久久久久久久久久久 | 天干夜天干天天天爽视频| 狠狠色噜噜狠狠狠狠777米奇| 中文字幕一区二区三区又粗| 日韩精品人妻中文字幕有| 亚洲激情av| 欧美成人精品高清在线下载| 福利视频一区二区在线| 欧美一区二区三区成人久久片|