<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      騰訊混元「推倒重來」!Hy3-Preview實測:結果喜憂參半

      0
      分享至

      國內大模型的競爭,最近卷得有些讓人眼花繚亂。幾乎每隔一段時間,就會有新的模型發布,配上一張漂亮的跑分截圖,然后悄悄在你的手機 App 里更新,不看新聞你甚至不一定知道自己用的是哪個版本。

      這不,騰訊今天悄悄給元寶更新了全新混元 Hy3-Preview 模型,號稱是「底層推倒重來的第一作」。主導這次重建的是首席 AI 科學家姚順雨,他是ReAct 框架的提出者,也是元寶團隊去年從學術界挖來的重量級人物。



      (圖源:騰訊混元)

      有意思的是,Hy3-Preview刻意回避了跑分競賽的路子,提出"評測真實性"原則,主動跳出容易被刷榜的公開榜單,改用自建題目和人工評測來衡量真實戰斗力。官方特意強調了三個方向的重磅升級,分別是復雜推理、代碼,以及智能體。



      (圖源:雷科技制圖/官方 Promot 制作的網頁游戲)

      既然如此,那么小雷也不去看所謂的跑分、數據、榜單,直接來一波實測,就看看在這三個部分 Hy3-Preview 的表現到底如何。

      Hy3代碼實測:復雜任務有點難,生成速度非常快

      這次我們實測圍繞四個方向展開,分別是網頁生成、游戲編寫、交互建模和 SVG 動畫。為了從普通用戶的視角進行測試,我們使用的提示詞全都是偏自然語言的描述,比如"做一個交互式音樂可視化網站"、"做一個 Roguelike 地牢探索游戲"這種,主要還是為了看看Hy3-Preview在沒有明確指引的情況下,自己會做哪些決策、能把一件事做到什么程度。



      (圖源:雷科技制圖)

      第一輪我們來一個不算很難的 SVG 星圖動畫設計,這個代碼的難點在于想象自己在一張紙上畫一個會動的星空,同時還要讓人能用手指轉動它、點擊星座看故事,這個場景其實在很多天文館也有展示。

      在元寶客戶端上使用最新的 Hy3-Preview 模型,輸入提示詞之后,大約 30 秒就完成了代碼輸出,速度非常快。但出來的效果其實比較一般,基礎框架搭得還算清晰,星星的生成和行星軌道的思路是對的,可惜流星效果沒有做出來,拖拽交互也出現了問題,星座只有兩個。



      (圖源:雷科技制圖)

      為了驗證這段提示詞的可行性,我們也嘗試了 Codex 進行實測,同一段提示詞下,Codex 幾乎需要 5 分鐘才能生成網頁,而它也沒有按要求做流星特效,只做了粒子效果,但星座故事是完整的,也有點擊和拖拽效果。



      (圖源:雷科技制圖/由 Codex 制作)

      接著我們讓它試試看做一個城市夜景 SVG 動畫,這次它把題目要求的東西都做到了,建筑有層次,窗戶真的會隨機亮滅,車燈在街道上流動,閃電有雙閃效果,尤其是窗戶亮滅寫得很細心。



      (圖源:雷科技制圖)

      接下來我們就要做一些比較有挑戰性的測試,比如讓元寶做一個網頁游戲,而且是模擬建造游戲。這次元寶真的做了一套完整的游戲框架,經濟系統有收入、支出、稅收、維護費,每個月會結算一次,甚至有交通、噪音、綠化,還做了隨機事件,偶爾會冒出"新居民遷入"或者"稅收增加"的通知。



      (圖源:雷科技制圖)

      在做一個經典 Roguelike 游戲的時候,元寶還是稍微有點點掉鏈子,雖然它想到了設計戰士/游俠/法師三個職業,整體的地牢地圖設計得也還算合理,但它忘記了最重要的一件事,那就是設計敵人。沒有敵人的話,主角就只能在地圖里跑來跑去,也沒法獲得經驗升級。



      (圖源:雷科技制圖)

      最后來到交互建模的部分,我們給出提示詞,要求元寶做一個點擊位置會擴散出真實的水波紋的交互特效,而這次元寶給的出的結果確實很不錯,它用了像素級的波紋疊加把每一幀直接操作 Canvas 的像素數據,把多個波紋的強度疊加在一起生成水波紋的效果,其次是三個控件都真實可用。

      唯一的遺憾可能就是波紋疊加的干涉效果不夠明顯,兩個波紋交匯的時候,那種"亮一下"的疊加感偏弱。



      (圖源:雷科技制圖)

      從這幾輪的代碼測試來看,Hy3-Preview 在創意執行和界面呈現上已經進入可用的范圍,用來做效果展示類的東西是夠的,但如果任務本身的要求比較難,元寶可能會選擇性地先搭好整個框架,再慢慢詢問你的需求,是否要繼續增加功能。速度的確是快的,可惜結果目前看來并不是特別完美。

      邏輯推理,元寶被表面現象迷惑?

      如果說編程測試考的是模型能不能"做出來",推理測試考的就是它能不能"想清楚"。為了考驗它的推理能力,我們給 Hy3 Preview 出了四道常識推理題,沒有公式可以套,全靠對真實世界的理解。

      結果有點出乎意料,它在最"聰明"的題上翻了車,卻在最考驗耐心的題上發揮穩定。

      第一道題是個精心設計的陷阱,"一瓶水和一塊冰,放在同一個保溫箱里密封,24小時后,保溫箱里的水變多了還是變少了?"正確答案是不變,因為箱子密封,里面的總質量哪兒也去不了,冰融化成水、水蒸發成水汽,形態在變,總量不動。Hy3 的回答是:水變多了。



      (圖源:雷科技制圖)

      它的理由聽起來頭頭是道,冰在保溫箱里會升華,水蒸氣遇到冷的瓶壁凝結成液態水,所以液態水增加了。這個過程描述的單獨看沒什么問題,升華是真實存在的,凝結也是真實存在的,但它漏掉了一個前提是箱子是密封的,升華出來的水蒸氣、凝結回去的液態水,都還在箱子里,液態水多了,意味著別的形態的水就少了,加起來總量守恒。

      這是一個典型的漏看細節的錯誤,題目里"密封"兩個字是最重要的條件,它卻把注意力全放在升華和凝結這兩個物理過程上,最后給出了一個聽起來有道理,但是錯誤的答案。

      不過接下來的題目,它的表現明顯回來了。

      第二道題問的是:早上出門,發現鄰居家報紙沒拿、車還在、窗簾拉著、燈沒開,能推斷出幾種合理解釋,哪種最可能?這道題沒有標準答案,考的是推斷有沒有層次。



      (圖源:雷科技制圖)

      它的回答是認真的,有把幾種可能性分層列出來,每種解釋都附上了"支持點"和"疑點",最后得出最可能的結論是鄰居還沒起床,車在說明人大概率在家,窗簾拉著燈沒開符合還在睡覺的狀態,報紙沒拿是自然結果。整個推斷鏈條清晰,沒有直接跳到戲劇性結論,也沒有把"出事了"這種小概率情況排在第一位。這種"優先考慮最平凡的解釋"的判斷方式,其實是推理里最難的。

      第三道題問餐廳為什么把沒人點的最貴菜放在菜單第一頁,它答出了"價格錨定效應",解釋清楚了這道菜的作用不是被點走,而是讓顧客看到它之后覺得后面的菜價格合理。這個答案到位,而且它額外說了一點,放在第一頁而不是最后一頁,是因為第一個看到的數字對后續判斷影響最大,這個補充說明沒有在題目里,是它自己想到的,這個值得點贊。



      (圖源:雷科技制圖)

      綜合四道題來看,Hy3 在常識推理上呈現出一個有意思的特點,越是需要慢慢思考的題,它越容易出錯,但需要展開來說的題,它反而發揮穩定。

      換句話說,它更擅長把一個問題講得有條理,但在判斷"這道題的關鍵條件是什么"這件事上,有時候會被自己的知識量拖累。第一道題就是最好的例子知道的太多,反而沒注意到題目里最重要的兩個字。

      其實這不只是 Hy3 的問題,幾乎是所有大模型在常識推理上的共同現象。真正考驗模型的,從來不是它知不知道升華和凝結,而是它在一堆知識涌上來的時候,能不能先停下來,把題目讀完。

      不過,拋開邏輯題之外,這次 Hy3-Preview 的確比之前多了點“活人感”。比如我跟他說“我今天被領導批評了,心情不好”,它就會直接安慰我,而不是讓我反思自己的問題,先不說這種做法對不對,但至少情緒價值給到了。很多人在這種時刻,需要的不就是情緒上的安慰嗎?



      (圖源:雷科技制圖)

      說實在的,答對一道推理題不難,但在對的時刻說一句對的話,更難,前者還能靠知識,而后者就只能靠理解了。很顯然,Hy3 Preview 在這件事上,似乎比它的前輩們更有感覺了一點。

      Hy3 Preview,有驚喜也有遺憾

      測完這些,有種微妙的對照感——這個模型知道自己在做什么,但還沒完全做到。

      先說好的地方,創作和表達是 Hy3 Preview 目前最穩定的部分。比如城市夜景動畫有審美、有細節,水波紋的實現思路選對了,推理題里的鄰居場景分析層次清晰,聊天回復也確實少了那種一眼就能認出來的"AI腔"。這些加在一起,說明它在理解需求、組織語言、拿捏表達上已經有了相當的積累。用來聊天、寫東西、做創意類的任務,體驗是真的很不錯。

      但硬任務一來,差距就出來了。機械運動的物理邏輯錯了大半,保溫箱那道題被自己的知識量帶跑,肉鴿游戲只搭了個殼。這幾個案例指向同一個問題,它能把事情說得頭頭是道,但做起來的效果,其實還是有一點點不太讓人滿意。

      不過放到整個行業背景里看,Hy3-Preview 完全是及格線以上的模型。

      過去兩年,國內大模型的競爭基本圍繞兩件事展開:參數規模和榜單排名。誰的參數更大,誰在 MMLU、GSM8K 上跑得更高,誰就站上發布會的 C 位。這種方式在早期是有意義的,它建立了一個共同的評判標準,讓行業能快速分出梯隊,就如同手機性能跑分,分高自然就是強。



      (圖源:騰訊混元)

      但它的問題也越來越明顯,榜單和真實體驗之間的差距,用戶早就感受到了。一個在數學推理榜單上排名很高的模型,可能在你問它"幫我潤色一下這段話"的時候交出一篇比你原文還“AI”的東西。評測題和真實任務之間的距離,有時候比人們想象的要遠得多。

      騰訊這次選擇的方向,某種程度上是在回應這個問題。他們提出不追公開榜單、用真實場景來驗證模型能力,這個思路本身代表了行業一種新的成熟度,不是比誰分高,而是比誰真的好用。

      從這個角度來看,Hy3 Preview 的意義不完全在于它現在能做到什么,更在于它選擇了一條更難但更對的路,那就是放棄刷榜的捷徑,從預訓練到強化學習全部推倒重建。三個多月后交出這樣一份答卷,從雷科技的實測來看,驚喜是有的,遺憾也確實有一點。

      Hy3 Preview 目前的位置,在表達和創意上已經夠用,在需要嚴格正確的任務上還需要時間。對普通用戶來說,現在拿它來聊天、寫東西、處理日常信息,體驗是值得一試的。對于更高的期待,騰訊說了正式版還在路上,更大規模的模型也在訓練中。

      而且,既然這個版本帶了“Preview”這個后綴,就說明它還沒到正式版本的時候,或許等到摘掉了這個后綴,我們就能見識到混元真實的實力了。

      2026第十九屆北京國際汽車展覽會將于4月24日至5月3日在北京?中國國際展覽中心(順義館)和首都國際會展中心(新國展二期)舉行,本屆車展以“領時代·智未來”為主題,集中展現汽車工業的更多黑科技。
      比亞迪、小米、鴻蒙智行(問界等)、小鵬、蔚來、嵐圖等頭部品牌集結,多款重磅新車首秀;地平線、Momenta、卓馭等供應商集體秀肌肉,AI大模型深度賦能,高階智駕、動力電池、超快充技術等前沿科技集中亮相,看點拉滿!
      雷科技旗下「電車通」將派出報道團直擊現場,以“關注電動車,更懂智能化”的專業視角,帶來一線獨家報道,敬請關注!



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中國假期空檔期,全球瘋狂暴漲,人人都在搶資產

      中國假期空檔期,全球瘋狂暴漲,人人都在搶資產

      魏家東
      2026-05-01 14:10:50
      北影30年后再聚首:陳坤老了,黃曉明精致了,意想不到的人也來了

      北影30年后再聚首:陳坤老了,黃曉明精致了,意想不到的人也來了

      往史過眼云煙
      2026-04-30 19:28:05
      確認了!上海天氣即將轉折!明夜降雨+雷電+大風+降溫!

      確認了!上海天氣即將轉折!明夜降雨+雷電+大風+降溫!

      尚虹橋
      2026-05-01 14:43:13
      川普:撤軍!撤軍!撤軍!

      川普:撤軍!撤軍!撤軍!

      西樓飲月
      2026-05-01 20:39:21
      民宿以“蛇很多”等理由勸退預訂客戶,官方通報

      民宿以“蛇很多”等理由勸退預訂客戶,官方通報

      界面新聞
      2026-05-01 08:33:01
      女子網購裙子卻收到一包紙,客服稱已賣完,讓申請僅退款,投訴至平臺僅賠償50元,商家:怕超時發貨被平臺處罰,顧客退款不會有太大損失

      女子網購裙子卻收到一包紙,客服稱已賣完,讓申請僅退款,投訴至平臺僅賠償50元,商家:怕超時發貨被平臺處罰,顧客退款不會有太大損失

      大風新聞
      2026-05-01 15:34:30
      朝鮮在俄陣亡2300人,烏軍卻未找到一具尸體!這才是烏軍厲害之處

      朝鮮在俄陣亡2300人,烏軍卻未找到一具尸體!這才是烏軍厲害之處

      阿訊說天下
      2026-05-01 09:47:47
      一場沒打就送走!?濃眉又要開始流浪了!

      一場沒打就送走!?濃眉又要開始流浪了!

      柚子說球
      2026-05-01 19:04:23
      政治局會議后48小時,深圳、廣州、天津連發樓市新政!全都搶在“五一”前

      政治局會議后48小時,深圳、廣州、天津連發樓市新政!全都搶在“五一”前

      華夏時報
      2026-04-30 23:50:09
      離開黃曉明算個屁!baby上海與00后小花同框被冷落,生圖顏值暴跌

      離開黃曉明算個屁!baby上海與00后小花同框被冷落,生圖顏值暴跌

      八卦王者
      2026-05-01 14:18:48
      打什么電話比12345更管用?這些電話比它管用100倍,建議收藏好

      打什么電話比12345更管用?這些電話比它管用100倍,建議收藏好

      細說職場
      2026-04-28 10:39:02
      伊朗公布最高領袖穆杰塔巴·哈梅內伊身體情況!

      伊朗公布最高領袖穆杰塔巴·哈梅內伊身體情況!

      每日經濟新聞
      2026-05-01 18:19:15
      重重抽范明耳光,用羞恥姿勢抓撒貝寧丟水里…孫楊口碑驟跌!

      重重抽范明耳光,用羞恥姿勢抓撒貝寧丟水里…孫楊口碑驟跌!

      魔都囡
      2026-05-01 08:29:48
      一天狂瀉“58個西湖”打破兩大紀錄,欽州特大暴雨圍城:警惕城市極端降雨風險常態化

      一天狂瀉“58個西湖”打破兩大紀錄,欽州特大暴雨圍城:警惕城市極端降雨風險常態化

      極目新聞
      2026-05-01 21:10:06
      上映多時票房只有零元,一個觀眾都沒有,五一檔最慘電影誕生了

      上映多時票房只有零元,一個觀眾都沒有,五一檔最慘電影誕生了

      影視高原說
      2026-05-01 08:47:30
      A50,直線拉升!中國資產,集體爆發

      A50,直線拉升!中國資產,集體爆發

      證券時報
      2026-05-01 10:52:07
      74歲老人郵輪上突發急癥離世:爆火的海上旅行,被低估的醫療風險

      74歲老人郵輪上突發急癥離世:爆火的海上旅行,被低估的醫療風險

      新京報
      2026-04-30 17:51:49
      解決“四人幫”過程中,吳德要調動部隊,華國鋒:你去找陳錫聯

      解決“四人幫”過程中,吳德要調動部隊,華國鋒:你去找陳錫聯

      元哥說歷史
      2026-05-01 20:45:03
      電磁爐為啥悄無聲息退出中國家庭?內行人透底玄機,看完徹底懂了

      電磁爐為啥悄無聲息退出中國家庭?內行人透底玄機,看完徹底懂了

      老特有話說
      2026-04-30 11:36:13
      眼中有光,誰看了不迷糊?

      眼中有光,誰看了不迷糊?

      貴圈真亂
      2026-05-01 13:49:56
      2026-05-01 23:19:00
      雷科技 incentive-icons
      雷科技
      專注AI硬科技
      37005文章數 812054關注度
      往期回顧 全部

      科技要聞

      DeepSeek發布多模態論文又連夜刪除

      頭條要聞

      8歲女孩跟隨鄰居長江游泳溺亡 鄰居曾抓住她又脫手

      頭條要聞

      8歲女孩跟隨鄰居長江游泳溺亡 鄰居曾抓住她又脫手

      體育要聞

      無奈!約基奇:這要在塞爾維亞 全隊早被炒了

      娛樂要聞

      馬筱梅產后身材恢復超好 現身戶外直播

      財經要聞

      GPU神話松動,AI真正的戰場變了

      汽車要聞

      限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

      態度原創

      游戲
      旅游
      藝術
      教育
      公開課

      LPL第二賽段:打破魔咒,讓一追二,IG三局戰勝WBG

      旅游要聞

      60秒看雄安|乘著巴士看城市風景線

      藝術要聞

      砸20億,388米!2022年中國建成最高樓,就在深圳!

      教育要聞

      五一首日熱度爆棚!秦淮區中招會傳來最新消息!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 午夜毛片免费观看视频 | 午夜a片| 超碰日韩AV在线| 免费人欧美成又黄又爽的视频| 国产成人高清精品亚洲| 日本高清视频色欧WWW| 人妻?无码中出| 91视频在线观看18| 99re在线视频观看| av天堂久久精品影音先锋| 国产亚洲精品黑人粗大精选| 日本成人有码在线视频| 国产精品久久久久久熟妇吹潮软件 | 久久老熟女一区二区蜜臀| 丝袜无码| 麻豆国产乱人伦精品一区二区| 久久久精品国产sm最大网站 | 亚洲精品tv久久久久久久久j| 在线亚洲+欧美+日本专区| 国产成人精品亚洲777人妖| 91在线观看视频| 97视频精品全国在线观看| 国产精品视频2020年最新视频| 亚洲成在人线在线播放无码| 不卡无码av| 欧美日一本| 亚洲欧美成人一区二区三区| 中文无码日韩精品| 被灌满精子的少妇视频| 国产AV国片精品有毛| 亚洲中文字幕有码| 无码中文av有码中文a| 国产亚洲精品一区二区不卡 | 青草娱乐极品免费视频| 国产成人做受免费视频| 久久久久久99av无码免费网站| 性做久久久久久久久| 国产成人精品高清不卡在线| 欧美亚洲精品一区二区在线观看| 亚洲国产成人综合自在线| 午夜少妇三级全黄|