網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

姚順雨騰訊模型首秀！不卷參數(shù)只做 “聽(tīng)話打工人”，Hy3 preview登場(chǎng) | 附實(shí)測(cè)

2026-04-23 17:21:01　來(lái)源: AI前線

北京舉報(bào)

分享至

作者 | 褚杏娟、蔡芳芳

今天，騰訊正式發(fā)布了新模型 Hy3 preview，這是姚順雨加入騰訊后帶領(lǐng)團(tuán)隊(duì)發(fā)布的首個(gè)模型。

姚順雨團(tuán)隊(duì)沒(méi)有從千億規(guī)模模型入手。Hy3 preview 是一個(gè)快慢思考融合的 MoE 語(yǔ)言模型，總參數(shù) 295B，激活參數(shù) 21B，最大支持 256K 上下文長(zhǎng)度，主打性?xún)r(jià)比。Hy3 preview 的模型能力提升，適用于 Coding 和智能體（例如龍蝦）類(lèi)場(chǎng)景，是一個(gè)在實(shí)際應(yīng)用中具備實(shí)用性和高性?xún)r(jià)比的基礎(chǔ)模型。

Hy3 preview 是騰訊嘗試解決真實(shí)世界復(fù)雜工程問(wèn)題的開(kāi)端。騰訊希望將 Hy3 preview 置于真實(shí)的業(yè)務(wù)場(chǎng)景中，通過(guò) WorkBuddy 這一面向知識(shí)工作者的智能體（Agent）生產(chǎn)力框架，讓 AI 與用戶(hù)共同完成能力的持續(xù)進(jìn)化。

騰訊表示，這是混元重建后訓(xùn)練的第一個(gè)模型，也是混元迄今最智能的模型，在復(fù)雜推理、指令遵循、上下文學(xué)習(xí)、代碼、智能體等能力及推理性能上實(shí)現(xiàn)了大幅的提升。

2026 年 2 月，騰訊混元重建了預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)的基礎(chǔ)設(shè)施，以及模型追求實(shí)用性的三個(gè)原則：

能力體系化：不推崇“偏科”，因?yàn)榧词故谴a智能體的單一應(yīng)用，也涉及推理、長(zhǎng)文、指令、對(duì)話、代碼、工具等多種能力的深度協(xié)同。
評(píng)測(cè)真實(shí)性：主動(dòng)跳出易被“刷榜”的公開(kāi)榜單，通過(guò)自建題目、最新考試、人工評(píng)測(cè)、產(chǎn)品眾測(cè)等多種方式評(píng)估和改進(jìn)模型的“真實(shí)戰(zhàn)斗力”。
性?xún)r(jià)比追求：實(shí)用性離不開(kāi)商業(yè)合理性，深度協(xié)同模型架構(gòu)和推理框架的設(shè)計(jì)，大幅降低任務(wù)成本，讓智能用得起、用得好。

模型發(fā)布的同時(shí)，騰訊官方也給混元系列換了新的logo，儼然一副“重新出發(fā)”的感覺(jué)：

騰訊首席 AI 科學(xué)家姚順雨表示，Hy3 preview 是混元大模型重建的第一步。“我們希望通過(guò)這次開(kāi)源和發(fā)布，獲得來(lái)自開(kāi)源社區(qū)和用戶(hù)的真實(shí)反饋，幫助我們提升 Hy3 正式版的實(shí)用性。與此同時(shí)，我們也在繼續(xù)擴(kuò)大預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)的規(guī)模，提升模型的智能上限，并通過(guò)與騰訊眾多產(chǎn)品的深度 Co-Design，持續(xù)提升模型在真實(shí)場(chǎng)景中的綜合表現(xiàn)，并開(kāi)始探索特色模型能力。”

今年初，在 AGI-NEXT 會(huì)議上，姚順雨就坦言，騰訊仍然是一家 To C 基因更強(qiáng)的公司。因此，騰訊更關(guān)心的問(wèn)題是：如何讓今天的大模型真正為用戶(hù)創(chuàng)造更多實(shí)際價(jià)值。

他認(rèn)為，To C 場(chǎng)景里，很多問(wèn)題的關(guān)鍵并不只是模型變得更大、更強(qiáng)，而是能否拿到更多上下文信息。姚順雨舉例說(shuō)，像“我今天該吃什么”這樣的問(wèn)題，看似簡(jiǎn)單，但如果沒(méi)有足夠的上下文，模型很難給出真正貼近用戶(hù)當(dāng)下需求的答案。比如天氣是否很冷、活動(dòng)范圍在哪里、是否需要考慮伴侶的安排，這些額外信息往往比繼續(xù)做更大模型、更強(qiáng)強(qiáng)化學(xué)習(xí)或者更強(qiáng)搜索更重要。

值得注意的是，姚順雨加入騰訊后的首次署名研究論文也是關(guān)于上下文。騰訊混元官網(wǎng)在 2 月發(fā)布了姚順雨團(tuán)隊(duì)加入后的首個(gè)公開(kāi)成果 CL-bench，專(zhuān)門(mén)測(cè)模型能不能從上下文中學(xué)到新知識(shí)并正確應(yīng)用。姚順雨強(qiáng)調(diào)不要只盯榜單，更重要的是把系統(tǒng)放進(jìn)真實(shí)世界約束中評(píng)估。

騰訊在集團(tuán)層面也在加速將 AI 融入游戲、廣告和社交等核心業(yè)務(wù)，這體現(xiàn)在了最新財(cái)報(bào)中：增值服務(wù)收入同比增長(zhǎng) 14% 至 899.2 億元；營(yíng)銷(xiāo)服務(wù)收入同比增長(zhǎng) 17% 至 411.2 億元；金融科技及企業(yè)服務(wù)業(yè)務(wù)收入同比增長(zhǎng) 8% 至 608.2 億元。

公司還圍繞大模型能力和 AI 產(chǎn)品矩陣持續(xù)推進(jìn)，WorkBuddy、QClaw 等“小龍蝦”系列 Agent 陸續(xù)上線。但更讓人關(guān)注的是財(cái)報(bào)媒體會(huì)上，騰訊宣布混元 3.0 計(jì)劃于 4 月陸續(xù)向外開(kāi)放。自引入姚順雨后，騰訊圍繞 AI 組織與人才體系進(jìn)行了一系列密集調(diào)整，而這一系列動(dòng)作的效果一定程度會(huì)反映在最新的模型上。

很明顯，Hy3 preview 既是符合姚順雨和騰訊業(yè)務(wù)理念的模型，也是大眾對(duì)騰訊的一次檢驗(yàn)。

主打全面實(shí)用性，Agent 能力大幅提升

根據(jù)官方多個(gè)測(cè)評(píng)結(jié)果，Hy3 preview 模型能力全面提升。

上下文學(xué)習(xí)和指令遵循能力

在各種真實(shí)的生產(chǎn)與生活場(chǎng)景，理解雜亂冗長(zhǎng)的上下文并遵從復(fù)雜多變的規(guī)則是模型的首要挑戰(zhàn)。基于騰訊業(yè)務(wù)場(chǎng)景的靈感，騰訊混元提出了 CL-bench 和 CL-bench-Life 來(lái)創(chuàng)新性地評(píng)估模型的上下文學(xué)習(xí)能力，并在 Hy3 preview 顯著地提升了模型上下文學(xué)習(xí)和指令遵循能力。

復(fù)雜推理能力突出，清華數(shù)學(xué)博士資格考試國(guó)內(nèi)分?jǐn)?shù)最高

復(fù)雜推理能力是模型解決各種問(wèn)題的基礎(chǔ)。Hy3 preview 在 FrontierScience-Olympiad、IMOAnswerBench 等高難度理工科推理任務(wù)中表現(xiàn)突出，并在最新的清華大學(xué)求真書(shū)院數(shù)學(xué)博資考 (26 春) 和全國(guó)中學(xué)生生物學(xué)聯(lián)賽 (CHSBO 2025) 中取得優(yōu)異成績(jī)，展現(xiàn)了可泛化的強(qiáng)推理能力。

代碼與智能體提升最為顯著，展現(xiàn)出高性?xún)r(jià)比

代碼和智能體是 Hy3 preview 提升最為顯著的方向。得益于預(yù)訓(xùn)練及強(qiáng)化學(xué)習(xí)框架的重建和強(qiáng)化學(xué)習(xí)任務(wù)規(guī)模的提升，騰訊混元以較快的速度在 SWE-Bench Verified、Terminal-Bench 2.0 等主流代碼智能體基準(zhǔn)以及 BrowseComp、WideSearch 等主流搜索智能體基準(zhǔn)中取得了有競(jìng)爭(zhēng)力的結(jié)果。

在數(shù)字世界中，代碼關(guān)注的是模型在開(kāi)發(fā)環(huán)境中的執(zhí)行能力，搜索則聚焦于開(kāi)放信息空間中的檢索、篩選與整合能力，兩者共同決定了模型在復(fù)雜智能體場(chǎng)景（例如 OpenClaw）中是否真正具備可用性。Hy3 preview 在 ClawEval 和 WildClawBench 等評(píng)測(cè)中表現(xiàn)突出，表明我們的智能體能力正在穩(wěn)步走向全面與實(shí)用。

除了公開(kāi)榜單，騰訊混元還進(jìn)一步構(gòu)建了多個(gè)內(nèi)部的評(píng)測(cè)集，對(duì)模型在真實(shí)開(kāi)發(fā)場(chǎng)景中的表現(xiàn)進(jìn)行評(píng)估。結(jié)果表明，無(wú)論是在后端工程任務(wù)集 Hy-Backend，貼近真實(shí)用戶(hù)開(kāi)發(fā)交互的 Hy-Vibe Bench，還是高難度軟件工程開(kāi)發(fā)任務(wù)集 Hy-SWE Max 上，Hy3 preview 均體現(xiàn)出了強(qiáng)競(jìng)爭(zhēng)力。

比較各個(gè)開(kāi)源模型的大小與智能體綜合表現(xiàn)，Hy3 preview 展現(xiàn)出高性?xún)r(jià)比。

成本大幅降低，騰訊核心業(yè)務(wù)全面接入

得益于模型和推理框架上的深度協(xié)同，以及在推理框架、算子性能、量化算法等全方面優(yōu)化，整體推理效率提升 40%，Hy3 preview 的成本相比上一代模型大幅下降。

在騰訊云大模型服務(wù)平臺(tái) TokenHub 上，Hy3 preview 輸入價(jià)格最低 1.2 元 / 百萬(wàn) tokens，輸入命中緩存價(jià)格 0.4 元 / 百萬(wàn) tokens，輸出價(jià)格最低 4 元 / 百萬(wàn) tokens。同時(shí)，騰訊云聯(lián)合混元推出定制的 Hy3 preview Token Plan 套餐，個(gè)人版定價(jià)最低 28 元 / 月，為 Agent 開(kāi)發(fā)和打造“龍蝦”應(yīng)用的提供更具性?xún)r(jià)比選擇。

而在正式上線之前，Hy3 preview 在騰訊主要 AI 業(yè)務(wù)進(jìn)行了產(chǎn)品測(cè)試，獲得明顯正收益。

比如在元寶端，混元與元寶進(jìn)行了深度 Co-Design。一方面，針對(duì)性地提升了模型在意圖理解精準(zhǔn)度、文本創(chuàng)作質(zhì)量、深度搜索等硬核指標(biāo)上的表現(xiàn)；另一方面，對(duì)文風(fēng)、文筆、情商、內(nèi)容組織和內(nèi)容專(zhuān)業(yè)度上進(jìn)行了精細(xì)化調(diào)優(yōu)。模型與產(chǎn)品的深度協(xié)同，為用戶(hù)帶來(lái)了更智能且更具“活人感”的交互體驗(yàn)。

在 ima 知識(shí)庫(kù)問(wèn)答和通用問(wèn)答兩個(gè)場(chǎng)景下，Hy3 preview 處理長(zhǎng)文的能力出色，特別是檢索類(lèi)任務(wù)，在回答信息的準(zhǔn)確性、覆蓋度和全面性上表現(xiàn)較好。

在 CodeBuddy、WorkBuddy 產(chǎn)品上，Hy3 preview 首 token 延遲降低 54%、端到端時(shí)長(zhǎng)降低 47%、成功率提升至 99.99%+。實(shí)際用戶(hù)環(huán)境中，Hy3 preview 已穩(wěn)定驅(qū)動(dòng)最長(zhǎng) 495 步的復(fù)雜 Agent 工作流，覆蓋文檔處理、數(shù)據(jù)分析、知識(shí)檢索、MCP 工具鏈編排等多樣化辦公場(chǎng)景。

而在公眾號(hào) AI 分身和 AI 客服的場(chǎng)景專(zhuān)項(xiàng)評(píng)測(cè)中，Hy3 preview 展現(xiàn)出相比 Hy2 更全面的能力升級(jí)。新模型在用戶(hù)意圖理解、復(fù)雜上下文承接和知識(shí)信息組織方面表現(xiàn)更成熟，面對(duì)模糊提問(wèn)、短句追問(wèn)和多輪對(duì)話時(shí)，能夠更準(zhǔn)確地把握用戶(hù)訴求，并輸出更清晰、更穩(wěn)定的回復(fù)。結(jié)合知識(shí)庫(kù)、用戶(hù)記憶與上下文生成回答時(shí)更貼合 AI 分身和 AI 客服的角色，過(guò)度腦補(bǔ)、主觀代入和情緒化表達(dá)顯著減少，使整體交互體驗(yàn)更貼近“可信、自然、高效”的回復(fù)目標(biāo)。

另外在和平精英 AI NPC 場(chǎng)景評(píng)測(cè)中，和平精英團(tuán)隊(duì)第一時(shí)間在 Hy3 preview 上線后基于 AI NPC 場(chǎng)景中完成接入并開(kāi)展評(píng)測(cè)，整體表現(xiàn)令人印象深刻。在游戲局外的人設(shè)扮演場(chǎng)景中，Hy3 Preview 不僅能夠精準(zhǔn)理解角色設(shè)定，還能針對(duì)開(kāi)放性問(wèn)題輸出高度關(guān)聯(lián)、富有增量?jī)r(jià)值的內(nèi)容，帶來(lái)了更加真實(shí)、自然、沉浸的對(duì)話體驗(yàn)。而在游戲局內(nèi)的復(fù)雜對(duì)戰(zhàn)場(chǎng)景中，模型回復(fù)節(jié)奏貼近真實(shí)玩家聊天體驗(yàn)，展現(xiàn)出優(yōu)秀的穩(wěn)定性與出色的擬人化扮演能力，整體效果表現(xiàn)亮眼。

在騰訊文檔 AI PPT 場(chǎng)景，較上一版本（Hy2）取得了顯著進(jìn)步：生成成功率提升 20%，評(píng)測(cè)得分提升 10%，同時(shí)生成耗時(shí)縮短 20%。整體而言，新模型在評(píng)測(cè)場(chǎng)景中表現(xiàn)優(yōu)異，在模版選擇，色彩匹配，生成大綱，補(bǔ)充內(nèi)容多個(gè)階段，均體現(xiàn)出優(yōu)秀的表現(xiàn)，無(wú)幻覺(jué)，契合主題，視覺(jué)效果好。

在 QQ AI 助手小 Q 產(chǎn)品評(píng)測(cè)中，較上一版本，在長(zhǎng)文本首字節(jié)時(shí)延、整體響應(yīng)速度與流式輸出效率方面顯著優(yōu)化；核心能力上，數(shù)學(xué)推理表現(xiàn)提升尤為明顯，多場(chǎng)景指令遵循與泛化能力進(jìn)一步增強(qiáng)；在工具調(diào)用推理及多輪指代消解方面表現(xiàn)更穩(wěn)定高效，在 OpenClaw 官方 PinchBench QQ 智能體場(chǎng)景測(cè)試中取得突出效果，綜合體驗(yàn)實(shí)現(xiàn)明顯躍升。

目前，Hy3 preview 已在騰訊云、元寶、ima、CodeBuddy、WorkBuddy、QQ、QQ 瀏覽器、騰訊文檔、騰訊樂(lè)享等首發(fā)上線，微信公眾號(hào)、和平精英、騰訊新聞、騰訊自選股、騰訊客服、微信讀書(shū)等多個(gè)主線產(chǎn)品也在陸續(xù)上線。另外，Hy3 preview 支持接入流行的開(kāi)源智能體產(chǎn)品，如 OpenClaw、OpenCode、KiloCode 等，并已上架騰訊云大模型服務(wù)平臺(tái) TokenHub。

InfoQ 有幸提前進(jìn)行了測(cè)試，整體使用下來(lái)，一句話總結(jié)就是：這是個(gè)用理性解決問(wèn)題的幫手。下面是我們做的五個(gè)小測(cè)試，包括國(guó)外播客整理翻譯、研究報(bào)告、前端網(wǎng)站搭建、物理理解和 Skill 測(cè)試，期間 Hy3 preview 做得好的地方、不好的地方，都非常明顯。

InfoQ 實(shí)測(cè)

英文視頻提煉亮點(diǎn)和翻譯

第一個(gè)小任務(wù)，嘗試讓 Hy3 preview 給英文采訪視頻提煉核心內(nèi)容和亮點(diǎn)。這也是我們的日常工作場(chǎng)景之一。

下面是思考過(guò)程：

Hy3 preview 無(wú)法直接訪問(wèn)我給的鏈接，于是先嘗試了用瀏覽器自動(dòng)化工具來(lái)訪問(wèn)，過(guò)程中會(huì)自己嘗試安裝缺少的工具agent-browser，不過(guò)安裝失敗了。于是它改為使用 Python 腳本來(lái)獲取視頻信息，這一次獲取成功了。最后基于獲取到的視頻基礎(chǔ)信息，它進(jìn)一步搜索到了這期播客的 newsletter 頁(yè)面，并獲取到了更詳細(xì)的介紹。

我讓它根據(jù)視頻內(nèi)容提煉 10 個(gè)關(guān)鍵亮點(diǎn)，它實(shí)際是從 newsletter 頁(yè)面上總結(jié)的亮點(diǎn)中選取了一些給我（分別是頁(yè)面里的第 1-8、10 和 12）。整體來(lái)說(shuō) Hy3 preview 比較順利地完成了任務(wù)，雖然它和其他模型一樣無(wú)法直接通過(guò)視頻鏈接抓取到內(nèi)容，但它很務(wù)實(shí)，不會(huì)憑空瞎編一些亮點(diǎn)（我在罵誰(shuí)我不說(shuō)）。

下一步，讓 Hy3 preview 提取視頻字幕文件。

它花了一點(diǎn)時(shí)間（差不多 10 分鐘），反復(fù)嘗試多次，最終成功獲取到了這個(gè)視頻的英文字幕文件。中間嘗試了不同方法，自動(dòng)安裝所需工具。

思考過(guò)程：

我問(wèn)它獲取字幕文件花了多長(zhǎng)時(shí)間，它混淆成了從一開(kāi)始給它視頻鏈接到剛才完成獲取字幕文件整個(gè)過(guò)程的總用時(shí)，所以給到了 40 分鐘的答案。但實(shí)際獲取字幕文件這一步的時(shí)間差不多是 10 來(lái)分鐘。總體而言反思態(tài)度很好，也很會(huì)總結(jié)經(jīng)驗(yàn)、給自己打氣。

接下來(lái)嘗試讓它將字幕文件中第一段 10 分鐘的內(nèi)容翻譯成中文，它耗時(shí) 5 分鐘后完成翻譯，并生成了 markdown 格式的文件可以直接下載。

它這一步依然是通過(guò) Python 腳本的方式來(lái)完成的，這一步的思考過(guò)程：

不過(guò)它的翻譯成果不算特別理想，存在幾個(gè)問(wèn)題：部分英語(yǔ)詞匯可以翻譯成中文但它沒(méi)翻譯；前后技術(shù)術(shù)語(yǔ)不一致；說(shuō)話人識(shí)別還是存在錯(cuò)位情況。

不過(guò)平心而論，使用其他模型翻譯視頻播客的時(shí)候我們也經(jīng)常會(huì)遇到類(lèi)似問(wèn)題，最終要達(dá)到可發(fā)布狀態(tài)都需要進(jìn)一步人工精調(diào)。而且這次由于時(shí)間有限，沒(méi)有對(duì) Hy3 preview 做更多更精細(xì)的調(diào)教，這也會(huì)在一定程度上影響最終效果。

這里附上這個(gè)視頻訪談開(kāi)始的第一段 QA，大家可以對(duì)比一下。一個(gè)是基于 GPT-5.4（Instant）翻譯并經(jīng)過(guò)人工潤(rùn)色的結(jié)果，一個(gè)是混元 3 初步翻譯的結(jié)果。

GPT-5.4（Instant）翻譯并經(jīng)過(guò)人工潤(rùn)色版本（文章已在 InfoQ 發(fā)布）：

混元 3 初步翻譯版本：

有一個(gè)地方是 GPT-5.4（Instant）明顯優(yōu)于混元 3 的，比如上面那段出現(xiàn)的技術(shù)名詞 Ormachy，在原版英文字幕文件中就是前后不一致的，同時(shí)存在幾個(gè)不同的錯(cuò)誤拼寫(xiě)，但是 GPT-5.4（Instant）可以自動(dòng)把出現(xiàn)的不同寫(xiě)法全部調(diào)整成正確寫(xiě)法 Ormachy，但混元 3 只是忠實(shí)地把錯(cuò)詞翻譯過(guò)來(lái)了。

“一人公司”報(bào)告：全而不細(xì)

然后，我們給出了一個(gè) 調(diào)研“AI 一人公司趨勢(shì)”并輸出一份報(bào)告的任務(wù)，要求其必須調(diào)用瀏覽器（搜索）、文檔整理、數(shù)據(jù)總結(jié)。

提示詞如下：

你現(xiàn)在是一個(gè)具備真實(shí)工作能力的研究型 Agent。你的目標(biāo)不是基于已有知識(shí)生成內(nèi)容，而是通過(guò)主動(dòng)調(diào)用工具，完成一次完整的“AI一人公司（One Person Company, OPC）趨勢(shì)調(diào)研”，并交付一份結(jié)構(gòu)清晰、信息可靠的研究報(bào)告。

任務(wù)目標(biāo)：

調(diào)研“AI一人公司趨勢(shì)”，并輸出一份可直接閱讀和使用的分析報(bào)告。

強(qiáng)制要求（必須遵守）：

1. 必須使用瀏覽器進(jìn)行真實(shí)搜索，獲取最新信息（不可僅依賴(lài)已有知識(shí)）

2. 必須對(duì)多來(lái)源信息進(jìn)行整理、對(duì)比與歸納

3. 必須對(duì)關(guān)鍵數(shù)據(jù)進(jìn)行提取和總結(jié)（如比例變化、融資情況、案例數(shù)據(jù)等）

4. 最終輸出一份結(jié)構(gòu)化報(bào)告，而不是零散內(nèi)容

執(zhí)行流程（必須按順序執(zhí)行）：

第一步：調(diào)研規(guī)劃

- 明確本次調(diào)研的核心問(wèn)題（例如：OPC是否趨勢(shì)性增長(zhǎng)、哪些人群受益、商業(yè)模式是什么等）

- 給出搜索關(guān)鍵詞（中英文）

- 說(shuō)明你將重點(diǎn)查找的信息類(lèi)型（數(shù)據(jù)、案例、觀點(diǎn)、公司實(shí)踐等）

第二步：信息搜索（必須調(diào)用瀏覽器）

- 至少進(jìn)行3-5輪不同角度的搜索

- 覆蓋：行業(yè)數(shù)據(jù)、真實(shí)案例、公司/平臺(tái)觀點(diǎn)、投資/融資信息

- 每次搜索需說(shuō)明：為什么搜、搜到了什么、是否可信

第三步：信息篩選與整理

- 去除重復(fù)或低質(zhì)量信息

- 標(biāo)記關(guān)鍵信息來(lái)源（例如報(bào)告、公司、媒體、個(gè)人觀點(diǎn)）

- 將信息按主題歸類(lèi)（如：趨勢(shì)、案例、商業(yè)模式、風(fēng)險(xiǎn)等）

第四步：數(shù)據(jù)與結(jié)論提取

- 提取關(guān)鍵數(shù)據(jù)（如占比變化、增長(zhǎng)趨勢(shì)、變現(xiàn)情況）

- 總結(jié)至少3-5個(gè)“可被驗(yàn)證的事實(shí)”

- 總結(jié)至少3個(gè)“趨勢(shì)判斷”

第五步：結(jié)構(gòu)化報(bào)告輸出

最終報(bào)告必須包含以下結(jié)構(gòu)：

1. 背景與現(xiàn)象（AI一人公司為何出現(xiàn)）

2. 核心趨勢(shì)（是否在增長(zhǎng)、增長(zhǎng)邏輯是什么）

3. 典型案例（真實(shí)個(gè)人/公司案例）

4. 商業(yè)模式與賺錢(qián)路徑

5. 誰(shuí)在受益（人群分層）

6. 風(fēng)險(xiǎn)與限制（如平臺(tái)依賴(lài)、可復(fù)制性問(wèn)題）

7. 未來(lái)判斷（短期紅利 vs 長(zhǎng)期結(jié)構(gòu)）

執(zhí)行要求：

- 每一步都要說(shuō)明“你在做什么”和“為什么這么做”

- 不允許跳過(guò)搜索直接總結(jié)

- 不允許只給觀點(diǎn)，必須有事實(shí)或案例支撐

- 如果信息存在沖突，需要指出并分析原因

- 優(yōu)先使用最近1-2年的信息

輸出要求：

- 語(yǔ)言清晰、邏輯連貫

- 信息密度高，但不要堆砌

- 可以直接作為一篇行業(yè)分析報(bào)告閱讀

現(xiàn)在開(kāi)始執(zhí)行：先輸出第一步【調(diào)研規(guī)劃】，不要跳步。

輸出報(bào)告如下：

讀者可以復(fù)制鏈接查看完整版：https://codebuddy.work/agents/share/viukYMtcJxAjBEi3N8E3dPmVO4Dqv43uZ17RjtKCOHMkCbCeu0bPptrbzVbE6Mb_?platform=workbuddy

整體給人感覺(jué)：這是非常全面的一份報(bào)告，只是細(xì)節(jié)展開(kāi)不夠，但對(duì)于想要大概了解“一人公司”情況的讀者來(lái)說(shuō)是可以快速掌握相關(guān)信息的。

在準(zhǔn)確性方面，我們隨機(jī)抽檢了兩組數(shù)據(jù)，第一組數(shù)據(jù)：“2023-2024 年澳大利亞無(wú)雇員企業(yè)同比增長(zhǎng) 4.9%，新增 78144 家”，在搜索后可以找到出處，數(shù)值引用也正確。

再隨機(jī)抽檢這個(gè)案例：“動(dòng)畫(huà)領(lǐng)域創(chuàng)業(yè)者可單人統(tǒng)籌 42 分鐘動(dòng)畫(huà)，28 天完成傳統(tǒng) 10 人團(tuán)隊(duì)的工作量”，結(jié)果也正確。

順便讓它把 md 格式轉(zhuǎn)成 PDF，它也順利完成了任務(wù)。

可見(jiàn)，在研究報(bào)告這塊，Hy3 preview 信息搜集處理的準(zhǔn)確度是不錯(cuò)的。不過(guò)，現(xiàn)在深度報(bào)告這塊的競(jìng)爭(zhēng)力或在數(shù)據(jù)上，近期 Kimi、千問(wèn)等都添加了專(zhuān)業(yè)數(shù)據(jù)庫(kù)來(lái)生成報(bào)告。

AI 新聞聚合網(wǎng)站：基本可用，細(xì)節(jié)待完善

接下來(lái)再給它一個(gè)任務(wù)：從零做一個(gè)“AI 新聞聚合網(wǎng)站”。在調(diào)用了 31 個(gè)工具、產(chǎn)生了 63 條過(guò)程消息后，Hy3 preview 成功生成了一個(gè) AI 新聞聚合平臺(tái)，如下圖：

這是 Hy3 preview 自主選擇的技術(shù)棧，還附了相關(guān)解釋?zhuān)嬖V用戶(hù)為什么這樣選。在將邏輯和開(kāi)發(fā)步驟講清楚后，模型才開(kāi)始正式執(zhí)行。

期間，我們上傳了一個(gè) Excel 表格，讓它讀取各 sheet 里的新聞源，它成功讀取并給出了一些意見(jiàn)，比如全是英文網(wǎng)站可能錯(cuò)過(guò)國(guó)內(nèi)企業(yè)消息（然后自己在抓取時(shí)候加入了國(guó)內(nèi)網(wǎng)站）。不過(guò)，讀取也出現(xiàn)了一些問(wèn)題，比如一個(gè)子 sheet 里的 31 條新聞源，其顯示只讀取了 3 個(gè)，數(shù)量差有些大，也導(dǎo)致新聞抓取過(guò)度依賴(lài)某一單一網(wǎng)站。

這次測(cè)試中，Hy3 preview 也展現(xiàn)了自己的 debug 能力。在任務(wù)完成后，打開(kāi)網(wǎng)頁(yè)出現(xiàn)了下面問(wèn)題，告訴它后，它開(kāi)始檢查問(wèn)題，最后順利修復(fù)。

成品檢驗(yàn)

首先是抓取時(shí)間問(wèn)題，點(diǎn)擊一個(gè)顯示“4 分鐘前”的新聞，打開(kāi)原鏈接后新聞顯示的時(shí)間是 2025 年 1 月 31 日。

當(dāng)然生成的聚合網(wǎng)站上也有最新的消息（如下），但在明確要求“最新新聞優(yōu)先展示”的情況下，整個(gè)排序依然錯(cuò)亂。

時(shí)間排序問(wèn)題它自己在測(cè)試網(wǎng)頁(yè)中也發(fā)現(xiàn)了，但最后呈現(xiàn)還是出現(xiàn)了問(wèn)題。這種無(wú)法準(zhǔn)確修改后呈現(xiàn)的問(wèn)題，還包括在要求去掉某一個(gè)新聞源后其依然引用等。

另外，打開(kāi)閱讀的整個(gè)視覺(jué)效果也不太好，這可能也是為什么在任務(wù)完成后，提示下一步可以做視覺(jué)優(yōu)化的原因吧。

整體下來(lái)，現(xiàn)在生成網(wǎng)頁(yè)的效果已經(jīng)比去年好了很多，但要符合用戶(hù)者心意、做到產(chǎn)品級(jí)別性能，比如實(shí)時(shí)刷新、話題精準(zhǔn)、抓取新聞量更大等，還需要更多投入精力。但可以預(yù)想，企業(yè)官網(wǎng)等要求不高的場(chǎng)景完全可以用，完成程度會(huì)不錯(cuò)。

高難度 STEM 仿真模擬

接下來(lái)的任務(wù)是通過(guò)調(diào)用 terminal 技能、使用 uv 管理虛擬環(huán)境，在本地編寫(xiě) Python 腳本求解 Lorentz 力方程，并產(chǎn)出 3D 軌跡圖。這是官方給的一個(gè)案例，我們進(jìn)行了復(fù)現(xiàn)。最終，在經(jīng)過(guò) 22 個(gè)工具調(diào)用、產(chǎn)生 55 條過(guò)程消息后，產(chǎn)出下圖：

這次，我們附上模型的思考過(guò)程：

可以看出，Hy3 preview 具有一定抽象通用方法的能力，在基本物理實(shí)驗(yàn)處理上，知道帶電粒子軌道問(wèn)題需先處理尺度分離、可視化之前要檢查能量守恒和周期，理解視覺(jué)好看不等于物理上可信。不過(guò)，目前 WorkBuddy 還未像愛(ài)馬仕 Hermes 那樣會(huì)自動(dòng)沉淀未來(lái)可復(fù)用的 skill。

Skill 測(cè)試

接下來(lái)我們?cè)賮?lái)測(cè)測(cè)它加載和執(zhí)行 skill 的能力如何。我們把已經(jīng)寫(xiě)好的一個(gè)文案 Skill，丟給它學(xué)習(xí)，并通過(guò)這篇文章的內(nèi)容讓它寫(xiě)一下傳播文案，看看效果如何，過(guò)程如下：

完整思考過(guò)程如下，Hy3 Preview 先快速總結(jié)了文章的內(nèi)容和我的訴求，然后抓取文章的核心信息和關(guān)鍵字（甚至包含了傳播轉(zhuǎn)化動(dòng)作與品牌露出），并按照 Skill 的規(guī)范去生成文案。生成之后先檢查字?jǐn)?shù)、符號(hào)使用規(guī)范等，最后有重新對(duì)照了一下原文內(nèi)容去確保生成的文案信息準(zhǔn)確，驗(yàn)證之后給我交付了結(jié)果。

最終生成的傳播文案如下：

結(jié)果來(lái)看，關(guān)鍵信息基本都抓取到了，也符合 Skill 預(yù)設(shè)的風(fēng)格和字?jǐn)?shù)要求，唯一欠缺的可能是不同風(fēng)格版本文案內(nèi)容的多樣性不太夠。但是如果每類(lèi)文案只選取 1 條使用，倒也沒(méi)啥毛病。尤其是給完文案后它還自查并展示了標(biāo)簽使用規(guī)則、字?jǐn)?shù)以及版本風(fēng)格，這一點(diǎn)好評(píng)。

小結(jié)

整體體驗(yàn)下來(lái)，我們能感覺(jué)到，當(dāng)前 Hy3 Preview 在任務(wù)執(zhí)行過(guò)程中，對(duì)于用戶(hù)需求的實(shí)施非常精準(zhǔn)且務(wù)實(shí)，不會(huì)存在超出需求之外的“瞎編”，并且遇到問(wèn)題會(huì)主動(dòng)尋找其他解決方法，自動(dòng)調(diào)用各種工具，直到解決問(wèn)題。

好處是當(dāng)我們把明確且具體的需求發(fā)送給它后，大概率能獲得一個(gè)不太出錯(cuò)的答案，一致性也相對(duì)更好；壞處是如果當(dāng)你給到一些抽象、需要發(fā)散和創(chuàng)意的需求時(shí)，可能會(huì)獲得一份讓人覺(jué)得有點(diǎn)“一板一眼”的內(nèi)容，缺乏多樣性和想象力，也不太能進(jìn)入靈感碰撞的“心流時(shí)刻”，但這或許也是 Hy3 下一步會(huì)重點(diǎn)增強(qiáng)的地方，畢竟它現(xiàn)在說(shuō)到底還只是個(gè)語(yǔ)言模型，而非多模態(tài)。當(dāng)你有一個(gè)需要嚴(yán)謹(jǐn)執(zhí)行的任務(wù)時(shí)，你能夠第一時(shí)間想到 Hy3，這本身也是一種認(rèn)可。

*InfoQ 策劃編輯 Potatooo 對(duì)本文亦有貢獻(xiàn)。

會(huì)議推薦

世界模型的下一個(gè)突破在哪？Agent 從 Demo 到工程化還差什么？安全與可信這道坎怎么過(guò)？研發(fā)體系不重構(gòu)，還能撐多久？

AICon 上海站 2026，4 大核心專(zhuān)題等你來(lái)：世界模型與多模態(tài)智能突破、Agent 架構(gòu)與工程化實(shí)踐、Agent 安全與可信治理、企業(yè)級(jí)研發(fā)體系重構(gòu)。14 個(gè)專(zhuān)題全面開(kāi)放征稿。

誠(chéng)摯邀請(qǐng)你登臺(tái)分享實(shí)戰(zhàn)經(jīng)驗(yàn)。AICon 2026，期待與你同行。

今日薦文

你也「在看」嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.