![]()
作者 | 褚杏娟、蔡芳芳
今天,騰訊正式發(fā)布了新模型 Hy3 preview,這是姚順雨加入騰訊后帶領(lǐng)團(tuán)隊(duì)發(fā)布的首個(gè)模型。
姚順雨團(tuán)隊(duì)沒(méi)有從千億規(guī)模模型入手。Hy3 preview 是一個(gè)快慢思考融合的 MoE 語(yǔ)言模型,總參數(shù) 295B,激活參數(shù) 21B,最大支持 256K 上下文長(zhǎng)度,主打性?xún)r(jià)比。Hy3 preview 的模型能力提升,適用于 Coding 和智能體(例如龍蝦)類(lèi)場(chǎng)景,是一個(gè)在實(shí)際應(yīng)用中具備實(shí)用性和高性?xún)r(jià)比的基礎(chǔ)模型。
Hy3 preview 是騰訊嘗試解決真實(shí)世界復(fù)雜工程問(wèn)題的開(kāi)端。騰訊希望將 Hy3 preview 置于真實(shí)的業(yè)務(wù)場(chǎng)景中,通過(guò) WorkBuddy 這一面向知識(shí)工作者的智能體(Agent)生產(chǎn)力框架,讓 AI 與用戶(hù)共同完成能力的持續(xù)進(jìn)化。
騰訊表示,這是混元重建后訓(xùn)練的第一個(gè)模型,也是混元迄今最智能的模型,在復(fù)雜推理、指令遵循、上下文學(xué)習(xí)、代碼、智能體等能力及推理性能上實(shí)現(xiàn)了大幅的提升。
2026 年 2 月,騰訊混元重建了預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)的基礎(chǔ)設(shè)施,以及模型追求實(shí)用性的三個(gè)原則:
能力體系化: 不推崇“偏科”,因?yàn)榧词故谴a智能體的單一應(yīng)用,也涉及推理、長(zhǎng)文、指令、對(duì)話、代碼、工具等多種能力的深度協(xié)同。
評(píng)測(cè)真實(shí)性: 主動(dòng)跳出易被“刷榜”的公開(kāi)榜單,通過(guò)自建題目、最新考試、人工評(píng)測(cè)、產(chǎn)品眾測(cè)等多種方式評(píng)估和改進(jìn)模型的“真實(shí)戰(zhàn)斗力”。
性?xún)r(jià)比追求:實(shí)用性離不開(kāi)商業(yè)合理性,深度協(xié)同模型架構(gòu)和推理框架的設(shè)計(jì),大幅降低任務(wù)成本,讓智能用得起、用得好。
模型發(fā)布的同時(shí),騰訊官方也給混元系列換了新的logo,儼然一副“重新出發(fā)”的感覺(jué):
![]()
騰訊首席 AI 科學(xué)家姚順雨表示,Hy3 preview 是混元大模型重建的第一步。“我們希望通過(guò)這次開(kāi)源和發(fā)布,獲得來(lái)自開(kāi)源社區(qū)和用戶(hù)的真實(shí)反饋,幫助我們提升 Hy3 正式版的實(shí)用性。與此同時(shí),我們也在繼續(xù)擴(kuò)大預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)的規(guī)模,提升模型的智能上限,并通過(guò)與騰訊眾多產(chǎn)品的深度 Co-Design,持續(xù)提升模型在真實(shí)場(chǎng)景中的綜合表現(xiàn),并開(kāi)始探索特色模型能力。”
今年初,在 AGI-NEXT 會(huì)議上,姚順雨就坦言,騰訊仍然是一家 To C 基因更強(qiáng)的公司。因此,騰訊更關(guān)心的問(wèn)題是:如何讓今天的大模型真正為用戶(hù)創(chuàng)造更多實(shí)際價(jià)值。
他認(rèn)為,To C 場(chǎng)景里,很多問(wèn)題的關(guān)鍵并不只是模型變得更大、更強(qiáng),而是能否拿到更多上下文信息。姚順雨舉例說(shuō),像“我今天該吃什么”這樣的問(wèn)題,看似簡(jiǎn)單,但如果沒(méi)有足夠的上下文,模型很難給出真正貼近用戶(hù)當(dāng)下需求的答案。比如天氣是否很冷、活動(dòng)范圍在哪里、是否需要考慮伴侶的安排,這些額外信息往往比繼續(xù)做更大模型、更強(qiáng)強(qiáng)化學(xué)習(xí)或者更強(qiáng)搜索更重要。
值得注意的是,姚順雨加入騰訊后的首次署名研究論文也是關(guān)于上下文。騰訊混元官網(wǎng)在 2 月發(fā)布了姚順雨團(tuán)隊(duì)加入后的首個(gè)公開(kāi)成果 CL-bench,專(zhuān)門(mén)測(cè)模型能不能從上下文中學(xué)到新知識(shí)并正確應(yīng)用。姚順雨強(qiáng)調(diào)不要只盯榜單,更重要的是把系統(tǒng)放進(jìn)真實(shí)世界約束中評(píng)估。
騰訊在集團(tuán)層面也在加速將 AI 融入游戲、廣告和社交等核心業(yè)務(wù),這體現(xiàn)在了最新財(cái)報(bào)中:增值服務(wù)收入同比增長(zhǎng) 14% 至 899.2 億元;營(yíng)銷(xiāo)服務(wù)收入同比增長(zhǎng) 17% 至 411.2 億元;金融科技及企業(yè)服務(wù)業(yè)務(wù)收入同比增長(zhǎng) 8% 至 608.2 億元。
公司還圍繞大模型能力和 AI 產(chǎn)品矩陣持續(xù)推進(jìn),WorkBuddy、QClaw 等“小龍蝦”系列 Agent 陸續(xù)上線。但更讓人關(guān)注的是財(cái)報(bào)媒體會(huì)上,騰訊宣布混元 3.0 計(jì)劃于 4 月陸續(xù)向外開(kāi)放。自引入姚順雨后,騰訊圍繞 AI 組織與人才體系進(jìn)行了一系列密集調(diào)整,而這一系列動(dòng)作的效果一定程度會(huì)反映在最新的模型上。
很明顯,Hy3 preview 既是符合姚順雨和騰訊業(yè)務(wù)理念的模型,也是大眾對(duì)騰訊的一次檢驗(yàn)。
主打全面實(shí)用性,Agent 能力大幅提升
根據(jù)官方多個(gè)測(cè)評(píng)結(jié)果,Hy3 preview 模型能力全面提升。
上下文學(xué)習(xí)和指令遵循能力
在各種真實(shí)的生產(chǎn)與生活場(chǎng)景,理解雜亂冗長(zhǎng)的上下文并遵從復(fù)雜多變的規(guī)則是模型的首要挑戰(zhàn)。基于騰訊業(yè)務(wù)場(chǎng)景的靈感,騰訊混元提出了 CL-bench 和 CL-bench-Life 來(lái)創(chuàng)新性地評(píng)估模型的上下文學(xué)習(xí)能力,并在 Hy3 preview 顯著地提升了模型上下文學(xué)習(xí)和指令遵循能力。
![]()
復(fù)雜推理能力突出,清華數(shù)學(xué)博士資格考試國(guó)內(nèi)分?jǐn)?shù)最高
復(fù)雜推理能力是模型解決各種問(wèn)題的基礎(chǔ)。Hy3 preview 在 FrontierScience-Olympiad、IMOAnswerBench 等高難度理工科推理任務(wù)中表現(xiàn)突出,并在最新的清華大學(xué)求真書(shū)院數(shù)學(xué)博資考 (26 春) 和 全國(guó)中學(xué)生生物學(xué)聯(lián)賽 (CHSBO 2025) 中取得優(yōu)異成績(jī),展現(xiàn)了可泛化的強(qiáng)推理能力。
![]()
代碼與智能體提升最為顯著,展現(xiàn)出高性?xún)r(jià)比
代碼和智能體是 Hy3 preview 提升最為顯著的方向。得益于預(yù)訓(xùn)練及強(qiáng)化學(xué)習(xí)框架的重建和強(qiáng)化學(xué)習(xí)任務(wù)規(guī)模的提升,騰訊混元以較快的速度在 SWE-Bench Verified、Terminal-Bench 2.0 等主流代碼智能體基準(zhǔn)以及 BrowseComp、WideSearch 等主流搜索智能體基準(zhǔn)中取得了有競(jìng)爭(zhēng)力的結(jié)果。
![]()
在數(shù)字世界中,代碼關(guān)注的是模型在開(kāi)發(fā)環(huán)境中的執(zhí)行能力,搜索則聚焦于開(kāi)放信息空間中的檢索、篩選與整合能力,兩者共同決定了模型在復(fù)雜智能體場(chǎng)景(例如 OpenClaw)中是否真正具備可用性。Hy3 preview 在 ClawEval 和 WildClawBench 等評(píng)測(cè)中表現(xiàn)突出,表明我們的智能體能力正在穩(wěn)步走向全面與實(shí)用。
![]()
除了公開(kāi)榜單,騰訊混元還進(jìn)一步構(gòu)建了多個(gè)內(nèi)部的評(píng)測(cè)集,對(duì)模型在真實(shí)開(kāi)發(fā)場(chǎng)景中的表現(xiàn)進(jìn)行評(píng)估。結(jié)果表明,無(wú)論是在后端工程任務(wù)集 Hy-Backend,貼近真實(shí)用戶(hù)開(kāi)發(fā)交互的 Hy-Vibe Bench,還是高難度軟件工程開(kāi)發(fā)任務(wù)集 Hy-SWE Max 上,Hy3 preview 均體現(xiàn)出了強(qiáng)競(jìng)爭(zhēng)力。
![]()
比較各個(gè)開(kāi)源模型的大小與智能體綜合表現(xiàn),Hy3 preview 展現(xiàn)出高性?xún)r(jià)比。
![]()
成本大幅降低,騰訊核心業(yè)務(wù)全面接入
得益于模型和推理框架上的深度協(xié)同,以及在推理框架、算子性能、量化算法等全方面優(yōu)化,整體推理效率提升 40%,Hy3 preview 的成本相比上一代模型大幅下降。
在騰訊云大模型服務(wù)平臺(tái) TokenHub 上,Hy3 preview 輸入價(jià)格最低 1.2 元 / 百萬(wàn) tokens,輸入命中緩存價(jià)格 0.4 元 / 百萬(wàn) tokens,輸出價(jià)格最低 4 元 / 百萬(wàn) tokens。同時(shí),騰訊云聯(lián)合混元推出定制的 Hy3 preview Token Plan 套餐,個(gè)人版定價(jià)最低 28 元 / 月,為 Agent 開(kāi)發(fā)和打造“龍蝦”應(yīng)用的提供更具性?xún)r(jià)比選擇。
![]()
![]()
而在正式上線之前,Hy3 preview 在騰訊主要 AI 業(yè)務(wù)進(jìn)行了產(chǎn)品測(cè)試,獲得明顯正收益。
比如在元寶端,混元與元寶進(jìn)行了深度 Co-Design。一方面,針對(duì)性地提升了模型在意圖理解精準(zhǔn)度、文本創(chuàng)作質(zhì)量、深度搜索等硬核指標(biāo)上的表現(xiàn);另一方面,對(duì)文風(fēng)、文筆、情商、內(nèi)容組織和內(nèi)容專(zhuān)業(yè)度上進(jìn)行了精細(xì)化調(diào)優(yōu)。模型與產(chǎn)品的深度協(xié)同,為用戶(hù)帶來(lái)了更智能且更具“活人感”的交互體驗(yàn)。
在 ima 知識(shí)庫(kù)問(wèn)答和通用問(wèn)答兩個(gè)場(chǎng)景下,Hy3 preview 處理長(zhǎng)文的能力出色,特別是檢索類(lèi)任務(wù),在回答信息的準(zhǔn)確性、覆蓋度和全面性上表現(xiàn)較好。
在 CodeBuddy、WorkBuddy 產(chǎn)品上,Hy3 preview 首 token 延遲降低 54%、端到端時(shí)長(zhǎng)降低 47%、成功率提升至 99.99%+。實(shí)際用戶(hù)環(huán)境中,Hy3 preview 已穩(wěn)定驅(qū)動(dòng)最長(zhǎng) 495 步的復(fù)雜 Agent 工作流,覆蓋文檔處理、數(shù)據(jù)分析、知識(shí)檢索、MCP 工具鏈編排等多樣化辦公場(chǎng)景。
而在公眾號(hào) AI 分身和 AI 客服的場(chǎng)景專(zhuān)項(xiàng)評(píng)測(cè)中,Hy3 preview 展現(xiàn)出相比 Hy2 更全面的能力升級(jí)。新模型在用戶(hù)意圖理解、復(fù)雜上下文承接和知識(shí)信息組織方面表現(xiàn)更成熟,面對(duì)模糊提問(wèn)、短句追問(wèn)和多輪對(duì)話時(shí),能夠更準(zhǔn)確地把握用戶(hù)訴求,并輸出更清晰、更穩(wěn)定的回復(fù)。結(jié)合知識(shí)庫(kù)、用戶(hù)記憶與上下文生成回答時(shí)更貼合 AI 分身和 AI 客服的角色,過(guò)度腦補(bǔ)、主觀代入和情緒化表達(dá)顯著減少,使整體交互體驗(yàn)更貼近“可信、自然、高效”的回復(fù)目標(biāo)。
另外在和平精英 AI NPC 場(chǎng)景評(píng)測(cè)中,和平精英團(tuán)隊(duì)第一時(shí)間在 Hy3 preview 上線后基于 AI NPC 場(chǎng)景中完成接入并開(kāi)展評(píng)測(cè),整體表現(xiàn)令人印象深刻。在游戲局外的人設(shè)扮演場(chǎng)景中,Hy3 Preview 不僅能夠精準(zhǔn)理解角色設(shè)定,還能針對(duì)開(kāi)放性問(wèn)題輸出高度關(guān)聯(lián)、富有增量?jī)r(jià)值的內(nèi)容,帶來(lái)了更加真實(shí)、自然、沉浸的對(duì)話體驗(yàn)。而在游戲局內(nèi)的復(fù)雜對(duì)戰(zhàn)場(chǎng)景中,模型回復(fù)節(jié)奏貼近真實(shí)玩家聊天體驗(yàn),展現(xiàn)出優(yōu)秀的穩(wěn)定性與出色的擬人化扮演能力,整體效果表現(xiàn)亮眼。
在騰訊文檔 AI PPT 場(chǎng)景,較上一版本(Hy2)取得了顯著進(jìn)步:生成成功率提升 20%,評(píng)測(cè)得分提升 10%,同時(shí)生成耗時(shí)縮短 20%。整體而言,新模型在評(píng)測(cè)場(chǎng)景中表現(xiàn)優(yōu)異,在模版選擇,色彩匹配,生成大綱,補(bǔ)充內(nèi)容多個(gè)階段,均體現(xiàn)出優(yōu)秀的表現(xiàn),無(wú)幻覺(jué),契合主題,視覺(jué)效果好。
在 QQ AI 助手小 Q 產(chǎn)品評(píng)測(cè)中,較上一版本,在長(zhǎng)文本首字節(jié)時(shí)延、整體響應(yīng)速度與流式輸出效率方面顯著優(yōu)化;核心能力上,數(shù)學(xué)推理表現(xiàn)提升尤為明顯,多場(chǎng)景指令遵循與泛化能力進(jìn)一步增強(qiáng);在工具調(diào)用推理及多輪指代消解方面表現(xiàn)更穩(wěn)定高效,在 OpenClaw 官方 PinchBench QQ 智能體場(chǎng)景測(cè)試中取得突出效果,綜合體驗(yàn)實(shí)現(xiàn)明顯躍升。
目前,Hy3 preview 已在騰訊云、元寶、ima、CodeBuddy、WorkBuddy、QQ、QQ 瀏覽器、騰訊文檔、騰訊樂(lè)享等首發(fā)上線,微信公眾號(hào)、和平精英、騰訊新聞、騰訊自選股、騰訊客服、微信讀書(shū)等多個(gè)主線產(chǎn)品也在陸續(xù)上線。另外,Hy3 preview 支持接入流行的開(kāi)源智能體產(chǎn)品,如 OpenClaw、OpenCode、KiloCode 等,并已上架騰訊云大模型服務(wù)平臺(tái) TokenHub。
InfoQ 有幸提前進(jìn)行了測(cè)試,整體使用下來(lái),一句話總結(jié)就是:這是個(gè)用理性解決問(wèn)題的幫手。下面是我們做的五個(gè)小測(cè)試,包括國(guó)外播客整理翻譯、研究報(bào)告、前端網(wǎng)站搭建、物理理解和 Skill 測(cè)試,期間 Hy3 preview 做得好的地方、不好的地方,都非常明顯。
InfoQ 實(shí)測(cè)
英文視頻提煉亮點(diǎn)和翻譯
第一個(gè)小任務(wù),嘗試讓 Hy3 preview 給英文采訪視頻提煉核心內(nèi)容和亮點(diǎn)。這也是我們的日常工作場(chǎng)景之一。
![]()
![]()
![]()
下面是思考過(guò)程:
![]()
![]()
![]()
Hy3 preview 無(wú)法直接訪問(wèn)我給的鏈接,于是先嘗試了用瀏覽器自動(dòng)化工具來(lái)訪問(wèn),過(guò)程中會(huì)自己嘗試安裝缺少的工具agent-browser,不過(guò)安裝失敗了。于是它改為使用 Python 腳本來(lái)獲取視頻信息,這一次獲取成功了。最后基于獲取到的視頻基礎(chǔ)信息,它進(jìn)一步搜索到了這期播客的 newsletter 頁(yè)面,并獲取到了更詳細(xì)的介紹。
我讓它根據(jù)視頻內(nèi)容提煉 10 個(gè)關(guān)鍵亮點(diǎn),它實(shí)際是從 newsletter 頁(yè)面上總結(jié)的亮點(diǎn)中選取了一些給我(分別是頁(yè)面里的第 1-8、10 和 12)。整體來(lái)說(shuō) Hy3 preview 比較順利地完成了任務(wù),雖然它和其他模型一樣無(wú)法直接通過(guò)視頻鏈接抓取到內(nèi)容,但它很務(wù)實(shí),不會(huì)憑空瞎編一些亮點(diǎn)(我在罵誰(shuí)我不說(shuō))。
下一步,讓 Hy3 preview 提取視頻字幕文件。
![]()
它花了一點(diǎn)時(shí)間(差不多 10 分鐘),反復(fù)嘗試多次,最終成功獲取到了這個(gè)視頻的英文字幕文件。中間嘗試了不同方法,自動(dòng)安裝所需工具。
思考過(guò)程:
![]()
![]()
![]()
![]()
我問(wèn)它獲取字幕文件花了多長(zhǎng)時(shí)間,它混淆成了從一開(kāi)始給它視頻鏈接到剛才完成獲取字幕文件整個(gè)過(guò)程的總用時(shí),所以給到了 40 分鐘的答案。但實(shí)際獲取字幕文件這一步的時(shí)間差不多是 10 來(lái)分鐘。總體而言反思態(tài)度很好,也很會(huì)總結(jié)經(jīng)驗(yàn)、給自己打氣。
![]()
![]()
接下來(lái)嘗試讓它將字幕文件中第一段 10 分鐘的內(nèi)容翻譯成中文,它耗時(shí) 5 分鐘后完成翻譯,并生成了 markdown 格式的文件可以直接下載。
![]()
![]()
它這一步依然是通過(guò) Python 腳本的方式來(lái)完成的,這一步的思考過(guò)程:
![]()
![]()
不過(guò)它的翻譯成果不算特別理想,存在幾個(gè)問(wèn)題:部分英語(yǔ)詞匯可以翻譯成中文但它沒(méi)翻譯;前后技術(shù)術(shù)語(yǔ)不一致;說(shuō)話人識(shí)別還是存在錯(cuò)位情況。
不過(guò)平心而論,使用其他模型翻譯視頻播客的時(shí)候我們也經(jīng)常會(huì)遇到類(lèi)似問(wèn)題,最終要達(dá)到可發(fā)布狀態(tài)都需要進(jìn)一步人工精調(diào)。而且這次由于時(shí)間有限,沒(méi)有對(duì) Hy3 preview 做更多更精細(xì)的調(diào)教,這也會(huì)在一定程度上影響最終效果。
這里附上這個(gè)視頻訪談開(kāi)始的第一段 QA,大家可以對(duì)比一下。一個(gè)是基于 GPT-5.4(Instant)翻譯并經(jīng)過(guò)人工潤(rùn)色的結(jié)果,一個(gè)是混元 3 初步翻譯的結(jié)果。
GPT-5.4(Instant)翻譯并經(jīng)過(guò)人工潤(rùn)色版本(文章已在 InfoQ 發(fā)布 ):
![]()
混元 3 初步翻譯版本:
![]()
有一個(gè)地方是 GPT-5.4(Instant)明顯優(yōu)于混元 3 的,比如上面那段出現(xiàn)的技術(shù)名詞 Ormachy,在原版英文字幕文件中就是前后不一致的,同時(shí)存在幾個(gè)不同的錯(cuò)誤拼寫(xiě),但是 GPT-5.4(Instant)可以自動(dòng)把出現(xiàn)的不同寫(xiě)法全部調(diào)整成正確寫(xiě)法 Ormachy,但混元 3 只是忠實(shí)地把錯(cuò)詞翻譯過(guò)來(lái)了。
“一人公司”報(bào)告:全而不細(xì)
然后,我們給出了一個(gè) 調(diào)研“AI 一人公司趨勢(shì)”并輸出一份報(bào)告的任務(wù),要求其必須調(diào)用瀏覽器(搜索)、文檔整理、數(shù)據(jù)總結(jié)。
提示詞如下:
你現(xiàn)在是一個(gè)具備真實(shí)工作能力的研究型 Agent。你的目標(biāo)不是基于已有知識(shí)生成內(nèi)容,而是通過(guò)主動(dòng)調(diào)用工具,完成一次完整的“AI一人公司(One Person Company, OPC)趨勢(shì)調(diào)研”,并交付一份結(jié)構(gòu)清晰、信息可靠的研究報(bào)告。
任務(wù)目標(biāo):
調(diào)研“AI一人公司趨勢(shì)”,并輸出一份可直接閱讀和使用的分析報(bào)告。
強(qiáng)制要求(必須遵守):
1. 必須使用瀏覽器進(jìn)行真實(shí)搜索,獲取最新信息(不可僅依賴(lài)已有知識(shí))
2. 必須對(duì)多來(lái)源信息進(jìn)行整理、對(duì)比與歸納
3. 必須對(duì)關(guān)鍵數(shù)據(jù)進(jìn)行提取和總結(jié)(如比例變化、融資情況、案例數(shù)據(jù)等)
4. 最終輸出一份結(jié)構(gòu)化報(bào)告,而不是零散內(nèi)容
執(zhí)行流程(必須按順序執(zhí)行):
第一步:調(diào)研規(guī)劃
- 明確本次調(diào)研的核心問(wèn)題(例如:OPC是否趨勢(shì)性增長(zhǎng)、哪些人群受益、商業(yè)模式是什么等)
- 給出搜索關(guān)鍵詞(中英文)
- 說(shuō)明你將重點(diǎn)查找的信息類(lèi)型(數(shù)據(jù)、案例、觀點(diǎn)、公司實(shí)踐等)
第二步:信息搜索(必須調(diào)用瀏覽器)
- 至少進(jìn)行3-5輪不同角度的搜索
- 覆蓋:行業(yè)數(shù)據(jù)、真實(shí)案例、公司/平臺(tái)觀點(diǎn)、投資/融資信息
- 每次搜索需說(shuō)明:為什么搜、搜到了什么、是否可信
第三步:信息篩選與整理
- 去除重復(fù)或低質(zhì)量信息
- 標(biāo)記關(guān)鍵信息來(lái)源(例如報(bào)告、公司、媒體、個(gè)人觀點(diǎn))
- 將信息按主題歸類(lèi)(如:趨勢(shì)、案例、商業(yè)模式、風(fēng)險(xiǎn)等)
第四步:數(shù)據(jù)與結(jié)論提取
- 提取關(guān)鍵數(shù)據(jù)(如占比變化、增長(zhǎng)趨勢(shì)、變現(xiàn)情況)
- 總結(jié)至少3-5個(gè)“可被驗(yàn)證的事實(shí)”
- 總結(jié)至少3個(gè)“趨勢(shì)判斷”
第五步:結(jié)構(gòu)化報(bào)告輸出
最終報(bào)告必須包含以下結(jié)構(gòu):
1. 背景與現(xiàn)象(AI一人公司為何出現(xiàn))
2. 核心趨勢(shì)(是否在增長(zhǎng)、增長(zhǎng)邏輯是什么)
3. 典型案例(真實(shí)個(gè)人/公司案例)
4. 商業(yè)模式與賺錢(qián)路徑
5. 誰(shuí)在受益(人群分層)
6. 風(fēng)險(xiǎn)與限制(如平臺(tái)依賴(lài)、可復(fù)制性問(wèn)題)
7. 未來(lái)判斷(短期紅利 vs 長(zhǎng)期結(jié)構(gòu))
執(zhí)行要求:
- 每一步都要說(shuō)明“你在做什么”和“為什么這么做”
- 不允許跳過(guò)搜索直接總結(jié)
- 不允許只給觀點(diǎn),必須有事實(shí)或案例支撐
- 如果信息存在沖突,需要指出并分析原因
- 優(yōu)先使用最近1-2年的信息
輸出要求:
- 語(yǔ)言清晰、邏輯連貫
- 信息密度高,但不要堆砌
- 可以直接作為一篇行業(yè)分析報(bào)告閱讀
現(xiàn)在開(kāi)始執(zhí)行:先輸出第一步【調(diào)研規(guī)劃】,不要跳步。
輸出報(bào)告如下:
![]()
![]()
![]()
讀者可以復(fù)制鏈接查看完整版:https://codebuddy.work/agents/share/viukYMtcJxAjBEi3N8E3dPmVO4Dqv43uZ17RjtKCOHMkCbCeu0bPptrbzVbE6Mb_?platform=workbuddy
整體給人感覺(jué):這是非常全面的一份報(bào)告,只是細(xì)節(jié)展開(kāi)不夠,但對(duì)于想要大概了解“一人公司”情況的讀者來(lái)說(shuō)是可以快速掌握相關(guān)信息的。
在準(zhǔn)確性方面,我們隨機(jī)抽檢了兩組數(shù)據(jù),第一組數(shù)據(jù):“2023-2024 年澳大利亞無(wú)雇員企業(yè)同比增長(zhǎng) 4.9%,新增 78144 家”,在搜索后可以找到出處,數(shù)值引用也正確。
![]()
再隨機(jī)抽檢這個(gè)案例:“動(dòng)畫(huà)領(lǐng)域創(chuàng)業(yè)者可單人統(tǒng)籌 42 分鐘動(dòng)畫(huà),28 天完成傳統(tǒng) 10 人團(tuán)隊(duì)的工作量”,結(jié)果也正確。
![]()
順便讓它把 md 格式轉(zhuǎn)成 PDF,它也順利完成了任務(wù)。
可見(jiàn),在研究報(bào)告這塊,Hy3 preview 信息搜集處理的準(zhǔn)確度是不錯(cuò)的。不過(guò),現(xiàn)在深度報(bào)告這塊的競(jìng)爭(zhēng)力或在數(shù)據(jù)上,近期 Kimi、千問(wèn)等都添加了專(zhuān)業(yè)數(shù)據(jù)庫(kù)來(lái)生成報(bào)告。
AI 新聞聚合網(wǎng)站:基本可用,細(xì)節(jié)待完善
接下來(lái)再給它一個(gè)任務(wù):從零做一個(gè)“AI 新聞聚合網(wǎng)站”。在調(diào)用了 31 個(gè)工具、產(chǎn)生了 63 條過(guò)程消息后,Hy3 preview 成功生成了一個(gè) AI 新聞聚合平臺(tái),如下圖:
![]()
這是 Hy3 preview 自主選擇的技術(shù)棧,還附了相關(guān)解釋?zhuān)嬖V用戶(hù)為什么這樣選。在將邏輯和開(kāi)發(fā)步驟講清楚后,模型才開(kāi)始正式執(zhí)行。
![]()
期間,我們上傳了一個(gè) Excel 表格,讓它讀取各 sheet 里的新聞源,它成功讀取并給出了一些意見(jiàn),比如全是英文網(wǎng)站可能錯(cuò)過(guò)國(guó)內(nèi)企業(yè)消息(然后自己在抓取時(shí)候加入了國(guó)內(nèi)網(wǎng)站)。不過(guò),讀取也出現(xiàn)了一些問(wèn)題,比如一個(gè)子 sheet 里的 31 條新聞源,其顯示只讀取了 3 個(gè),數(shù)量差有些大,也導(dǎo)致新聞抓取過(guò)度依賴(lài)某一單一網(wǎng)站。
這次測(cè)試中,Hy3 preview 也展現(xiàn)了自己的 debug 能力。在任務(wù)完成后,打開(kāi)網(wǎng)頁(yè)出現(xiàn)了下面問(wèn)題,告訴它后,它開(kāi)始檢查問(wèn)題,最后順利修復(fù)。
![]()
成品檢驗(yàn)
首先是抓取時(shí)間問(wèn)題,點(diǎn)擊一個(gè)顯示“4 分鐘前”的新聞,打開(kāi)原鏈接后新聞顯示的時(shí)間是 2025 年 1 月 31 日。
![]()
當(dāng)然生成的聚合網(wǎng)站上也有最新的消息(如下),但在明確要求“最新新聞優(yōu)先展示”的情況下,整個(gè)排序依然錯(cuò)亂。
![]()
時(shí)間排序問(wèn)題它自己在測(cè)試網(wǎng)頁(yè)中也發(fā)現(xiàn)了,但最后呈現(xiàn)還是出現(xiàn)了問(wèn)題。這種無(wú)法準(zhǔn)確修改后呈現(xiàn)的問(wèn)題,還包括在要求去掉某一個(gè)新聞源后其依然引用等。
![]()
另外,打開(kāi)閱讀的整個(gè)視覺(jué)效果也不太好,這可能也是為什么在任務(wù)完成后,提示下一步可以做視覺(jué)優(yōu)化的原因吧。
整體下來(lái),現(xiàn)在生成網(wǎng)頁(yè)的效果已經(jīng)比去年好了很多,但要符合用戶(hù)者心意、做到產(chǎn)品級(jí)別性能,比如實(shí)時(shí)刷新、話題精準(zhǔn)、抓取新聞量更大等,還需要更多投入精力。但可以預(yù)想,企業(yè)官網(wǎng)等要求不高的場(chǎng)景完全可以用,完成程度會(huì)不錯(cuò)。
高難度 STEM 仿真模擬
接下來(lái)的任務(wù)是通過(guò)調(diào)用 terminal 技能、使用 uv 管理虛擬環(huán)境,在本地編寫(xiě) Python 腳本求解 Lorentz 力方程,并產(chǎn)出 3D 軌跡圖。這是官方給的一個(gè)案例,我們進(jìn)行了復(fù)現(xiàn)。最終,在經(jīng)過(guò) 22 個(gè)工具調(diào)用、產(chǎn)生 55 條過(guò)程消息后,產(chǎn)出下圖:
![]()
這次,我們附上模型的思考過(guò)程:
可以看出,Hy3 preview 具有一定抽象通用方法的能力,在基本物理實(shí)驗(yàn)處理上,知道帶電粒子軌道問(wèn)題需先處理尺度分離、可視化之前要檢查能量守恒和周期,理解視覺(jué)好看不等于物理上可信。不過(guò),目前 WorkBuddy 還未像愛(ài)馬仕 Hermes 那樣會(huì)自動(dòng)沉淀未來(lái)可復(fù)用的 skill。
Skill 測(cè)試
接下來(lái)我們?cè)賮?lái)測(cè)測(cè)它加載和執(zhí)行 skill 的能力如何。我們把已經(jīng)寫(xiě)好的一個(gè)文案 Skill,丟給它學(xué)習(xí),并通過(guò)這篇文章的內(nèi)容讓它寫(xiě)一下傳播文案,看看效果如何,過(guò)程如下:
![]()
![]()
完整思考過(guò)程如下,Hy3 Preview 先快速總結(jié)了文章的內(nèi)容和我的訴求,然后抓取文章的核心信息和關(guān)鍵字(甚至包含了傳播轉(zhuǎn)化動(dòng)作與品牌露出),并按照 Skill 的規(guī)范去生成文案。生成之后先檢查字?jǐn)?shù)、符號(hào)使用規(guī)范等,最后有重新對(duì)照了一下原文內(nèi)容去確保生成的文案信息準(zhǔn)確,驗(yàn)證之后給我交付了結(jié)果。
![]()
最終生成的傳播文案如下:
![]()
結(jié)果來(lái)看,關(guān)鍵信息基本都抓取到了,也符合 Skill 預(yù)設(shè)的風(fēng)格和字?jǐn)?shù)要求,唯一欠缺的可能是不同風(fēng)格版本文案內(nèi)容的多樣性不太夠。但是如果每類(lèi)文案只選取 1 條使用,倒也沒(méi)啥毛病。尤其是給完文案后它還自查并展示了標(biāo)簽使用規(guī)則、字?jǐn)?shù)以及版本風(fēng)格,這一點(diǎn)好評(píng)。
小 結(jié)
整體體驗(yàn)下來(lái),我們能感覺(jué)到,當(dāng)前 Hy3 Preview 在任務(wù)執(zhí)行過(guò)程中,對(duì)于用戶(hù)需求的實(shí)施非常精準(zhǔn)且務(wù)實(shí),不會(huì)存在超出需求之外的“瞎編”,并且遇到問(wèn)題會(huì)主動(dòng)尋找其他解決方法,自動(dòng)調(diào)用各種工具,直到解決問(wèn)題。
好處是當(dāng)我們把明確且具體的需求發(fā)送給它后,大概率能獲得一個(gè)不太出錯(cuò)的答案,一致性也相對(duì)更好;壞處是如果當(dāng)你給到一些抽象、需要發(fā)散和創(chuàng)意的需求時(shí),可能會(huì)獲得一份讓人覺(jué)得有點(diǎn)“一板一眼”的內(nèi)容,缺乏多樣性和想象力,也不太能進(jìn)入靈感碰撞的“心流時(shí)刻”,但這或許也是 Hy3 下一步會(huì)重點(diǎn)增強(qiáng)的地方,畢竟它現(xiàn)在說(shuō)到底還只是個(gè)語(yǔ)言模型,而非多模態(tài)。當(dāng)你有一個(gè)需要嚴(yán)謹(jǐn)執(zhí)行的任務(wù)時(shí),你能夠第一時(shí)間想到 Hy3,這本身也是一種認(rèn)可。
*InfoQ 策劃編輯 Potatooo 對(duì)本文亦有貢獻(xiàn)。
會(huì)議推薦
世界模型的下一個(gè)突破在哪?Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過(guò)?研發(fā)體系不重構(gòu),還能撐多久?
AICon 上海站 2026,4 大核心專(zhuān)題等你來(lái):世界模型與多模態(tài)智能突破、Agent 架構(gòu)與工程化實(shí)踐、Agent 安全與可信治理、企業(yè)級(jí)研發(fā)體系重構(gòu)。14 個(gè)專(zhuān)題全面開(kāi)放征稿。
誠(chéng)摯邀請(qǐng)你登臺(tái)分享實(shí)戰(zhàn)經(jīng)驗(yàn)。AICon 2026,期待與你同行。
今日薦文
你也「在看」嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.