<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      姚順雨騰訊模型首秀!不卷參數(shù)只做 “聽(tīng)話打工人”,Hy3 preview登場(chǎng) | 附實(shí)測(cè)

      0
      分享至


      作者 | 褚杏娟、蔡芳芳

      今天,騰訊正式發(fā)布了新模型 Hy3 preview,這是姚順雨加入騰訊后帶領(lǐng)團(tuán)隊(duì)發(fā)布的首個(gè)模型。

      姚順雨團(tuán)隊(duì)沒(méi)有從千億規(guī)模模型入手。Hy3 preview 是一個(gè)快慢思考融合的 MoE 語(yǔ)言模型,總參數(shù) 295B,激活參數(shù) 21B,最大支持 256K 上下文長(zhǎng)度,主打性?xún)r(jià)比。Hy3 preview 的模型能力提升,適用于 Coding 和智能體(例如龍蝦)類(lèi)場(chǎng)景,是一個(gè)在實(shí)際應(yīng)用中具備實(shí)用性和高性?xún)r(jià)比的基礎(chǔ)模型。

      Hy3 preview 是騰訊嘗試解決真實(shí)世界復(fù)雜工程問(wèn)題的開(kāi)端。騰訊希望將 Hy3 preview 置于真實(shí)的業(yè)務(wù)場(chǎng)景中,通過(guò) WorkBuddy 這一面向知識(shí)工作者的智能體(Agent)生產(chǎn)力框架,讓 AI 與用戶(hù)共同完成能力的持續(xù)進(jìn)化。

      騰訊表示,這是混元重建后訓(xùn)練的第一個(gè)模型,也是混元迄今最智能的模型,在復(fù)雜推理、指令遵循、上下文學(xué)習(xí)、代碼、智能體等能力及推理性能上實(shí)現(xiàn)了大幅的提升。

      2026 年 2 月,騰訊混元重建了預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)的基礎(chǔ)設(shè)施,以及模型追求實(shí)用性的三個(gè)原則:

      • 能力體系化: 不推崇“偏科”,因?yàn)榧词故谴a智能體的單一應(yīng)用,也涉及推理、長(zhǎng)文、指令、對(duì)話、代碼、工具等多種能力的深度協(xié)同。

      • 評(píng)測(cè)真實(shí)性: 主動(dòng)跳出易被“刷榜”的公開(kāi)榜單,通過(guò)自建題目、最新考試、人工評(píng)測(cè)、產(chǎn)品眾測(cè)等多種方式評(píng)估和改進(jìn)模型的“真實(shí)戰(zhàn)斗力”。

      • 性?xún)r(jià)比追求:實(shí)用性離不開(kāi)商業(yè)合理性,深度協(xié)同模型架構(gòu)和推理框架的設(shè)計(jì),大幅降低任務(wù)成本,讓智能用得起、用得好。


      模型發(fā)布的同時(shí),騰訊官方也給混元系列換了新的logo,儼然一副“重新出發(fā)”的感覺(jué):


      騰訊首席 AI 科學(xué)家姚順雨表示,Hy3 preview 是混元大模型重建的第一步。“我們希望通過(guò)這次開(kāi)源和發(fā)布,獲得來(lái)自開(kāi)源社區(qū)和用戶(hù)的真實(shí)反饋,幫助我們提升 Hy3 正式版的實(shí)用性。與此同時(shí),我們也在繼續(xù)擴(kuò)大預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)的規(guī)模,提升模型的智能上限,并通過(guò)與騰訊眾多產(chǎn)品的深度 Co-Design,持續(xù)提升模型在真實(shí)場(chǎng)景中的綜合表現(xiàn),并開(kāi)始探索特色模型能力。”

      今年初,在 AGI-NEXT 會(huì)議上,姚順雨就坦言,騰訊仍然是一家 To C 基因更強(qiáng)的公司。因此,騰訊更關(guān)心的問(wèn)題是:如何讓今天的大模型真正為用戶(hù)創(chuàng)造更多實(shí)際價(jià)值。

      他認(rèn)為,To C 場(chǎng)景里,很多問(wèn)題的關(guān)鍵并不只是模型變得更大、更強(qiáng),而是能否拿到更多上下文信息。姚順雨舉例說(shuō),像“我今天該吃什么”這樣的問(wèn)題,看似簡(jiǎn)單,但如果沒(méi)有足夠的上下文,模型很難給出真正貼近用戶(hù)當(dāng)下需求的答案。比如天氣是否很冷、活動(dòng)范圍在哪里、是否需要考慮伴侶的安排,這些額外信息往往比繼續(xù)做更大模型、更強(qiáng)強(qiáng)化學(xué)習(xí)或者更強(qiáng)搜索更重要。

      值得注意的是,姚順雨加入騰訊后的首次署名研究論文也是關(guān)于上下文。騰訊混元官網(wǎng)在 2 月發(fā)布了姚順雨團(tuán)隊(duì)加入后的首個(gè)公開(kāi)成果 CL-bench,專(zhuān)門(mén)測(cè)模型能不能從上下文中學(xué)到新知識(shí)并正確應(yīng)用。姚順雨強(qiáng)調(diào)不要只盯榜單,更重要的是把系統(tǒng)放進(jìn)真實(shí)世界約束中評(píng)估。

      騰訊在集團(tuán)層面也在加速將 AI 融入游戲、廣告和社交等核心業(yè)務(wù),這體現(xiàn)在了最新財(cái)報(bào)中:增值服務(wù)收入同比增長(zhǎng) 14% 至 899.2 億元;營(yíng)銷(xiāo)服務(wù)收入同比增長(zhǎng) 17% 至 411.2 億元;金融科技及企業(yè)服務(wù)業(yè)務(wù)收入同比增長(zhǎng) 8% 至 608.2 億元。

      公司還圍繞大模型能力和 AI 產(chǎn)品矩陣持續(xù)推進(jìn),WorkBuddy、QClaw 等“小龍蝦”系列 Agent 陸續(xù)上線。但更讓人關(guān)注的是財(cái)報(bào)媒體會(huì)上,騰訊宣布混元 3.0 計(jì)劃于 4 月陸續(xù)向外開(kāi)放。自引入姚順雨后,騰訊圍繞 AI 組織與人才體系進(jìn)行了一系列密集調(diào)整,而這一系列動(dòng)作的效果一定程度會(huì)反映在最新的模型上。

      很明顯,Hy3 preview 既是符合姚順雨和騰訊業(yè)務(wù)理念的模型,也是大眾對(duì)騰訊的一次檢驗(yàn)。

      主打全面實(shí)用性,Agent 能力大幅提升

      根據(jù)官方多個(gè)測(cè)評(píng)結(jié)果,Hy3 preview 模型能力全面提升。

      上下文學(xué)習(xí)和指令遵循能力

      在各種真實(shí)的生產(chǎn)與生活場(chǎng)景,理解雜亂冗長(zhǎng)的上下文并遵從復(fù)雜多變的規(guī)則是模型的首要挑戰(zhàn)。基于騰訊業(yè)務(wù)場(chǎng)景的靈感,騰訊混元提出了 CL-bench 和 CL-bench-Life 來(lái)創(chuàng)新性地評(píng)估模型的上下文學(xué)習(xí)能力,并在 Hy3 preview 顯著地提升了模型上下文學(xué)習(xí)和指令遵循能力。


      復(fù)雜推理能力突出,清華數(shù)學(xué)博士資格考試國(guó)內(nèi)分?jǐn)?shù)最高

      復(fù)雜推理能力是模型解決各種問(wèn)題的基礎(chǔ)。Hy3 preview 在 FrontierScience-Olympiad、IMOAnswerBench 等高難度理工科推理任務(wù)中表現(xiàn)突出,并在最新的清華大學(xué)求真書(shū)院數(shù)學(xué)博資考 (26 春) 和 全國(guó)中學(xué)生生物學(xué)聯(lián)賽 (CHSBO 2025) 中取得優(yōu)異成績(jī),展現(xiàn)了可泛化的強(qiáng)推理能力。


      代碼與智能體提升最為顯著,展現(xiàn)出高性?xún)r(jià)比

      代碼和智能體是 Hy3 preview 提升最為顯著的方向。得益于預(yù)訓(xùn)練及強(qiáng)化學(xué)習(xí)框架的重建和強(qiáng)化學(xué)習(xí)任務(wù)規(guī)模的提升,騰訊混元以較快的速度在 SWE-Bench Verified、Terminal-Bench 2.0 等主流代碼智能體基準(zhǔn)以及 BrowseComp、WideSearch 等主流搜索智能體基準(zhǔn)中取得了有競(jìng)爭(zhēng)力的結(jié)果。


      在數(shù)字世界中,代碼關(guān)注的是模型在開(kāi)發(fā)環(huán)境中的執(zhí)行能力,搜索則聚焦于開(kāi)放信息空間中的檢索、篩選與整合能力,兩者共同決定了模型在復(fù)雜智能體場(chǎng)景(例如 OpenClaw)中是否真正具備可用性。Hy3 preview 在 ClawEval 和 WildClawBench 等評(píng)測(cè)中表現(xiàn)突出,表明我們的智能體能力正在穩(wěn)步走向全面與實(shí)用。


      除了公開(kāi)榜單,騰訊混元還進(jìn)一步構(gòu)建了多個(gè)內(nèi)部的評(píng)測(cè)集,對(duì)模型在真實(shí)開(kāi)發(fā)場(chǎng)景中的表現(xiàn)進(jìn)行評(píng)估。結(jié)果表明,無(wú)論是在后端工程任務(wù)集 Hy-Backend,貼近真實(shí)用戶(hù)開(kāi)發(fā)交互的 Hy-Vibe Bench,還是高難度軟件工程開(kāi)發(fā)任務(wù)集 Hy-SWE Max 上,Hy3 preview 均體現(xiàn)出了強(qiáng)競(jìng)爭(zhēng)力。


      比較各個(gè)開(kāi)源模型的大小與智能體綜合表現(xiàn),Hy3 preview 展現(xiàn)出高性?xún)r(jià)比。


      成本大幅降低,騰訊核心業(yè)務(wù)全面接入

      得益于模型和推理框架上的深度協(xié)同,以及在推理框架、算子性能、量化算法等全方面優(yōu)化,整體推理效率提升 40%,Hy3 preview 的成本相比上一代模型大幅下降。

      在騰訊云大模型服務(wù)平臺(tái) TokenHub 上,Hy3 preview 輸入價(jià)格最低 1.2 元 / 百萬(wàn) tokens,輸入命中緩存價(jià)格 0.4 元 / 百萬(wàn) tokens,輸出價(jià)格最低 4 元 / 百萬(wàn) tokens。同時(shí),騰訊云聯(lián)合混元推出定制的 Hy3 preview Token Plan 套餐,個(gè)人版定價(jià)最低 28 元 / 月,為 Agent 開(kāi)發(fā)和打造“龍蝦”應(yīng)用的提供更具性?xún)r(jià)比選擇。



      而在正式上線之前,Hy3 preview 在騰訊主要 AI 業(yè)務(wù)進(jìn)行了產(chǎn)品測(cè)試,獲得明顯正收益。

      比如在元寶端,混元與元寶進(jìn)行了深度 Co-Design。一方面,針對(duì)性地提升了模型在意圖理解精準(zhǔn)度、文本創(chuàng)作質(zhì)量、深度搜索等硬核指標(biāo)上的表現(xiàn);另一方面,對(duì)文風(fēng)、文筆、情商、內(nèi)容組織和內(nèi)容專(zhuān)業(yè)度上進(jìn)行了精細(xì)化調(diào)優(yōu)。模型與產(chǎn)品的深度協(xié)同,為用戶(hù)帶來(lái)了更智能且更具“活人感”的交互體驗(yàn)。

      在 ima 知識(shí)庫(kù)問(wèn)答和通用問(wèn)答兩個(gè)場(chǎng)景下,Hy3 preview 處理長(zhǎng)文的能力出色,特別是檢索類(lèi)任務(wù),在回答信息的準(zhǔn)確性、覆蓋度和全面性上表現(xiàn)較好。

      在 CodeBuddy、WorkBuddy 產(chǎn)品上,Hy3 preview 首 token 延遲降低 54%、端到端時(shí)長(zhǎng)降低 47%、成功率提升至 99.99%+。實(shí)際用戶(hù)環(huán)境中,Hy3 preview 已穩(wěn)定驅(qū)動(dòng)最長(zhǎng) 495 步的復(fù)雜 Agent 工作流,覆蓋文檔處理、數(shù)據(jù)分析、知識(shí)檢索、MCP 工具鏈編排等多樣化辦公場(chǎng)景。

      而在公眾號(hào) AI 分身和 AI 客服的場(chǎng)景專(zhuān)項(xiàng)評(píng)測(cè)中,Hy3 preview 展現(xiàn)出相比 Hy2 更全面的能力升級(jí)。新模型在用戶(hù)意圖理解、復(fù)雜上下文承接和知識(shí)信息組織方面表現(xiàn)更成熟,面對(duì)模糊提問(wèn)、短句追問(wèn)和多輪對(duì)話時(shí),能夠更準(zhǔn)確地把握用戶(hù)訴求,并輸出更清晰、更穩(wěn)定的回復(fù)。結(jié)合知識(shí)庫(kù)、用戶(hù)記憶與上下文生成回答時(shí)更貼合 AI 分身和 AI 客服的角色,過(guò)度腦補(bǔ)、主觀代入和情緒化表達(dá)顯著減少,使整體交互體驗(yàn)更貼近“可信、自然、高效”的回復(fù)目標(biāo)。

      另外在和平精英 AI NPC 場(chǎng)景評(píng)測(cè)中,和平精英團(tuán)隊(duì)第一時(shí)間在 Hy3 preview 上線后基于 AI NPC 場(chǎng)景中完成接入并開(kāi)展評(píng)測(cè),整體表現(xiàn)令人印象深刻。在游戲局外的人設(shè)扮演場(chǎng)景中,Hy3 Preview 不僅能夠精準(zhǔn)理解角色設(shè)定,還能針對(duì)開(kāi)放性問(wèn)題輸出高度關(guān)聯(lián)、富有增量?jī)r(jià)值的內(nèi)容,帶來(lái)了更加真實(shí)、自然、沉浸的對(duì)話體驗(yàn)。而在游戲局內(nèi)的復(fù)雜對(duì)戰(zhàn)場(chǎng)景中,模型回復(fù)節(jié)奏貼近真實(shí)玩家聊天體驗(yàn),展現(xiàn)出優(yōu)秀的穩(wěn)定性與出色的擬人化扮演能力,整體效果表現(xiàn)亮眼。

      在騰訊文檔 AI PPT 場(chǎng)景,較上一版本(Hy2)取得了顯著進(jìn)步:生成成功率提升 20%,評(píng)測(cè)得分提升 10%,同時(shí)生成耗時(shí)縮短 20%。整體而言,新模型在評(píng)測(cè)場(chǎng)景中表現(xiàn)優(yōu)異,在模版選擇,色彩匹配,生成大綱,補(bǔ)充內(nèi)容多個(gè)階段,均體現(xiàn)出優(yōu)秀的表現(xiàn),無(wú)幻覺(jué),契合主題,視覺(jué)效果好。

      在 QQ AI 助手小 Q 產(chǎn)品評(píng)測(cè)中,較上一版本,在長(zhǎng)文本首字節(jié)時(shí)延、整體響應(yīng)速度與流式輸出效率方面顯著優(yōu)化;核心能力上,數(shù)學(xué)推理表現(xiàn)提升尤為明顯,多場(chǎng)景指令遵循與泛化能力進(jìn)一步增強(qiáng);在工具調(diào)用推理及多輪指代消解方面表現(xiàn)更穩(wěn)定高效,在 OpenClaw 官方 PinchBench QQ 智能體場(chǎng)景測(cè)試中取得突出效果,綜合體驗(yàn)實(shí)現(xiàn)明顯躍升。

      目前,Hy3 preview 已在騰訊云、元寶、ima、CodeBuddy、WorkBuddy、QQ、QQ 瀏覽器、騰訊文檔、騰訊樂(lè)享等首發(fā)上線,微信公眾號(hào)、和平精英、騰訊新聞、騰訊自選股、騰訊客服、微信讀書(shū)等多個(gè)主線產(chǎn)品也在陸續(xù)上線。另外,Hy3 preview 支持接入流行的開(kāi)源智能體產(chǎn)品,如 OpenClaw、OpenCode、KiloCode 等,并已上架騰訊云大模型服務(wù)平臺(tái) TokenHub。

      InfoQ 有幸提前進(jìn)行了測(cè)試,整體使用下來(lái),一句話總結(jié)就是:這是個(gè)用理性解決問(wèn)題的幫手。下面是我們做的五個(gè)小測(cè)試,包括國(guó)外播客整理翻譯、研究報(bào)告、前端網(wǎng)站搭建、物理理解和 Skill 測(cè)試,期間 Hy3 preview 做得好的地方、不好的地方,都非常明顯。

      InfoQ 實(shí)測(cè)

      英文視頻提煉亮點(diǎn)和翻譯

      第一個(gè)小任務(wù),嘗試讓 Hy3 preview 給英文采訪視頻提煉核心內(nèi)容和亮點(diǎn)。這也是我們的日常工作場(chǎng)景之一。




      下面是思考過(guò)程:




      Hy3 preview 無(wú)法直接訪問(wèn)我給的鏈接,于是先嘗試了用瀏覽器自動(dòng)化工具來(lái)訪問(wèn),過(guò)程中會(huì)自己嘗試安裝缺少的工具agent-browser,不過(guò)安裝失敗了。于是它改為使用 Python 腳本來(lái)獲取視頻信息,這一次獲取成功了。最后基于獲取到的視頻基礎(chǔ)信息,它進(jìn)一步搜索到了這期播客的 newsletter 頁(yè)面,并獲取到了更詳細(xì)的介紹。

      我讓它根據(jù)視頻內(nèi)容提煉 10 個(gè)關(guān)鍵亮點(diǎn),它實(shí)際是從 newsletter 頁(yè)面上總結(jié)的亮點(diǎn)中選取了一些給我(分別是頁(yè)面里的第 1-8、10 和 12)。整體來(lái)說(shuō) Hy3 preview 比較順利地完成了任務(wù),雖然它和其他模型一樣無(wú)法直接通過(guò)視頻鏈接抓取到內(nèi)容,但它很務(wù)實(shí),不會(huì)憑空瞎編一些亮點(diǎn)(我在罵誰(shuí)我不說(shuō))。

      下一步,讓 Hy3 preview 提取視頻字幕文件。


      它花了一點(diǎn)時(shí)間(差不多 10 分鐘),反復(fù)嘗試多次,最終成功獲取到了這個(gè)視頻的英文字幕文件。中間嘗試了不同方法,自動(dòng)安裝所需工具。

      思考過(guò)程:





      我問(wèn)它獲取字幕文件花了多長(zhǎng)時(shí)間,它混淆成了從一開(kāi)始給它視頻鏈接到剛才完成獲取字幕文件整個(gè)過(guò)程的總用時(shí),所以給到了 40 分鐘的答案。但實(shí)際獲取字幕文件這一步的時(shí)間差不多是 10 來(lái)分鐘。總體而言反思態(tài)度很好,也很會(huì)總結(jié)經(jīng)驗(yàn)、給自己打氣。



      接下來(lái)嘗試讓它將字幕文件中第一段 10 分鐘的內(nèi)容翻譯成中文,它耗時(shí) 5 分鐘后完成翻譯,并生成了 markdown 格式的文件可以直接下載。



      它這一步依然是通過(guò) Python 腳本的方式來(lái)完成的,這一步的思考過(guò)程:



      不過(guò)它的翻譯成果不算特別理想,存在幾個(gè)問(wèn)題:部分英語(yǔ)詞匯可以翻譯成中文但它沒(méi)翻譯;前后技術(shù)術(shù)語(yǔ)不一致;說(shuō)話人識(shí)別還是存在錯(cuò)位情況。

      不過(guò)平心而論,使用其他模型翻譯視頻播客的時(shí)候我們也經(jīng)常會(huì)遇到類(lèi)似問(wèn)題,最終要達(dá)到可發(fā)布狀態(tài)都需要進(jìn)一步人工精調(diào)。而且這次由于時(shí)間有限,沒(méi)有對(duì) Hy3 preview 做更多更精細(xì)的調(diào)教,這也會(huì)在一定程度上影響最終效果。

      這里附上這個(gè)視頻訪談開(kāi)始的第一段 QA,大家可以對(duì)比一下。一個(gè)是基于 GPT-5.4(Instant)翻譯并經(jīng)過(guò)人工潤(rùn)色的結(jié)果,一個(gè)是混元 3 初步翻譯的結(jié)果。

      • GPT-5.4(Instant)翻譯并經(jīng)過(guò)人工潤(rùn)色版本(文章已在 InfoQ 發(fā)布 )



      • 混元 3 初步翻譯版本:



      有一個(gè)地方是 GPT-5.4(Instant)明顯優(yōu)于混元 3 的,比如上面那段出現(xiàn)的技術(shù)名詞 Ormachy,在原版英文字幕文件中就是前后不一致的,同時(shí)存在幾個(gè)不同的錯(cuò)誤拼寫(xiě),但是 GPT-5.4(Instant)可以自動(dòng)把出現(xiàn)的不同寫(xiě)法全部調(diào)整成正確寫(xiě)法 Ormachy,但混元 3 只是忠實(shí)地把錯(cuò)詞翻譯過(guò)來(lái)了。

      “一人公司”報(bào)告:全而不細(xì)

      然后,我們給出了一個(gè) 調(diào)研“AI 一人公司趨勢(shì)”并輸出一份報(bào)告的任務(wù),要求其必須調(diào)用瀏覽器(搜索)、文檔整理、數(shù)據(jù)總結(jié)。

      提示詞如下:

      你現(xiàn)在是一個(gè)具備真實(shí)工作能力的研究型 Agent。你的目標(biāo)不是基于已有知識(shí)生成內(nèi)容,而是通過(guò)主動(dòng)調(diào)用工具,完成一次完整的“AI一人公司(One Person Company, OPC)趨勢(shì)調(diào)研”,并交付一份結(jié)構(gòu)清晰、信息可靠的研究報(bào)告。

      任務(wù)目標(biāo):

      調(diào)研“AI一人公司趨勢(shì)”,并輸出一份可直接閱讀和使用的分析報(bào)告。

      強(qiáng)制要求(必須遵守):

      1. 必須使用瀏覽器進(jìn)行真實(shí)搜索,獲取最新信息(不可僅依賴(lài)已有知識(shí))

      2. 必須對(duì)多來(lái)源信息進(jìn)行整理、對(duì)比與歸納

      3. 必須對(duì)關(guān)鍵數(shù)據(jù)進(jìn)行提取和總結(jié)(如比例變化、融資情況、案例數(shù)據(jù)等)

      4. 最終輸出一份結(jié)構(gòu)化報(bào)告,而不是零散內(nèi)容

      執(zhí)行流程(必須按順序執(zhí)行):

      第一步:調(diào)研規(guī)劃

      - 明確本次調(diào)研的核心問(wèn)題(例如:OPC是否趨勢(shì)性增長(zhǎng)、哪些人群受益、商業(yè)模式是什么等)

      - 給出搜索關(guān)鍵詞(中英文)

      - 說(shuō)明你將重點(diǎn)查找的信息類(lèi)型(數(shù)據(jù)、案例、觀點(diǎn)、公司實(shí)踐等)

      第二步:信息搜索(必須調(diào)用瀏覽器)

      - 至少進(jìn)行3-5輪不同角度的搜索

      - 覆蓋:行業(yè)數(shù)據(jù)、真實(shí)案例、公司/平臺(tái)觀點(diǎn)、投資/融資信息

      - 每次搜索需說(shuō)明:為什么搜、搜到了什么、是否可信

      第三步:信息篩選與整理

      - 去除重復(fù)或低質(zhì)量信息

      - 標(biāo)記關(guān)鍵信息來(lái)源(例如報(bào)告、公司、媒體、個(gè)人觀點(diǎn))

      - 將信息按主題歸類(lèi)(如:趨勢(shì)、案例、商業(yè)模式、風(fēng)險(xiǎn)等)

      第四步:數(shù)據(jù)與結(jié)論提取

      - 提取關(guān)鍵數(shù)據(jù)(如占比變化、增長(zhǎng)趨勢(shì)、變現(xiàn)情況)

      - 總結(jié)至少3-5個(gè)“可被驗(yàn)證的事實(shí)”

      - 總結(jié)至少3個(gè)“趨勢(shì)判斷”

      第五步:結(jié)構(gòu)化報(bào)告輸出

      最終報(bào)告必須包含以下結(jié)構(gòu):

      1. 背景與現(xiàn)象(AI一人公司為何出現(xiàn))

      2. 核心趨勢(shì)(是否在增長(zhǎng)、增長(zhǎng)邏輯是什么)

      3. 典型案例(真實(shí)個(gè)人/公司案例)

      4. 商業(yè)模式與賺錢(qián)路徑

      5. 誰(shuí)在受益(人群分層)

      6. 風(fēng)險(xiǎn)與限制(如平臺(tái)依賴(lài)、可復(fù)制性問(wèn)題)

      7. 未來(lái)判斷(短期紅利 vs 長(zhǎng)期結(jié)構(gòu))

      執(zhí)行要求:

      - 每一步都要說(shuō)明“你在做什么”和“為什么這么做”

      - 不允許跳過(guò)搜索直接總結(jié)

      - 不允許只給觀點(diǎn),必須有事實(shí)或案例支撐

      - 如果信息存在沖突,需要指出并分析原因

      - 優(yōu)先使用最近1-2年的信息

      輸出要求:

      - 語(yǔ)言清晰、邏輯連貫

      - 信息密度高,但不要堆砌

      - 可以直接作為一篇行業(yè)分析報(bào)告閱讀

      現(xiàn)在開(kāi)始執(zhí)行:先輸出第一步【調(diào)研規(guī)劃】,不要跳步。

      輸出報(bào)告如下:




      讀者可以復(fù)制鏈接查看完整版:https://codebuddy.work/agents/share/viukYMtcJxAjBEi3N8E3dPmVO4Dqv43uZ17RjtKCOHMkCbCeu0bPptrbzVbE6Mb_?platform=workbuddy

      整體給人感覺(jué):這是非常全面的一份報(bào)告,只是細(xì)節(jié)展開(kāi)不夠,但對(duì)于想要大概了解“一人公司”情況的讀者來(lái)說(shuō)是可以快速掌握相關(guān)信息的。

      在準(zhǔn)確性方面,我們隨機(jī)抽檢了兩組數(shù)據(jù),第一組數(shù)據(jù):“2023-2024 年澳大利亞無(wú)雇員企業(yè)同比增長(zhǎng) 4.9%,新增 78144 家”,在搜索后可以找到出處,數(shù)值引用也正確。


      再隨機(jī)抽檢這個(gè)案例:“動(dòng)畫(huà)領(lǐng)域創(chuàng)業(yè)者可單人統(tǒng)籌 42 分鐘動(dòng)畫(huà),28 天完成傳統(tǒng) 10 人團(tuán)隊(duì)的工作量”,結(jié)果也正確。


      順便讓它把 md 格式轉(zhuǎn)成 PDF,它也順利完成了任務(wù)。

      可見(jiàn),在研究報(bào)告這塊,Hy3 preview 信息搜集處理的準(zhǔn)確度是不錯(cuò)的。不過(guò),現(xiàn)在深度報(bào)告這塊的競(jìng)爭(zhēng)力或在數(shù)據(jù)上,近期 Kimi、千問(wèn)等都添加了專(zhuān)業(yè)數(shù)據(jù)庫(kù)來(lái)生成報(bào)告。

      AI 新聞聚合網(wǎng)站:基本可用,細(xì)節(jié)待完善

      接下來(lái)再給它一個(gè)任務(wù):從零做一個(gè)“AI 新聞聚合網(wǎng)站”。在調(diào)用了 31 個(gè)工具、產(chǎn)生了 63 條過(guò)程消息后,Hy3 preview 成功生成了一個(gè) AI 新聞聚合平臺(tái),如下圖:


      這是 Hy3 preview 自主選擇的技術(shù)棧,還附了相關(guān)解釋?zhuān)嬖V用戶(hù)為什么這樣選。在將邏輯和開(kāi)發(fā)步驟講清楚后,模型才開(kāi)始正式執(zhí)行。


      期間,我們上傳了一個(gè) Excel 表格,讓它讀取各 sheet 里的新聞源,它成功讀取并給出了一些意見(jiàn),比如全是英文網(wǎng)站可能錯(cuò)過(guò)國(guó)內(nèi)企業(yè)消息(然后自己在抓取時(shí)候加入了國(guó)內(nèi)網(wǎng)站)。不過(guò),讀取也出現(xiàn)了一些問(wèn)題,比如一個(gè)子 sheet 里的 31 條新聞源,其顯示只讀取了 3 個(gè),數(shù)量差有些大,也導(dǎo)致新聞抓取過(guò)度依賴(lài)某一單一網(wǎng)站。

      這次測(cè)試中,Hy3 preview 也展現(xiàn)了自己的 debug 能力。在任務(wù)完成后,打開(kāi)網(wǎng)頁(yè)出現(xiàn)了下面問(wèn)題,告訴它后,它開(kāi)始檢查問(wèn)題,最后順利修復(fù)。


      成品檢驗(yàn)

      首先是抓取時(shí)間問(wèn)題,點(diǎn)擊一個(gè)顯示“4 分鐘前”的新聞,打開(kāi)原鏈接后新聞顯示的時(shí)間是 2025 年 1 月 31 日。


      當(dāng)然生成的聚合網(wǎng)站上也有最新的消息(如下),但在明確要求“最新新聞優(yōu)先展示”的情況下,整個(gè)排序依然錯(cuò)亂。


      時(shí)間排序問(wèn)題它自己在測(cè)試網(wǎng)頁(yè)中也發(fā)現(xiàn)了,但最后呈現(xiàn)還是出現(xiàn)了問(wèn)題。這種無(wú)法準(zhǔn)確修改后呈現(xiàn)的問(wèn)題,還包括在要求去掉某一個(gè)新聞源后其依然引用等。


      另外,打開(kāi)閱讀的整個(gè)視覺(jué)效果也不太好,這可能也是為什么在任務(wù)完成后,提示下一步可以做視覺(jué)優(yōu)化的原因吧。

      整體下來(lái),現(xiàn)在生成網(wǎng)頁(yè)的效果已經(jīng)比去年好了很多,但要符合用戶(hù)者心意、做到產(chǎn)品級(jí)別性能,比如實(shí)時(shí)刷新、話題精準(zhǔn)、抓取新聞量更大等,還需要更多投入精力。但可以預(yù)想,企業(yè)官網(wǎng)等要求不高的場(chǎng)景完全可以用,完成程度會(huì)不錯(cuò)。

      高難度 STEM 仿真模擬

      接下來(lái)的任務(wù)是通過(guò)調(diào)用 terminal 技能、使用 uv 管理虛擬環(huán)境,在本地編寫(xiě) Python 腳本求解 Lorentz 力方程,并產(chǎn)出 3D 軌跡圖。這是官方給的一個(gè)案例,我們進(jìn)行了復(fù)現(xiàn)。最終,在經(jīng)過(guò) 22 個(gè)工具調(diào)用、產(chǎn)生 55 條過(guò)程消息后,產(chǎn)出下圖:


      這次,我們附上模型的思考過(guò)程:

      可以看出,Hy3 preview 具有一定抽象通用方法的能力,在基本物理實(shí)驗(yàn)處理上,知道帶電粒子軌道問(wèn)題需先處理尺度分離、可視化之前要檢查能量守恒和周期,理解視覺(jué)好看不等于物理上可信。不過(guò),目前 WorkBuddy 還未像愛(ài)馬仕 Hermes 那樣會(huì)自動(dòng)沉淀未來(lái)可復(fù)用的 skill。

      Skill 測(cè)試

      接下來(lái)我們?cè)賮?lái)測(cè)測(cè)它加載和執(zhí)行 skill 的能力如何。我們把已經(jīng)寫(xiě)好的一個(gè)文案 Skill,丟給它學(xué)習(xí),并通過(guò)這篇文章的內(nèi)容讓它寫(xiě)一下傳播文案,看看效果如何,過(guò)程如下:



      完整思考過(guò)程如下,Hy3 Preview 先快速總結(jié)了文章的內(nèi)容和我的訴求,然后抓取文章的核心信息和關(guān)鍵字(甚至包含了傳播轉(zhuǎn)化動(dòng)作與品牌露出),并按照 Skill 的規(guī)范去生成文案。生成之后先檢查字?jǐn)?shù)、符號(hào)使用規(guī)范等,最后有重新對(duì)照了一下原文內(nèi)容去確保生成的文案信息準(zhǔn)確,驗(yàn)證之后給我交付了結(jié)果。


      最終生成的傳播文案如下:


      結(jié)果來(lái)看,關(guān)鍵信息基本都抓取到了,也符合 Skill 預(yù)設(shè)的風(fēng)格和字?jǐn)?shù)要求,唯一欠缺的可能是不同風(fēng)格版本文案內(nèi)容的多樣性不太夠。但是如果每類(lèi)文案只選取 1 條使用,倒也沒(méi)啥毛病。尤其是給完文案后它還自查并展示了標(biāo)簽使用規(guī)則、字?jǐn)?shù)以及版本風(fēng)格,這一點(diǎn)好評(píng)。

      小 結(jié)

      整體體驗(yàn)下來(lái),我們能感覺(jué)到,當(dāng)前 Hy3 Preview 在任務(wù)執(zhí)行過(guò)程中,對(duì)于用戶(hù)需求的實(shí)施非常精準(zhǔn)且務(wù)實(shí),不會(huì)存在超出需求之外的“瞎編”,并且遇到問(wèn)題會(huì)主動(dòng)尋找其他解決方法,自動(dòng)調(diào)用各種工具,直到解決問(wèn)題。

      好處是當(dāng)我們把明確且具體的需求發(fā)送給它后,大概率能獲得一個(gè)不太出錯(cuò)的答案,一致性也相對(duì)更好;壞處是如果當(dāng)你給到一些抽象、需要發(fā)散和創(chuàng)意的需求時(shí),可能會(huì)獲得一份讓人覺(jué)得有點(diǎn)“一板一眼”的內(nèi)容,缺乏多樣性和想象力,也不太能進(jìn)入靈感碰撞的“心流時(shí)刻”,但這或許也是 Hy3 下一步會(huì)重點(diǎn)增強(qiáng)的地方,畢竟它現(xiàn)在說(shuō)到底還只是個(gè)語(yǔ)言模型,而非多模態(tài)。當(dāng)你有一個(gè)需要嚴(yán)謹(jǐn)執(zhí)行的任務(wù)時(shí),你能夠第一時(shí)間想到 Hy3,這本身也是一種認(rèn)可。

      *InfoQ 策劃編輯 Potatooo 對(duì)本文亦有貢獻(xiàn)。

      會(huì)議推薦

      世界模型的下一個(gè)突破在哪?Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過(guò)?研發(fā)體系不重構(gòu),還能撐多久?

      AICon 上海站 2026,4 大核心專(zhuān)題等你來(lái):世界模型與多模態(tài)智能突破、Agent 架構(gòu)與工程化實(shí)踐、Agent 安全與可信治理、企業(yè)級(jí)研發(fā)體系重構(gòu)。14 個(gè)專(zhuān)題全面開(kāi)放征稿。

      誠(chéng)摯邀請(qǐng)你登臺(tái)分享實(shí)戰(zhàn)經(jīng)驗(yàn)。AICon 2026,期待與你同行。

      今日薦文

      你也「在看」嗎?

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      交通銀行:堅(jiān)決擁護(hù)黨中央決定

      交通銀行:堅(jiān)決擁護(hù)黨中央決定

      新京報(bào)
      2026-05-07 12:30:05
      馬斯克宣布解散xAI:11位創(chuàng)始人全部跑光,3年燒掉2500億,最后只剩他一個(gè)人

      馬斯克宣布解散xAI:11位創(chuàng)始人全部跑光,3年燒掉2500億,最后只剩他一個(gè)人

      互聯(lián)網(wǎng)思想
      2026-05-07 19:48:03
      男子甲醇中毒失明 向白酒提供者索賠123萬(wàn) 法院駁回:其只飲用了不到2杯 飲用超10斤才能達(dá)最低中毒劑量

      男子甲醇中毒失明 向白酒提供者索賠123萬(wàn) 法院駁回:其只飲用了不到2杯 飲用超10斤才能達(dá)最低中毒劑量

      閃電新聞
      2026-05-07 16:26:17
      被困霍爾木茲海峽69天,19名中國(guó)船員海上堅(jiān)守:導(dǎo)彈在頭頂飛,淡水告急,船艙熱如巨型蒸籠,蔬果價(jià)格高昂,“擔(dān)心炮彈難以入眠”

      被困霍爾木茲海峽69天,19名中國(guó)船員海上堅(jiān)守:導(dǎo)彈在頭頂飛,淡水告急,船艙熱如巨型蒸籠,蔬果價(jià)格高昂,“擔(dān)心炮彈難以入眠”

      極目新聞
      2026-05-07 18:51:02
      倫敦世乒賽:4強(qiáng)席位出爐!日本3:1晉級(jí),張本智和成功登上領(lǐng)獎(jiǎng)臺(tái)

      倫敦世乒賽:4強(qiáng)席位出爐!日本3:1晉級(jí),張本智和成功登上領(lǐng)獎(jiǎng)臺(tái)

      國(guó)乒二三事
      2026-05-07 21:57:30
      京圈大佬飯局爆猛料:陳冠希現(xiàn)在,根本瞧不上內(nèi)娛這三瓜倆棗

      京圈大佬飯局爆猛料:陳冠希現(xiàn)在,根本瞧不上內(nèi)娛這三瓜倆棗

      西樓知趣雜談
      2026-05-07 12:40:04
      A.O.史密斯啟動(dòng)在華業(yè)務(wù)出售評(píng)估,外資家電撤離潮持續(xù)上演

      A.O.史密斯啟動(dòng)在華業(yè)務(wù)出售評(píng)估,外資家電撤離潮持續(xù)上演

      廚電新觀察
      2026-05-07 14:53:00
      “機(jī)車(chē)女神”痞幼拿下張雪!評(píng)論區(qū)淪陷了!

      “機(jī)車(chē)女神”痞幼拿下張雪!評(píng)論區(qū)淪陷了!

      4A廣告文案
      2026-05-07 09:13:48
      全線爆發(fā)!霍爾木茲海峽,突傳重磅!

      全線爆發(fā)!霍爾木茲海峽,突傳重磅!

      證券時(shí)報(bào)
      2026-05-07 18:04:09
      武漢多人買(mǎi)格力空調(diào)還沒(méi)安裝門(mén)店關(guān)閉,格力讓消費(fèi)者以?xún)?yōu)惠價(jià)格再買(mǎi)一次?多方回應(yīng)

      武漢多人買(mǎi)格力空調(diào)還沒(méi)安裝門(mén)店關(guān)閉,格力讓消費(fèi)者以?xún)?yōu)惠價(jià)格再買(mǎi)一次?多方回應(yīng)

      瀟湘晨報(bào)
      2026-05-07 15:53:43
      黑龍江兩名11歲女孩已遇害:網(wǎng)傳被先奸后殺,兇手身份被曝光

      黑龍江兩名11歲女孩已遇害:網(wǎng)傳被先奸后殺,兇手身份被曝光

      魔都姐姐雜談
      2026-05-07 15:17:15
      寧波銀行的“鐵三角”:區(qū)域精耕、風(fēng)險(xiǎn)定價(jià)與內(nèi)生增長(zhǎng)

      寧波銀行的“鐵三角”:區(qū)域精耕、風(fēng)險(xiǎn)定價(jià)與內(nèi)生增長(zhǎng)

      智谷趨勢(shì)
      2026-05-07 17:36:48
      納斯達(dá)克指數(shù)升破26000點(diǎn) 刷新紀(jì)錄新高

      納斯達(dá)克指數(shù)升破26000點(diǎn) 刷新紀(jì)錄新高

      財(cái)聯(lián)社
      2026-05-07 22:42:12
      “很久沒(méi)有這種興奮感了”!段永平出手!清倉(cāng)中國(guó)神華 買(mǎi)入泡泡瑪特 稱(chēng)泡泡瑪特的商業(yè)壁壘遠(yuǎn)比想象中強(qiáng)大 是王寧的粉絲

      “很久沒(méi)有這種興奮感了”!段永平出手!清倉(cāng)中國(guó)神華 買(mǎi)入泡泡瑪特 稱(chēng)泡泡瑪特的商業(yè)壁壘遠(yuǎn)比想象中強(qiáng)大 是王寧的粉絲

      每日經(jīng)濟(jì)新聞
      2026-05-07 17:25:55
      湖人4810萬(wàn)空間怎么用?維金斯+哈滕堪稱(chēng)絕配 有機(jī)會(huì)簽三位首發(fā)

      湖人4810萬(wàn)空間怎么用?維金斯+哈滕堪稱(chēng)絕配 有機(jī)會(huì)簽三位首發(fā)

      羅說(shuō)NBA
      2026-05-07 21:38:14
      舉報(bào)一個(gè)查一個(gè)!耿同學(xué)舉報(bào)3位大學(xué)院長(zhǎng)和教授,同濟(jì)院長(zhǎng)被免職還差南開(kāi)和中山

      舉報(bào)一個(gè)查一個(gè)!耿同學(xué)舉報(bào)3位大學(xué)院長(zhǎng)和教授,同濟(jì)院長(zhǎng)被免職還差南開(kāi)和中山

      可達(dá)鴨面面觀
      2026-05-07 13:03:19
      銳評(píng):鄭欽文擊敗布克沙丑陋地贏?又哭了?藥娃退賽是個(gè)好消息?

      銳評(píng):鄭欽文擊敗布克沙丑陋地贏?又哭了?藥娃退賽是個(gè)好消息?

      網(wǎng)球之家
      2026-05-07 23:04:17
      星空衛(wèi)視宣布暫停,大量網(wǎng)友涌向評(píng)論區(qū)

      星空衛(wèi)視宣布暫停,大量網(wǎng)友涌向評(píng)論區(qū)

      南方都市報(bào)
      2026-05-07 12:27:53
      中國(guó)小學(xué)生赴海參崴這事人民日?qǐng)?bào)都表態(tài)了,還刪我的文?

      中國(guó)小學(xué)生赴海參崴這事人民日?qǐng)?bào)都表態(tài)了,還刪我的文?

      蔥哥說(shuō)
      2026-05-07 13:53:38
      巴西宣布對(duì)中國(guó)公民免簽

      巴西宣布對(duì)中國(guó)公民免簽

      新華社
      2026-05-07 19:58:11
      2026-05-08 01:07:00
      AI前線 incentive-icons
      AI前線
      面向AI愛(ài)好者、開(kāi)發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊。
      1477文章數(shù) 149關(guān)注度
      往期回顧 全部

      科技要聞

      月之暗面完成20億美元融資,估值突破200億

      頭條要聞

      日媒詢(xún)問(wèn)中國(guó)是否希望恢復(fù)中日之間人員往來(lái) 中方回應(yīng)

      頭條要聞

      日媒詢(xún)問(wèn)中國(guó)是否希望恢復(fù)中日之間人員往來(lái) 中方回應(yīng)

      體育要聞

      巴黎再進(jìn)歐冠決賽,最尷尬的情況還是發(fā)生了

      娛樂(lè)要聞

      Lisa主持!寧藝卓觀看脫衣秀風(fēng)波升級(jí)

      財(cái)經(jīng)要聞

      人均年薪406萬(wàn),這家ST公司驚呆市場(chǎng)!

      汽車(chē)要聞

      雷克薩斯全新純電三排SUV 全新TZ全球首發(fā)

      態(tài)度原創(chuàng)

      游戲
      本地
      數(shù)碼
      藝術(shù)
      公開(kāi)課

      《遠(yuǎn)星物語(yǔ)》團(tuán)隊(duì)新作《皓白初曉》登Steam EA

      本地新聞

      用青花瓷的方式,打開(kāi)西溪濕地

      數(shù)碼要聞

      MacBook Neo供不應(yīng)求 蘋(píng)果緊急加單A18 Pro芯片并將產(chǎn)量翻倍

      藝術(shù)要聞

      探索施密德的油畫(huà),感受無(wú)法抵擋的藝術(shù)魅力!

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产一区二区三区在线观看免费| 99视频在线精品免费观看6| 亚洲成人av在线系列| 亚洲综合av一区二区| 国产成人亚洲无码淙合青草| 亚洲av男人的在线的天堂| 国产色偷丝袜婷婷无码麻豆制服| 日本精品一区二区三区在线视频| 啊轻点灬大JI巴太粗太长了欧美 | 秘?亚洲国产精品成人网站| 99久久香蕉国产综合影院| 久久精品国产一区二区电影| 久久婷婷人人澡人人爱91| 亚洲乱色熟女一区二区蜜臀| 日本黄色一区二区| 无码专区 人妻系列 在线| 亚洲人成在线免费观看| 四虎影视国产精品8848| 南木林县| 日韩成人午夜| 亚洲国产综合性亚洲综合性 | 人妻三区二区| 香蕉深夜福利视频二区| 2024av在线无码中文最新| 午夜伊人网| 内射夜晚在线观看| 草逼网站| 久久永久免费专区人妻精品| 一区二区三区精品偷拍| 国产精品99精品无码视亚| 最新亚洲春色AV无码专区| 亚洲欧美日产综合一区二区三区| 丝袜美腿亚洲一区二区| 国产亚洲中文字幕久久网| 国产精品一卡二卡三卡破解版| 亚洲AV无码破坏版在线观看 | 亚洲午夜无码毛片av久久京东热 | 成年人尤物视频在线观看| 国产精品亚洲精品一区二区| 91乱子伦国产乱子伦!| 国产九色AV刺激露脸对白|