網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

研究周期縮短至分鐘級(jí)，開(kāi)源系統(tǒng)解決AI研究工具關(guān)鍵局限

2026-01-27 18:09:44　來(lái)源: ScienceAI

河北舉報(bào)

分享至

編輯丨coisini

面向科學(xué)發(fā)現(xiàn)的人工智能系統(tǒng)已展現(xiàn)出巨大潛力，但現(xiàn)有方法大多仍屬私有技術(shù)，且以批處理模式運(yùn)行，每個(gè)研究周期需要數(shù)小時(shí)，無(wú)法實(shí)現(xiàn)研究人員的實(shí)時(shí)引導(dǎo)。

最近，一篇題為《Rethinking the AI Scientist: Interactive Multi-Agent Workflows for Scientific Discovery》的研究論文提出了一個(gè)多智能體系統(tǒng) ——Deep Research，能在以分鐘計(jì)的時(shí)間內(nèi)完成交互式科學(xué)研究。

論文地址：https://arxiv.org/abs/2601.12542

Deep Research 包含用于規(guī)劃、數(shù)據(jù)分析、文獻(xiàn)檢索和新穎性檢測(cè)的專用智能體，并通過(guò)一個(gè)持久的全局狀態(tài)統(tǒng)一協(xié)調(diào)，以在迭代的研究周期中保持上下文連貫。

該系統(tǒng)支持兩種操作模式以適應(yīng)不同工作流程：半自主模式包含選擇性人工檢查點(diǎn)；全自主模式用于擴(kuò)展性研究。

Deep Research

Deep Research 通過(guò)構(gòu)建基于智能體的交互式環(huán)境，將研究周期從小時(shí)級(jí)縮短至分鐘級(jí)，從而實(shí)現(xiàn)對(duì)研究過(guò)程的實(shí)時(shí)主動(dòng)引導(dǎo)，無(wú)需等待可能需要完全重做才能探索新方向的批量結(jié)果，有效解決了現(xiàn)有 AI 驅(qū)動(dòng)研究工具的關(guān)鍵局限。

該系統(tǒng)包含四個(gè)專門化智能體：

協(xié)調(diào)智能體（orchestrator agent），負(fù)責(zé)在研究周期中維護(hù)持久的世界狀態(tài)（world state）；
數(shù)據(jù)分析智能體，通過(guò)迭代式代碼生成與知識(shí)庫(kù)構(gòu)建來(lái)分解復(fù)雜分析任務(wù)；
文獻(xiàn)檢索智能體，綜合來(lái)自異構(gòu)學(xué)術(shù)數(shù)據(jù)庫(kù)的證據(jù)；
新穎性檢測(cè)智能體，依據(jù)現(xiàn)有文獻(xiàn)，對(duì)所提假設(shè)進(jìn)行新穎性評(píng)估。

該系統(tǒng)支持兩種運(yùn)行模式。半自主模式引入人機(jī)協(xié)同交互，打造真正的「科學(xué)家協(xié)作者」體驗(yàn)：研究人員可在單次工作會(huì)話中迭代式指導(dǎo)并優(yōu)化 AI 研究過(guò)程，根據(jù)實(shí)時(shí)涌現(xiàn)的洞察及時(shí)調(diào)整研究方向，而無(wú)需等待數(shù)小時(shí)的批處理結(jié)果 —— 傳統(tǒng)方式往往需要完全重新執(zhí)行才能探索替代假設(shè)。全自主模式則可在無(wú)人工干預(yù)檢查點(diǎn)的情況下執(zhí)行擴(kuò)展研究周期，適用于對(duì)目標(biāo)明確的研究任務(wù)進(jìn)行系統(tǒng)性探索。

研究團(tuán)隊(duì)現(xiàn)已開(kāi)源協(xié)調(diào)智能體 ——BioAgents 框架，但生物數(shù)據(jù)分析和生物文獻(xiàn)檢索組件尚未發(fā)布。未來(lái)的開(kāi)發(fā)將側(cè)重于擴(kuò)展數(shù)據(jù)庫(kù)覆蓋范圍，通過(guò)改進(jìn)語(yǔ)義表征來(lái)優(yōu)化新穎性檢測(cè)，并將基準(zhǔn)驗(yàn)證延伸至更多科學(xué)領(lǐng)域。

BioAgents 開(kāi)源地址：https://github.com/bio-xyz/BioAgents

實(shí)驗(yàn)評(píng)估

Deep Research 在 BixBench 計(jì)算生物學(xué)基準(zhǔn)測(cè)試上取得了 SOTA 性能，同時(shí)提供了交互式、人機(jī)協(xié)同的工作流，這與現(xiàn)有系統(tǒng)普遍采用的批處理方法形成鮮明對(duì)比。

數(shù)據(jù)分析智能體在開(kāi)放式問(wèn)題上的準(zhǔn)確率達(dá)到 48.8%：

在含「Refusal」選項(xiàng)的多選題上準(zhǔn)確率為 55.2%：

在不含該選項(xiàng)的多選題上準(zhǔn)確率為 64.5%：

這些結(jié)果超越了 Edison Analysis、K-Dense Analyst、Kepler 和 GPT-5 等現(xiàn)有基線。

詳細(xì)的案例研究證實(shí)，Deep Research 的性能優(yōu)勢(shì)源于正確的數(shù)據(jù)結(jié)構(gòu)化與統(tǒng)計(jì)執(zhí)行，而非依賴于對(duì)答案選項(xiàng)的先驗(yàn)知識(shí)。

感興趣的讀者可以閱讀論文原文，了解更多研究?jī)?nèi)容。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.