![]()
編輯丨coisini
面向科學(xué)發(fā)現(xiàn)的人工智能系統(tǒng)已展現(xiàn)出巨大潛力,但現(xiàn)有方法大多仍屬私有技術(shù),且以批處理模式運(yùn)行,每個(gè)研究周期需要數(shù)小時(shí),無(wú)法實(shí)現(xiàn)研究人員的實(shí)時(shí)引導(dǎo)。
最近,一篇題為《Rethinking the AI Scientist: Interactive Multi-Agent Workflows for Scientific Discovery》的研究論文提出了一個(gè)多智能體系統(tǒng) ——Deep Research,能在以分鐘計(jì)的時(shí)間內(nèi)完成交互式科學(xué)研究。
![]()
論文地址:https://arxiv.org/abs/2601.12542
Deep Research 包含用于規(guī)劃、數(shù)據(jù)分析、文獻(xiàn)檢索和新穎性檢測(cè)的專用智能體,并通過(guò)一個(gè)持久的全局狀態(tài)統(tǒng)一協(xié)調(diào),以在迭代的研究周期中保持上下文連貫。
該系統(tǒng)支持兩種操作模式以適應(yīng)不同工作流程:半自主模式包含選擇性人工檢查點(diǎn);全自主模式用于擴(kuò)展性研究。
Deep Research
Deep Research 通過(guò)構(gòu)建基于智能體的交互式環(huán)境,將研究周期從小時(shí)級(jí)縮短至分鐘級(jí),從而實(shí)現(xiàn)對(duì)研究過(guò)程的實(shí)時(shí)主動(dòng)引導(dǎo),無(wú)需等待可能需要完全重做才能探索新方向的批量結(jié)果,有效解決了現(xiàn)有 AI 驅(qū)動(dòng)研究工具的關(guān)鍵局限。
該系統(tǒng)包含四個(gè)專門化智能體:
- 協(xié)調(diào)智能體(orchestrator agent),負(fù)責(zé)在研究周期中維護(hù)持久的世界狀態(tài)(world state);
- 數(shù)據(jù)分析智能體,通過(guò)迭代式代碼生成與知識(shí)庫(kù)構(gòu)建來(lái)分解復(fù)雜分析任務(wù);
- 文獻(xiàn)檢索智能體,綜合來(lái)自異構(gòu)學(xué)術(shù)數(shù)據(jù)庫(kù)的證據(jù);
- 新穎性檢測(cè)智能體,依據(jù)現(xiàn)有文獻(xiàn),對(duì)所提假設(shè)進(jìn)行新穎性評(píng)估。
![]()
該系統(tǒng)支持兩種運(yùn)行模式。半自主模式引入人機(jī)協(xié)同交互,打造真正的「科學(xué)家協(xié)作者」體驗(yàn):研究人員可在單次工作會(huì)話中迭代式指導(dǎo)并優(yōu)化 AI 研究過(guò)程,根據(jù)實(shí)時(shí)涌現(xiàn)的洞察及時(shí)調(diào)整研究方向,而無(wú)需等待數(shù)小時(shí)的批處理結(jié)果 —— 傳統(tǒng)方式往往需要完全重新執(zhí)行才能探索替代假設(shè)。全自主模式則可在無(wú)人工干預(yù)檢查點(diǎn)的情況下執(zhí)行擴(kuò)展研究周期,適用于對(duì)目標(biāo)明確的研究任務(wù)進(jìn)行系統(tǒng)性探索。
研究團(tuán)隊(duì)現(xiàn)已開(kāi)源協(xié)調(diào)智能體 ——BioAgents 框架,但生物數(shù)據(jù)分析和生物文獻(xiàn)檢索組件尚未發(fā)布。未來(lái)的開(kāi)發(fā)將側(cè)重于擴(kuò)展數(shù)據(jù)庫(kù)覆蓋范圍,通過(guò)改進(jìn)語(yǔ)義表征來(lái)優(yōu)化新穎性檢測(cè),并將基準(zhǔn)驗(yàn)證延伸至更多科學(xué)領(lǐng)域。
![]()
BioAgents 開(kāi)源地址:https://github.com/bio-xyz/BioAgents
![]()
實(shí)驗(yàn)評(píng)估
Deep Research 在 BixBench 計(jì)算生物學(xué)基準(zhǔn)測(cè)試上取得了 SOTA 性能,同時(shí)提供了交互式、人機(jī)協(xié)同的工作流,這與現(xiàn)有系統(tǒng)普遍采用的批處理方法形成鮮明對(duì)比。
![]()
數(shù)據(jù)分析智能體在開(kāi)放式問(wèn)題上的準(zhǔn)確率達(dá)到 48.8%:
![]()
在含「Refusal」選項(xiàng)的多選題上準(zhǔn)確率為 55.2%:
![]()
在不含該選項(xiàng)的多選題上準(zhǔn)確率為 64.5%:
![]()
這些結(jié)果超越了 Edison Analysis、K-Dense Analyst、Kepler 和 GPT-5 等現(xiàn)有基線。
詳細(xì)的案例研究證實(shí),Deep Research 的性能優(yōu)勢(shì)源于正確的數(shù)據(jù)結(jié)構(gòu)化與統(tǒng)計(jì)執(zhí)行,而非依賴于對(duì)答案選項(xiàng)的先驗(yàn)知識(shí)。
![]()
感興趣的讀者可以閱讀論文原文,了解更多研究?jī)?nèi)容。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.