<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      S-Researcher讓智能體自主設計實驗、模擬被試、撰寫報告

      0
      分享至



      作者 | 論文團隊

      編輯丨ScienceAI

      Karpathy 3 月初開源 AutoResearch,630 行代碼、一塊 GPU、睡一覺跑 100 個實驗,GitHub 星標直沖 6 萬。緊接著,AutoResearchClaw 把這套「睡覺自動科研」的范式拓展到了 23 個階段的完整論文生成流水線,連 LabClaw 也開始幫生物醫(yī)學研究者自動跑實驗、寫記錄。

      一個自然的問題浮出水面:AI 自動科研在自然科學和 ML 領域已經(jīng)跑起來了,社會科學呢?

      社會科學的難點跟 ML 調參完全不同。你沒有一個 loss 函數(shù)可以優(yōu)化,被試是有主觀意識的人,實驗設計空間極大,而且招 100 個真人做實驗就要花幾個月。傳統(tǒng)的 AutoML 式循環(huán)在這里根本不適用。

      來自中國人民大學高瓴人工智能學院的團隊給出了他們的方案:S-Researcher。不同于 AutoResearch 讓 Agent 反復修改訓練代碼來壓低 validation loss,S-Researcher 讓 LLM Agent 同時扮演「研究助手」和「模擬被試」兩個角色,覆蓋社會科學研究從實驗設計到報告撰寫的全流程。底層是一個支持 10 萬并發(fā) Agent 的社會模擬引擎YuLan-OneSim。在最硬核的驗證中,LLM Agent 自主發(fā)現(xiàn)的合作機制被 120 人真人實驗獨立證實。



      論文鏈接:http://arxiv.org/abs/2604.01520

      GitHub:https://github.com/RUC-GSAI/YuLan-OneSim

      在線平臺:https://www.yulan-onesim.cn/



      S-Researcher 整體流程:用戶輸入研究課題后,系統(tǒng)自動完成場景構建、模擬執(zhí)行和報告生成,研究者可在每個環(huán)節(jié)介入。

      先造一個能「跑」任何社會實驗的模擬器

      AutoResearch 的成功有一個前提:訓練代碼只有 630 行,整個系統(tǒng)自包含,Agent 能一次讀完全部代碼。社會模擬沒有這個便利。你需要一個平臺,能把千變萬化的社會實驗場景轉化為可執(zhí)行代碼,還得支持成千上萬個 Agent 同時交互。

      團隊開發(fā)的 YuLan-OneSim 圍繞三個核心能力進行設計。

      通用性:讓 AI 理解五花八門的社會實驗。用戶只需要用自然語言描述實驗場景,系統(tǒng)就會按照 ODD(Overview, Design Concepts, Details)協(xié)議將其結構化,然后自動生成行為圖和可執(zhí)行的模擬代碼。團隊在 8 個社科領域的 50 個場景上測了一圈,專家給行為圖打了接近滿分的 5.0,生成代碼拿了 4.2 分。考慮到這些代碼幾分鐘就能出來,而手寫可能要好幾個小時,這個分數(shù)相當能打。

      消融實驗揭示了一個重要結論:行為圖是整個流程的靈魂。去掉它,代碼質量直接掉了 35.8%,比去掉任何其他模塊的影響都大。給 Agent 一個結構化的中間表示,比讓它直接從自然語言生成代碼要靠譜得多。

      可擴展性:讓幾萬、十幾萬個 Agent 同時跑。YuLan-OneSim 用了一套事件驅動的異步架構,配合 Master-Worker 分布式設計。實測下來,從 1k 到 100k 個 Agent 都能平滑擴展。10 萬 Agent 跑一輪大約需要 3538 秒;在萬級規(guī)模時,分布式部署比單機快了 3-4 倍。

      可靠性:讓通用 LLM 輸出可信的模擬行為。直接拿通用 LLM 來模擬社會行為,效果確實不穩(wěn)定。為此團隊設計了 VR2T 反饋框架(Verifier-Reasoner-Refiner-Tuner),先讓驗證者打分,推理者分析錯因,修復者糾正輸出,最后用這些數(shù)據(jù)微調骨干模型。在 Qwen2.5-1.5B 上用 DPO 迭代 4 輪后,可靠性提升了27.4%。這個思路和 AutoResearch 的 ratchet 機制異曲同工:跑一輪,評估,保留改進,丟棄退化,反復迭代。

      目前 YuLan-OneSim 已經(jīng)作為在線平臺運行(yulan-onesim.cn),吸引了 80 多家機構的 100 多位注冊用戶。



      YuLan-OneSim 平臺能力驗證:(a)專家評分,(b)錯誤類型分布,(e)規(guī)模擴展性測試,(g)反饋微調效果。

      S-Researcher:一個研究問題進去,一份研究報告出來

      S-Researcher 把研究工作流組織成三種經(jīng)典推理模式:歸納(從數(shù)據(jù)中發(fā)現(xiàn)規(guī)律)、演繹(檢驗競爭假說)、溯因(追溯因果機制)。整個 pipeline 包含實驗設計、模擬執(zhí)行、結果分析和報告生成四個模塊。

      但與全自動路線不同,S-Researcher 從設計之初就把人機協(xié)作作為核心原則。研究者可以在每個階段介入:修改系統(tǒng)自動生成的實驗設計、上傳自定義的 Agent 畫像數(shù)據(jù)、調整模擬參數(shù),甚至只使用其中某個模塊 —— 比如你手上已有實驗數(shù)據(jù),可以跳過模擬階段,直接用結果分析和報告生成模塊。

      團隊用三個案例驗證了這套系統(tǒng)。

      歸納:給定研究問題,AI 自己復現(xiàn)了經(jīng)典結論



      研究問題很簡單:當人們更愿意和文化相似的鄰居互動時,整個社會的文化格局會怎樣演變?

      S-Researcher 自主設計了完整實驗:在 10×10 網(wǎng)格上放 100 個 LLM Agent,每人 5 個文化特征維度(音樂、飲食、時尚、政治、休閑),跑 100 輪。

      系統(tǒng)發(fā)現(xiàn)了一個有趣的悖論:鄰居之間越來越像(平均相似度 + 21%),但全局并沒有走向統(tǒng)一,而是穩(wěn)定在大約 65 個文化「小島」上 —— 形成「組內趨同、組間分化」模式。這恰好是 Axelrod 文化傳播模型的核心預測,而動態(tài)完全來自 LLMAgent 的自主交互涌現(xiàn)。

      演繹:三個假說同時 PK,5525 個學生 Agent 模擬中國課堂



      第二個案例瞄準教育公平領域的核心問題:到底是什么決定了老師把注意力分給誰?

      S-Researcher 自動提出三個競爭假說:表達假說(課堂發(fā)言活躍度主導)、成績假說(學習成績主導)、精英假說(家庭背景主導),然后啟動三組平行模擬。

      規(guī)模:221 個模擬課堂、5525 個學生 Agent,每個學生的畫像直接來自中國教育追蹤調查(CEPS)的真實數(shù)據(jù)。

      結果:表達假說完勝。與 CEPS 實際數(shù)據(jù)的 Spearman 相關系數(shù),表達假說(ρ = 0.152)顯著高于成績假說(0.122)和精英假說(0.113)。獨立驗證中,CEPS 回歸分析顯示溝通能力對教師注意力的解釋力(β = 0.349,R2 = 12.1%)約是學業(yè)成績的20 倍(β = 0.034),與模擬結論完全一致。

      更重要的是,模擬給出了回歸分析給不了的東西:表達能力強的學生是如何一輪輪積累起注意力優(yōu)勢的 —— 這種過程層面的解釋力,正是模擬研究相比統(tǒng)計分析的獨特價值。

      溯因:AI 發(fā)現(xiàn)新機制,120 人真人實驗獨立驗證



      這是整篇論文最有看點的部分。

      研究問題:在公共品博弈中,領導者的貢獻金額和背后的意圖(自愿還是被迫),如何影響追隨者的合作意愿?

      S-Researcher 自動設計了一個 2×3 被試間實驗:決策機制(自愿 / 強制)× 貢獻水平(低 2 / 中 5 / 高 8 token),每個條件 100 個 Agent 追隨者。

      模擬揭示了兩個發(fā)現(xiàn)。第一,追隨者的合作主要被貢獻金額「錨定」(β = 0.794),這不意外。第二,出人意料的是,強制條件下追隨者反而貢獻更多(β = 0.104)。Agent 似乎對自愿做出低貢獻的領導者進行了「意圖懲罰」:你本來可以多給但選擇不給,那我也減少合作。

      為了驗證,團隊同步開展了平行人類實驗(N = 120,3 輪),實驗設置完全相同。結果令人振奮:人類同樣表現(xiàn)出「強制 > 自愿」的模式,6 個條件下人機均值的 Pearson 相關系數(shù)達到r = 0.915。不過差異也存在:人類對意圖的敏感度明顯更高(β_human = 0.251 vs. β_agent = 0.104),LLM Agent 則更依賴金額本身。

      AI 自動科研的社會科學路線

      當研究對象是「人」的時候,沒有簡潔的目標函數(shù)可以優(yōu)化。文化怎么傳播、老師怎么分配注意力、人們?yōu)槭裁春献?—— 這些問題需要的是理論發(fā)現(xiàn)和機制解釋,而非指標優(yōu)化。S-Researcher 的做法是讓 LLM Agent 本身成為研究對象,用模擬來替代或預篩選昂貴的真人實驗。

      當然,這條路也有邊界。LLM Agent 的行為異質性比真人低,對意圖等高階線索的敏感度不足,仍然離不開真人被試。

      正因如此,S-Researcher 從一開始就把人機協(xié)作作為核心設計。AI 負責快速探索方案空間,人負責在關鍵節(jié)點做判斷和干預。一旦涉及理論判斷、倫理審查、領域知識這些「軟」要素,人的參與不是可選項,而是必選項 —— 而這,恰恰揭示了當下 AI 科研工具必須正視的核心邊界。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      75年,譚政入獄第8年,毛主席詢問:那譚政哪里去了,后來如何

      75年,譚政入獄第8年,毛主席詢問:那譚政哪里去了,后來如何

      鶴羽說個事
      2026-05-14 23:07:20
      美媒爆料:普京此次訪華,執(zhí)意要談成一個讓中方左右為難的項目

      美媒爆料:普京此次訪華,執(zhí)意要談成一個讓中方左右為難的項目

      混沌錄
      2026-05-21 19:06:51
      半決賽G3大名單出爐:孫銘徽因傷缺席 深圳缺少史密斯李慕豪

      半決賽G3大名單出爐:孫銘徽因傷缺席 深圳缺少史密斯李慕豪

      醉臥浮生
      2026-05-21 19:05:55
      科學家發(fā)現(xiàn):地球自轉越來越慢了,未來會徹底停轉嗎?

      科學家發(fā)現(xiàn):地球自轉越來越慢了,未來會徹底停轉嗎?

      觀察宇宙
      2026-05-20 20:33:58
      女子在高鐵靜音車廂連打20分鐘電話,乘客:乘務拿著寫有“靜音車廂請您保持安靜”的牌子站在她面前,多次嘗試勸阻卻被忽視

      女子在高鐵靜音車廂連打20分鐘電話,乘客:乘務拿著寫有“靜音車廂請您保持安靜”的牌子站在她面前,多次嘗試勸阻卻被忽視

      大風新聞
      2026-05-21 15:49:02
      霍爾木茲海峽,重大消息!油價跳水7%,黃金白銀直線拉升,美股半導體集體狂飆,ARM大漲16%

      霍爾木茲海峽,重大消息!油價跳水7%,黃金白銀直線拉升,美股半導體集體狂飆,ARM大漲16%

      21世紀經(jīng)濟報道
      2026-05-20 23:43:19
      成都指標到校惹眾怒!家長投訴:初中畢業(yè)就被“區(qū)別對待”!

      成都指標到校惹眾怒!家長投訴:初中畢業(yè)就被“區(qū)別對待”!

      優(yōu)墨出品
      2026-05-21 13:18:35
      上海交大私吞獎金事件又曝新料!網(wǎng)傳樊同學曾找人洗白,太過分了

      上海交大私吞獎金事件又曝新料!網(wǎng)傳樊同學曾找人洗白,太過分了

      小徐講八卦
      2026-05-21 15:36:51
      “荔枝泡水”視頻瘋傳引擔憂!廠方與業(yè)內緊急澄清:正常操作!廣東網(wǎng)友現(xiàn)身說法

      “荔枝泡水”視頻瘋傳引擔憂!廠方與業(yè)內緊急澄清:正常操作!廣東網(wǎng)友現(xiàn)身說法

      新民晚報
      2026-05-21 17:33:07
      被年輕人的“冰箱貼”驚到了!果然,一代人有一代人的“破爛”

      被年輕人的“冰箱貼”驚到了!果然,一代人有一代人的“破爛”

      美家指南
      2026-05-21 15:48:54
      南庫頁島戰(zhàn)役:二戰(zhàn)最后一場大戰(zhàn),蘇軍一舉殲滅日軍2萬多人

      南庫頁島戰(zhàn)役:二戰(zhàn)最后一場大戰(zhàn),蘇軍一舉殲滅日軍2萬多人

      云霄紀史觀
      2026-05-20 13:23:07
      我花30萬接下一個按摩店,開了三個多月了,收入支出跟大家講講

      我花30萬接下一個按摩店,開了三個多月了,收入支出跟大家講講

      千秋文化
      2026-05-06 20:13:31
      藍營內部趙少康與鄭麗文鬧紛爭,連戰(zhàn)兒子連勝文竟然也站隊選邊!

      藍營內部趙少康與鄭麗文鬧紛爭,連戰(zhàn)兒子連勝文竟然也站隊選邊!

      總在茶余后
      2026-05-21 01:24:16
      沙特聯(lián)前瞻|利雅得勝利2-0達馬克:C羅終結5年無冠尷尬,就在今晚

      沙特聯(lián)前瞻|利雅得勝利2-0達馬克:C羅終結5年無冠尷尬,就在今晚

      體育世界
      2026-05-21 14:10:19
      “后悔參觀清華,自取其辱!”家長帶3歲娃逛清華,給出三點差評

      “后悔參觀清華,自取其辱!”家長帶3歲娃逛清華,給出三點差評

      妍妍教育日記
      2026-05-19 17:10:31
      把特朗普坑慘的“當代漢奸第一人”,如今報應來了!

      把特朗普坑慘的“當代漢奸第一人”,如今報應來了!

      華人星光
      2026-05-20 11:25:01
      比越南還要白眼狼!中國決定撤離援助后,該國家居然立刻翻臉了

      比越南還要白眼狼!中國決定撤離援助后,該國家居然立刻翻臉了

      聞識
      2026-05-21 13:24:04
      《給阿嬤的情書》中“嬤”被教授正音mà后,央視依舊讀mó,廣東僑聯(lián)工作人員:兩種讀音沒有絕對對錯,只是適用場景不同

      《給阿嬤的情書》中“嬤”被教授正音mà后,央視依舊讀mó,廣東僑聯(lián)工作人員:兩種讀音沒有絕對對錯,只是適用場景不同

      大象新聞
      2026-05-20 18:58:05
      2026年5月22日十二星座運勢

      2026年5月22日十二星座運勢

      星座不求人
      2026-05-21 18:01:32
      品茶:在快節(jié)奏里,為自己偷一段慢時光

      品茶:在快節(jié)奏里,為自己偷一段慢時光

      疾跑的小蝸牛
      2026-05-21 21:00:04
      2026-05-21 21:56:49
      ScienceAI incentive-icons
      ScienceAI
      關注人工智能與其他前沿技術
      1307文章數(shù) 227關注度
      往期回顧 全部

      科技要聞

      小米YU7 GT正式發(fā)布:售價38.99萬元

      頭條要聞

      中紀委連打三"虎":一人被指違規(guī)核發(fā)機動車號牌

      頭條要聞

      中紀委連打三"虎":一人被指違規(guī)核發(fā)機動車號牌

      體育要聞

      常住人口7000的小鎮(zhèn),擁有了一支德甲球隊

      娛樂要聞

      反轉!金秀賢與金賽綸未成年時交往不實

      財經(jīng)要聞

      潮水退去,裸泳的一定不止五糧液

      汽車要聞

      后驅+閃充+激光雷達 第三代元PLUS上市售11.99萬元起

      態(tài)度原創(chuàng)

      房產
      游戲
      教育
      親子
      家居

      房產要聞

      順德澐璟樓王『澐冠』啟幕|一場高階共鳴的靜奢美學之約

      《房產達人2》櫻花DLC現(xiàn)已正式發(fā)售!

      教育要聞

      深化“五有”育人!湖北宜昌發(fā)布十六條工作指引

      親子要聞

      家長如何快速判斷孩子脊柱是否有異常 | 科普一下

      家居要聞

      風格碰撞 個性與藝術

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品久久久久婷婷五月| 性荡视频播放在线视频| 狠狠色丁香五月综合婷婷| 性一交一乱一伦一视频一二三区| 中国老太婆video| 688欧美人禽杂交狂配| 豆花福利导航| 夜夜爽无码一区二区三区| 午夜久久av| 国产AV无码专区亚洲AV漫画 | 在线色综合| 欧美国产精品一级二级三级| 无码国产乱人伦偷精品视频| 久久人人爽爽人人爽人人片av | 国产午夜精品一区二区三区不| 国产精品自偷一区在线观看| 中文字幕无码视频手机免费看| 国产无套护士精品毛片| 国产又色又刺激高潮视频| 真实国产老熟女无套中出| 99久久无色码中文字幕人妻| 久久亚洲国产精品一区| 在线观看免费人成视频色| 麻豆人妻无码性色av专区| 欧美深度肠交惨叫| 欧美A级大片视频免费看| 久久夜色精品国产嚕嚕亚洲av| 韩国AV在线| 国产开嫩苞实拍在线播放视频| 欧美激情区| 真人无码作爱免费视频| 国产v片在线播放| 国产亚洲蜜芽精品久久| 国产色精品久久人妻| 色综合五月伊人六月丁香| 亚洲av无码成人影院一区| 天天射天天更新天天日| 亚洲精品亚洲人成在线观看麻豆| 青青在线视频一区二区三区| 超碰123| 国产欧美精品|