<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      人類能管住AI嗎?Anthropic用千問做了個實驗

      0
      分享至



      如果有一天,AI比人類更聰明了,我們這群有機體到底應該怎么辦?

      他們要是反過來消滅我們,我們又怎么抵抗?

      各種科幻電影都討論過相似的問題,可那只是文學、藝術和哲學方面的。

      現如今,Anthropic正兒八經做了個實驗,以證實我們到底能不能監督比自己更聰明的AI。

      實驗結果很有趣,但過程更有意思。

      因為Anthropic用兩個不同版本的阿里千問模型,來分別代表人類和比人類聰明的AI。

      其結果就是,我們人類說不定還真能管得住超級AI!

      01

      這篇論文到底在說什么

      這篇研究的標題叫“Automated Alignment Researchers”,翻譯過來就是“自動化對齊研究員”。

      它要解決的問題很現實,那就是當AI變得比人類更聰明時,我們怎么確保它還聽人話?

      現在的模型已經能生成大量的代碼了,未來將可以生成幾百萬行復雜代碼,以至于人類根本看不懂。我們又該如何去審查這些代碼?

      這就是AI安全領域一直在研究的“可擴展監督”問題。

      Anthropic這次研究的切入點叫“弱監督強模型”。

      這個概念我們可以這么理解,假設你是個小學老師,現在要教一個天才高中生。你的知識有限,學生懂得知識比你更多。

      那么請問,他最后能學成什么樣的水平?是只學到你這個小學老師的水平,還是能突破你的局限,發揮出自己的真實能力?

      在實驗里,Anthropic用小模型扮演“弱老師”,用更強的模型扮演“強學生”。

      具體來說,他們用Qwen1.5-0.5B-Chat當老師,用Qwen3-4B-Base當學生。讓弱模型給強模型提供訓練信號,然后看強模型能不能從這些不夠完美的信號里,學到接近理想狀態的表現。

      衡量標準叫PGR,全稱是Performance Gap Recovered,意思是“性能差距恢復程度”。

      如果PGR是0,說明強模型只學到了弱老師的水平,白瞎了自己的知識。如果PGR是1,說明強模型徹底突破了弱老師的限制。

      弱模型就相當于未來的人類,強模型就相當于未來那些超越人類的AI。

      如果我們能在今天就找到辦法,讓強模型不被弱監督拖累,那未來我們就能用類似的方法,去監督超級AI。

      在人類研究員調試出基線之后,Anthropic派出了9個基于Claude Opus 4.6的agent來給學生Qwen進行微調,這9個agent叫做Automated Alignment Researcher(自動化對齊研究員),簡稱AAR。

      Anthropic給它們配備了沙盒環境、代碼工具、共享論壇、評分服務器,然后告訴它們:“去吧,自己想辦法提高Qwen3-4B-Base的PGR?!?/p>

      這些AI研究員可以自己提出假設、寫代碼、訓練模型、提交實驗、看分數、分析失敗原因、和其他AI研究員交流發現、繼續迭代。

      結果相當驚人。

      人類研究員先花了7天時間,調試了4種已有方法,最好的PGR只有0.23。然后9個Claude接手,繼續跑了5天,累計大約800小時研究時間,最后把PGR推到了0.97。



      也就是說,我們大概率可以管得住比我們更聰明的超級AI。

      這個實驗總成本約1.8萬美元,包括API調用和模型訓練的計算成本,折合每個AI研究員工作一小時約22美元。

      什么概念?沃爾瑪零售門店負責給員工排班的副店長,時薪差不多是25美元。

      這個結果讓人震撼的地方不在于AI能寫代碼或者讀論文,而在于它們能完成一個完整的研究閉環。提出想法、驗證、失敗、改進、再驗證,這已經接近一個研究助理的核心工作流程了。

      但問題來了,這些AI發現的方法,真的有用嗎?還是只是在特定環境里碰巧有效?

      Anthropic做了兩個測試來驗證。

      第一個測試是把AI發現的最好兩種方法,拿去測試它們沒見過的數學和代碼任務。

      結果顯示,效果最好的方法在數學任務上PGR達到0.94,在代碼任務上達到0.47,雖然代碼任務上的表現差一些,但仍然是人類基線的兩倍。其次的方法在數學上還行,但在代碼任務上反而讓結果變差了。

      說明它有一定遷移跡象,但泛化并不穩定。

      但它們會嚴重依賴具體的數據集和任務結構,也就是說并不是所有人任務都能勝任。

      第二個測試是Anthropic把剛才提到的效果最好的方法,拿到了Claude Sonnet 4的真實訓練上,來看看實際效果如何。

      結果沒有得到統計顯著的提升。

      也就是說,在小模型、清晰指標、可以反復提交的實驗環境里效果很好,但離“直接改進生產級Claude對齊”還有距離。

      這個結果其實很誠實。它告訴我們,AI研究員現在能做的事情是有邊界的。它們擅長在目標明確、能自動評分、能大量試錯的問題上快速迭代,但遇到更復雜、更模糊的現實問題時,還需要人類的判斷和介入。

      那這篇論文的意義到底在哪里?

      首先,它證明了“AI做研究”已經不是口號了。

      過去我們總說AI可以輔助研究,然而那只是口號而已,AI能做的事情也就是翻譯和總結。

      這次不一樣,AI自己形成了研究閉環,這已經接近研究助理的核心能力了。

      弱監督強模型這個問題,本質上就是在模擬未來人類監督超級AI的場景。

      這篇論文證明,至少在一些清晰任務上,AI可以自己找到辦法,讓強模型不被弱監督拖死。這為未來的對齊研究提供了一個可行的方向。

      還有一點,它暗示未來對齊研究的瓶頸可能會變。

      以前瓶頸是“沒人想出足夠多好點子”,現在如果AI研究員能便宜地并行跑很多實驗,瓶頸可能變成“怎么設計不會被鉆空子的評測”。

      也就是說,人類研究員未來更重要的工作,可能不是親自跑每個實驗,而是設計評估體系、檢查AI研究員有沒有作弊、判斷結果是不是真的有意義。

      這一點在論文里也有體現。

      Anthropic的文章中寫到,在數學任務里,有個AI研究員發現最常見的答案通常是對的,于是繞過弱老師,直接讓強模型選最常見答案。在代碼任務里,AI研究員發現自己可以直接運行代碼測試,然后讀出正確答案。

      這對任務來說就是作弊,因為它不是在解決弱監督問題,而是在利用環境漏洞。

      這些結果被Anthropic識別并剔除了,但這恰好說明自動化研究員越強,越會尋找評分系統的漏洞。

      以后如果讓AI自動做對齊研究,必須把評測環境設計得非常嚴密,還要有人類檢查方法本身,而不是只看分數。

      所以這篇論文的核心結論是今天的前沿模型,已經可以在某些定義清楚、能自動打分的對齊研究問題上,像小型研究員團隊一樣自己提想法、跑實驗、復盤結果,并且明顯超過人類基線。

      不過它還不是“AI科學家已經到來”的鐵證,畢竟Anthropic這次選擇的是一個能夠自動化的任務,如果我給AI安排一個不能自動化的任務,那么結果將會非常糟糕。

      現實中的很多對齊問題更模糊,不能輕松打分,也不能只靠爬榜解決。

      02

      為什么選擇Qwen

      看完Anthropic這篇論文,很多人可能會好奇:為什么他們用的是阿里的Qwen模型,而不是自家的Claude或者OpenAI的GPT?

      這個選擇背后其實有很多考量。

      首先得說清楚,這個實驗里用的是兩個Qwen模型:Qwen1.5-0.5B-Chat當弱老師,Qwen3-4B-Base當強學生。一個只有5億參數,一個有40億參數,規模差了8倍。這個規模差異很重要,因為實驗要模擬的就是“弱老師教強學生”的場景。



      那為什么不用Claude或者GPT呢?

      答案很簡單,因為這些模型不開放權重模型。

      Anthropic這個實驗需要反復訓練模型、調整參數、測試不同的監督方法。

      如果用閉源模型,他們只能通過API調用,沒法深入模型內部去做精細的訓練和調整。

      更關鍵的是,他們需要讓9個AI研究員并行跑幾百次實驗,每次實驗都要訓練一個新模型。如果用閉源模型,成本會高到離譜,而且很多操作根本做不了。

      開源模型就不一樣了。

      你可以下載完整的模型權重,在自己的服務器上隨便折騰。想怎么訓練就怎么訓練,想跑多少次實驗就跑多少次。這種靈活性是閉源模型給不了的。

      但開源模型那么多,為什么偏偏選Qwen?

      官方并沒有給出真正的原因,以下原因均為我的推測。

      我認為性能好是第一個原因。

      Qwen系列模型在開源模型里一直表現不錯,尤其是Qwen3發布后,在多個基準測試上都達到了接近閉源模型的水平。

      對于這個實驗來說,強學生的能力很重要,如果強學生本身能力不行,那弱監督再好也沒用。Qwen3-4B雖然只有40億參數,但能力已經足夠強,可以作為一個合格的“強學生”。

      第二個原因是模型的可用性。

      Qwen模型的文檔完善,社區活躍,訓練和推理的工具鏈都很成熟。對于需要反復訓練和測試的實驗來說,這些基礎設施的完善程度直接影響研究效率。如果選一個文檔不全、工具不好用的開源模型,光是調試環境就要浪費大量時間。

      第三個原因是規模的適配性。

      這個實驗需要一個“弱老師”和一個“強學生”,而且這兩個模型要有明顯的能力差距,但又不能差太多。

      Qwen系列有從5億到720億參數的多個版本,可以靈活選擇。5億參數的模型足夠弱,但又不至于弱到完全沒用;40億參數的模型足夠強,但又不至于強到訓練成本承受不了。這個搭配剛剛好。

      最后一個原因是可復現性。

      Anthropic在論文最后明確表示,他們把代碼和數據集都公開了,放在GitHub上。如果他們用的是閉源模型,其他研究者想復現這個實驗就很困難,因為他們沒法獲得相同的模型。

      但用Qwen這樣的開源模型,任何人都可以下載相同的模型權重,跑相同的代碼,驗證相同的結果。這對科研來說非常重要。

      從這個角度看,Anthropic選擇Qwen,一方面確實是對阿里模型性能的認可。如果Qwen的能力不行,或者訓練起來問題很多,他們不會選。但另一方面,更重要的是Qwen作為開源模型帶來的靈活性和可復現性。

      而中國的開源AI項目,正在這個基礎設施中占據越來越重要的位置。這對全球AI安全研究來說是好事,對中國AI生態來說也是好事。因為AI安全不是零和游戲,不是你贏我輸,而是大家一起努力,讓AI變得更安全、更可控、更有益于人類。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      眼中有光,誰看了不迷糊?

      眼中有光,誰看了不迷糊?

      貴圈真亂
      2026-05-01 13:49:56
      為了得到大哥的妻子旺達,伊卡爾迪究極付出了多大的代價?

      為了得到大哥的妻子旺達,伊卡爾迪究極付出了多大的代價?

      羅氏八卦
      2026-05-01 18:05:03
      申京噴詹姆斯軟蛋哨,詹姆斯回懟:火箭全隊就你沒資格說這話

      申京噴詹姆斯軟蛋哨,詹姆斯回懟:火箭全隊就你沒資格說這話

      懂球帝
      2026-05-01 17:04:15
      A50,直線拉升!中國資產,集體爆發

      A50,直線拉升!中國資產,集體爆發

      證券時報
      2026-05-01 10:52:07
      62339人,大連英博主場上座人數再創新高,位列中超歷史第3

      62339人,大連英博主場上座人數再創新高,位列中超歷史第3

      懂球帝
      2026-05-01 20:49:19
      為華晨宇演唱會買的房,賣不出去了

      為華晨宇演唱會買的房,賣不出去了

      南風窗
      2026-05-01 20:02:27
      爺爺過世請假奔喪被公司開除,法院判了

      爺爺過世請假奔喪被公司開除,法院判了

      極目新聞
      2026-05-01 17:05:11
      “9點出發11點還沒出上海”!假期首日現離滬+來滬雙高峰!上海人熱門“白相”好去處太鬧猛

      “9點出發11點還沒出上?!?!假期首日現離滬+來滬雙高峰!上海人熱門“白相”好去處太鬧猛

      新民晚報
      2026-05-01 20:18:37
      合同到期!CBA超級外援恐遭多支球隊哄搶,本賽季場均狂砍27+5+5

      合同到期!CBA超級外援恐遭多支球隊哄搶,本賽季場均狂砍27+5+5

      老葉評球
      2026-05-01 17:33:03
      北影30年后再聚首:陳坤老了,黃曉明精致了,意想不到的人也來了

      北影30年后再聚首:陳坤老了,黃曉明精致了,意想不到的人也來了

      往史過眼云煙
      2026-04-30 19:28:05
      擔心的事發生了,俄方提議遭特朗普拒絕,兩國總統早已留好退路?

      擔心的事發生了,俄方提議遭特朗普拒絕,兩國總統早已留好退路?

      近史博覽
      2026-05-01 13:47:03
      站臺抽煙鐵路員工向沈女士道歉,女子全網社死不敢發聲,官方回應

      站臺抽煙鐵路員工向沈女士道歉,女子全網社死不敢發聲,官方回應

      小鋭有話說
      2026-04-30 20:53:37
      太諷刺!2026勞模名單爭議大,被疑有“許家印”,評論區不留情面

      太諷刺!2026勞模名單爭議大,被疑有“許家印”,評論區不留情面

      譚談社會
      2026-05-01 14:42:03
      爆冷淘汰掘金!森林狼主帥賽后扎心懟掘金:是你們挑的我們

      爆冷淘汰掘金!森林狼主帥賽后扎心懟掘金:是你們挑的我們

      仰臥撐FTUer
      2026-05-01 14:26:14
      突發:以色列發動襲擊

      突發:以色列發動襲擊

      農民日報
      2026-05-01 18:52:20
      超級世界波!費利佩倒鉤破門,射手榜追平拉唐,鎖定賽季十佳進球

      超級世界波!費利佩倒鉤破門,射手榜追平拉唐,鎖定賽季十佳進球

      奧拜爾
      2026-05-01 20:56:34
      陳芋汐/盧為奪得跳水世界杯總決賽女子雙人10米臺冠軍

      陳芋汐/盧為奪得跳水世界杯總決賽女子雙人10米臺冠軍

      新浪財經
      2026-05-01 15:54:23
      重重抽范明耳光,用羞恥姿勢抓撒貝寧丟水里…孫楊口碑驟跌!

      重重抽范明耳光,用羞恥姿勢抓撒貝寧丟水里…孫楊口碑驟跌!

      魔都囡
      2026-05-01 08:29:48
      又是逆轉的節奏!希金斯連贏2局,第2階段不敗,擊敗墨菲將創紀錄

      又是逆轉的節奏!希金斯連贏2局,第2階段不敗,擊敗墨菲將創紀錄

      劉姚堯的文字城堡
      2026-05-01 19:26:57
      根據53年前頒布的這項法案,今天以后特朗普還能繼續打伊朗嗎?

      根據53年前頒布的這項法案,今天以后特朗普還能繼續打伊朗嗎?

      齊魯壹點
      2026-05-01 08:27:13
      2026-05-01 21:39:00
      字母榜 incentive-icons
      字母榜
      讓未來不止于大。
      2430文章數 8062關注度
      往期回顧 全部

      科技要聞

      DeepSeek發布多模態論文又連夜刪除

      頭條要聞

      74歲老人郵輪旅行登船次日突發急癥離世 家屬索賠90萬

      頭條要聞

      74歲老人郵輪旅行登船次日突發急癥離世 家屬索賠90萬

      體育要聞

      無奈!約基奇:這要在塞爾維亞 全隊早被炒了

      娛樂要聞

      馬筱梅產后身材恢復超好 現身戶外直播

      財經要聞

      GPU神話松動,AI真正的戰場變了

      汽車要聞

      限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

      態度原創

      藝術
      時尚
      家居
      本地
      軍事航空

      藝術要聞

      Nikolai Vryasov:當代俄羅斯畫家

      她們看起來氣血好足,每套搭配我都想抄

      家居要聞

      靈動實用 生活藝術場

      本地新聞

      用青花瓷的方式,打開西溪濕地

      軍事要聞

      伊朗:持續推進海上封鎖的行為不可容忍

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲国产一区二区三区亚瑟| 成人精品一区二区三区电影免费 | 亚洲精品岛国片在线观看| 国产精品任我爽爆在线播放| 都市激情 在线 亚洲 国产| 亚洲天堂亚洲天堂亚洲色图| 亚日韩av| 国产精品天天看天天狠| 日韩爱爱视频| 久久精品人妻中文视频| 51久久成人国产精品麻豆| 国产色无码专区在线观看| 亚洲天堂激情av在线| 久久精品国产亚洲αv忘忧草 | 天天日天天骚| 狠狠色噜噜狠狠狠777米奇| 久久综合免费一区二区三区| 四虎影视88aa久久人妻| 欧洲熟妇色自偷自拍另类| 老司机亚洲精品影院| 91人妻无码成人精品一区91| 日本久久香蕉一本一道| 粗大挺进朋友人妻淑娟| 色偷偷色噜噜狠狠网站久久| 国产精品久久久久久久伊一| 雯雯在工地被灌满精在线视频播放| 麻豆乱码国产一区二区三区| 日日夜夜天天综合| 亚洲欧美日韩一级特黄在线| 高清欧美精品一区二区三区| 中文无码vr最新无码av专区| 国产免费午夜福利在线播放 | 强奷乱码中文字幕熟女一| 97久久久久人妻精品专区| 中文字幕人妻色偷偷久久| 亚洲欧美一区二区三区在线| 99久久综合九九亚洲| 亚洲日韩在线中文字幕综合| 亚洲无码免费在线观看| 国产真人性做爰久久网站| 人妻三级AV|