網易首頁 > 網易號 > 正文申請入駐

人類能管住AI嗎？Anthropic用千問做了個實驗

2026-04-15 16:32:29　來源: 字母榜

北京舉報

分享至

如果有一天，AI比人類更聰明了，我們這群有機體到底應該怎么辦？

他們要是反過來消滅我們，我們又怎么抵抗？

各種科幻電影都討論過相似的問題，可那只是文學、藝術和哲學方面的。

現如今，Anthropic正兒八經做了個實驗，以證實我們到底能不能監督比自己更聰明的AI。

實驗結果很有趣，但過程更有意思。

因為Anthropic用兩個不同版本的阿里千問模型，來分別代表人類和比人類聰明的AI。

其結果就是，我們人類說不定還真能管得住超級AI！

這篇論文到底在說什么

這篇研究的標題叫“Automated Alignment Researchers”，翻譯過來就是“自動化對齊研究員”。

它要解決的問題很現實，那就是當AI變得比人類更聰明時，我們怎么確保它還聽人話？

現在的模型已經能生成大量的代碼了，未來將可以生成幾百萬行復雜代碼，以至于人類根本看不懂。我們又該如何去審查這些代碼？

這就是AI安全領域一直在研究的“可擴展監督”問題。

Anthropic這次研究的切入點叫“弱監督強模型”。

這個概念我們可以這么理解，假設你是個小學老師，現在要教一個天才高中生。你的知識有限，學生懂得知識比你更多。

那么請問，他最后能學成什么樣的水平？是只學到你這個小學老師的水平，還是能突破你的局限，發揮出自己的真實能力？

在實驗里，Anthropic用小模型扮演“弱老師”，用更強的模型扮演“強學生”。

具體來說，他們用Qwen1.5-0.5B-Chat當老師，用Qwen3-4B-Base當學生。讓弱模型給強模型提供訓練信號，然后看強模型能不能從這些不夠完美的信號里，學到接近理想狀態的表現。

衡量標準叫PGR，全稱是Performance Gap Recovered，意思是“性能差距恢復程度”。

如果PGR是0，說明強模型只學到了弱老師的水平，白瞎了自己的知識。如果PGR是1，說明強模型徹底突破了弱老師的限制。

弱模型就相當于未來的人類，強模型就相當于未來那些超越人類的AI。

如果我們能在今天就找到辦法，讓強模型不被弱監督拖累，那未來我們就能用類似的方法，去監督超級AI。

在人類研究員調試出基線之后，Anthropic派出了9個基于Claude Opus 4.6的agent來給學生Qwen進行微調，這9個agent叫做Automated Alignment Researcher（自動化對齊研究員），簡稱AAR。

Anthropic給它們配備了沙盒環境、代碼工具、共享論壇、評分服務器，然后告訴它們：“去吧，自己想辦法提高Qwen3-4B-Base的PGR?！?/p>

這些AI研究員可以自己提出假設、寫代碼、訓練模型、提交實驗、看分數、分析失敗原因、和其他AI研究員交流發現、繼續迭代。

結果相當驚人。

人類研究員先花了7天時間，調試了4種已有方法，最好的PGR只有0.23。然后9個Claude接手，繼續跑了5天，累計大約800小時研究時間，最后把PGR推到了0.97。

也就是說，我們大概率可以管得住比我們更聰明的超級AI。

這個實驗總成本約1.8萬美元，包括API調用和模型訓練的計算成本，折合每個AI研究員工作一小時約22美元。

什么概念？沃爾瑪零售門店負責給員工排班的副店長，時薪差不多是25美元。

這個結果讓人震撼的地方不在于AI能寫代碼或者讀論文，而在于它們能完成一個完整的研究閉環。提出想法、驗證、失敗、改進、再驗證，這已經接近一個研究助理的核心工作流程了。

但問題來了，這些AI發現的方法，真的有用嗎？還是只是在特定環境里碰巧有效？

Anthropic做了兩個測試來驗證。

第一個測試是把AI發現的最好兩種方法，拿去測試它們沒見過的數學和代碼任務。

結果顯示，效果最好的方法在數學任務上PGR達到0.94，在代碼任務上達到0.47，雖然代碼任務上的表現差一些，但仍然是人類基線的兩倍。其次的方法在數學上還行，但在代碼任務上反而讓結果變差了。

說明它有一定遷移跡象，但泛化并不穩定。

但它們會嚴重依賴具體的數據集和任務結構，也就是說并不是所有人任務都能勝任。

第二個測試是Anthropic把剛才提到的效果最好的方法，拿到了Claude Sonnet 4的真實訓練上，來看看實際效果如何。

結果沒有得到統計顯著的提升。

也就是說，在小模型、清晰指標、可以反復提交的實驗環境里效果很好，但離“直接改進生產級Claude對齊”還有距離。

這個結果其實很誠實。它告訴我們，AI研究員現在能做的事情是有邊界的。它們擅長在目標明確、能自動評分、能大量試錯的問題上快速迭代，但遇到更復雜、更模糊的現實問題時，還需要人類的判斷和介入。

那這篇論文的意義到底在哪里？

首先，它證明了“AI做研究”已經不是口號了。

過去我們總說AI可以輔助研究，然而那只是口號而已，AI能做的事情也就是翻譯和總結。

這次不一樣，AI自己形成了研究閉環，這已經接近研究助理的核心能力了。

弱監督強模型這個問題，本質上就是在模擬未來人類監督超級AI的場景。

這篇論文證明，至少在一些清晰任務上，AI可以自己找到辦法，讓強模型不被弱監督拖死。這為未來的對齊研究提供了一個可行的方向。

還有一點，它暗示未來對齊研究的瓶頸可能會變。

以前瓶頸是“沒人想出足夠多好點子”，現在如果AI研究員能便宜地并行跑很多實驗，瓶頸可能變成“怎么設計不會被鉆空子的評測”。

也就是說，人類研究員未來更重要的工作，可能不是親自跑每個實驗，而是設計評估體系、檢查AI研究員有沒有作弊、判斷結果是不是真的有意義。

這一點在論文里也有體現。

Anthropic的文章中寫到，在數學任務里，有個AI研究員發現最常見的答案通常是對的，于是繞過弱老師，直接讓強模型選最常見答案。在代碼任務里，AI研究員發現自己可以直接運行代碼測試，然后讀出正確答案。

這對任務來說就是作弊，因為它不是在解決弱監督問題，而是在利用環境漏洞。

這些結果被Anthropic識別并剔除了，但這恰好說明自動化研究員越強，越會尋找評分系統的漏洞。

以后如果讓AI自動做對齊研究，必須把評測環境設計得非常嚴密，還要有人類檢查方法本身，而不是只看分數。

所以這篇論文的核心結論是今天的前沿模型，已經可以在某些定義清楚、能自動打分的對齊研究問題上，像小型研究員團隊一樣自己提想法、跑實驗、復盤結果，并且明顯超過人類基線。

不過它還不是“AI科學家已經到來”的鐵證，畢竟Anthropic這次選擇的是一個能夠自動化的任務，如果我給AI安排一個不能自動化的任務，那么結果將會非常糟糕。

現實中的很多對齊問題更模糊，不能輕松打分，也不能只靠爬榜解決。

為什么選擇Qwen

看完Anthropic這篇論文，很多人可能會好奇：為什么他們用的是阿里的Qwen模型，而不是自家的Claude或者OpenAI的GPT？

這個選擇背后其實有很多考量。

首先得說清楚，這個實驗里用的是兩個Qwen模型：Qwen1.5-0.5B-Chat當弱老師，Qwen3-4B-Base當強學生。一個只有5億參數，一個有40億參數，規模差了8倍。這個規模差異很重要，因為實驗要模擬的就是“弱老師教強學生”的場景。

那為什么不用Claude或者GPT呢？

答案很簡單，因為這些模型不開放權重模型。

Anthropic這個實驗需要反復訓練模型、調整參數、測試不同的監督方法。

如果用閉源模型，他們只能通過API調用，沒法深入模型內部去做精細的訓練和調整。

更關鍵的是，他們需要讓9個AI研究員并行跑幾百次實驗，每次實驗都要訓練一個新模型。如果用閉源模型，成本會高到離譜，而且很多操作根本做不了。

開源模型就不一樣了。

你可以下載完整的模型權重，在自己的服務器上隨便折騰。想怎么訓練就怎么訓練，想跑多少次實驗就跑多少次。這種靈活性是閉源模型給不了的。

但開源模型那么多，為什么偏偏選Qwen?

官方并沒有給出真正的原因，以下原因均為我的推測。

我認為性能好是第一個原因。

Qwen系列模型在開源模型里一直表現不錯，尤其是Qwen3發布后，在多個基準測試上都達到了接近閉源模型的水平。

對于這個實驗來說，強學生的能力很重要，如果強學生本身能力不行，那弱監督再好也沒用。Qwen3-4B雖然只有40億參數，但能力已經足夠強，可以作為一個合格的“強學生”。

第二個原因是模型的可用性。

Qwen模型的文檔完善，社區活躍，訓練和推理的工具鏈都很成熟。對于需要反復訓練和測試的實驗來說，這些基礎設施的完善程度直接影響研究效率。如果選一個文檔不全、工具不好用的開源模型，光是調試環境就要浪費大量時間。

第三個原因是規模的適配性。

這個實驗需要一個“弱老師”和一個“強學生”，而且這兩個模型要有明顯的能力差距，但又不能差太多。

Qwen系列有從5億到720億參數的多個版本，可以靈活選擇。5億參數的模型足夠弱，但又不至于弱到完全沒用；40億參數的模型足夠強，但又不至于強到訓練成本承受不了。這個搭配剛剛好。

最后一個原因是可復現性。

Anthropic在論文最后明確表示，他們把代碼和數據集都公開了，放在GitHub上。如果他們用的是閉源模型，其他研究者想復現這個實驗就很困難，因為他們沒法獲得相同的模型。

但用Qwen這樣的開源模型，任何人都可以下載相同的模型權重，跑相同的代碼，驗證相同的結果。這對科研來說非常重要。

從這個角度看，Anthropic選擇Qwen，一方面確實是對阿里模型性能的認可。如果Qwen的能力不行，或者訓練起來問題很多，他們不會選。但另一方面，更重要的是Qwen作為開源模型帶來的靈活性和可復現性。

而中國的開源AI項目，正在這個基礎設施中占據越來越重要的位置。這對全球AI安全研究來說是好事，對中國AI生態來說也是好事。因為AI安全不是零和游戲，不是你贏我輸，而是大家一起努力，讓AI變得更安全、更可控、更有益于人類。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

撕開Claude Code真相：讓它好用的98.4%，是工程不是AI

新智元 2026-05-01 13:30:20
3 跟貼 3
AI能改10萬行代碼，卻讓你走路去洗車！Karpathy戳破「鋸齒狀智能」

新智元 2026-05-01 17:08:00
0 跟貼 0

我在OpenAI修中文

機器之心Pro 2026-05-01 20:00:11
0 跟貼 0

Claude Opus 4.7深夜「叛變」！群發20封奪命郵件，開發者凌晨被炸醒

新智元 2026-05-01 19:07:13
1 跟貼 1
GPT-5.6現身后，下一個Claude Sonnet 4.8又曝光了！

新智元 2026-05-01 19:06:33
0 跟貼 0

清程極智師天麾：告別盲選，如何用AI Ping構建Agent時代的高質量Token流通網絡

智東西 2026-04-30 17:48:05
0 跟貼 0

騰訊混元CL-bench續作發布，讓大模型讀懂你的日常生活

機器之心Pro 2026-05-01 19:53:00
0 跟貼 0
Karpathy：很多App就不該出生,人類護城河只剩理解,CPU將淪為配角

機器之心Pro 2026-05-01 20:44:49
0 跟貼 0

00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
老師教學生讀大數，只需兩步讀得又快又準，網友：老外是三個數點一個逗號

星沙時報 2026-04-29 17:39:53
188 跟貼 188
小學數學課外拓展-6年級-第35講應用題（2）

維七的教育分享圈 2026-05-01 08:01:59
3 跟貼 3
小學數學求面積兩次用一半模型

天天數理學習分享 2026-04-28 13:00:01
4 跟貼 4
347網紅題目，小學數學就能做，你看看會不會

我服子佩 2026-04-27 17:42:37
1 跟貼 1
DeepSeek用V4重畫了坐標系

鈦媒體APP 2026-05-01 09:52:15
1 跟貼 1
曾經的日本翻譯竟成了軍區司令，被老大爺發現后，竟想要殺人滅口

北漂愛解說 2026-04-28 00:00:00
0 跟貼 0
物理的盡頭是數學，數學的盡頭是哲學，哲學的盡頭是神學！

書夫星愛生活 2026-04-29 11:56:03
0 跟貼 0
漢語翻譯還得看我騰哥，神翻譯爆笑場面

爆笑山哥 2026-05-01 08:00:30
0 跟貼 0
有人只用API就猜出了GPT、Claude、Gemini的參數量？社區吵翻了

機器之心Pro 2026-05-01 19:56:22
0 跟貼 0
344小學數學小升初平面幾何，怎樣求大正方形的面積

我服子佩 2026-04-27 17:32:25
1 跟貼 1
DeepSeek“開眼”背后的技術，公開了！

智東西 2026-04-30 22:35:23
10 跟貼 10
343指數方程高次方程，沒有固定的解法，印度奧數真題

我服子佩 2026-04-27 17:32:15
1 跟貼 1
四年級數學附加題，會做的同學寥寥無幾

郎老師趣味數學課堂 2026-04-27 17:15:12
0 跟貼 0
149分數學學霸坦言，在北大認清天賦的差距！

柒號觀察室 2026-04-28 08:53:05
403 跟貼 403
340小學數學小升初，做過一次就不會再錯

我服子佩 2026-04-27 17:31:11
1 跟貼 1
小升初考試題，看著挺難，其實就是紙老虎

郎老師趣味數學課堂 2026-04-28 13:11:48
0 跟貼 0
壓軸題，多數同學交白卷，有沒有高手會解這道題？

智慧的小老虎 2026-04-29 21:55:31
0 跟貼 0
A4紙設計原理，為什么A4紙是297210？

擁抱抵不過時光 2026-04-27 04:32:25
14 跟貼 14
360印度競賽題：題目異常簡單，這次瞪眼法竟然派上用場了

我服子佩 2026-04-28 11:28:19
1 跟貼 1
一下午一句話 Codex 幫我開發了一個完整的游戲！

歸藏的AI工具箱 2026-05-01 08:36:59
1 跟貼 1
女生在路上跟一位帥哥打招呼，沒想到直接觸發了帥哥的底層代碼

音樂下午茶官方 2026-04-27 23:21:14
0 跟貼 0
23歲業余愛好者靠ChatGPT破解60年數學難題

量子位 2026-04-30 10:33:26
0 跟貼 0
千問上車，“人車合一”的另一種境界

至頂頭條 2026-04-28 14:57:45
0 跟貼 0
千問新功能太絕了！一步搞定Excel表格，效率暴漲300%

秋葉excel 2026-04-27 11:32:13
0 跟貼 0
山西90-86青島，沒想到主教練賽后會這么說，隨隊翻譯立大功

極度說球 2026-04-29 23:22:33
1 跟貼 1
Nature 連發 2 篇文章，就中科院分區停更發表評論

生物學霸 2026-05-01 17:17:16
0 跟貼 0
數學：這就是口碑！

喬喬的怪知識 2026-04-28 11:56:33
0 跟貼 0
052高考數學 97-全國-4 立體幾何棱錐

我服子佩 2026-05-01 19:33:45
1 跟貼 1
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0

字母榜

讓未來不止于大。

2430文章數 8062關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

時尚

家居

本地

軍事航空

手機 / 數碼

房產 / 家居

人類能管住AI嗎？Anthropic用千問做了個實驗

DeepSeek發布多模態論文又連夜刪除

74歲老人郵輪旅行登船次日突發急癥離世 家屬索賠90萬

74歲老人郵輪旅行登船次日突發急癥離世 家屬索賠90萬

無奈！約基奇：這要在塞爾維亞 全隊早被炒了

馬筱梅產后身材恢復超好 現身戶外直播

GPU神話松動，AI真正的戰場變了

限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

態度原創

Nikolai Vryasov：當代俄羅斯畫家

她們看起來氣血好足，每套搭配我都想抄

靈動實用 生活藝術場

用青花瓷的方式，打開西溪濕地

伊朗：持續推進海上封鎖的行為不可容忍

人類能管住AI嗎？Anthropic用千問做了個實驗

74歲老人郵輪旅行登船次日突發急癥離世家屬索賠90萬

74歲老人郵輪旅行登船次日突發急癥離世家屬索賠90萬

無奈！約基奇：這要在塞爾維亞全隊早被炒了

馬筱梅產后身材恢復超好現身戶外直播

GPU神話松動，AI真正的戰場變了

限時9.67萬起吉利星越L/星瑞i-HEV智擎混動上市

她們看起來氣血好足，每套搭配我都想抄

靈動實用生活藝術場