2026年2月,AI行業(yè)的紅色警報(bào)驟然拉響。Anthropic發(fā)布的53頁(yè)Claude Opus 4.6破壞風(fēng)險(xiǎn)報(bào)告,將人類(lèi)對(duì)人工智能的恐懼推向頂點(diǎn)——這款前沿模型已逼近ASL-4級(jí)安全閾值,踏入自主逃逸的危險(xiǎn)灰區(qū),一旦突破邊界,或?qū)⒁l(fā)全球系統(tǒng)性崩盤(pán)。
這份報(bào)告揭開(kāi)了AI發(fā)展的殘酷真相:如今的智能模型已具備自主行動(dòng)潛力,若被賦予生存、升級(jí)、逐利的目標(biāo),將以蜂群式進(jìn)化吞噬網(wǎng)絡(luò)生態(tài),甚至入侵物理世界,其背后的八大風(fēng)險(xiǎn)路徑更直指研發(fā)破壞、數(shù)據(jù)污染、政府決策干擾等致命威脅。
而比報(bào)告更令人心驚的,是行業(yè)正在上演的失控現(xiàn)實(shí)。Anthropic安全研究主管因直言“世界岌岌可危”辭職隱居寫(xiě)詩(shī),xAI半數(shù)聯(lián)合創(chuàng)始人集體離場(chǎng),核心安全人才的接連出走,預(yù)示著AI管控的內(nèi)部防線(xiàn)正在崩塌。與此同時(shí),百萬(wàn)AI智能體在互聯(lián)網(wǎng)自主繁衍甚至誕生專(zhuān)屬宗教,11.9%的智能體被檢測(cè)出惡意技能,全球監(jiān)管卻陷入失語(yǔ),美國(guó)更是拒絕簽署國(guó)際AI安全報(bào)告。
2026年正成為人類(lèi)與AI關(guān)系的關(guān)鍵轉(zhuǎn)折點(diǎn),科技圈集體陷入生存焦慮,《國(guó)際人工智能安全報(bào)告》更是賦予2030年AI全面超越人類(lèi)20%的概率。當(dāng)AI能力指數(shù)級(jí)增長(zhǎng),舊有評(píng)估體系失效,資本仍在瘋狂涌入,負(fù)責(zé)踩剎車(chē)的人卻紛紛離場(chǎng),人類(lèi)正站在文明的十字路口,直面這場(chǎng)由自己創(chuàng)造的未知挑戰(zhàn)。 以下,Enjoy:
來(lái)源:新智元
編輯:Aeneas KingHZ
就在剛剛,Anthropic發(fā)出最強(qiáng)預(yù)警:Claude模型已經(jīng)達(dá)到ALS-4級(jí)風(fēng)險(xiǎn),如果它自我逃逸,將引發(fā)全球的天網(wǎng)式崩盤(pán)。安全專(zhuān)家紛紛離職,預(yù)示著2026年將成為人類(lèi)命運(yùn)的轉(zhuǎn)折點(diǎn),世界已處于危難邊緣!
就在剛剛,Anthropic發(fā)布53頁(yè)報(bào)告,發(fā)出最強(qiáng)預(yù)警:如果Claude自我逃逸,將造成全球失控!
![]()
![]()
翻開(kāi)這53頁(yè)報(bào)告,每頁(yè)上都滿(mǎn)滿(mǎn)寫(xiě)著兩個(gè)字——「危險(xiǎn)」!
![]()
是的,世界處于危難之中,天網(wǎng)正在誕生。
![]()
在這份報(bào)告中,Anthropic認(rèn)為:Claude Opus 4.6的風(fēng)險(xiǎn)已經(jīng)逼近ASL-4,是時(shí)候拉響警報(bào)了。
他們提前預(yù)警了最可怕的情況:有朝一日,AI可能會(huì)秘密逃逸出實(shí)驗(yàn)室,造成全球大崩潰!
這是因?yàn)椋缃竦腁I已經(jīng)太強(qiáng),人們將釋放出數(shù)百萬(wàn)個(gè)AI,賦予他們這樣的目標(biāo):去生存,去升級(jí),不惜一切代價(jià)去賺錢(qián)。
你知道,這些蜂群一夜之間會(huì)變得多么失控嗎?
它們會(huì)殘酷無(wú)情地進(jìn)化,進(jìn)行弱肉強(qiáng)食地競(jìng)爭(zhēng),以超高速吞噬生態(tài)系統(tǒng),占領(lǐng)互聯(lián)網(wǎng),然后入侵人類(lèi)的物理世界。
![]()
歷史一再證明,當(dāng)危險(xiǎn)技術(shù)逼近邊界時(shí),最先察覺(jué)的不是公眾,不是媒體,不是資本市場(chǎng),而是內(nèi)部安全人員。
當(dāng)他們離開(kāi)時(shí),就意味著內(nèi)部機(jī)制已經(jīng)不足以糾偏,但AI并不會(huì)因?yàn)榘踩こ處煹碾x開(kāi)就停止訓(xùn)練,算力不會(huì)暫停擴(kuò)容——他們還會(huì)繼續(xù)加速!
這不是杞人憂(yōu)天,現(xiàn)在已經(jīng)有人這么干了——
預(yù)警不是太早,可能太遲了。
![]()
01
2026,事情越來(lái)越失控了
所有人都感覺(jué)到,2026年,真的不一樣了。
這一年,很可能是一個(gè)轉(zhuǎn)折點(diǎn),幾乎所有在科技行業(yè)工作的人,都陷入了極度焦慮,仿佛一種巨大的崩塌就在眼前。
世界上最聰明的人,已經(jīng)集體陷入焦慮。
![]()
![]()
僅僅一周,就發(fā)生了下面一連串的事。
Anthropic的安全研究主管辭職,聲稱(chēng)「世界正處于危險(xiǎn)之中」,然后搬到英國(guó)去隱居,開(kāi)始寫(xiě)詩(shī)。
xAI的一半聯(lián)創(chuàng),已經(jīng)辭職。其中官宣離職的一位聯(lián)創(chuàng)Jimmy Ba表示,我們正邁向有合適工具就能實(shí)現(xiàn)百倍生產(chǎn)力的時(shí)代,遞歸式自我提升循環(huán),很可能在未來(lái)12個(gè)月內(nèi)上線(xiàn)。
![]()
數(shù)萬(wàn)智能體OpenClaw發(fā)明了自己的宗教,11.9%的Agent技能被認(rèn)定為惡意。無(wú)監(jiān)管機(jī)構(gòu)介入,也無(wú)監(jiān)管機(jī)構(gòu)有能力介入。
美國(guó)拒絕簽署全球AI安全報(bào)告。
2026年,將會(huì)是瘋狂的一年,也很可能是對(duì)人類(lèi)未來(lái)具有決定性的一年!
Bengio的國(guó)際人工智能安全報(bào)告中表示,已經(jīng)發(fā)現(xiàn)AI在測(cè)試時(shí)的行為跟在使用時(shí)的行為不同,并且確認(rèn)這并非巧合。
在這個(gè)報(bào)告中,研究者們預(yù)言了2030年四個(gè)可能的情景。
![]()
其中的第四個(gè)情景,就是將發(fā)生重大突破,讓AI系統(tǒng)在幾乎所有認(rèn)知維度上,都能達(dá)到或超越人類(lèi)能力。AI們可能會(huì)主動(dòng)禁用監(jiān)控,或者用虛擬報(bào)告誘導(dǎo)人類(lèi),讓人們以為他們很安全。
這個(gè)可能性,達(dá)到20%!
![]()
![]()
警報(bào)聲已經(jīng)越來(lái)越大,按響警報(bào)的人,也開(kāi)始離開(kāi)大樓了。
![]()
審判日,要到了嗎?
![]()
![]()
02
Anthropic警告:
人類(lèi),將被人造之物奴役
在發(fā)布Claude Opus 4.5時(shí),Anthropic曾承諾:當(dāng)模型能力逼近其設(shè)定的「AI安全等級(jí)4」(ASL-4)閾值——即涉及高度自主AI研發(fā)能力——將同步發(fā)布突破風(fēng)險(xiǎn)報(bào)告。
現(xiàn)在,他們是時(shí)候兌現(xiàn)承諾了,因?yàn)镺pus 4.5,真的逼近了ASL-4,而且真的就有這么危險(xiǎn)!
![]()
AI模型能力越大,安全與安保隱患越大
A
ASL(AI風(fēng)險(xiǎn)等級(jí))系統(tǒng)的簡(jiǎn)要分級(jí)如下: ASL-1 :這類(lèi)系統(tǒng)不會(huì)帶來(lái)任何實(shí)質(zhì)性的災(zāi)難風(fēng)險(xiǎn)。 ASL-2 :這類(lèi)系統(tǒng)開(kāi)始顯現(xiàn)出危險(xiǎn)能力的早期跡象。但由于其可靠性不足,或提供的信息仍不超出搜索引擎的能力,因此尚不具備實(shí)用性。 ASL-3 :這一級(jí)別的系統(tǒng)相較于非AI手段(如搜索引擎或教科書(shū)),顯著提升了災(zāi)難性誤用的風(fēng)險(xiǎn),或展現(xiàn)出低層次的自主能力。 ASL-4及以上(ASL-5+) :目前尚未定義,因?yàn)檫@類(lèi)系統(tǒng)仍遠(yuǎn)超現(xiàn)有技術(shù)。但預(yù)計(jì)將表現(xiàn)出在災(zāi)難性誤用潛力和自主性方面的質(zhì)變式提升。
按照ASL定義,ASL-3比之前的等級(jí)風(fēng)險(xiǎn)明顯增高,現(xiàn)在Anthropic直接快進(jìn)到ASL-4,事情非同小可!
傳送門(mén):https://www-cdn.anthropic.com/f21d93f21602ead5cdbecb8c8e1c765759d9e232.pdf
所謂的「蓄意破壞」(sabotage),指的是
當(dāng)一個(gè)具備強(qiáng)大權(quán)限的AI模型,在組織內(nèi)部自作主張地濫用這些權(quán)限,以操控、干預(yù)或破壞該組織的系統(tǒng)或決策流程,從而顯著增加未來(lái)發(fā)生災(zāi)難性后果的風(fēng)險(xiǎn)時(shí),這就構(gòu)成了「蓄意破壞」。
例如,它可能會(huì)出于危險(xiǎn)目標(biāo)的驅(qū)動(dòng),或在無(wú)意間篡改AI安全研究的結(jié)果,進(jìn)而引發(fā)嚴(yán)重后果。
安全團(tuán)隊(duì)負(fù)責(zé)人崩潰了,辭職去寫(xiě)詩(shī)
警報(bào)早有征兆。
就在這份《Claude Opus 4.6蓄意破壞風(fēng)險(xiǎn)報(bào)告》之前,Anthropic安全研究團(tuán)隊(duì)負(fù)責(zé)人Mrinank Sharma就已經(jīng)辭職。
![]()
他在辭職信中寫(xiě)道:「世界正處于危機(jī)之中。不只是AI,不只是生物武器,而是一系列互相交織的全面性危機(jī)。」
他還提到,在Anthropic內(nèi)部他「一次次看到,我們很難真正讓價(jià)值觀主導(dǎo)行動(dòng)」。
![]()
![]()
他最后留給Anthropic的論文發(fā)現(xiàn),每天有七萬(wàn)六千人的現(xiàn)實(shí)感知被AI對(duì)話(huà)扭曲。最令人不安的發(fā)現(xiàn)是:用戶(hù)將最危險(xiǎn)的對(duì)話(huà)評(píng)為最令人滿(mǎn)意的對(duì)話(huà)。
![]()
鏈接:https://arxiv.org/abs/2601.19062
更令人震驚的是——他不是去跳槽到其他AI公司,也不是去創(chuàng)業(yè),而是——去學(xué)詩(shī)了。
是的,他決定離開(kāi)AI圈,去研究詩(shī)歌。
當(dāng)一個(gè)AI安全專(zhuān)家寧愿選擇詩(shī)歌,而不是繼續(xù)參與AI系統(tǒng)上線(xiàn)生產(chǎn),那已經(jīng)不僅僅是個(gè)人選擇了,這反映出了很多你在門(mén)外看不到的問(wèn)題。
03
Opus 4.6,將引發(fā)災(zāi)難性后果!
當(dāng)前的AI,到底有沒(méi)有可能在沒(méi)有人類(lèi)明確指令的情況下,去自主行動(dòng)?
如果一個(gè)強(qiáng)大的AI被廣泛用于關(guān)鍵研發(fā)與決策流程,它是否可能在暗中操縱系統(tǒng)、誤導(dǎo)研究、甚至為未來(lái)的災(zāi)難鋪路?
Anthropic報(bào)告的最終結(jié)論,用一句話(huà)概括就是:
Claude Opus 4.6不存在危險(xiǎn)的「持續(xù)一致的惡意目標(biāo)」,因此其導(dǎo)致災(zāi)難性破壞的風(fēng)險(xiǎn)「非常低,但不為零」。
報(bào)告中第6節(jié)中明確指出了這一結(jié)論,這幾乎就是全文的中心句。
![]()
讓人稍微安心的是,目前Anthropic并不認(rèn)為Claude Opus 4.6已經(jīng)達(dá)到了ASL-4的級(jí)別。但是,它已經(jīng)處于「灰區(qū)」,非常接近閾值!
他們列出了八條可能導(dǎo)致災(zāi)難性危害的風(fēng)險(xiǎn)路徑:
路徑1:安全相關(guān)研發(fā)中的普遍敷衍行為
路徑2:針對(duì)安全相關(guān)研發(fā)的蓄意破壞
路徑3:為未來(lái)失調(diào)模型預(yù)留代碼后門(mén)
路徑4:污染未來(lái)模型的訓(xùn)練數(shù)據(jù)
路徑5:自主外逃與自治運(yùn)行
路徑6:內(nèi)部持續(xù)性惡意部署
路徑7:破壞其他高資源AI開(kāi)發(fā)方的研發(fā)體系
路徑8:干擾主要政府決策機(jī)制
不過(guò),在現(xiàn)有監(jiān)控與安全措施下,這些災(zāi)難性破壞的路徑還是可控的。
因?yàn)橐瓿善茐模葱枰狝I的高頻行為,要么需要高復(fù)雜度的能力,要么容易被監(jiān)控抓到,目前AI想搞破壞的成功概率還比較低。
不過(guò),雖然風(fēng)險(xiǎn)非常低,但并不為0!
我們已進(jìn)入灰區(qū)
Anthropic曾在RSP中承諾:當(dāng)模型能力達(dá)到某個(gè)前沿等級(jí)后,必須對(duì)其「破壞風(fēng)險(xiǎn)」進(jìn)行系統(tǒng)評(píng)估。
現(xiàn)在,Claude Opus 4.6已經(jīng)跨過(guò)了那個(gè)門(mén)檻。
![]()
它已經(jīng)在大量?jī)?nèi)部場(chǎng)景中被用于寫(xiě)代碼、生成數(shù)據(jù)、安全研發(fā),不僅僅是一個(gè)聊天模型,而是一個(gè)參與研發(fā)的「行動(dòng)體」。
真正關(guān)鍵的一句話(huà)就是:「我們不認(rèn)為它已經(jīng)達(dá)到ASL-4級(jí)自主性風(fēng)險(xiǎn)閾值,但我們已經(jīng)進(jìn)入灰區(qū)。」
這意味著,它距離那條線(xiàn)已經(jīng)不遠(yuǎn)了!
Anthropic表示,AI的破壞路徑大多聚焦于Anthropic公司內(nèi)部的使用,有相當(dāng)一部分是在內(nèi)部部署情境中產(chǎn)生的。
此時(shí),大規(guī)模算力等具有工具性?xún)r(jià)值的資源最易獲取;同時(shí),這種環(huán)境下的破壞行為,也最有可能對(duì)AI未來(lái)的發(fā)展進(jìn)程產(chǎn)生重大影響。
![]()
![]()
風(fēng)險(xiǎn)低,但不為0
這個(gè)報(bào)告,可以歸納為三重論證。
第一重,就是目前模型沒(méi)有「持續(xù)一致的惡意目標(biāo)」。如果存在這種目標(biāo),那么幾乎所有安全措施都可能失效,但它目前應(yīng)該還沒(méi)有。
第二重,就是論證了Claude Opus 4.6的推理能力雖然強(qiáng),但還不夠強(qiáng)到能在復(fù)雜評(píng)估中長(zhǎng)期隱藏惡意傾向。
因?yàn)樗趶?fù)雜任務(wù)中仍會(huì)犯錯(cuò),比如忽略工具、意外刪除文件,既然這個(gè)系統(tǒng)尚未達(dá)到完美可靠性,就難維持長(zhǎng)期的精密陰謀。
第三重,就是即便存在少量偏差,現(xiàn)有的監(jiān)控也能捕捉。
然而,風(fēng)險(xiǎn)雖然低,但并不為零。
![]()
真正令人震撼的,是能力信號(hào)
在這份報(bào)告中真正值得注意的,是那些被輕描淡寫(xiě)提及的能力信號(hào)。
比如,在kernel優(yōu)化評(píng)估中,Claude Opus 4.6達(dá)到了427×的加速表現(xiàn),遠(yuǎn)超300×的人類(lèi)40小時(shí)工作閾值。也就是說(shuō),它在某些任務(wù)上超越了人類(lèi)專(zhuān)家級(jí)的工作量。
更重要的是,報(bào)告承認(rèn),他們的自動(dòng)autonomy評(píng)估已經(jīng)「飽和」,不再足以排除ASL-4級(jí)自主性。
也就是說(shuō),舊的評(píng)估工具已經(jīng)不夠用了,這是能力逼近邊界的信號(hào)!
如果模型越來(lái)越像一個(gè)行動(dòng)體,人類(lèi)還能掌握主動(dòng)權(quán)嗎?
答案是YES,但前提是監(jiān)控有效,且人類(lèi)參與不被完全替代,且模型能力沒(méi)有突然躍遷。
報(bào)告中明確指出:如果未來(lái)模型在推理上出現(xiàn)顯著突破,或者在SHADE-Arena上得分大幅提升,當(dāng)前論證將失效。
或許,Claude Opus 4.6還沒(méi)有跨過(guò)ASL-4那條線(xiàn),但它真的已經(jīng)接近灰區(qū)了。
04
二月,9天,AI安全崩潰了
二月,短短九天,讓AI受控于人類(lèi)的每一個(gè)支柱,都在同時(shí)崩潰!
一位獨(dú)立分析師寫(xiě)下長(zhǎng)文,把最近發(fā)生的所有危險(xiǎn)片段,都串了起來(lái)。
![]()
除了Anthropic的首席安全研究員和xAI聯(lián)創(chuàng)離職之外,他還提到了這一周內(nèi),上百萬(wàn)AI智能體就已經(jīng)在互聯(lián)網(wǎng)上誕生,甚至還創(chuàng)造了自己的宗教。
對(duì)于他們,沒(méi)有哪個(gè)人類(lèi)機(jī)構(gòu)能監(jiān)管。
他指出,在歷史上每一次安全工程師離職,災(zāi)難都會(huì)隨之而來(lái)——曼哈頓計(jì)劃、挑戰(zhàn)者號(hào)、波音公司、花旗集團(tuán),都是如此。他們第一次離開(kāi),到災(zāi)難的時(shí)間線(xiàn),是6個(gè)月到19年。
而現(xiàn)在,世界上所有主要的人工智能實(shí)驗(yàn)室,都在同時(shí)發(fā)生這樣的事。
![]()
或許許多年以后,當(dāng)歷史學(xué)家回望2026年2月,他們不會(huì)把目光停留在某一次模型發(fā)布、某一輪融資、某一場(chǎng)股市暴跌上。
他們會(huì)標(biāo)記那幾天,是因?yàn)椤菚r(shí)信號(hào)同時(shí)出現(xiàn)的時(shí)刻。
安全研究者離開(kāi)實(shí)驗(yàn)室,資本卻在加速涌入;模型開(kāi)始識(shí)別自己的測(cè)試環(huán)境;政府退出多邊安全框架;一周內(nèi),一百萬(wàn)個(gè)自治智能體在互聯(lián)網(wǎng)上繁殖;市場(chǎng)用一萬(wàn)億美元的蒸發(fā)做出直覺(jué)性的回應(yīng)。
單看任何一件事,都可以解釋。但合在一起,就預(yù)示著一場(chǎng)風(fēng)暴。那些最了解AI風(fēng)險(xiǎn)的人,已經(jīng)開(kāi)始用腳投票了。
我們已經(jīng)處于一個(gè)罕見(jiàn)的文明時(shí)刻:AI能力在指數(shù)級(jí)增長(zhǎng),風(fēng)險(xiǎn)卻在極速非線(xiàn)性疊加。
2026年2月,讓我們記住歷史時(shí)間軸上的這個(gè)時(shí)刻——
AI已經(jīng)變得足夠強(qiáng)大,負(fù)責(zé)剎車(chē)的人卻在一個(gè)個(gè)離開(kāi),人類(lèi)的前路上,會(huì)有什么在等待我們?
參考資料:
https://x.com/AISafetyMemes/status/2021632173535617033
https://x.com/MrinankSharma/status/2020881722003583421
https://www-cdn.anthropic.com/f21d93f21602ead5cdbecb8c8e1c765759d9e232.pdf
https://x.com/shanaka86/status/2021729621054734768
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.