網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

OpenAI等員工聯(lián)名呼吁：風(fēng)險(xiǎn)意見(jiàn)被商業(yè)增長(zhǎng)淹沒(méi)

2026-04-23 06:19:14　來(lái)源: 淺暮雪

四川舉報(bào)

分享至

最近，關(guān)于A(yíng)I公司安全團(tuán)隊(duì)離職、模型能力越來(lái)越危險(xiǎn)、公司卻還在拼命往外發(fā)模型的討論，越來(lái)越多。

很多人第一反應(yīng)是：AI是不是已經(jīng)徹底脫韁了？

我覺(jué)得，有一件事，確實(shí)越來(lái)越值得警惕：今天AI行業(yè)真正的矛盾，已經(jīng)不是“要不要做安全”，而是“安全團(tuán)隊(duì)還有多大權(quán)力，能讓商業(yè)化按下暫停鍵”。

這才是問(wèn)題的核心。

因?yàn)樵谝粋€(gè)以融資、估值、用戶(hù)增長(zhǎng)、API調(diào)用和產(chǎn)品節(jié)奏驅(qū)動(dòng)的行業(yè)里，安全團(tuán)隊(duì)天然站在一個(gè)很尷尬的位置。它的職責(zé)是什么？簡(jiǎn)單說(shuō)，就是兩件事：

第一，告訴公司這個(gè)模型哪里危險(xiǎn)。第二，在必要的時(shí)候，說(shuō)一句“別發(fā)，先等等”。

可問(wèn)題就在這里。如果一家公司最強(qiáng)的驅(qū)動(dòng)力是增長(zhǎng)、流量、收入和市場(chǎng)競(jìng)爭(zhēng)，那“先等等”這句話(huà)，天生就不討喜。當(dāng)安全結(jié)論和商業(yè)節(jié)奏沖突時(shí)，誰(shuí)說(shuō)了算？

之前最有標(biāo)志性的一件事，就是 OpenAI 超級(jí)對(duì)齊（Superalignment）團(tuán)隊(duì)核心人物的離開(kāi)。

它暴露了一個(gè)強(qiáng)大的事實(shí)：當(dāng)模型能力越來(lái)越接近通用用途，甚至開(kāi)始帶有更強(qiáng)風(fēng)險(xiǎn)時(shí)，安全團(tuán)隊(duì)和產(chǎn)品團(tuán)隊(duì)之間的張力，只會(huì)越來(lái)越大。

因?yàn)槟Ｐ驮綇?qiáng)，商業(yè)價(jià)值越高；而模型越強(qiáng)，安全團(tuán)隊(duì)越容易說(shuō)“這個(gè)先別放”。這兩股力量，天然是頂著走的。

很多人總覺(jué)得，AI安全是個(gè)很虛的東西，像一種道德姿態(tài)。但現(xiàn)在已經(jīng)不是這個(gè)階段了。

Anthropic今年公開(kāi)介紹了一個(gè)名為Project Glasswing的計(jì)劃，并僅向非常少量、經(jīng)過(guò)篩選的合作方提供了Claude Mythos Preview。Anthropic自己在官方說(shuō)明里寫(xiě)得非常直接：這個(gè)模型在網(wǎng)絡(luò)安全方向的能力，已經(jīng)足以發(fā)現(xiàn)和利用現(xiàn)實(shí)世界中的高危漏洞，因此不適合廣泛發(fā)布。

這件事的含義非常大。

也就是說(shuō)，AI今天已經(jīng)不只是一個(gè)提高效率的工具，它越來(lái)越像一個(gè)可以被不同目的的人拿去做更危險(xiǎn)事情的放大器。這時(shí)候，安全團(tuán)隊(duì)的工作就不再是“加幾條內(nèi)容審核規(guī)則”那么輕松。它面對(duì)的，是實(shí)打?qū)嵉娘L(fēng)險(xiǎn)升級(jí)。

這才是整件事最難的地方。如果模型越危險(xiǎn)，越?jīng)]商業(yè)價(jià)值，那事情反而簡(jiǎn)單。可現(xiàn)實(shí)恰恰相反：很多最有價(jià)值的模型能力，往往也是最有風(fēng)險(xiǎn)的能力。比如：

這就意味著，越值錢(qián)的模型能力，越可能接近風(fēng)險(xiǎn)邊界。而在這種情況下，安全團(tuán)隊(duì)天然會(huì)面臨一個(gè)很殘酷的現(xiàn)實(shí)：公司不是不知道有風(fēng)險(xiǎn)。公司只是會(huì)不斷問(wèn)一句話(huà)：風(fēng)險(xiǎn)是不是還在可控范圍內(nèi)？如果可控，是不是就該先發(fā)？

于是，“安全”這件事在很多公司內(nèi)部，慢慢就會(huì)從“有沒(méi)有風(fēng)險(xiǎn)”，變成“風(fēng)險(xiǎn)是否足夠大到值得犧牲發(fā)布節(jié)奏”。

這就是為什么，安全團(tuán)隊(duì)經(jīng)常不是被公開(kāi)否定，而是被邊緣化。表面上看，沒(méi)人說(shuō)安全不重要。但現(xiàn)實(shí)里，發(fā)布時(shí)間表永遠(yuǎn)比安全審查更剛性。

因?yàn)樗麄冋嬲龘?dān)心的，不只是模型能力本身，而是行業(yè)的激勵(lì)結(jié)構(gòu)。

去年，多位來(lái)自 OpenAI、Anthropic、Google DeepMind 等前沿實(shí)驗(yàn)室的現(xiàn)任或前任員工，聯(lián)名簽署了一封公開(kāi)信，呼吁為AI公司員工建立更強(qiáng)的 whistleblower 保護(hù)和提出風(fēng)險(xiǎn)意見(jiàn)的權(quán)利。他們擔(dān)心的是：在這個(gè)行業(yè)里，商業(yè)保密、資本壓力和對(duì)外競(jìng)爭(zhēng)，正在讓內(nèi)部提出安全問(wèn)題變得越來(lái)越難。

這其實(shí)已經(jīng)把問(wèn)題說(shuō)透了。

今天最危險(xiǎn)的，是安全研究在做，風(fēng)險(xiǎn)也知道，但公司內(nèi)部真正有動(dòng)力的，還是更快發(fā)布、更快增長(zhǎng)、更快占領(lǐng)市場(chǎng)。

而一旦行業(yè)進(jìn)入這種狀態(tài)，安全團(tuán)隊(duì)的離職，就不再只是個(gè)人選擇。它更像一個(gè)信號(hào)：有人開(kāi)始覺(jué)得，自己在公司內(nèi)部已經(jīng)很難真正踩住剎車(chē)了。

事實(shí)不是所有公司都徹底放棄安全。Anthropic對(duì) Mythos 的處理，本身就說(shuō)明，有公司還是愿意在某些能力上踩剎車(chē)。OpenAI、Google、Anthropic這些公司也都還保留著安全、政策、對(duì)齊、紅隊(duì)、評(píng)估等團(tuán)隊(duì)。所以問(wèn)題不是“剎車(chē)沒(méi)了”。

更準(zhǔn)確的說(shuō)法應(yīng)該是：剎車(chē)還在，但車(chē)跑得越來(lái)越快，而踩剎車(chē)的人，越來(lái)越不確定自己還有多大權(quán)力。這個(gè)區(qū)別很重要。

因?yàn)檫@意味著，今天AI行業(yè)最危險(xiǎn)的，不是某一家公司突然作惡，而是整個(gè)行業(yè)正在形成一種共識(shí)：誰(shuí)慢，誰(shuí)就可能輸。而在這種共識(shí)下，安全團(tuán)隊(duì)天然處于弱勢(shì)。

你今天覺(jué)得AI很好用，是因?yàn)槟憧吹降氖撬鼛湍闾嵝А湍銓?xiě)東西、幫你搜信息、幫你生成內(nèi)容。但同一套能力，放到別人手里，可能就變成：

模型能力在加速，而人類(lèi)治理、監(jiān)管、評(píng)估、共識(shí)，跟不跟得上。如果跟不上，那普通人最先感受到的，未必是科幻災(zāi)難，而可能是更頻繁的網(wǎng)絡(luò)攻擊、更難辨別的欺騙、更被動(dòng)的數(shù)據(jù)暴露、更難察覺(jué)的風(fēng)險(xiǎn)外溢。

所以，今天AI行業(yè)最值得警惕的是，當(dāng)安全團(tuán)隊(duì)說(shuō)“先等等”的時(shí)候，誰(shuí)還愿意真的等？

這兩件事放在一起，其實(shí)已經(jīng)足夠說(shuō)明問(wèn)題：AI行業(yè)今天真正的危險(xiǎn)，不是沒(méi)人知道風(fēng)險(xiǎn)，而是大家都知道風(fēng)險(xiǎn)，但沒(méi)有人愿意比對(duì)手先踩剎車(chē)。

而一旦走到這一步，安全團(tuán)隊(duì)的離職，就不再只是內(nèi)部人事新聞。它更像是一種預(yù)警：車(chē)已經(jīng)越來(lái)越快了，但真正能踩住剎車(chē)的人，可能正在越來(lái)越少。

聲明：個(gè)人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.