最近,關(guān)于A(yíng)I公司安全團(tuán)隊(duì)離職、模型能力越來(lái)越危險(xiǎn)、公司卻還在拼命往外發(fā)模型的討論,越來(lái)越多。
![]()
很多人第一反應(yīng)是:AI是不是已經(jīng)徹底脫韁了?
我覺(jué)得,有一件事,確實(shí)越來(lái)越值得警惕:今天AI行業(yè)真正的矛盾,已經(jīng)不是“要不要做安全”,而是“安全團(tuán)隊(duì)還有多大權(quán)力,能讓商業(yè)化按下暫停鍵”。
這才是問(wèn)題的核心。
![]()
因?yàn)樵谝粋€(gè)以融資、估值、用戶(hù)增長(zhǎng)、API調(diào)用和產(chǎn)品節(jié)奏驅(qū)動(dòng)的行業(yè)里,安全團(tuán)隊(duì)天然站在一個(gè)很尷尬的位置。它的職責(zé)是什么?簡(jiǎn)單說(shuō),就是兩件事:
第一,告訴公司這個(gè)模型哪里危險(xiǎn)。第二,在必要的時(shí)候,說(shuō)一句“別發(fā),先等等”。
可問(wèn)題就在這里。如果一家公司最強(qiáng)的驅(qū)動(dòng)力是增長(zhǎng)、流量、收入和市場(chǎng)競(jìng)爭(zhēng),那“先等等”這句話(huà),天生就不討喜。當(dāng)安全結(jié)論和商業(yè)節(jié)奏沖突時(shí),誰(shuí)說(shuō)了算?
之前最有標(biāo)志性的一件事,就是 OpenAI 超級(jí)對(duì)齊(Superalignment)團(tuán)隊(duì)核心人物的離開(kāi)。
它暴露了一個(gè)強(qiáng)大的事實(shí):當(dāng)模型能力越來(lái)越接近通用用途,甚至開(kāi)始帶有更強(qiáng)風(fēng)險(xiǎn)時(shí),安全團(tuán)隊(duì)和產(chǎn)品團(tuán)隊(duì)之間的張力,只會(huì)越來(lái)越大。
![]()
因?yàn)槟P驮綇?qiáng),商業(yè)價(jià)值越高;而模型越強(qiáng),安全團(tuán)隊(duì)越容易說(shuō)“這個(gè)先別放”。這兩股力量,天然是頂著走的。
很多人總覺(jué)得,AI安全是個(gè)很虛的東西,像一種道德姿態(tài)。但現(xiàn)在已經(jīng)不是這個(gè)階段了。
Anthropic今年公開(kāi)介紹了一個(gè)名為Project Glasswing的計(jì)劃,并僅向非常少量、經(jīng)過(guò)篩選的合作方提供了Claude Mythos Preview。Anthropic自己在官方說(shuō)明里寫(xiě)得非常直接:這個(gè)模型在網(wǎng)絡(luò)安全方向的能力,已經(jīng)足以發(fā)現(xiàn)和利用現(xiàn)實(shí)世界中的高危漏洞,因此不適合廣泛發(fā)布。
這件事的含義非常大。
也就是說(shuō),AI今天已經(jīng)不只是一個(gè)提高效率的工具,它越來(lái)越像一個(gè)可以被不同目的的人拿去做更危險(xiǎn)事情的放大器。這時(shí)候,安全團(tuán)隊(duì)的工作就不再是“加幾條內(nèi)容審核規(guī)則”那么輕松。它面對(duì)的,是實(shí)打?qū)嵉娘L(fēng)險(xiǎn)升級(jí)。
這才是整件事最難的地方。如果模型越危險(xiǎn),越?jīng)]商業(yè)價(jià)值,那事情反而簡(jiǎn)單。可現(xiàn)實(shí)恰恰相反:很多最有價(jià)值的模型能力,往往也是最有風(fēng)險(xiǎn)的能力。比如:
這就意味著,越值錢(qián)的模型能力,越可能接近風(fēng)險(xiǎn)邊界。而在這種情況下,安全團(tuán)隊(duì)天然會(huì)面臨一個(gè)很殘酷的現(xiàn)實(shí):公司不是不知道有風(fēng)險(xiǎn)。公司只是會(huì)不斷問(wèn)一句話(huà):風(fēng)險(xiǎn)是不是還在可控范圍內(nèi)?如果可控,是不是就該先發(fā)?
于是,“安全”這件事在很多公司內(nèi)部,慢慢就會(huì)從“有沒(méi)有風(fēng)險(xiǎn)”,變成“風(fēng)險(xiǎn)是否足夠大到值得犧牲發(fā)布節(jié)奏”。
這就是為什么,安全團(tuán)隊(duì)經(jīng)常不是被公開(kāi)否定,而是被邊緣化。表面上看,沒(méi)人說(shuō)安全不重要。但現(xiàn)實(shí)里,發(fā)布時(shí)間表永遠(yuǎn)比安全審查更剛性。
因?yàn)樗麄冋嬲龘?dān)心的,不只是模型能力本身,而是行業(yè)的激勵(lì)結(jié)構(gòu)。
去年,多位來(lái)自 OpenAI、Anthropic、Google DeepMind 等前沿實(shí)驗(yàn)室的現(xiàn)任或前任員工,聯(lián)名簽署了一封公開(kāi)信,呼吁為AI公司員工建立更強(qiáng)的 whistleblower 保護(hù)和提出風(fēng)險(xiǎn)意見(jiàn)的權(quán)利。他們擔(dān)心的是:在這個(gè)行業(yè)里,商業(yè)保密、資本壓力和對(duì)外競(jìng)爭(zhēng),正在讓內(nèi)部提出安全問(wèn)題變得越來(lái)越難。
這其實(shí)已經(jīng)把問(wèn)題說(shuō)透了。
今天最危險(xiǎn)的,是安全研究在做,風(fēng)險(xiǎn)也知道,但公司內(nèi)部真正有動(dòng)力的,還是更快發(fā)布、更快增長(zhǎng)、更快占領(lǐng)市場(chǎng)。
而一旦行業(yè)進(jìn)入這種狀態(tài),安全團(tuán)隊(duì)的離職,就不再只是個(gè)人選擇。它更像一個(gè)信號(hào):有人開(kāi)始覺(jué)得,自己在公司內(nèi)部已經(jīng)很難真正踩住剎車(chē)了。
![]()
事實(shí)不是所有公司都徹底放棄安全。Anthropic對(duì) Mythos 的處理,本身就說(shuō)明,有公司還是愿意在某些能力上踩剎車(chē)。OpenAI、Google、Anthropic這些公司也都還保留著安全、政策、對(duì)齊、紅隊(duì)、評(píng)估等團(tuán)隊(duì)。所以問(wèn)題不是“剎車(chē)沒(méi)了”。
更準(zhǔn)確的說(shuō)法應(yīng)該是:剎車(chē)還在,但車(chē)跑得越來(lái)越快,而踩剎車(chē)的人,越來(lái)越不確定自己還有多大權(quán)力。這個(gè)區(qū)別很重要。
因?yàn)檫@意味著,今天AI行業(yè)最危險(xiǎn)的,不是某一家公司突然作惡,而是整個(gè)行業(yè)正在形成一種共識(shí):誰(shuí)慢,誰(shuí)就可能輸。而在這種共識(shí)下,安全團(tuán)隊(duì)天然處于弱勢(shì)。
你今天覺(jué)得AI很好用,是因?yàn)槟憧吹降氖撬鼛湍闾嵝А湍銓?xiě)東西、幫你搜信息、幫你生成內(nèi)容。但同一套能力,放到別人手里,可能就變成:
模型能力在加速,而人類(lèi)治理、監(jiān)管、評(píng)估、共識(shí),跟不跟得上。如果跟不上,那普通人最先感受到的,未必是科幻災(zāi)難,而可能是更頻繁的網(wǎng)絡(luò)攻擊、更難辨別的欺騙、更被動(dòng)的數(shù)據(jù)暴露、更難察覺(jué)的風(fēng)險(xiǎn)外溢。
![]()
所以,今天AI行業(yè)最值得警惕的是,當(dāng)安全團(tuán)隊(duì)說(shuō)“先等等”的時(shí)候,誰(shuí)還愿意真的等?
這兩件事放在一起,其實(shí)已經(jīng)足夠說(shuō)明問(wèn)題:AI行業(yè)今天真正的危險(xiǎn),不是沒(méi)人知道風(fēng)險(xiǎn),而是大家都知道風(fēng)險(xiǎn),但沒(méi)有人愿意比對(duì)手先踩剎車(chē)。
而一旦走到這一步,安全團(tuán)隊(duì)的離職,就不再只是內(nèi)部人事新聞。它更像是一種預(yù)警:車(chē)已經(jīng)越來(lái)越快了,但真正能踩住剎車(chē)的人,可能正在越來(lái)越少。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.