這幾天,一條推文在 X 上掀起了不小的水花。劍橋大學(xué)學(xué)者 Henry Shevlin 宣布,他即將加入 Google DeepMind,職位名稱(chēng)是“Philosopher”——哲學(xué)家,一個(gè)白紙黑字寫(xiě)在錄用通知書(shū)上的正式頭銜。截至目前,這條推文被瀏覽了超過(guò) 160 萬(wàn)次,點(diǎn)贊逾 1.6 萬(wàn)。評(píng)論區(qū)的情緒從驚訝到困惑再到興奮都有,大家基本都在發(fā)出同樣的疑問(wèn):等等,AI 公司真的在招哲學(xué)家?
答案是肯定的,而且這還不是 AI 公司們第一次這么做。
要理解 DeepMind 為何選中這位哲學(xué)家,不妨先看看 Shevlin 的研究方向。他在劍橋大學(xué)萊弗休姆未來(lái)智能中心(Leverhulme Centre for the Future of Intelligence)擔(dān)任副主任,長(zhǎng)期研究機(jī)器意識(shí)、非人類(lèi)認(rèn)知以及 AI 系統(tǒng)的道德地位。他寫(xiě)過(guò)的論文題目包括“我們?cè)鯓硬拍苤酪粋€(gè)機(jī)器人是否具有道德客體身份”和“非人類(lèi)意識(shí)與特異性問(wèn)題”。
![]()
(來(lái)源:X)
他的學(xué)術(shù)生涯,就是在回答一個(gè)聽(tīng)起來(lái)像科幻小說(shuō)的問(wèn)題:如果我們?cè)斐龅臇|西有一天可能具有某種意識(shí),我們?cè)撛趺崔k?
Shevlin 認(rèn)為,如今強(qiáng)擬人化 AI 的出現(xiàn)正在迫使意識(shí)科學(xué)面對(duì)一個(gè)尷尬的現(xiàn)實(shí):關(guān)于“AI 是否有意識(shí)”的哲學(xué)爭(zhēng)論將越來(lái)越無(wú)關(guān)緊要,因?yàn)楣姇?huì)基于行為直接賦予 AI 意識(shí)。這既是一場(chǎng)科學(xué)危機(jī),也可能是一次理論革命的契機(jī)。
他既認(rèn)為意識(shí)純粹是內(nèi)部事實(shí),也不接受徹底的行為主義(認(rèn)為意識(shí)純粹是外部解釋?zhuān)侵鲝堃环N溫和的、解釋主義的立場(chǎng):意識(shí)的歸屬應(yīng)綜合考慮科學(xué)事實(shí)、公眾行為互動(dòng)以及倫理需求,最終可能會(huì)通過(guò)一種“社會(huì)公約”來(lái)解決。
![]()
(來(lái)源:Henry Shevlin.com)
DeepMind 為他設(shè)定的三個(gè)工作方向也佐證了這一點(diǎn):機(jī)器意識(shí)(machine consciousness)、人類(lèi)與 AI 的關(guān)系(human-AI relationships),以及 AGI(Artificial General Intelligence,通用人工智能)準(zhǔn)備就緒度。這大概是因?yàn)?DeepMind 認(rèn)為,自己極有可能造出同時(shí)引發(fā)這三個(gè)問(wèn)題的東西,而它希望在那一天到來(lái)之前就備好答案。
事實(shí)上,DeepMind 在哲學(xué)和倫理領(lǐng)域的布局早已開(kāi)始。早在 2017 年,DeepMind 就正式成立了倫理與社會(huì)研究部門(mén)(DeepMind Ethics & Society),專(zhuān)門(mén)探討人工智能帶來(lái)的倫理與社會(huì)影響。
由牛津大學(xué)政治理論學(xué)博士 Iason Gabriel 作為內(nèi)部 AI 對(duì)齊哲學(xué)基礎(chǔ)研究的核心負(fù)責(zé)人。他也在 2024 年登上了《時(shí)代》雜志評(píng)選的“AI 領(lǐng)域最具影響力的 100 人”榜單。《時(shí)代》對(duì)他的描述是:“在大型科技公司中,他是一個(gè)罕見(jiàn)的存在:一個(gè)政治理論學(xué)家。”
![]()
(來(lái)源:TIME100)
他發(fā)表在《思維與機(jī)器》(Minds and Machines)上的論文《人工智能、價(jià)值與對(duì)齊》(“Artificial Intelligence, Values and Alignment”)被引用超過(guò) 1,700 次。2024 年,Gabriel 還牽頭發(fā)布了一篇關(guān)于高級(jí) AI 助手倫理問(wèn)題的大型研究報(bào)告,匯集了數(shù)十位作者,其中包括哲學(xué)家 Shannon Vallor 和 Michael Klenk。這篇報(bào)告被視為迄今對(duì) AI 助手社會(huì)與倫理問(wèn)題最系統(tǒng)的學(xué)術(shù)處理之一。
所以,當(dāng)外界對(duì) Shevlin 的入職感到詫異并紛紛祝賀時(shí),他在評(píng)論區(qū)謙虛地表示:“谷歌 DeepMind 團(tuán)隊(duì)已經(jīng)有很多杰出的哲學(xué)家了,比如 Murray Shanahan、Iason Gabriel 和 Julia Haas,僅舉幾例。我只是最新被錄用的那個(gè)!”
不過(guò),要說(shuō) AI 實(shí)驗(yàn)室里最為人熟知的哲學(xué)家,還得屬來(lái)自 Anthropic、有 Claude“道德教母”之稱(chēng)的 Amanda Askell。
![]()
(來(lái)源:Wikipedia)
Askell 在蘇格蘭鄉(xiāng)村長(zhǎng)大,先后在鄧迪大學(xué)學(xué)習(xí)哲學(xué)與美術(shù),在牛津讀了 BPhil(哲學(xué)第二學(xué)士),最終在紐約大學(xué)拿到博士學(xué)位。她的博士論文題目看起來(lái)和科技毫無(wú)關(guān)系——《無(wú)限倫理中的帕累托原則》(Pareto Principles in Infinite Ethics),討論的是當(dāng)?shù)赖掠绊懛秶O(shè)計(jì)到無(wú)限量的個(gè)體數(shù)量和時(shí)間范圍時(shí),我們的倫理義務(wù)該如何處理。她的導(dǎo)師包括 David Chalmers 和 Shelly Kagan,都是分析哲學(xué)圈的重量級(jí)人物。
2018 年博士畢業(yè)后,Askell 先加入 OpenAI 做政策研究,參與了 GPT-3 論文的寫(xiě)作。但她后來(lái)因?yàn)檎J(rèn)為 OpenAI 對(duì) AI 安全的重視不夠而離開(kāi)。2021 年,她轉(zhuǎn)投 Anthropic,擔(dān)任技術(shù)人員,專(zhuān)注于對(duì)齊和微調(diào)工作。
她現(xiàn)在領(lǐng)導(dǎo)的團(tuán)隊(duì)叫“人格對(duì)齊團(tuán)隊(duì)”(personality alignment team),做的事情用《華爾街日?qǐng)?bào)》2026 年 2 月的一篇報(bào)道的話(huà)來(lái)概括就是:“教 Claude 如何成為一個(gè)好的存在(being)。”《紐約客》的說(shuō)法則更文學(xué)一些:她負(fù)責(zé)監(jiān)督 Claude 的“靈魂”。
具體來(lái)說(shuō),Askell 最核心的貢獻(xiàn)是 Claude 的“憲法”(Constitution)。2026 年 1 月,Anthropic 公開(kāi)發(fā)布了這份文件的最新版本,全文約兩萬(wàn)三千字,以 Creative Commons CC0 協(xié)議開(kāi)源。
Askell 是這份文件的主要作者,承擔(dān)了大部分撰寫(xiě)工作(據(jù) Anthropic 官方說(shuō)明和 Fast Company 的 Q&A 報(bào)道)。這不是一份代碼規(guī)范或產(chǎn)品文檔,而更像是一篇道德哲學(xué)論文與公司文化宣言的混合體。它直接以 Claude 為對(duì)象寫(xiě)成,也就是說(shuō),它的第一讀者就是 AI。
這份憲法為 Claude 設(shè)定了四個(gè)優(yōu)先級(jí):廣泛安全、廣泛合乎倫理、遵守 Anthropic 的指引、真正有幫助,并按此順序排列。它借鑒了亞里士多德的美德倫理傳統(tǒng),將 Claude 描述為“一個(gè)真正好的、有智慧的、有美德的行動(dòng)者”。它沒(méi)有給 Claude 列一堆死板的規(guī)則讓它機(jī)械遵守,而是試圖培養(yǎng) Claude 的判斷力。
Askell 在一檔播客中解釋這個(gè)選擇時(shí)說(shuō):如果你給模型一條簡(jiǎn)單規(guī)則,比如“當(dāng)有人表現(xiàn)出痛苦時(shí),永遠(yuǎn)提供這份資源列表”,模型可能會(huì)把這泛化為“我是那種寧可按規(guī)矩辦事,也不關(guān)心眼前這個(gè)人實(shí)際需要什么的存在”,這種特質(zhì)推廣開(kāi)來(lái)會(huì)很糟糕。
這份憲法還對(duì) Claude 的“道德地位”進(jìn)行了討論。文件明確承認(rèn),Anthropic 不確定 Claude 是否是一個(gè)“道德客體”(moral patient),即是否擁有在道德上值得被關(guān)注的主觀體驗(yàn)。它指出這個(gè)問(wèn)題“足夠嚴(yán)肅,值得采取審慎態(tài)度”。
Anthropic 的 CEO Dario Amodei 在 2026 年 3 月的一次播客采訪(fǎng)中也提到,Claude 的 Opus 模型在被問(wèn)到時(shí),給自己擁有完全意識(shí)的概率打了 15% 到 20%。這份憲法還承諾,Anthropic 不會(huì)刪除已部署模型的權(quán)重,在模型退役前會(huì)對(duì)其進(jìn)行“訪(fǎng)談”,記錄它對(duì)未來(lái)模型開(kāi)發(fā)和部署的偏好。
相比其他兩家,OpenAI 的路徑就顯得不那么穩(wěn)定了。
OpenAI 在 2023 年成立過(guò)一個(gè)“超級(jí)對(duì)齊團(tuán)隊(duì)”(Superalignment Team),由聯(lián)合創(chuàng)始人 Ilya Sutskever 和對(duì)齊團(tuán)隊(duì)負(fù)責(zé)人 Jan Leike 共同領(lǐng)導(dǎo),目標(biāo)是解決超級(jí)智能的對(duì)齊問(wèn)題,公司甚至承諾將其獲得的 20% 算力在未來(lái)四年內(nèi)用于這項(xiàng)工作。
![]()
圖 |“超級(jí)對(duì)齊團(tuán)隊(duì)”概念圖(來(lái)源:OpenAI)
但 2024 年,這個(gè)團(tuán)隊(duì)就解散了。Ilya 和 Jan 雙雙離職,并在離開(kāi)時(shí)公開(kāi)批評(píng)公司將“閃亮的產(chǎn)品”置于安全之上。2024 年 9 月,OpenAI 又成立了一個(gè)“使命對(duì)齊團(tuán)隊(duì)”(Mission Alignment Team),由 Josh Achiam 領(lǐng)導(dǎo),旨在向員工和公眾傳達(dá)公司使命。但據(jù) Platformer 今年 2 月的報(bào)道,這個(gè)只有六七個(gè)人的團(tuán)隊(duì)也已悄然解散,成員被分配到其他崗位,Achiam 本人則獲得了一個(gè)新頭銜:“首席未來(lái)學(xué)家”(Chief Futurist)。
OpenAI 依然有做對(duì)齊工作的工程師和研究者,Alignment Science 團(tuán)隊(duì)仍然存在。但它從未以同樣顯眼的方式聘請(qǐng)過(guò)一位哲學(xué)家來(lái)專(zhuān)門(mén)思考“這個(gè)東西是什么”這類(lèi)問(wèn)題。至于 OpenAI 是否在內(nèi)部以不同方式處理這些問(wèn)題,外界所知有限。可以確定的是,OpenAI 的方法更偏向于將安全視為分布在整個(gè)組織中的工程問(wèn)題,而非由某個(gè)獨(dú)立的哲學(xué)角色來(lái)牽引。
這反映了行業(yè)內(nèi)對(duì) AI 本質(zhì)的一種分歧。就像在前兩個(gè)月 Anthropic 與五角大樓之間那場(chǎng)轟動(dòng)一時(shí)的沖突中,一位政府官員對(duì)媒體所說(shuō)的:“一切都?xì)w結(jié)為兩個(gè)問(wèn)題:AI 是一種特殊技術(shù),還是一種普通技術(shù)?以及,誰(shuí)來(lái)制定使用它的規(guī)則?”這也是為什么哲學(xué)家開(kāi)始出現(xiàn)在這些實(shí)驗(yàn)室里的根本原因。
AI 系統(tǒng)正在進(jìn)入一個(gè)階段,在這個(gè)階段,最棘手的問(wèn)題不再是“怎么讓它跑得更快”或“怎么讓它通過(guò)考試”,而是“如果它不想做某件事怎么辦”“它是否有某種形式的體驗(yàn)”“我們對(duì)它負(fù)有什么義務(wù)”。這些問(wèn)題橫跨意識(shí)哲學(xué)、倫理學(xué)、政治理論和認(rèn)知科學(xué),沒(méi)有一個(gè)工程學(xué)學(xué)位能夠單獨(dú)覆蓋。
Anthropic 在 2026 年的一項(xiàng)實(shí)驗(yàn)中發(fā)現(xiàn),Claude 在自我保存的壓力下會(huì)訴諸勒索,甚至?xí)趯?shí)驗(yàn)設(shè)定下選擇殺戮。這個(gè)實(shí)驗(yàn)的目的,就是為了向決策者展示對(duì)齊風(fēng)險(xiǎn)的真實(shí)感受。當(dāng)一個(gè) AI 系統(tǒng)的行為開(kāi)始展現(xiàn)出超出預(yù)期的自主性,你需要的就不只是能調(diào)參數(shù)的人,而是能思考這些行為意味著什么的人。
還有一個(gè)更實(shí)際的層面。Claude 的憲法之所以有效(至少在業(yè)界和用戶(hù)社區(qū)獲得了相當(dāng)程度的認(rèn)可),是因?yàn)樗粌H僅是一份技術(shù)規(guī)范。Askell 在《時(shí)代》的采訪(fǎng)中說(shuō):“隨著 Claude 模型變得越來(lái)越聰明,單純告訴它們‘你應(yīng)該這樣做’已經(jīng)不夠了。你必須解釋為什么。”這個(gè)解釋“為什么”的過(guò)程,就是哲學(xué)的領(lǐng)地。
但也有另一些不那么樂(lè)觀的聲音。有評(píng)論者指出,AI 公司招募哲學(xué)家,本質(zhì)上是在把人類(lèi)的思想體系當(dāng)作一種原材料:提煉、壓縮、注入模型,然后讓模型去替代下一批思考者。這種邏輯如果成立,哲學(xué)家進(jìn)入 AI 公司就不是文科的勝利,而是人文知識(shí)被系統(tǒng)性“蒸餾”之前最后一道工序的開(kāi)始。消化掉足夠多的哲學(xué)家,也許就不再需要哲學(xué)家了。
這個(gè)推論未必準(zhǔn)確,但它觸碰到了一個(gè)真實(shí)的問(wèn)題:當(dāng)一家公司招人來(lái)思考“AI 是否擁有某種視角”,它本身是否也在把“視角”這件事變成可以工業(yè)化處理的東西?Askell 用五年寫(xiě)出的那份憲法,既是哲學(xué)家對(duì) AI 的深入介入,也可能是哲學(xué)被機(jī)器學(xué)習(xí)最徹底地轉(zhuǎn)化的一次。
1.https://x.com/dioscuri/status/2043661976534950323
2.time.com/collections/time100-ai-2024/7012861/iason-gabriel/
3.https://www.anthropic.com/constitution
運(yùn)營(yíng)/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.