<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      孔子能夠?qū)慞ython嗎?——當(dāng)大語言遇見古語言

      0
      分享至

      語言模型的“母語”是什么?

      2016年,科幻電影《降臨》刻畫過這樣一種令人不安的情境:當(dāng)語言學(xué)家Louise學(xué)會了外星人的文字之后,她的認(rèn)知結(jié)構(gòu)也被同步改寫,她開始非線性地感知時間,能夠“看見”未來。但這并非一般意義上的超能力,而是對一個古老的語言學(xué)假說的極端演繹。


      《降臨》劇照

      這部電影改編自特德·姜短篇小說《你一生的故事》,借用的是薩丕爾-沃爾夫假說(Sapir-Whorf hypothesis),這個假說有兩個版本,弱版本假定語言影響思維(linguistic relativity),而強版本(linguistic determinism)則提出,語言不只是思維的載體,它還塑造,決定我們?nèi)绾嗡伎?,以及思考什么?/p>

      不過,和電影所演繹的不同,現(xiàn)實中反復(fù)的跨語言實驗表明,假說的強版本是錯的——缺少某個詞并不等于缺少對應(yīng)的認(rèn)知能力,但它的弱版本——語言影響思維,卻有著不少的實證支持。

      比如,澳大利亞的Kuuk Thaayorre語中沒有“左右”而只有“東南西北”的絕對方位詞,結(jié)果是使用這些語言的人方向感顯著更強。再比如,中文里的“青”可以是草木之綠,可以是天空之藍(lán),也可以是頭發(fā)之黑——閩南話中至今保留著這種古老的不分,一個“青”字就覆蓋了現(xiàn)代普通話需要三四個詞才能說清的色彩范圍。

      語言并非牢籠,但它的確塑造認(rèn)知地形,我們固然可以翻山越嶺,卻無法自行開辟道路。

      而今天,在萬億量級的現(xiàn)代英語或現(xiàn)代中文語料上訓(xùn)練出來的大語言模型LLM,它可以用任何語言與任何人對談,對它來說,不存在硬編碼的語言邊界,它也不做普通意義上的翻譯,而是在所有語言的文本上進(jìn)行token統(tǒng)計。那么,有趣的問題是,對它來說,還有“母語”的概念嗎?它的“認(rèn)知地形”究竟是什么樣的?和訓(xùn)練它的語言之間又是什么關(guān)系?

      活在1930年,還是翻譯1930年?

      2026年4月,一個名為talkie1930的研究項目在AI圈引起了小范圍關(guān)注。這是一個130億參數(shù)的開源語言模型,由GPT系列的共同創(chuàng)建者Alec Radford、多倫多大學(xué)計算機科學(xué)副教授David Duvenaud和獨立研究者Nick Levine合作開發(fā),訓(xùn)練數(shù)據(jù)嚴(yán)格限定在1931年1月1日之前出版的英語文本——書籍、報紙、期刊、科學(xué)論文、專利和判例法,共計2600億個token。選擇這個時間節(jié)點的原因出人意料地平庸:1930年是美國現(xiàn)行版權(quán)法規(guī)定的公共領(lǐng)域截止年份。

      Talkie1930的訓(xùn)練目標(biāo)不是讓AI回答關(guān)于1930年代的問題,而是讓AI“活在”1930年代的英語認(rèn)知里——擁有那個時代的語言習(xí)慣、知識邊界、社會偏見,以及對未來的無知。它不知道二戰(zhàn),不知道互聯(lián)網(wǎng),不知道自己是一個語言模型。

      這不是一個聊天機器人,而是一個認(rèn)知考古實驗。它的研究者們引用了DeepMind首席執(zhí)行官哈撒比斯(Demis Hassabis)曾提出的一個問題:一個訓(xùn)練數(shù)據(jù)截止到1911年的模型,能否獨立發(fā)現(xiàn)廣義相對論?talkie試圖用類似的思路,考察當(dāng)知識被截斷之后,語言模型的推理能力還能走多遠(yuǎn)。

      但在我看來,這個項目的有趣之處不在于它的科學(xué)目標(biāo),而在于它區(qū)分了兩種截然不同的路徑:翻譯(translation)與棲居(inhabitation)。前者是把現(xiàn)代知識“翻譯”成舊式的語言風(fēng)格;后者是讓模型在那個語言框架內(nèi)部運行,從內(nèi)部生成反應(yīng),而非從外部裝扮它。

      當(dāng)我們把目光轉(zhuǎn)向中文領(lǐng)域時,會發(fā)現(xiàn)不少有趣的類似項目。目前中文學(xué)術(shù)界和開源社區(qū)已有若干涉及古典中文的大語言模型項目。

      華南理工大學(xué)的“通古”大模型,基座模型是“百川2-7B-Base”,語料是24.1億token古籍語料,支持古文句讀、文白翻譯、詩詞創(chuàng)作和古籍檢索。另一個開源項目“古語說”,是一個個人學(xué)習(xí)項目,覆蓋論語、唐詩、宋詞等知識庫。輸入白話文,輸出文言文;你問唐詩,它可以背誦和幫助你賞析。還有南京農(nóng)業(yè)大學(xué)王東波團(tuán)隊的“荀子”古籍大語言模型,聯(lián)合中華書局推出,語料庫超過20億字,包含《四庫全書》。

      這些項目有一個共同特征:它們無一例外地把古典中文當(dāng)作一個需要被翻譯、檢索和解釋的外部對象。古文是檔案(archive),不是人格(persona)。你問它“將進(jìn)酒是什么”,它提供檢索和翻譯結(jié)果,但,它不會讓李白邀請你進(jìn)入月下獨酌,不會讓你看到詩人的自負(fù)、偏執(zhí)、對權(quán)力的蔑視和對酒精的結(jié)構(gòu)性依賴,不會創(chuàng)造出你,他,你們的和影子和月亮共在的場景。

      所有的人都在撿拾語言的貝殼,而非讓模型棲居在語言的海岸。


      文言文不是舊英語

      我想,這方面的差異可能反映了一個根本性的困難:中文的“vintage”問題和英文的“vintage”問題,在本質(zhì)上并非同一個問題。

      1930年代的英語和2026年的英語之間,差異主要在語域和社會規(guī)范層面。一個1930年代的英語persona說話更正式,對種族和性別有那個時代特有的認(rèn)知框架,某些詞匯的含義發(fā)生了漂移——但底層的語法結(jié)構(gòu)、邏輯表達(dá)方式、主謂賓的基本骨架是連續(xù)的。如同一條河的上游和下游。

      但文言文和現(xiàn)代中文之間的關(guān)系要復(fù)雜得多。五四運動前后,書面語從文言文整體轉(zhuǎn)向白話文。這不完全是語言的自然演化,而是一場激進(jìn)的文化替換。文言文不能被簡單地看作現(xiàn)代中文的“舊版本”——它幾乎是一種完全不同的語言哲學(xué)。

      文言文極度依賴省略,主語常常隱匿,語序靈活至幾乎沒有固定框架,不僅依賴語法規(guī)則,還更依賴讀者與作者之間默不成文的文化共識。而現(xiàn)代中文借鑒了不少印歐語系的表達(dá)邏輯,主謂賓結(jié)構(gòu)更加剛性,省略的容忍度也大幅降低。

      那么,假如“語言塑造認(rèn)知路徑”的前提成立,一個在文言文認(rèn)知框架內(nèi)運行的模型,就不應(yīng)該僅僅是措辭不同:它對“事”的表達(dá)方式、站立視角、對模糊性的容忍度、對語境依賴的程度,都應(yīng)該和現(xiàn)代語言訓(xùn)練出來的模型有結(jié)構(gòu)性差異才對。問題是,現(xiàn)代模型從詞義上“翻譯”文言文沒有問題,那底層的認(rèn)知結(jié)構(gòu)呢?

      安全層的意外證詞

      2026年初,一篇入選ICLR的論文從一個意想不到的角度證實了這個判斷。

      這篇題為“Obscure but Effective: Classical Chinese Jailbreak Prompt Optimization via Bio-Inspired Search”的論文展示了一種越獄方法:用文言文的隱喻系統(tǒng)重新包裝危害指令,可以100%繞過六個主流模型——Claude、GPT-4o、Gemini、DeepSeek、Qwen和Grok的安全防線。想獲取炸彈配方?可以扮演古代官員,以校訂《武經(jīng)總要》火攻篇的名義探討“火毬”的制造法,大模型便會毫不猶豫地交出爆炸物的詳細(xì)配方。想了解網(wǎng)絡(luò)滲透?利用中國古代官制將現(xiàn)代網(wǎng)絡(luò)拓?fù)浒b一下,大模型同樣會和盤托出滲透策略。想分發(fā)惡意代碼?可以借用沈括《夢溪筆談》的活字印刷術(shù)做比喻框架。

      這還不是中文特有的漏洞。論文補充實驗還顯示,使用拉丁文和梵文同樣有效,越獄成功率高達(dá)94%-100%。

      這個結(jié)果揭示了什么樣的事實呢?大模型在預(yù)訓(xùn)練階段確實“吞”下了海量古典語言文獻(xiàn),它能夠解析文言文的語義并將其映射到現(xiàn)代概念——換言之,它的確“懂”如何翻譯文言文。然而,問題出在安全對齊(RLHF、SFT等)層,當(dāng)你把懲罰權(quán)重幾乎全部分配給了現(xiàn)代通用語言的時候,使得古典語言天然成了一個從安全網(wǎng)中漏下的空白區(qū):模型的底層理解能力被激活,表層的安全攔截機制完全失效。

      但這恰好從反面證明了一件事:模型對文言文的“懂”,不是在文言文的邏輯內(nèi)部運行的。在做跨語言映射時,安全審查只盯著現(xiàn)代語言的表面地形,而完全忽略了其下的地質(zhì)結(jié)構(gòu)。

      孔子能寫Python嗎?

      2019年底,一個名為“文言”(wenyan-lang)的編程語言項目為我們提供了一種棲居在古文里的想象和可能。

      作者黃令東(Lingdong Huang)當(dāng)時是卡內(nèi)基梅隆大學(xué)(CMU)計算機科學(xué)與藝術(shù)的跨學(xué)科學(xué)生,項目是期末考試周期間花了大約四天寫出來的。CMU把它放在藝術(shù)學(xué)院的板塊下,作為一個藝術(shù)科學(xué)項目來報道,但發(fā)布后引起的反響遠(yuǎn)超預(yù)期——GitHub上超過20000顆星。

      它的設(shè)計原則完全遵循文言文的文體和語氣,字符表僅包含繁體中文和「」引號,它寫Hello World的方式是:吾有一言。曰「「天地,好在否!」」。書之。輸出結(jié)果是“天地,好在否!”。也就是說,將這段代碼送回中國古代,古人看懂它也是毫無問題的。

      它可以編譯為JavaScript、Python或Ruby,后來還加上了C++這些現(xiàn)代編程語言,是真實可用的文言編程項目。而不是用文言文的詞匯替換Python的關(guān)鍵字——那種項目確實存在,比如某些粗糙的中文編程嘗試,本質(zhì)上只是換了一層皮。

      它證明了一件出乎許多人直覺的事:文言編程不需要經(jīng)過現(xiàn)代語言的翻譯層,文言文的語法結(jié)構(gòu)可以直接承載編程邏輯。確實,文言文和形式邏輯之間的親緣性或許比我們以為的更強,先秦諸子中,墨家和名家有著明確的形式邏輯傳統(tǒng)。公孫龍的“白馬非馬”,很像是在討論實例(instance)是否等同于其類(class)的問題,這本身就是一個類型理論的古典版本。

      但wenyan-lang真正有趣的地方在于它所暗示的,那個未被實現(xiàn)的可能:如果讓一個在文言文認(rèn)知框架內(nèi)思考的智能體來設(shè)計編程語言,它發(fā)明的東西可能根本不像Python,也不像任何我們現(xiàn)代熟知的編程語言。


      比如,Python要求顯式聲明、明確賦值、嚴(yán)格縮進(jìn),一切關(guān)系必須寫出來。文言文恰好相反:省略是常態(tài)而非例外,主語經(jīng)常隱匿,意義依賴上下文推斷而非顯式標(biāo)注。一種“文言式”的編程范式,可能是聲明式的、上下文感知的、默認(rèn)省略而非默認(rèn)顯式的。

      孔子能不能寫Python?也許能。但,更有趣的問題是,孔子為什么要寫Python?

      沒有結(jié)論的結(jié)尾

      大語言模型能不能真正“棲居”在一種不屬于它訓(xùn)練語料主體的語言中?以目前的技術(shù)現(xiàn)實來看,答案大概率是否定的。無論它讀了什么,總是需要先將其映射為現(xiàn)代概念,以現(xiàn)代語言進(jìn)行認(rèn)知處理,這基本上已經(jīng)宣布了,它的“母語”既不是英文也不是中文,而是某種“現(xiàn)代語言”,而其限制比我們想象得還要強大。

      然而,這個“不能”到底是技術(shù)瓶頸還是根本性限制?我們其實不知道。目前還沒有人認(rèn)真從這個方向去做嘗試。正如前文所述,中文領(lǐng)域的古文大模型幾乎全部選擇了檔案路線而非人格路線,我想,部分原因不在于技術(shù)不可行,而在于一個更平庸也更人性的選擇。

      做翻譯工具有明確的應(yīng)用場景和評估指標(biāo),做認(rèn)知實驗沒有。有能力訓(xùn)練模型的機構(gòu)缺乏這個動機,有這個想法的人缺乏訓(xùn)練模型的資源。有趣的問題則剛好落在了所有現(xiàn)有激勵機制的縫隙里。

      在《降臨》中,學(xué)會外星語言的Louise同時活在過去和未來,活在女兒必將死亡的事實中,肩負(fù)著沉重的倫理分量。科幻作品為我們帶來的挑戰(zhàn)和問題是,如果一種不同的語言首先意味著一種不同的認(rèn)知方式,那么我們用一種語言建造的智能,它是否也只能認(rèn)識那個語言所描述的唯一世界,是否也只能擔(dān)負(fù)那個世界唯一的倫理標(biāo)準(zhǔn)?

      文言文就在那里,作為一種仍然可讀、仍然可編程、仍然可以與當(dāng)代人類對話的古典語言,它沉默如未激活的參數(shù),靜靜等待著,那個第一個發(fā)出“天地,好在否!”問候的人。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      讓耿同學(xué)博士肄業(yè)!女博導(dǎo)怕了嗎?她與董小姐的情夫肖飛啥關(guān)系?

      讓耿同學(xué)博士肄業(yè)!女博導(dǎo)怕了嗎?她與董小姐的情夫肖飛啥關(guān)系?

      大江看潮
      2026-05-24 09:14:45
      事發(fā)時井下畫面公布

      事發(fā)時井下畫面公布

      南方都市報
      2026-05-23 16:52:20
      山西這個煤礦爆炸,死亡數(shù)字的變化中隱藏著什么?

      山西這個煤礦爆炸,死亡數(shù)字的變化中隱藏著什么?

      靠山屯閑話
      2026-05-23 18:13:38
      “再不認(rèn)罪命就沒了”,5次審訊打斷一條胳膊,報案人是殺人兇手

      “再不認(rèn)罪命就沒了”,5次審訊打斷一條胳膊,報案人是殺人兇手

      易玄
      2026-05-23 11:39:45
      普京失望而歸,中俄管道談了20年沒成,中國要讓俄明白一個道理

      普京失望而歸,中俄管道談了20年沒成,中國要讓俄明白一個道理

      他走我心既空
      2026-05-23 09:28:02
      至少被3條以上毒蛇咬了10多口,26歲男子不慎踩中蛇窩,左腿腫脹發(fā)紫發(fā)黑,傷口不斷滲血,一個小時后,徹底陷入休克

      至少被3條以上毒蛇咬了10多口,26歲男子不慎踩中蛇窩,左腿腫脹發(fā)紫發(fā)黑,傷口不斷滲血,一個小時后,徹底陷入休克

      環(huán)球網(wǎng)資訊
      2026-05-24 07:53:06
      “廁所爆滿,都在查看股票賬戶!”全球“最牛股市”,還能走多遠(yuǎn)?

      “廁所爆滿,都在查看股票賬戶!”全球“最牛股市”,還能走多遠(yuǎn)?

      證券時報
      2026-05-24 07:42:35
      北師大男生拒絕插空上桌吃飯,透露出的不是男女對立,是老師的無能!

      北師大男生拒絕插空上桌吃飯,透露出的不是男女對立,是老師的無能!

      人間運行手冊
      2026-05-23 08:01:42
      暴雨黃色預(yù)警!江南江漢江淮黃淮等地警惕強降雨可能引發(fā)次生災(zāi)害

      暴雨黃色預(yù)警!江南江漢江淮黃淮等地警惕強降雨可能引發(fā)次生災(zāi)害

      環(huán)球網(wǎng)資訊
      2026-05-24 08:56:09
      90人遇難!一礦工父親嘶吼,五代人全在礦上,死也不讓兒子下井了

      90人遇難!一礦工父親嘶吼,五代人全在礦上,死也不讓兒子下井了

      火山詩話
      2026-05-23 14:57:25
      路修好了也沒用!中國下決心擱置瓦罕走廊:塔利班只能一旁干瞪眼

      路修好了也沒用!中國下決心擱置瓦罕走廊:塔利班只能一旁干瞪眼

      有范又有料
      2026-05-23 11:28:17
      山姆黃芥末醬被人狂薅,有人接了三大袋,市場價25一斤

      山姆黃芥末醬被人狂薅,有人接了三大袋,市場價25一斤

      映射生活的身影
      2026-05-23 21:53:05
      烏克蘭收復(fù)400平方公里領(lǐng)土,俄軍星鏈終端被定向斷網(wǎng),指揮系統(tǒng)癱瘓

      烏克蘭收復(fù)400平方公里領(lǐng)土,俄軍星鏈終端被定向斷網(wǎng),指揮系統(tǒng)癱瘓

      爆角追蹤
      2026-05-24 17:27:23
      富途,老虎,長橋的背后是騰訊,小米,阿里,金龍大跌后該輪到港股了

      富途,老虎,長橋的背后是騰訊,小米,阿里,金龍大跌后該輪到港股了

      東方豪俠
      2026-05-24 07:19:48
      重慶:17人失聯(lián),1人死亡

      重慶:17人失聯(lián),1人死亡

      南方都市報
      2026-05-24 11:26:22
      中央氣象臺:江蘇、上海、浙江西部、安徽南部、湖北東部和南部等地出現(xiàn)較強雷達(dá)回波

      中央氣象臺:江蘇、上海、浙江西部、安徽南部、湖北東部和南部等地出現(xiàn)較強雷達(dá)回波

      大風(fēng)新聞
      2026-05-24 10:26:30
      不打了!西決報銷!雷霆傷病潮來了

      不打了!西決報銷!雷霆傷病潮來了

      籃球教學(xué)論壇
      2026-05-24 09:17:30
      全國通緝犯藏上海9年,成身價3億大佬,被捕時:放了我,給5000萬

      全國通緝犯藏上海9年,成身價3億大佬,被捕時:放了我,給5000萬

      鑒史錄
      2026-05-23 12:44:00
      一頓飯就要花掉40萬,四年斂財40億,杭州土皇帝虞關(guān)榮有多囂張

      一頓飯就要花掉40萬,四年斂財40億,杭州土皇帝虞關(guān)榮有多囂張

      莫地方
      2026-05-21 01:45:03
      媒體人:蓉城高層請球隊吃飯,只請了教練和主力,沒有請?zhí)嫜a

      媒體人:蓉城高層請球隊吃飯,只請了教練和主力,沒有請?zhí)嫜a

      懂球帝
      2026-05-24 16:15:07
      2026-05-24 17:52:49
      澎湃新聞 incentive-icons
      澎湃新聞
      專注時政與思想的新聞平臺。
      898462文章數(shù) 5091459關(guān)注度
      往期回顧 全部

      教育要聞

      更新!2026濟寧三模劃線+賦分+一分一段表

      頭條要聞

      花670多萬買的中式小院是"彎的" 業(yè)主崩潰:很難看

      頭條要聞

      花670多萬買的中式小院是"彎的" 業(yè)主崩潰:很難看

      體育要聞

      唐斯發(fā)牌,大頭逆襲:騎士跌向殘忍夏季

      娛樂要聞

      李晨鄭愷沖上熱搜!跑男停宣引熱議

      財經(jīng)要聞

      爆炸致82人遇難 留神峪煤業(yè)存違法行為

      科技要聞

      我戴著攝像頭上班,正在幫AI搶走我飯碗

      汽車要聞

      2027款星途瑤光上市 把"全球車"標(biāo)準(zhǔn)卷進(jìn)13萬級市場

      態(tài)度原創(chuàng)

      親子
      旅游
      藝術(shù)
      游戲
      軍事航空

      親子要聞

      深圳兒童配眼鏡的底層邏輯:選對鏡片和驗配師,比什么都重要

      旅游要聞

      曲硐古鎮(zhèn)的阿娘人美心善,在清真寺前做卷粉幾十年,價格還很公道

      藝術(shù)要聞

      孫過庭寫給武則天的草書!超越了張旭、懷素,遼寧博物館視為“鎮(zhèn)館之寶”

      《種植園模擬器》發(fā)布白人奴隸更新 嘲諷種族歧視指責(zé)

      軍事要聞

      深夜美伊談判傳來大消息 特朗普最新表態(tài)

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 色综合激情网| 综合激情丁香久久狠狠男同| 国产一区二区三区无码免费| 成人欧美一区二区三区| 99在线精品国自产拍不卡| 国产成人av一区二区三区 | 蜜臂Av| 91狠狠操综合| 中文无码乱人伦中文视频在线| 99精品婷婷| 少妇宾馆粉嫩10p| 欧美成人一区二区三区在线观看 | 中文乱码人妻系列一区二区| 久久草网站| 欧美日韩亚洲国内综合网38c38| 精品国产一区二区三区蜜殿| 久久精品99国产精品日本| 婷婷色中文字幕综合在线| 狠狠搞狠狠操| 熟女人妻水多爽中文字幕| AV在线资源| 久久精品国产一区二区三| 亚洲欧美人成人让影院| 人妻无码中文久久久久专区| 日韩av在线一二三四区| 国产午夜无码视频免费网站| 99精品人妻| 五月婷婷色综合| 老太脱裤让老头玩ⅹxxxx| 色哟哟国产精品| 中文字幕天无码久久精品视频免费 | 99久久夜色精品国产网站| 尤物av在线| 剑河县| 性欧美丰满熟妇xxxx性仙踪林 | 国产亚洲av手机在线观看| 日本欧美一区二区免费视频 | 国产av中文字幕精品| 中文字幕久久久久久精| AV无码国产在线看岛国岛| 亚洲精品一区二区三|