還記得朱自清的《荷塘月色》嗎?“曲曲折折的荷塘上面,彌望的是田田的葉子。葉子出水很高,像亭亭的舞女的裙……”
這篇全文1361字的經典散文,今天幾乎在熱搜上掛了一天。起因是有網友發現,它被某AI檢測工具判定:AI疑似生成率超過60%。
![]()
評論區頓時炸開了鍋。有網友調侃,“那我的論文AI率80%,是不是也正常了?”也有網友懷疑,AI率是隨機生成的;還有網友爆料,同一篇文章,不同平臺查出的AI率相差30%。
這到底是怎么一回事?AI率檢測工具究竟靠不靠譜?橙柿互動記者跟西湖大學文本智能實驗室博士、Fast-DetectGPT研發者之一鮑光勝聊了聊。
他的第一個回答,就有點出乎意料。
“大家對AI率有誤解”
關于AI率,鮑光勝認為,大家首先可能存在一個誤解。“比如一篇文章檢測出AI率60%,并不是說每100個字里面,就有60個字是AI寫的。AI率實際上是指一篇文章有多大概率由AI生成,60%就意味著它有60%的概率由AI整體生成。”
檢測工具其實無法分辨,也不能告訴你哪幾個字出自AI之手。“因為一兩個字的微觀層面,人類和AI的差別幾乎看不出來。”
那它是怎么來判斷的?簡單說,就是在宏觀層面尋找統計上的線索。例如在用詞方面,AI會有相對固定的偏好,某個冷門詞出現的頻率如果遠高于人類平均水平,就會成為一個統計的信號。
鮑光勝舉了個例子:有研究發現,大模型應用于英語學術論文寫作時,單詞delve(深入研究)的使用頻率大幅提高,“這時,就可以拿它作為一個信號或者說特征”。
但這種特征是統計意義上的,“它需要在一篇文章中反復出現某些可被檢測的信號。因此,如果只給出一段很短的文字,是無法準確判斷是否為AI所寫。”鮑光勝認為,目前的檢測工具對于100字以下“小作文”的判斷通常不太準確,到了500字左右,結果就比較可信了。
《荷塘月色》是怎么被誤傷的
那么,《荷塘月色》超60%的AI率是怎么回事?
![]()
“以現在的檢測技術,如果是全新寫的文章,AI率可能更準些,老文章反而不一定。”鮑光勝先給了一個結論。
原因很簡單,就是那些膾炙人口的經典文本,絕大部分早就被用來訓練大模型。
“AI檢測的基本原理是這樣的,你的一篇文章放到大模型,看它的用詞、詞頻分布等,和模型預測的分布是否一致。”通常情況下,如果是AI生成的文字,那它和模型的預測會比較一致。
于是,問題就來了:當AI檢測工具遇到在學習階段就“讀”過的經典文本,這種“一致性”就會因為模型熟悉這些表達而變得很高,進而傾向于判斷文章是AI寫的。
《荷塘月色》大概率就是這樣被誤傷了。
AI模仿的是整個人類的寫作共性
在評論區的熱門位,有網友反映自己的同一篇文章,不同平臺查出的AI率相差30%。鮑光勝說:這太正常了。
“市面上各個檢測工具用的算法不一樣,有的主要看詞頻,有的側重語法,有的看語義。單獨一篇文章,差30%一點都不奇怪。”
今天的熱搜里,還提到了一個現象:有些平臺一邊賣AI生成論文,一邊又提供降AI率服務。
“這就是互相攻防。”鮑光勝繼續解釋。
降AI率的原理,說起來并不神秘:研究市面上的檢測工具喜歡抓什么信號或者說特征,比如某個詞用得太頻繁,那就把它換成另一個意思相近的詞。“更換后意思不變,但檢測工具就抓不到了。”
他同時也提到,對抗檢測最好的方式或許是保持自己的寫作風格。
“AI是在模仿整個人類的寫作共性。如果你有非常獨特的個人風格,AI反而不太容易抓住。”這就是為什么有些人的文章AI率很高,而另一些人卻沒事,后者可能天生就不按套路寫。
AI檢測AI,未來是持續的攻防戰
鮑光勝博士研究的方向是AI生成文本檢測,他從2022年底ChatGPT問世后就開始關注這一問題。
“當時覺得隨著AI應用的普及,它會變得越來越嚴重。互聯網上AI生成內容越來越多,會侵蝕人與人之間的信任,比如教育場景中的師生關系。另外,AI生成的東西,人類單靠自己會越來越難分辨,需要‘AI檢測AI’”。
他所在的西湖大學文本智能實驗室研發了Fast-DetectGPT,這是一個可以快速并準確檢測文本是否由AI生成的工具,相關成果發表在國際會議ICLR 2024上。
鮑光勝坦言,未來會是持續的攻防戰,大模型越來越強,AI檢測技術跟著升級,然后新的模型又來了……
“網上不少人可能覺得檢測工具說這篇文章是AI寫的,那就一定是。但任何AI檢測工具給的都只是概率,這個概率有一定可能是錯的。”他強調說,這個觀念,才是最需要傳遞給大家的。
至于有學生網友在網上“喊冤”,說自己手搓的論文被判了高百分比的AI率,鮑光勝給出了三種可能:要么不是完全自己寫的,要么不自覺受了AI模板影響,要么就是檢測工具本身不準。“越來越多人在寫作中用AI給的模板做參考或直接潤色文字,AI已經在影響人類的用語習慣。”
橙柿互動 ·都市快報 記者 童蔚
編輯 陳筱妍
審核 張倩 陳欣文
校對 馬玉君
BREAK AWAY
![]()
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.