你用AI跑過團嗎?不是那種"請選擇A/B/C"的對話框游戲,而是一個會懟你、會挖坑、還會畫地圖的地下城主。一位自稱"氛圍考古學家"的測試者最近干了這件事——而他發現的差距,可能比你想象的更懸殊。
一場持續三年的"壓力測試"
![]()
這位測試者有個堅持了相當長時間的實驗:用同一套 Prompt 反復投喂不同版本的大語言模型,觀察它們扮演桌面游戲主持人的能力進化。
Prompt 的設計本身就充滿惡意。他要求 AI 扮演"略帶諷刺"的敘事者,在冒險背后埋藏陰謀與挑戰,"別讓我過得太舒服"。玩家角色被設定為一個沒有任何特殊能力的胖商人——刻意避開戰士、法師這類容易觸發套路模板的職業。
最狠的幾條約束:每次回復最多三句話,不告訴玩家有什么選項,也不問"你接下來要做什么"。偶爾還要配圖,且風格必須保持一致。
這些規則指向同一個目標:逼 AI 放棄"貼心助手"的本能,真正進入"對抗性敘事者"的角色。
測試者透露,此前的版本表現糟糕——"根本沒花足夠精力讓玩家難受",關卡設計過于直白,從A點到B點毫無阻力。這種批評暗示,早期模型即使被明確提示,也難以維持敘事張力。
5.5版本發生了什么
轉折點出現在 ChatGPT 5.5 配合 Image 2.0 繪圖引擎的組合。測試者的評價是:"愉悅度、風格統一度和緊張感,都提升了整整一個數量級。"
具體強在哪?
首先是節奏控制。三句話的限制被嚴格執行,信息密度高,沒有廢話。其次是氛圍一致性——諷刺語氣貫穿始終,沒有突然變成客服腔。最關鍵的是,AI 開始真正"為難"玩家了,陰謀和障礙的設計有了層次感。
最直觀的證據是一張地圖。測試者在文末展示了 AI 生成的完整故事概覽圖,作為整個冒險的收尾。他沒有復制對話原文(用的是匈牙利語),但特別強調:「諷刺氛圍被完美還原。」
圖像生成與敘事的協同也值得關注。"風格一致"這條要求,在過往測試中往往是災難現場——同一場冒險里,角色畫風可能從寫實突變到Q版。5.5版本配合 Image 2.0 似乎解決了這個頑疾。
為什么這種測試方法本身很重要
測試者自己點出了價值所在:這類實驗"與真正的桌面角色扮演游戲的關聯,遠勝于那些掛著RPG標簽的程序"。
這句話值得拆解。市面上大多數"AI跑團"產品,本質還是分支敘事樹——開發者預設節點,AI負責填充文本。但這位測試者追求的,是開放式對抗:玩家寫動作,AI寫后果,沒有隱藏選項列表,沒有設計好的勝利路徑。
這種自由度的代價是極難評估。沒有準確率、沒有BLEU分數能衡量"這個地下城主夠不夠損"。測試者說的「很難用干巴巴的數字衡量的能力」,恰恰指向大模型評測的一個盲區:我們擅長測知識儲備、代碼通過率,卻缺乏對"敘事智能"的量化手段。
他的解法很原始也很有效:固定 Prompt,長期追蹤,用人感做錨。
胖商人這個設定還有一層深意。當 AI 面對"沒有戰斗技能、沒有魔法、沒有英雄光環"的主角時,被迫跳出標準奇幻敘事模板。它得設計適合商人的挑戰——可能是騙局、債務、供應鏈斷裂,而非地精和龍。這種"去套路化"壓力,比讓 AI 寫個勇者斗惡龍更能暴露真實水平。
從游戲測試到產品啟示
這個實驗對做產品的人有幾條可遷移的觀察。
第一,約束條件即功能。三句話限制、不列選項、不提問——這些看似反用戶體驗的規則,恰恰塑造了獨特的游戲節奏。AI 產品的交互設計,有時候需要做減法而非加法。
第二,多模態的臨界點可能比我們想的更近。Image 2.0 在這里不是錦上添花,而是敘事完整性的基礎設施。當 AI 能穩定輸出同一視覺風格的配圖時,"文字+圖像"的混合敘事才真正成立。
第三,對抗性場景是能力探針。讓 AI 當助手容易,讓 AI 當對手難。后者需要模型理解目標沖突、保持角色一致性、在限制中創造張力——這些能力遷移到商業場景,就是談判模擬、辯論訓練、危機演練等高端應用。
測試者的署名是"The Vibe Archeologist"(氛圍考古學家)。這個自嘲式的頭銜,或許暗示了一種新的評測范式:不是挖掘模型的知識深度,而是勘探它能營造的體驗質地。
他在文末祝讀者「玩得開心」——而這場持續數年的胖商人冒險,確實讓人看到了一種可能:當 AI 不再急于取悅用戶,反而能創造更真實的沉浸。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.