網易首頁 > 網易號 > 正文申請入駐

我用2000篇文檔蒸餾了自己，結果只得到了一個低質RAG

2026-05-17 10:12:09　來源: 人人都是產品經理社區

廣東舉報

分享至

當 Codex 與飛書文檔碰撞，數字分身計劃卻暴露了 AI 的認知鴻溝。本文作者將 2000 多份工作文檔喂給 AI，試圖打造能替代決策的'數字分身'，最終得到的卻只是低質 RAG 系統——它能檢索顯性知識，卻無法復刻人類判斷中那些未言明的隱性邏輯。

———— / BEGIN / ————

最近跑路了，為了方便交接，我用 Codex 調用飛書 CLI，把自己過去寫過、參與過、沉淀過的 2000 多篇飛書文檔和 Axure 原型全部拉了下來，讓 AI 做解析，再基于這些內容構建了幾層索引。

簡單說，就是想把過去幾年的“我”蒸餾出來，做成一個數字分身。

跑路后，業務就可以對著這個分身問一些問題，比如：“這個功能當時為什么這么設計？”、“XX系統里某個能力是怎么考慮的？”

這個想法聽起來挺美好。

畢竟文檔都在，原型都在。

按理說，只要把這些東西喂給 AI，它不就能接住我的歷史經驗了嗎？

但實際用下來，我發現它沒有變成“我”，只變成了一個低質 RAG。

為什么它只是一個低質 RAG

這個蒸餾項目本質上只是把文檔做成知識庫，再接一個問答入口，它最多解決“找得到資料”的問題，很難“像這個人一樣判斷問題”。

RAG 論文里講的 retrieval augmented generation，本質上是讓模型在生成時檢索外部知識，用來增強知識密集型任務的表現。但檢索增強不等于判斷增強。

它能把資料拿過來，不代表它知道資料之間誰更新、誰覆蓋誰、誰只是草稿、誰才是當前口徑；更不代表它知道這件事為什么這么做，以及到底該由誰負責。

所以我說它是一個低質 RAG，主要體現在三個特點上。

第一個特點，是只能檢索結論，不能理解判斷。

它能根據問題找到相關文檔，但不知道為什么這個功能當時要這么設計。比如業務問一個活動功能為什么沒做，RAG 可能會找到活動方案、需求評審記錄、某個版本范圍說明，然后拼出一個回答。

但在游戲行業里，一個活動規則為什么沒有做某個能力，通常不是只看最終方案就能理解的。

可能不是產品忘了，而是當時版本排期不允許；
可能是海外 SDK 的能力邊界沒開放；
可能是活動目標只是短期拉活，不值得把長期系統能力做進去；
也可能是運營、研發、發行、合規之間已經做過一次權衡。

文檔里可能只寫了最終方案：“本期暫不支持 XX 功能。”但人腦里記住的往往是另一層內容：“當時為什么暫不支持。”前者是結論，后者才是判斷。

所以它經常只能回答“資料上寫了什么”，不能回答“當時為什么這么判斷”。

第二個特點，是能模仿人的口吻，但分不清責任邊界。

最經典的一次，是業務問它海外 SDK、活動項目里某個功能是怎么回事，為什么沒有記錄。

數字分身回答得很順，甚至還很有擔當，大概意思是：“這個功能我當時沒有考慮到位。”

看起來是不是挺像一個離職同學在認真復盤？但問題是，這個項目根本不是我的項目。

真是人在家里坐，鍋從天上來。

更尷尬的是，相關記錄其實在索引文檔里也能找到。也就是說，它不是完全沒有資料，而是沒有理解清楚“這件事是誰負責的”、“我在里面扮演什么角色”、“這個問題應該歸因到哪里”。

第三個特點，雖有知識索引，但索引不到足夠深的隱性知識。

一開始我以為，數字分身做不好，可能只是索引沒建好。比如 chunk 切得不合理，向量檢索召回不準，元數據不夠細，Axure 原型解析得不完整，文檔之間的關聯沒有建起來。

但是在我嘗試了幾輪后，問題并未被解決。因此，我覺得，更底層的問題是：就算索引建得更好，它索引到的也主要是文檔里的顯性知識。

比如 PRD 寫了功能規則，會議紀要寫了本次結論，Axure 原型畫了頁面狀態，復盤寫了這次活動的數據結果。這些內容有用，但它們不等于一個人做判斷時真正調用的全部知識。

真正難復刻的是那些沒有寫深、甚至沒有寫出來的隱性知識。

比如一個活動功能為什么沒做，文檔里可能只寫“本期暫不支持”。但實際判斷里，可能還有一串背景：當時海外 SDK 還沒開放對應能力，研發排期已經被版本節點卡死，活動本身只是一次短期驗證，做成長期系統能力反而不劃算，運營側也接受用人工方式先兜一版。

這些才是產品經理腦子里真正用來判斷的東西。

這些內容很少會完整寫進文檔。

Michael Polanyi 在《The Tacit Dimension》里有一個很經典的說法，大意是：人知道的東西，往往比能說出來的更多。

這就是所謂的隱性知識。

放到這里，就是文檔記錄了“當時怎么做”，但沒有完整記錄“為什么這么做”、“為什么不那么做”、“誰能為這個判斷負責”。

所以，當我把 2000 多篇文檔喂給 AI 時，我其實只是把一堆顯性知識喂給了它。但我希望它復刻的，是一個會把顯性知識、隱性知識和當前環境放在一起判斷的人。

這中間差的，不是多建幾層索引就能完全補上的。這件事有解嗎？

那么這件事有解嗎？

我覺得有優化空間，但還沒到能說“已經有成熟解決方案”的程度。因為它不是單純的 RAG 問題。RAG 本身解決的是“讓模型回答時能引用外部知識”。

這個方向當然有價值。

IBM、TechTarget 等很多資料也都提到，RAG 在企業里常見的問題，集中在檢索不準、chunk 切分不合理、上下文窗口限制、復雜關系理解不足、知識過期和治理困難這些方面。

這些問題可以繼續優化。比如把文檔清洗得更好，補充元數據，區分版本、負責人、適用范圍；或者用知識圖譜、GraphRAG 之類的方式，把文檔之間的項目、功能、系統、人員、時間關系建出來，避免 AI 只在一堆碎片里做相似度匹配。

但這些優化，更多是在把“檢索資料”做得更準。它不一定能解決“復刻判斷”。

因為一個人的判斷里，還有大量文檔里沒有寫出來的隱性知識。

也就是說，就是我不能只把文檔交給 AI，還得想辦法把當時沒寫出來的判斷理由、責任邊界、業務環境補出來。

所以這件事到最后，已經不只是一個個人數字分身的問題了。

它其實指向了 AI 更大的方向：不是讓機器替代人，而是把人腦里那些原本說不清、寫不全、卻真正決定判斷的東西，一層層拆出來，再慢慢交給 AI 去學習。

這也是為什么我覺得，今天的低質 RAG 只是開始。它離真正的“我”還很遠，但它已經把下一步該往哪走，露出來了。

未來的 AI，不一定會先學會怎么說得像人，但它大概率會先學會，像人一樣理解知識、理解邊界、理解環境，最后再去理解判斷。

本文來自公眾號：檸檬餅干凈又衛生作者：檸檬餅干凈又衛生

不想錯過 AI 新趨勢，也想結識志同道合的伙伴？長按識別二維碼，免費加入AI 共學交流群，一起學習、一起玩轉 AI！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

大模型解剖圖火了，30多個開源模型架構差異一目了然，還可接入AI

DeepTech深科技 2026-03-16 17:33:15
31 跟貼 31
狂攬F輪融資+拿下4100萬用戶！深圳玩家把企業舊系統變成AI能力庫

量子位 2026-05-22 15:01:11
1 跟貼 1

AI編程進入下半場！新基準不測補丁，拷問真正的工程能力

新智元 2026-05-23 13:14:45
3 跟貼 3

VL-LN Bench：模擬「邊走邊問找具體目標」的真實導航場景

機器之心Pro 2026-02-02 17:10:55
0 跟貼 0
AI+數字資產：激活企業沉睡數據，釋放商業價值| 2026AI Partner·北京亦莊AI+產業大會

36氪 2026-05-22 15:32:18
0 跟貼 0

9億次點擊背后，AI應用的真實江湖｜2026中國AI應用全景圖譜報告

36氪 2026-05-21 12:01:04
0 跟貼 0

AlphaGo之父把AI扔進23年的人造社會：智能體3塊最硬骨頭全在這

新智元 2026-05-23 09:08:25
2 跟貼 2
納德拉拆掉微軟舊王座，蘇萊曼總攻超級智能！

新智元 2026-05-23 19:05:34
0 跟貼 0

HiF-VLA：以motion為中心打造「邊想邊做」的世界動作模型

機器之心Pro 2026-05-22 10:14:01
0 跟貼 0
文博會上嘉賓共話人工智能與媒體變革四川分享省域智媒底座建設經驗

每日經濟新聞 2026-05-22 21:05:13
0 跟貼 0
百度不再戀戰大模型

虎嗅APP 2026-05-23 22:28:25
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
ICLR 2026 Oral | Revela：用語言建模重新定義稠密檢索器訓練

機器之心Pro 2026-03-27 10:33:36
0 跟貼 0
智譜憑什么一天暴漲近30%？

鈦媒體APP 2026-05-23 09:23:47
1 跟貼 1
一個人，一臺電腦，純剪輯，月入2個w

觀世不語笑紅塵 2026-05-22 22:50:00
1 跟貼 1
游戲日報會員版?行業共享通訊錄上線

游戲日報 2026-05-22 15:28:39
0 跟貼 0
大模型推理緩存：成本與延遲的平衡術

爬蟲飼養員 2026-05-23 00:47:08
0 跟貼 0
他每天找你聊天，卻從沒約過你

宅家小歡喜 2026-05-23 00:22:27
0 跟貼 0
櫻桃沒賣老人將自己編的蓑衣賣了

瀟湘晨報 2026-05-22 23:48:18
906 跟貼 906
這就是知識的力量

貂蟬影視 2026-05-23 09:28:23
1 跟貼 1
河南一景區現“爬不動了吧哈哈哈哈”標語，游客感覺不被尊重，景區：已撤除，本意是緩解爬山壓力

極目新聞 2026-05-19 14:48:26
8307 跟貼 8307
哈登18+6！騎士93-109尼克斯，數據揭示致命罪人！

九分看世界 2026-05-23 05:19:35
1 跟貼 1
腦子里全都是知識啊

艾瑪影視匯 2026-05-23 16:43:45
1 跟貼 1
白紙模型助瓷磚嚴絲合縫

超市王小小 2026-05-21 21:35:19
4 跟貼 4
2014年前退休人員養老金全解：發放規則、上漲標準、補發一次

上易新鮮事 2026-05-22 00:43:05
0 跟貼 0
OpenAI大神教你如何榨干Codex

量子位 2026-05-23 17:48:44
3 跟貼 3
克羅地亞大名單公布，37歲的佩里西奇，打穿了曼聯知識盲區！

一個香蕉說球 2026-05-21 11:27:00
1 跟貼 1
動物界殘忍一幕，母雞成老鷹的晚餐，弱肉強食的生存規則！

聰聰熱點看看 2026-05-22 15:19:49
0 跟貼 0
炸鍋！教育部一紙通知，9月起上學規則全都變了

攢一兜星星 2026-05-22 02:27:43
0 跟貼 0
2萬一張火車票！武漢開出"史上最貴列車"，高奢鐵旅成文旅新風口？

大象新聞 2026-05-23 07:23:02
1639 跟貼 1639
知識內容創作者“聽風的蠶”的多維傳播之路——跨界知識的拼圖者

中國網資訊 2026-05-23 02:59:37
612 跟貼 612
白車誤闖紅燈？老司機應急技巧+路口判罰規則，新手必看！

小狗漫說 2026-05-20 10:19:11
0 跟貼 0
盤點17個吹牛界天花板，吹牛都不打草稿，吹牛吹的一點不臉紅

聽成世界酷 2026-05-22 06:44:43
0 跟貼 0
我們要講邏輯

一個人的夜晚 2026-05-22 02:55:03
0 跟貼 0
新傳考研名詞解釋：AI幻覺

禿頭研究所新傳考研 2026-05-23 16:08:05
0 跟貼 0
集中爆發！寧波多地驚現罕見景觀！有人半夜11點刷到立馬起床出發，連夜奔赴

上觀新聞 2026-05-23 11:46:10
47 跟貼 47
女子從蛇身上跨過毫無察覺

瀟湘晨報 2026-05-23 16:20:05
53 跟貼 53
春秋曲沃代翼揭秘：利益主義者如何制定規則？山西歷史底蘊震撼世人！

漫川舟船 2026-05-23 14:11:37
0 跟貼 0
硬核啊，用這樣的設備操作模型直升機！

長安一片月 2026-05-20 15:03:35
17 跟貼 17
霹靂15嚇壞印度！電視臺專門訪談，專家直呼這破壞了空戰規則

曉哲舞蹈課 2026-05-23 14:15:07
10 跟貼 10

人人都是產品經理社區

想要成為大牛先從學做產品開始

64744文章數 311618關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

時尚

教育

親子

本地

手機 / 數碼

房產 / 家居

我用2000篇文檔蒸餾了自己，結果只得到了一個低質RAG

爆炸聲中又邁一步！拆解馬斯克“十二飛”

煤礦事故致90死 專家：瓦斯爆炸幾乎不存在黃金救援期

煤礦事故致90死 專家：瓦斯爆炸幾乎不存在黃金救援期

少年意氣，正在改變中國足球

《浪姐7》三公，王濛贏麻了，張月實慘

股價暴跌！富途老虎是什么來頭？

油耗降一半/HEV核心部件終身質保 長安藍鯨超擎雙車上市

態度原創

沒有代餐的動作爽游，戰雙要把自己做到極致

夏天衣服不用買太多，每個人都可以準備一條白裙子，大方百搭

近兩千名青少年角逐航天創新大賽云南選拔賽

韓國弟媳婦又給小滿買買買 看看最近都忙啥了

用云錦的方式，打開江蘇南京

煤礦事故致90死專家：瓦斯爆炸幾乎不存在黃金救援期

煤礦事故致90死專家：瓦斯爆炸幾乎不存在黃金救援期

油耗降一半/HEV核心部件終身質保長安藍鯨超擎雙車上市

韓國弟媳婦又給小滿買買買看看最近都忙啥了