你的AI助手數據漲了21%,但CPO的慶功香檳可能開早了。
問題藏在那個"Try agent mode"按鈕里——點它的人和無視它的人,本來就不是同一批用戶。
![]()
一圖讀懂:傾向得分方法全流程
這張圖講的是產品實驗里一個經典死局:用戶主動選擇開啟AI功能時,實驗就臟了。
隨機A/B測試像拋硬幣,兩組人本來一樣。但"主動開啟"模式下,重度用戶搶著嘗鮮,輕度用戶懶得動手。你看到的21%提升,到底是AI的功勞,還是本來就是那批高活用戶的基線差異?
傾向得分(Propensity Score)就是用來拆穿這個數字幻覺的統計工具。核心邏輯一句話:先算"每個用戶選擇開啟的概率",再用這個概率重新配平兩組人,模擬隨機實驗的效果。
下面這張圖,我們逐層拆。
第一層:你的數據怎么被"選擇偏差"吃掉
原文舉了個合成數據集的例子:5萬用戶的SaaS產品,已知真實因果效應(ground truth)。直接對比開啟/未開啟AI功能的用戶,任務完成率差21個百分點。
但開啟組里滿是歷史高活、功能探索型用戶。沒開啟的組里躺著大量注冊完就沉睡的賬號。這21%里,AI的真實貢獻被嚴重高估。
產品團隊常在這里栽跟頭。CPO看儀表盤歡呼,數據科學家知道數字不能信。
第二層:傾向得分的五步拆解
這張圖的核心流程分五步,每一步都在解決同一個問題——讓兩組人"看起來像隨機分的"。
Step 1:估計傾向得分。用邏輯回歸或類似模型,基于用戶可觀測特征(歷史活躍度、功能使用深度、賬戶類型等),預測每個人選擇開啟AI功能的概率。這個概率值就是傾向得分。
Step 2:逆概率加權(Inverse-Probability Weighting)。開啟的用戶按1/概率加權,沒開啟的按1/(1-概率)加權。概率極低的開啟用戶獲得極高權重——因為他們"本來不太可能開啟,卻開了",行為更接近隨機。
Step 3:最近鄰匹配(Nearest-Neighbor Matching)。給每個開啟用戶找一個傾向得分最接近的未開啟用戶做對照,一對一配對。丟棄配不上的樣本,換取可比性。
Step 4:協變量平衡檢驗。加權或匹配后,檢查兩組人在關鍵特征上是否還顯著不同。如果歷史活躍度仍不平衡,模型需要回爐。
Step 5:Bootstrap置信區間。重復抽樣1000次,看效應估計的波動范圍。點估計漂亮但區間過寬?說明不確定性被低估了。
第三層:方法什么時候會崩
這張圖沒畫出來的隱藏關卡:傾向得分救不了所有場景。
如果"選擇開啟"背后有未觀測到的因素——比如用戶私下聽說了AI功能的好口碑,或某個部門領導強制要求團隊試用——這些變量沒進模型,偏差洗不干凈。
原文特別提醒:當處理效應異質性很強時(AI對高活用戶幫助大、對低活用戶沒用甚至干擾),單一的平均處理效應(ATE)會掩蓋真相。你可能需要估計條件平均處理效應(CATE),按用戶分層看效果。
另一個雷區是傾向得分重疊不足。如果某類用戶幾乎100%開啟或100%不開啟,加權或匹配都找不到對照,這部分樣本只能丟棄,外部有效性受損。
為什么產品團隊該關心這個
生成式AI產品遍地"主動開啟"模式:智能回復、代碼建議、AI助手。每個toggle背后都是同一個測量難題。
不做因果推斷,你的"功能成功故事"可能是自我選擇偏差的副產品。做了但方法錯了,你會把資源砸向實際無效的功能,或 kill 掉真正有幫助但信號被噪音淹沒的產品。
原文的GitHub倉庫提供了完整可運行的Python代碼(psm_demo.ipynb),用合成數據演示了全流程。合成數據的好處是真實效應已知,你能直觀看到各種方法偏了多少。
對于25-40歲的科技從業者,這套方法的價值不在于背公式,而在于建立直覺:看到"用戶自主選擇"的實驗設計,第一反應是質疑可比性,第二反應是找工具修復它。
產品實驗的終極貨幣是因果,不是相關。21%的增長數字,只有經過這種拆解,才值得寫進OKR。
你的上一個AI功能上線時,團隊是怎么處理選擇偏差的?還是直接信了儀表盤?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.