網易首頁 > 網易號 > 正文申請入駐

AI 寫代碼太快，人類測試跟不上了，Meta 用新方法把 bug 檢出率提升 4 倍

2026-04-22 13:26:14　來源: AI前線

北京舉報

分享至

作者｜ Leela Kumili

譯者｜田橙

Meta 報告稱，通過一種即時（Just-in-Time，JiT）測試方法提升了軟件質量。該方法在代碼評審期間動態生成測試，而不是依賴長期存在、需要人工維護的測試套件。根據 Meta 的工程博客及相關研究，這一方法在 AI 輔助開發環境中將缺陷檢測能力提升了約 4 倍。

這一轉變源于代理式工作流的興起，在這種工作流中，AI 系統越來越多地生成或修改大段代碼。在這種環境下，傳統測試套件面臨更高的維護開銷且效果下降，因為脆弱的斷言和過時的覆蓋率難以及時跟上快速變化。

正如 ICT 系統測試工程師 Ankit K. 所觀察到的：

AI 生成代碼和測試的速度已經超過了人類的維護能力，JiT 測試因此幾乎成了必然選擇。

JiT 測試通過在拉取請求階段基于具體代碼差異生成測試來解決這一問題。與靜態驗證不同，該系統會推斷開發者意圖，識別潛在的失效模式，并構建有針對性的測試，在存在回歸問題時使其失敗。它專注于捕獲回歸的測試——這些測試在提議的更改上失敗，但在父版本上通過。這是通過一個結合大語言模型、程序分析和變異測試的流水線實現的，其中會注入合成缺陷以驗證生成的測試是否能夠檢測到它們。

正如 Meta 研究科學家 Mark Harman 所指出的：

這項工作體現了一種根本性的轉變：不再只是讓現有測試更穩，而是轉向去發現未來可能出現的問題。

一個關鍵組件是 Dodgy Diff 與意圖感知工作流架構，它將代碼變更重新定義為語義信號，而非文本差異。系統會分析 diff，以提取行為意圖和風險區域，然后執行意圖重建和變更風險建模，以理解哪些內容可能因此而出錯。這些信號被輸入到變異引擎中，生成“可疑”的代碼變體，用以模擬真實的失敗場景。隨后，一個基于 LLM 的測試合成層會生成與推斷意圖一致的測試，并通過過濾去除噪聲或低價值測試，最終在拉取請求中呈現結果。

正如 ICT 系統測試工程師 Ankit K. 所觀察到的：

AI 生成代碼和測試的速度已經超過了人類的維護能力，JiT 測試因此幾乎成了必然選擇。

正如 Meta 研究科學家 Mark Harman 所指出的：

這項工作體現了一種根本性的轉變：不再只是讓現有測試更穩，而是轉向去發現未來可能出現的問題。

Dodgy diff 和意圖感知工作流用于生成即時捕獲（Just-in-Time Catches）的架構

Meta 表示，該系統在超過 22,000 個生成測試上進行了評估。結果顯示，與基線生成測試相比，缺陷檢測能力提升了 4 倍；與偶然結果相比，在檢測有意義失敗方面最高提升達 20 倍。在一個評估子集中，共識別出 41 個問題，其中 8 個被確認是真實缺陷，包括若干可能影響生產環境的問題。

Mark Harman 在另一篇 LinkedIn 帖子中強調：

變異測試在學術圈沉寂了幾十年之后，終于開始走向工業界，并正在重塑實用且可擴展的軟件測試 2.0。

捕獲型 JiT 測試專為 AI 驅動的開發設計，按每次變更生成，用于在無需持續維護的情況下檢測嚴重且意外的缺陷。它們通過隨著代碼演進自動適配并將工作從人類轉移到機器，從而減少脆弱的測試套件。只有在發現有意義的問題時才需要人工審查。這將測試從靜態正確性驗證重新定義為面向特定變更的故障檢測。

https://www.infoq.com/news/2026/04/meta-jit-testing-ai-detection/

聲明：本文由 InfoQ 翻譯，未經許可禁止轉載。

會議推薦

世界模型的下一個突破在哪？Agent 從 Demo 到工程化還差什么？安全與可信這道坎怎么過？研發體系不重構，還能撐多久？

AICon 上海站 2026，4 大核心專題等你來：世界模型與多模態智能突破、Agent 架構與工程化實踐、Agent 安全與可信治理、企業級研發體系重構。14 個專題全面開放征稿。

誠摯邀請你登臺分享實戰經驗。AICon 2026，期待與你同行。

今日薦文

你也「在看」嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.