AI像電影人一樣「看」視頻，8B小模型反超GPT-5與Gemini-3.1-Pro

2026-05-08 15:53:06　來源: 機(jī)器之心Pro

天津舉報(bào)

分享至

團(tuán)隊(duì)一作林之秋（Zhiqiu Lin）是卡內(nèi)基梅隆大學(xué)（CMU）機(jī)器人研究所的博士，研究方向涵蓋視覺 - 語言大模型的評估、數(shù)據(jù)與生成；前作 CameraBench 曾獲 NeurIPS’25 Spotlight（Top 3%）。二作 Chancharik Mitra 即將前往麻省理工學(xué)院（MIT）攻讀博士，專注于多模態(tài)大模型。本工作由 CMU 與哈佛大學(xué)合作完成。

先來做一個(gè)小實(shí)驗(yàn)：把希區(qū)柯克變焦（dolly zoom）、拉焦（rack focus）、荷蘭角（Dutch angle）或變速剪輯（speed ramp）這幾個(gè)詞，輸入到大部分主流視頻生成器里。結(jié)果幾乎都一樣，你只會(huì)得到一個(gè)普通的推鏡，或一段平庸的慢動(dòng)作。

原因很簡單：這些技法對應(yīng)著電影人之間通用的一套「鏡頭語言」，而當(dāng)前的視覺 - 語言大模型幾乎聽不懂。

視頻鏈接：https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA

近日，由 CMU 聯(lián)合哈佛大學(xué)組成的研究團(tuán)隊(duì)推出了CHAI（Critique-based Human-AI Oversight），一整套從「標(biāo)注體系」「可擴(kuò)展監(jiān)督」到「后訓(xùn)練方法」再到「視頻生成」的完整方案。該工作已被CVPR 2026 接收為 Highlight 論文（Top 3%）。

論文鏈接：https://arxiv.org/abs/2604.21718
代碼：https://github.com/chancharikmitra/CHAI

圖 1：CHAI 的整體方案。上半（紅）是過往視頻字幕工作的三大短板：缺乏統(tǒng)一規(guī)范、僅用人類或模型標(biāo)注、僅憑輸出對比做后訓(xùn)練；下半（藍(lán)）是 CHAI 的對應(yīng)方案：精準(zhǔn)的結(jié)構(gòu)化規(guī)范、可擴(kuò)展的人機(jī)監(jiān)督、基于顯式偏好與批改的后訓(xùn)練，最終反哺出更專業(yè)的視頻生成。

概述：CHAI 的四塊拼圖

CHAI 不是一個(gè)單獨(dú)的模型，而是一整套面向精準(zhǔn)視頻語言的落地方案，由四塊拼圖組成：

標(biāo)注體系（Specification）：覆蓋主體、場景、動(dòng)作、空間構(gòu)圖和移動(dòng)、鏡頭參數(shù)和運(yùn)動(dòng) 5 大維度，由 200+ 個(gè)與職業(yè)攝影師共同設(shè)計(jì)的視覺基元支撐。
可擴(kuò)展監(jiān)督（Scalable Oversight）：讓 LLM 起草字幕，由人類專家給出批改（critique），指出錯(cuò)誤并提供修正，再交由 AI 改寫。這一過程讓 AI 負(fù)責(zé)寫作，人類專注糾錯(cuò)，各司其長。
后訓(xùn)練方法（Post-Training）：基于（初稿，批改，終稿），同時(shí)訓(xùn)練字幕、獎(jiǎng)勵(lì)模型與批改模型。團(tuán)隊(duì)訓(xùn)練的 Qwen3-VL-8B 開源小模型得以反超閉源的 Gemini-3.1-Pro 與 GPT-5。
更好的視頻生成（Better Generation）：用后訓(xùn)練好的模型重新對專業(yè)視頻打字幕，再微調(diào) Wan2.2，使其能聽懂長達(dá) 400 英文詞的電影級指令，精準(zhǔn)生成希區(qū)柯克變焦、拉焦、荷蘭角、變速、等距視角等專業(yè)攝影技法。

一、標(biāo)注體系：把電影人的鏡頭語言寫下來

過去的視頻文本數(shù)據(jù)集（如 ActivityNet、MSR-VTT、PerceptionLM）由于缺乏字幕規(guī)范，常見問題包括：混淆 dolly-in（推軌）與 zoom-in（變焦），遺漏關(guān)鍵相機(jī)與變焦細(xì)節(jié)，用「氛圍感足」「讓人熱血沸騰」等主觀描述代替客觀視覺內(nèi)容。

電影人以及更廣泛的視頻創(chuàng)作者則沒有這個(gè)問題。他們用拉焦（rack focus）、荷蘭角（Dutch angle）、中景（medium full shot）這樣的專業(yè)術(shù)語在片場與團(tuán)隊(duì)實(shí)現(xiàn)了精準(zhǔn)的溝通、協(xié)作。CHAI 正是把這套影視行業(yè)內(nèi)的通用詞匯整理成了一套清晰的標(biāo)注體系。

圖 2：與 100+ 位職業(yè)視頻創(chuàng)作者歷時(shí)一年共建的標(biāo)注體系。左（紅）：過往數(shù)據(jù)集的三類典型問題，包括術(shù)語含混、信息缺失、主觀描述；右（藍(lán)）：CHAI 的結(jié)構(gòu)化標(biāo)注體系及配套的標(biāo)注規(guī)則與教程。

CHAI 的字幕標(biāo)注覆蓋 5 大維度：

主體（Subject）：類型、外觀、姿態(tài)、主體關(guān)系等
? 場景（Scene）：視角、疊加元素、環(huán)境、時(shí)間等
動(dòng)作（Motion）：動(dòng)作行為、人物互動(dòng)、群體動(dòng)態(tài)等
空間構(gòu)圖和移動(dòng)（Spatial）：景別、畫面位置、縱深、空間運(yùn)動(dòng)等
鏡頭參數(shù)和運(yùn)動(dòng)（Camera）：機(jī)位高度、角度、焦距、聚焦、穩(wěn)定度、運(yùn)動(dòng)軌跡等

圖 3：CHAI 的視頻語言分類體系：各一級維度進(jìn)一步細(xì)分為多個(gè)子維度，并由 200 余個(gè)視覺與運(yùn)動(dòng)基元支撐，實(shí)現(xiàn)對視頻內(nèi)容的精細(xì)化表達(dá)。

二、可擴(kuò)展監(jiān)督：AI 起草，人類批改

規(guī)范告訴你「描述什么」，但「誰來寫」仍是個(gè)問題。

人類親手寫的字幕常見問題有：錯(cuò)別字、語法錯(cuò)誤、事件順序混亂。模型寫的字幕：行文流暢，卻經(jīng)常憑空捏造畫面里沒有的物體和動(dòng)作（模型幻覺）。

CHAI 的核心思路是可擴(kuò)展監(jiān)督（Scalable Oversight）：讓模型負(fù)責(zé)寫作，讓人類專注發(fā)現(xiàn)字幕中的視覺與動(dòng)作錯(cuò)誤，各司其長。

CHAI 的標(biāo)注流程由此被重新設(shè)計(jì)為「AI— 專家 —AI」的三段式協(xié)作：模型先按既定規(guī)范生成一份覆蓋全面的「pre-caption」初稿，專家隨后在初稿基礎(chǔ)上指出錯(cuò)誤并提出修改建議（critique），無需從零撰寫字幕；模型再依據(jù)專家的批改意見進(jìn)行改寫，生成準(zhǔn)確的「post-caption」終稿。

同時(shí)，CHAI 引入同行評審獎(jiǎng)勵(lì)機(jī)制：標(biāo)注越準(zhǔn)確，獎(jiǎng)勵(lì)越高；審核糾錯(cuò)同樣有獎(jiǎng)勵(lì)。這一舉措顯著提升了標(biāo)注的質(zhì)量。

圖 4：左（紅）：傳統(tǒng)純?nèi)斯せ蚣兡Ｐ蜆?biāo)注的三類問題，包括視覺幻覺、行文糟糕、細(xì)節(jié)不準(zhǔn)；右（藍(lán)）：CHAI 的可擴(kuò)展監(jiān)督框架。AI 基于基元生成初稿（pre-caption），人類用批改（critique）把幻覺與細(xì)節(jié)錯(cuò)誤指出來，再由 AI 生成終稿（post-caption）；標(biāo)注員與審核員之間則通過同行評審獎(jiǎng)勵(lì)機(jī)制相互制衡。

把標(biāo)注員工作重心從「寫作」轉(zhuǎn)向「校對」，他們對單個(gè)視頻的認(rèn)知負(fù)擔(dān)得以顯著降低，卻能產(chǎn)出準(zhǔn)確度更高的 200–400 詞長字幕。

三、后訓(xùn)練效果：8B 小模型反超 GPT-5 與 Gemini-3.1-Pro

CHAI 流水線產(chǎn)出的不只是字幕，而是（pre-caption, critique, post-caption）三元組：一份數(shù)據(jù)，同時(shí)可以訓(xùn)練三種模型能力，包括字幕生成、獎(jiǎng)勵(lì)建模、批改生成。

CHAI 團(tuán)隊(duì)發(fā)現(xiàn)：批改的質(zhì)量，決定了模型能力。

圖 5：一條好的批改必須同時(shí)滿足三個(gè)屬性：準(zhǔn)確（precision）、完整（recall）、有建設(shè)性（constructive）。CHAI 的標(biāo)注機(jī)制通過強(qiáng)制標(biāo)注員撰寫高質(zhì)量批改，直接指導(dǎo)模型改寫，自然實(shí)現(xiàn)了這三點(diǎn)。

為了證明這一點(diǎn)，團(tuán)隊(duì)做了一組對比實(shí)驗(yàn)：分別削弱批改的某一項(xiàng)屬性，觀察對下游任務(wù)的影響。

研究得出三項(xiàng)關(guān)鍵結(jié)論。其一，在模型訓(xùn)練時(shí)加入獎(jiǎng)勵(lì)（reward）和批改（critique）的數(shù)據(jù)能夠顯著提升 SFT 與 RL 的效果，僅 8B 參數(shù)的 Qwen3-VL 經(jīng)過后訓(xùn)練，便在多項(xiàng)關(guān)鍵評測上反超閉源的 Gemini-3.1-Pro 與 GPT-5。其二，批改質(zhì)量是真正的瓶頸所在，準(zhǔn)確性、完整性、和建設(shè)性三者缺一不可；然而過往工作（如 OpenAI GDC、MM-RLHF）所收集的批改樣本中，超過 50% 屬于非建設(shè)性反饋。其三，推理時(shí)擴(kuò)展（Inference-Time Scaling）同樣適用于這一框架，以同一份獎(jiǎng)勵(lì)模型進(jìn)行 best-of-N 選擇，無需新增數(shù)據(jù)，性能即可持續(xù)提升。

四、更準(zhǔn)的理解 → 更好的生成

視頻字幕做得更準(zhǔn)之后，最直接的下游應(yīng)用就是視頻生成。

研究團(tuán)隊(duì)用后訓(xùn)練好的字幕模型，重新對大規(guī)模專業(yè)視頻（電影、廣告、MV、游戲畫面）進(jìn)行打標(biāo)，再以這些數(shù)據(jù)微調(diào) Wan2.2。結(jié)果：模型可以聽懂長達(dá) 400 詞的電影級指令，對那些開源生成器（Wan2.2）普遍翻車的技法實(shí)現(xiàn)精準(zhǔn)生成。

圖 6：在重新打標(biāo)的專業(yè)視頻上微調(diào)后，Wan2.2 對詳細(xì)的電影級指令顯著更忠實(shí)，可以精準(zhǔn)執(zhí)行希區(qū)柯克變焦（上）、保持 2.5D 等距視角（下）等過往視頻模型頻繁失敗的復(fù)雜技法。

下面是更多團(tuán)隊(duì)展示的「電影技法」生成樣例：

荷蘭角（Dutch Angle）畫面地平線傾斜

視頻鏈接：https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA

拉焦（Rack Focus）焦點(diǎn)在不同平面切換

視頻鏈接：https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA

為什么不用眾包？為什么過去的標(biāo)注總是失敗？

在請來職業(yè)創(chuàng)作者之前，團(tuán)隊(duì)也嘗試過眾包工人。結(jié)果？眾包標(biāo)注員仍然分不清推軌（dolly-in）與變焦（zoom-in）、把全景鏡頭（full shot）叫成特寫（close-up shot）、把魚眼鏡頭（fisheye lens）造成的建筑物變形描述成「圓形的建筑」。

圖 7：眾包標(biāo)注員描述常見鏡頭技法時(shí)的典型錯(cuò)誤。把鳥瞰鏡頭叫「鳥瞰視圖」、把魚眼鏡頭看作「圓形建筑」、把推焦鏡頭描述為「推軌鏡頭」等，反映出他們?nèi)狈︾R頭語言的基本視覺詞匯。

為進(jìn)一步驗(yàn)證這一判斷，團(tuán)隊(duì)系統(tǒng)評估了 2016 至 2025 年間發(fā)布的 8 個(gè)公開視頻 - 文本數(shù)據(jù)集（包括 MSR-VTT、PerceptionLM、Dream1K 等），結(jié)果指向兩類反復(fù)出現(xiàn)的問題。其一源于標(biāo)注規(guī)則缺失，術(shù)語含混、關(guān)鍵信息缺失；其二源于監(jiān)督不足，導(dǎo)致行文混亂與細(xì)節(jié)失真。無論擴(kuò)大模型規(guī)模還是增加數(shù)據(jù)體量，都難以解決，根本問題在于流程，必須從數(shù)據(jù)標(biāo)注源頭入手。這一發(fā)現(xiàn)直接促成了 CHAI 團(tuán)隊(duì)和 100+ 位職業(yè)視頻創(chuàng)作者的長期合作。

寫在最后：開源生態(tài)

為了支持后續(xù)研究與產(chǎn)業(yè)落地，CHAI 團(tuán)隊(duì)完整開源了：標(biāo)注體系、培訓(xùn)教材、標(biāo)注平臺、質(zhì)控流程、數(shù)據(jù)、代碼與模型。

項(xiàng)目主頁：https://linzhiqiu.github.io/papers/chai/

CHAI 是該 CMU 團(tuán)隊(duì)「精準(zhǔn)視頻語言」研究計(jì)劃中的一環(huán)。同期推進(jìn)的還有兩項(xiàng)工作：CameraBench（NeurIPS'25 Spotlight，入選率前 3%）作為相機(jī)運(yùn)動(dòng)理解的前作基準(zhǔn)，包含約 3000 個(gè)專家標(biāo)注視頻、一套完整的運(yùn)動(dòng)基元分類體系，以及對 SfM 與 VLM 方法的系統(tǒng)性評測；Moodio 與 CameraBench-Pro（2026 年 5 月發(fā)布）則在此基礎(chǔ)上更進(jìn)一步，基于 225 個(gè)電影級基元與 150 萬余條專業(yè)標(biāo)注，面向?qū)I(yè)視頻制作場景打造 AI 協(xié)作工具。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.