<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      AI像電影人一樣「看」視頻,8B小模型反超GPT-5與Gemini-3.1-Pro

      0
      分享至



      團(tuán)隊(duì)一作林之秋(Zhiqiu Lin)是卡內(nèi)基梅隆大學(xué)(CMU)機(jī)器人研究所的博士,研究方向涵蓋視覺 - 語言大模型的評估、數(shù)據(jù)與生成;前作 CameraBench 曾獲 NeurIPS’25 Spotlight(Top 3%)。二作 Chancharik Mitra 即將前往麻省理工學(xué)院(MIT)攻讀博士,專注于多模態(tài)大模型。本工作由 CMU 與哈佛大學(xué)合作完成。

      先來做一個(gè)小實(shí)驗(yàn):把希區(qū)柯克變焦(dolly zoom)、拉焦(rack focus)、荷蘭角(Dutch angle)或變速剪輯(speed ramp)這幾個(gè)詞,輸入到大部分主流視頻生成器里。結(jié)果幾乎都一樣,你只會(huì)得到一個(gè)普通的推鏡,或一段平庸的慢動(dòng)作。

      原因很簡單:這些技法對應(yīng)著電影人之間通用的一套「鏡頭語言」,而當(dāng)前的視覺 - 語言大模型幾乎聽不懂。



      視頻鏈接:https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA

      近日,由 CMU 聯(lián)合哈佛大學(xué)組成的研究團(tuán)隊(duì)推出了CHAI(Critique-based Human-AI Oversight),一整套從「標(biāo)注體系」「可擴(kuò)展監(jiān)督」到「后訓(xùn)練方法」再到「視頻生成」的完整方案。該工作已被CVPR 2026 接收為 Highlight 論文(Top 3%)



      • 論文鏈接:https://arxiv.org/abs/2604.21718
      • 代碼:https://github.com/chancharikmitra/CHAI



      圖 1:CHAI 的整體方案。上半(紅)是過往視頻字幕工作的三大短板:缺乏統(tǒng)一規(guī)范、僅用人類或模型標(biāo)注、僅憑輸出對比做后訓(xùn)練;下半(藍(lán))是 CHAI 的對應(yīng)方案:精準(zhǔn)的結(jié)構(gòu)化規(guī)范、可擴(kuò)展的人機(jī)監(jiān)督、基于顯式偏好與批改的后訓(xùn)練,最終反哺出更專業(yè)的視頻生成。

      概述:CHAI 的四塊拼圖

      CHAI 不是一個(gè)單獨(dú)的模型,而是一整套面向精準(zhǔn)視頻語言的落地方案,由四塊拼圖組成:

      1. 標(biāo)注體系(Specification):覆蓋主體、場景、動(dòng)作、空間構(gòu)圖和移動(dòng)、鏡頭參數(shù)和運(yùn)動(dòng) 5 大維度,由 200+ 個(gè)與職業(yè)攝影師共同設(shè)計(jì)的視覺基元支撐。
      2. 可擴(kuò)展監(jiān)督(Scalable Oversight):讓 LLM 起草字幕,由人類專家給出批改(critique),指出錯(cuò)誤并提供修正,再交由 AI 改寫。這一過程讓 AI 負(fù)責(zé)寫作,人類專注糾錯(cuò),各司其長。
      3. 后訓(xùn)練方法(Post-Training):基于(初稿,批改,終稿),同時(shí)訓(xùn)練字幕、獎(jiǎng)勵(lì)模型與批改模型。團(tuán)隊(duì)訓(xùn)練的 Qwen3-VL-8B 開源小模型得以反超閉源的 Gemini-3.1-Pro 與 GPT-5。
      4. 更好的視頻生成(Better Generation):用后訓(xùn)練好的模型重新對專業(yè)視頻打字幕,再微調(diào) Wan2.2,使其能聽懂長達(dá) 400 英文詞的電影級指令,精準(zhǔn)生成希區(qū)柯克變焦、拉焦、荷蘭角、變速、等距視角等專業(yè)攝影技法。

      一、標(biāo)注體系:把電影人的鏡頭語言寫下來

      過去的視頻文本數(shù)據(jù)集(如 ActivityNet、MSR-VTT、PerceptionLM)由于缺乏字幕規(guī)范,常見問題包括:混淆 dolly-in(推軌)與 zoom-in(變焦),遺漏關(guān)鍵相機(jī)與變焦細(xì)節(jié),用「氛圍感足」「讓人熱血沸騰」等主觀描述代替客觀視覺內(nèi)容。

      電影人以及更廣泛的視頻創(chuàng)作者則沒有這個(gè)問題。他們用拉焦(rack focus)、荷蘭角(Dutch angle)、中景(medium full shot)這樣的專業(yè)術(shù)語在片場與團(tuán)隊(duì)實(shí)現(xiàn)了精準(zhǔn)的溝通、協(xié)作。CHAI 正是把這套影視行業(yè)內(nèi)的通用詞匯整理成了一套清晰的標(biāo)注體系



      圖 2:與 100+ 位職業(yè)視頻創(chuàng)作者歷時(shí)一年共建的標(biāo)注體系。左(紅):過往數(shù)據(jù)集的三類典型問題,包括術(shù)語含混、信息缺失、主觀描述;右(藍(lán)):CHAI 的結(jié)構(gòu)化標(biāo)注體系及配套的標(biāo)注規(guī)則與教程。

      CHAI 的字幕標(biāo)注覆蓋 5 大維度:

      • 主體(Subject):類型、外觀、姿態(tài)、主體關(guān)系等
      • ? 場景(Scene):視角、疊加元素、環(huán)境、時(shí)間等
      • 動(dòng)作(Motion):動(dòng)作行為、人物互動(dòng)、群體動(dòng)態(tài)等
      • 空間構(gòu)圖和移動(dòng)(Spatial):景別、畫面位置、縱深、空間運(yùn)動(dòng)等
      • 鏡頭參數(shù)和運(yùn)動(dòng)(Camera):機(jī)位高度、角度、焦距、聚焦、穩(wěn)定度、運(yùn)動(dòng)軌跡等



      圖 3:CHAI 的視頻語言分類體系:各一級維度進(jìn)一步細(xì)分為多個(gè)子維度,并由 200 余個(gè)視覺與運(yùn)動(dòng)基元支撐,實(shí)現(xiàn)對視頻內(nèi)容的精細(xì)化表達(dá)。

      二、可擴(kuò)展監(jiān)督:AI 起草,人類批改

      規(guī)范告訴你「描述什么」,但「誰來寫」仍是個(gè)問題。

      人類親手寫的字幕常見問題有:錯(cuò)別字、語法錯(cuò)誤、事件順序混亂。模型寫的字幕:行文流暢,卻經(jīng)常憑空捏造畫面里沒有的物體和動(dòng)作(模型幻覺)。

      CHAI 的核心思路是可擴(kuò)展監(jiān)督(Scalable Oversight):讓模型負(fù)責(zé)寫作,讓人類專注發(fā)現(xiàn)字幕中的視覺與動(dòng)作錯(cuò)誤,各司其長

      CHAI 的標(biāo)注流程由此被重新設(shè)計(jì)為「AI— 專家 —AI」的三段式協(xié)作:模型先按既定規(guī)范生成一份覆蓋全面的「pre-caption」初稿,專家隨后在初稿基礎(chǔ)上指出錯(cuò)誤并提出修改建議(critique),無需從零撰寫字幕;模型再依據(jù)專家的批改意見進(jìn)行改寫,生成準(zhǔn)確的「post-caption」終稿。

      同時(shí),CHAI 引入同行評審獎(jiǎng)勵(lì)機(jī)制:標(biāo)注越準(zhǔn)確,獎(jiǎng)勵(lì)越高;審核糾錯(cuò)同樣有獎(jiǎng)勵(lì)。這一舉措顯著提升了標(biāo)注的質(zhì)量。



      圖 4:左(紅):傳統(tǒng)純?nèi)斯せ蚣兡P蜆?biāo)注的三類問題,包括視覺幻覺、行文糟糕、細(xì)節(jié)不準(zhǔn);右(藍(lán)):CHAI 的可擴(kuò)展監(jiān)督框架。AI 基于基元生成初稿(pre-caption),人類用批改(critique)把幻覺與細(xì)節(jié)錯(cuò)誤指出來,再由 AI 生成終稿(post-caption);標(biāo)注員與審核員之間則通過同行評審獎(jiǎng)勵(lì)機(jī)制相互制衡。

      把標(biāo)注員工作重心從「寫作」轉(zhuǎn)向「校對」,他們對單個(gè)視頻的認(rèn)知負(fù)擔(dān)得以顯著降低,卻能產(chǎn)出準(zhǔn)確度更高的 200–400 詞長字幕。

      三、后訓(xùn)練效果:8B 小模型反超 GPT-5 與 Gemini-3.1-Pro

      CHAI 流水線產(chǎn)出的不只是字幕,而是(pre-caption, critique, post-caption)三元組:一份數(shù)據(jù),同時(shí)可以訓(xùn)練三種模型能力,包括字幕生成、獎(jiǎng)勵(lì)建模、批改生成。

      CHAI 團(tuán)隊(duì)發(fā)現(xiàn):批改的質(zhì)量,決定了模型能力



      圖 5:一條好的批改必須同時(shí)滿足三個(gè)屬性:準(zhǔn)確(precision)、完整(recall)、有建設(shè)性(constructive)。CHAI 的標(biāo)注機(jī)制通過強(qiáng)制標(biāo)注員撰寫高質(zhì)量批改,直接指導(dǎo)模型改寫,自然實(shí)現(xiàn)了這三點(diǎn)。

      為了證明這一點(diǎn),團(tuán)隊(duì)做了一組對比實(shí)驗(yàn):分別削弱批改的某一項(xiàng)屬性,觀察對下游任務(wù)的影響。



      研究得出三項(xiàng)關(guān)鍵結(jié)論。其一,在模型訓(xùn)練時(shí)加入獎(jiǎng)勵(lì)(reward)和批改(critique)的數(shù)據(jù)能夠顯著提升 SFT 與 RL 的效果,僅 8B 參數(shù)的 Qwen3-VL 經(jīng)過后訓(xùn)練,便在多項(xiàng)關(guān)鍵評測上反超閉源的 Gemini-3.1-Pro 與 GPT-5。其二,批改質(zhì)量是真正的瓶頸所在,準(zhǔn)確性、完整性、和建設(shè)性三者缺一不可;然而過往工作(如 OpenAI GDC、MM-RLHF)所收集的批改樣本中,超過 50% 屬于非建設(shè)性反饋。其三,推理時(shí)擴(kuò)展(Inference-Time Scaling)同樣適用于這一框架,以同一份獎(jiǎng)勵(lì)模型進(jìn)行 best-of-N 選擇,無需新增數(shù)據(jù),性能即可持續(xù)提升。

      四、更準(zhǔn)的理解 → 更好的生成

      視頻字幕做得更準(zhǔn)之后,最直接的下游應(yīng)用就是視頻生成

      研究團(tuán)隊(duì)用后訓(xùn)練好的字幕模型,重新對大規(guī)模專業(yè)視頻(電影、廣告、MV、游戲畫面)進(jìn)行打標(biāo),再以這些數(shù)據(jù)微調(diào) Wan2.2。結(jié)果:模型可以聽懂長達(dá) 400 詞的電影級指令,對那些開源生成器(Wan2.2)普遍翻車的技法實(shí)現(xiàn)精準(zhǔn)生成。





      圖 6:在重新打標(biāo)的專業(yè)視頻上微調(diào)后,Wan2.2 對詳細(xì)的電影級指令顯著更忠實(shí),可以精準(zhǔn)執(zhí)行希區(qū)柯克變焦(上)、保持 2.5D 等距視角(下)等過往視頻模型頻繁失敗的復(fù)雜技法。

      下面是更多團(tuán)隊(duì)展示的「電影技法」生成樣例:



      荷蘭角(Dutch Angle)畫面地平線傾斜

      視頻鏈接:https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA



      拉焦(Rack Focus)焦點(diǎn)在不同平面切換

      視頻鏈接:https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA

      為什么不用眾包?為什么過去的標(biāo)注總是失敗?

      在請來職業(yè)創(chuàng)作者之前,團(tuán)隊(duì)也嘗試過眾包工人。結(jié)果?眾包標(biāo)注員仍然分不清 推軌(dolly-in)與 變焦 (zoom-in)、把全景鏡頭(full shot)叫成 特寫(close-up shot)、把魚眼鏡頭(fisheye lens)造成的建筑物變形描述成「圓形的建筑」。



      圖 7:眾包標(biāo)注員描述常見鏡頭技法時(shí)的典型錯(cuò)誤。把鳥瞰鏡頭叫「鳥瞰視圖」、把魚眼鏡頭看作「圓形建筑」、把推焦鏡頭描述為「推軌鏡頭」等,反映出他們?nèi)狈︾R頭語言的基本視覺詞匯。

      為進(jìn)一步驗(yàn)證這一判斷,團(tuán)隊(duì)系統(tǒng)評估了 2016 至 2025 年間發(fā)布的 8 個(gè)公開視頻 - 文本數(shù)據(jù)集(包括 MSR-VTT、PerceptionLM、Dream1K 等),結(jié)果指向兩類反復(fù)出現(xiàn)的問題。其一源于標(biāo)注規(guī)則缺失,術(shù)語含混、關(guān)鍵信息缺失;其二源于監(jiān)督不足,導(dǎo)致行文混亂與細(xì)節(jié)失真。無論擴(kuò)大模型規(guī)模還是增加數(shù)據(jù)體量,都難以解決,根本問題在于流程,必須從數(shù)據(jù)標(biāo)注源頭入手。這一發(fā)現(xiàn)直接促成了 CHAI 團(tuán)隊(duì)和 100+ 位職業(yè)視頻創(chuàng)作者的長期合作。

      寫在最后:開源生態(tài)

      為了支持后續(xù)研究與產(chǎn)業(yè)落地,CHAI 團(tuán)隊(duì)完整開源了:標(biāo)注體系、培訓(xùn)教材、標(biāo)注平臺、質(zhì)控流程、數(shù)據(jù)、代碼與模型。

      項(xiàng)目主頁:https://linzhiqiu.github.io/papers/chai/

      CHAI 是該 CMU 團(tuán)隊(duì)「精準(zhǔn)視頻語言」研究計(jì)劃中的一環(huán)。同期推進(jìn)的還有兩項(xiàng)工作:CameraBench(NeurIPS'25 Spotlight,入選率前 3%)作為相機(jī)運(yùn)動(dòng)理解的前作基準(zhǔn),包含約 3000 個(gè)專家標(biāo)注視頻、一套完整的運(yùn)動(dòng)基元分類體系,以及對 SfM 與 VLM 方法的系統(tǒng)性評測;Moodio 與 CameraBench-Pro(2026 年 5 月發(fā)布)則在此基礎(chǔ)上更進(jìn)一步,基于 225 個(gè)電影級基元與 150 萬余條專業(yè)標(biāo)注,面向?qū)I(yè)視頻制作場景打造 AI 協(xié)作工具。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      廣東一網(wǎng)紅粥店被曝用掃把洗鍋,同一把掃把還洗墻、掃地,食客:那口鍋剛炒完我們的粉!

      廣東一網(wǎng)紅粥店被曝用掃把洗鍋,同一把掃把還洗墻、掃地,食客:那口鍋剛炒完我們的粉!

      深圳晚報(bào)
      2026-05-14 22:54:15
      突破4000億!蘇州誕生史上最高市值上市公司,背后父子身價(jià)1個(gè)月暴漲近千億

      突破4000億!蘇州誕生史上最高市值上市公司,背后父子身價(jià)1個(gè)月暴漲近千億

      創(chuàng)客公社-江蘇第一創(chuàng)投媒體
      2026-05-14 20:08:41
      光通信這13家硬核龍頭才是隱形主線,國家隊(duì)早已悄悄布局!

      光通信這13家硬核龍頭才是隱形主線,國家隊(duì)早已悄悄布局!

      Thurman在昆明
      2026-05-14 16:52:43
      史上最差美聯(lián)儲主席,卸任了

      史上最差美聯(lián)儲主席,卸任了

      子業(yè)一說財(cái)經(jīng)
      2026-05-14 15:52:20
      英偉達(dá)H200獲批賣10家中國公司,但貨能不能到還得看中方臉色

      英偉達(dá)H200獲批賣10家中國公司,但貨能不能到還得看中方臉色

      別打我我投降
      2026-05-14 18:51:05
      沿江高速前海段下沉可能沒戲了

      沿江高速前海段下沉可能沒戲了

      奇思妙想生活家
      2026-05-14 18:48:18
      米切爾:哈登帶來的影響不僅在于他的統(tǒng)治力 他簡直是籃球大師

      米切爾:哈登帶來的影響不僅在于他的統(tǒng)治力 他簡直是籃球大師

      北青網(wǎng)-北京青年報(bào)
      2026-05-14 21:20:20
      山東中小學(xué) 2026 暑假放假時(shí)間匯總

      山東中小學(xué) 2026 暑假放假時(shí)間匯總

      山東教育
      2026-05-14 22:34:03
      皇馬贏得了世界上最令人沮喪的勝利

      皇馬贏得了世界上最令人沮喪的勝利

      綠茵情報(bào)局
      2026-05-15 05:50:20
      百年騙局終結(jié)!河南小城一鳴驚人,820萬降至169元,巨頭破產(chǎn)

      百年騙局終結(jié)!河南小城一鳴驚人,820萬降至169元,巨頭破產(chǎn)

      聞識
      2026-05-14 18:05:42
      看了《主角》才發(fā)現(xiàn),觀眾討厭的不是關(guān)系戶,而是丑還沒演技的

      看了《主角》才發(fā)現(xiàn),觀眾討厭的不是關(guān)系戶,而是丑還沒演技的

      科學(xué)發(fā)掘
      2026-05-15 00:47:28
      法國公布世界杯26人名單:姆巴佩領(lǐng)銜 總價(jià)14.7億歐 皇馬中場落選

      法國公布世界杯26人名單:姆巴佩領(lǐng)銜 總價(jià)14.7億歐 皇馬中場落選

      我愛英超
      2026-05-15 06:38:44
      美股收盤:納指、標(biāo)普500指數(shù)再創(chuàng)新高 英偉達(dá)市值逼近6萬億美元

      美股收盤:納指、標(biāo)普500指數(shù)再創(chuàng)新高 英偉達(dá)市值逼近6萬億美元

      財(cái)聯(lián)社
      2026-05-15 05:04:06
      軍費(fèi)90億卻砸120億?美印看懵,巴鐵清空中國武器,背后金主攤牌

      軍費(fèi)90億卻砸120億?美印看懵,巴鐵清空中國武器,背后金主攤牌

      小蘭聊歷史
      2026-04-20 16:20:42
      Skip談?wù)材匪沽艉岁?duì)可能性:他們想把你趕走,只會(huì)給你老將底薪

      Skip談?wù)材匪沽艉岁?duì)可能性:他們想把你趕走,只會(huì)給你老將底薪

      好火子
      2026-05-15 05:14:57
      上海乒羽主任:樊振東是國乒獨(dú)一無二的領(lǐng)軍人物 比王楚欽高出一塊

      上海乒羽主任:樊振東是國乒獨(dú)一無二的領(lǐng)軍人物 比王楚欽高出一塊

      818體育
      2026-05-14 23:56:01
      歡迎特朗普總統(tǒng)

      歡迎特朗普總統(tǒng)

      新民周刊
      2026-05-14 08:06:23
      烏克蘭攤牌:不要領(lǐng)土了,要徹底廢掉俄羅斯的戰(zhàn)爭能力

      烏克蘭攤牌:不要領(lǐng)土了,要徹底廢掉俄羅斯的戰(zhàn)爭能力

      林子說事
      2026-05-14 18:39:12
      哈登拿下天王山后,NBA奪冠概率更新!騎士3.6%升第4馬刺屈居第3

      哈登拿下天王山后,NBA奪冠概率更新!騎士3.6%升第4馬刺屈居第3

      鍋?zhàn)踊@球
      2026-05-14 16:20:23
      鄭強(qiáng)翻車,翻得一點(diǎn)也不冤!

      鄭強(qiáng)翻車,翻得一點(diǎn)也不冤!

      梳子姐
      2026-05-13 12:19:44
      2026-05-15 07:35:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12996文章數(shù) 142648關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克說會(huì)談很順利 黃仁勛點(diǎn)贊 庫克比耶

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      體育要聞

      爭議抽象天王山,和季后賽最穩(wěn)定中鋒

      娛樂要聞

      何九華官宣當(dāng)爸!全程不提孩子?jì)?/h3>

      財(cái)經(jīng)要聞

      李強(qiáng)會(huì)見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調(diào)光天幕 啟境GT7內(nèi)飾發(fā)布

      態(tài)度原創(chuàng)

      藝術(shù)
      本地
      親子
      健康
      公開課

      藝術(shù)要聞

      花園里,花叢中

      本地新聞

      用蘇繡的方式,打開江西婺源

      親子要聞

      孤獨(dú)癥特教老師的工作,遠(yuǎn)不止“教說話”!(下)

      專家揭秘干細(xì)胞回輸?shù)陌踩L(fēng)險(xiǎn)

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 中文字幕亚洲乱码熟女在线萌芽| 色综综| 国产一本二本三本在线观看| 久久久久99人妻一区二区三区| 91导航|综合网| 精品国产美女av久久久久| 999精品视频在线| 国产精品老熟女露脸视频| 99精品人妻少妇一区| 开心五月综合亚洲| 亚洲最大在线精品| 成人妇女免费播放久久久| 日本一卡二卡3卡四卡网站精品| 黑人大长吊大战中国人妻| 全部免费毛片在线播放| 中文字幕AV伊人AV无码AV| 少妇精品亚洲一区二区成人| 国产乱人伦无无码视频试看| 久久久老熟女一区二区三区| 亚洲国产精品久久艾草| 久久国产精品伊人青青草| 亚洲中文字| 国产一区在线视频观看| 久久久久国产精品人妻aⅴ武则天| 美女黄色网| 天天狠狠操| 人妻少妇偷人精品无码| 色情无码www视频无码区小黄鸭| 北条麻妃一区二区三区av高清| 视频一区二区三区中文字幕狠狠 | 男女猛烈激情xx00免费视频| 国产97人人超碰cao蜜芽prom| 丁香亚洲综合五月天婷婷 | 久久精品国产999大香线焦| 亚洲国产黑色丝袜天堂| 国产精品亚洲精品日韩已满| 国产人妻精品一二区| 六月丁香亚洲综合在线视频| 国产性生交xxxxx免费| 狠狠色综合久久狠狠色综合| 久久熟女五十路一区二区|