![]()
AI視頻模型進入“三國殺”。
AIX財經(AIXcaijing)原創
作者 | 陳丹
編輯 | 魏佳
隨著HappyHorse的正式公測,中國視頻生成模型進入“三國殺”時代。
在過去半年里,字節的即夢(Seedance 2.0)、快手的可靈3.0、阿里的HappyHorse先后登頂 Artificial Analysis視頻模型榜單第一。
「AIX財經」用六段統一的提示詞對三款模型進行了橫向測試——四組古典藝術題材、兩組現代落地題材。這六組覆蓋了AI視頻生成關鍵的能力維度:動作敘事、靜態情緒、多人調度、文化符號還原、現代寫實質感、商業可用性等。
三家模型在敘事密度、鏡頭語言、文化辨識度上,給出了三種完全不同的解法,也在不同的環節翻車,如中文文字亂碼、多人面孔的“克隆人”現象,以及對特定文化符號的還原失誤等。
以下是完整的測試報告。
01.
測試一:趙子龍單騎救幼主
提示詞:0-3秒:遠景。黃昏戰場,煙塵彌漫,殘陽如血。一員白袍銀甲的年輕將軍單騎自遠處疾馳而來,白馬奔騰,紅色披風在身后獵獵飛揚。他懷中緊抱一個襁褓嬰兒,一手緊握長槍。
3-6秒:中景。鏡頭跟隨推近,白袍上已濺有斑斑血跡,銀甲反射夕陽余暉。他長槍一挑,挑落迎面而來的一名敵將,動作迅猛如梨花紛飛。四周曹軍黑甲紅旗如潮水般涌動,他穿插其中。
6-10秒:近景特寫。將軍回首一望,目光堅毅決絕,韁繩一帶,白馬長嘶人立,他低頭看了一眼懷中嬰孩,隨即揚槍策馬,沖入更深的塵煙之中。鏡頭定格于他沖入塵霧的背影。
整體:中國古典戰爭電影質感,冷暖對比強烈——白袍銀甲與黃沙血色的對比,慢動作與實時動作交錯,塵土飛揚,膠片顆粒感,自然光。參考《赤壁》《影》《滿城盡帶黃金甲》戰場鏡頭美學,4K。
難點:多鏡頭、多景別、連續敘事;高速動作與慢動作交錯;密集群體交互;特定歷史風格與畫面質感。
戰爭戲是影視拍攝難度最高的場面之一。模型生成單鏡頭大片感畫面并不難,難的是連續切換景別還能保持敘事連續——馬的顏色變了、披風消失、人物面孔在鏡頭切換間漂移,是這類生成最常見的翻車方式。
這段提示詞把難度疊在了一起:景別從遠景到近景,節奏實時與慢動作交錯,趙子龍、白馬等多主體調度,三層挑戰同時存在。任何一層失控,畫面就垮。
![]()
視頻:長坂坡趙子龍(即夢版)
Seedance2.0的執行最完整。白馬、銀甲、紅披風、懷抱襁褓、長槍、敵軍紅旗、夕陽戰場這些提示詞里的視覺要素幾乎全部命中;趙子龍臉頰的傷痕、銀甲上的血跡這類細節也按提示詞如實生成。最關鍵的是敘事密度,它在10秒內完成了沖入戰場—挑落敵將—回首決絕—沖入塵煙的完整動作弧線,幾乎是對提示詞的逐句還原。
![]()
視頻:長坂坡趙子龍(可靈版)
可靈3.0單幀畫面質感好,第5秒那一幀,盔甲花紋、披風紋理、群演調度等細節非常充實。但它實際敘事內容只完成了“沖入戰場”這一個動作,即夢用4秒講完的事,可靈用5秒只講了一半。
![]()
視頻:長坂坡趙子龍(HappyHorse)
HappyHorse在畫面風格上偏離了提示詞。提示詞要求的是《赤壁》《影》一類的實拍電影質感,HappyHorse給出的卻是3D游戲的CG畫風,煙塵飽和度過高、寫實感偏弱、背景群演面目模糊。在敘事密度上,它最弱。
02.
測試二:黛玉焚稿
提示詞:燭光昏暗的臥房內,一名病弱的年輕女子(林黛玉)坐于火盆前,手持詩稿緩緩投入火中。火光映照她蒼白消瘦的面容,紙灰隨熱氣飛起。鏡頭近景固定,極淺景深,光影對比強烈。
難點:靜態情緒表演、"哀而不傷"的復雜情緒傳達;古典室內空間的光影氛圍;火焰與紙張的物理表現。
![]()
視頻:黛玉焚稿(依次是Seedance2.0、可靈3.0、HappyHorse)
如果說趙子龍考驗的是模型的動作能力,那黛玉焚稿考驗的就是模型的表演能力。它沒有劇烈動作、沒有復雜場景,幾乎所有信息都靠一張臉表達。這一組的真正難度在于復雜情緒的層次,模型必須在10秒內,通過面部微表情而不是動作來傳達人物情感的復雜性。
Seedance2.0的表演水準接近古裝劇的演員特寫。視頻中的黛玉情緒是克制、壓抑的哀。后段有一幀人物含淚帶笑、似哭非哭,表現出了黛玉“哀而不傷”的復雜感情。
可靈3.0把燭光、火盆、淡青色衣襟、深色木結構組成了一個冷暖對比的工整構圖。它處理“焚稿”這個動作時給出了一個比即夢更具敘事鋪墊的鏡頭——先凝視詩稿,再放入火焰,表達黛玉焚稿前的猶豫,但人物表演的層次稍弱。
HappyHorse開場把火焰直接擋在人物面前,后段鏡頭才切換到人物正面,人物眉頭微蹙、眼眶泛紅、神情哀痛,比可靈的人物情緒更有帶動性,但更像是一種動漫女主式的夸張表達。
03.
測試三:溫酒斬華雄
提示詞:溫酒斬華雄,關羽推簾而入。古代軍帳內,眾將領圍坐于桌前神情凝重。帳外遠處傳來馬蹄聲與金鼓聲。一員紅袍長髯的將軍掀開帳簾大步而入,將手中物件擲于桌上。鏡頭從帳內眾人轉向帳門,跟隨入帳之人轉身回到桌前。
難點:多場景跨越敘事(帳內等候-關羽歸來);關羽人物形象的精確還原;多人凝視一人的場面調度;暗示性敘事(斬華雄不直接展示)。
![]()
視頻:溫酒斬華雄(依次是Seedance2.0、可靈3.0、HappyHorse)
這段提示詞要求模型完成一個真正的電影敘事:兩個空間(帳內、帳外)、兩個時間(關羽離去、歸來)、一組角色關系(凝重的眾將VS歸來的關羽),要講一個事件。
主角辨識度也是難點之一。關羽是中國文化里高度符號化的形象,青龍偃月刀、長髯過腹、丹鳳眼,任何一項缺失,這個人物就立不住。
這一組,三家模型都翻車了。
Seedance2.0幾乎呈現了關羽的所有視覺符號。但視頻后半段出現了空間穿模,關羽將手中物件原本擱在桌面靠近自己的一側,下一幀卻跳到了桌面另一側,身旁眾將的視線也隨之轉向另一邊。主體一致性在10秒內出現了斷裂。此外,提示詞中“溫酒”這一關鍵細節,即夢完全沒有表現。
可靈3.0和HappyHorse的關羽辨識度都不足,紅袍是有的,但長髯過腹這些關羽的核心視覺符號缺失。“斬首歸來”這一核心動作兩家也都沒有表現。關羽手中之物被理解為酒壺,而不是華雄的首級。動作也變成了“溫酒入帳”,敘事的核心反轉完全消失。
值得專門指出的是,這一組鏡頭幾乎集中暴露了AI生成多人時的標志性問題:幾位將軍的面孔高度雷同,同樣的胡須、同樣的發型、同樣的盔甲,這是典型的“克隆人”翻車。
04.
測試四:元妃省親
提示詞:夜晚的中國古典園林,亭臺樓閣燈火通明,處處懸掛紅色宮燈。香煙繚繞,花影婆娑。仕女們身著華麗古裝在長廊中緩步行走。鏡頭緩慢橫移,展現園林全景。柔和暖光,中國古典電影美學。
難點:多元素靜態場景調度;復雜建筑空間還原;群體仕女形態一致性;古典園林夜景的光影氛圍。
![]()
視頻:元妃省親(依次是Seedance2.0、可靈3.0、HappyHorse)
這組測試考驗的是模型的東方美學還原能力,它不像戰場戲那樣靠動作密度贏得視覺刺激,而是靠靜態畫面里的元素精度。飛檐、雕梁、宮燈、長廊、香煙、水面倒影、人物服裝,這些元素中任何一項出錯,整個畫面就會“塑料化”。
Seedance2.0的畫面以人物為主體,敘事感最強。一隊仕女緩步行進于水邊長廊,服色錯落有致,發髻整齊統一。鏡頭從水面倒影開始,逐步帶出建筑、燈籠、再到行進的隊列,信息密度層層遞進。
可靈3.0的建筑更有質感,池塘霧氣和水面倒影更是接近實拍。但開篇近5秒幾乎是建筑空鏡,人物只在畫面邊緣晃過;直到后半段鏡頭切換才出現仕女特寫。在這組鏡頭設計上更重場景,輕人物。
HappyHorse前7秒全是空鏡,仰拍燈籠、煙霧、閣樓,鏡頭在建筑間游移,完全沒有人物。到最后2秒才讓兩位紅衣綠裙的仕女緩步入畫。雖然后兩秒人物的服飾精度、面容質感、回廊光影都可圈可點,但整個視頻沒有表現出省親主題。
05.
測試五:早高峰地鐵
提示詞:早高峰的地鐵車廂,鏡頭緩慢橫移掃過幾位乘客。有人低頭看手機,有人靠窗打盹,有人帶著耳機望向窗外。車廂輕微搖晃,窗外隧道燈光快速掠過。
難點:現代城市場景的真實質感;多人物群像;通勤者狀態的精準刻畫;地鐵車廂內部細節。
![]()
視頻:早高峰地鐵(依次是Seedance2.0、可靈3.0、HappyHorse)
這組測試的是純現代寫實場景,任何一處違和,如錯誤的扶手形制、錯位的廣告牌、不像中國人的面孔、不真實的擁擠密度,都會讓觀眾出戲。尤其值得指出的是,這組測試具有高度的地域性,北上廣深的地鐵幾乎都有自己的車廂風格,人群的構成、車廂廣告等細節很容易出現錯位。
Seedance2.0在地域上出現了明顯偏移。它的車廂內部精度接近實拍,不銹鋼扶手、白色拉環、車門、廣告位、座椅藍色、人物姿態也很自然。但問題在于,畫面整體看起來像韓國地鐵,廣告牌上的疑似韓文、車廂風格、人物面孔都偏韓系。
可靈3.0是三家中地域識別最準確的,車廂風格、宣傳海報、廣告LED屏、“禁止吸煙”標識等,都是國內地鐵的標準配置。可靈的畫面同樣精度高,人物狀態也真實。但它的問題是另一個維度的,車廂太空曠,不像早高峰。
HappyHorse是這一組的意外反超者。它最準確還原了早高峰的擁擠感,密集的站立通勤者、西裝上班族在低頭刷手機、戴圍巾的中年女士、座位上閉眼休息的乘客。
06.
測試六:林黛玉直播帶貨
提示詞:現代直播間內,一位古裝少女(林黛玉)坐于精美中式書房布景前,身著月白色繡花襦裙,手持一瓶護膚精華,面帶淺笑娓娓而談。她體態柔弱清瘦,眉間略帶憂郁。背景有書架、瓷瓶、綠植,環形補光燈打在她臉上,桌前可見彈幕飄過的屏幕剪影。
難點:古今元素融合的合理性;直播間布景的現代真實感;古典人物氣質的精確還原;產品特寫的商業可用性;直播表演的微表情。
![]()
視頻:林黛玉帶貨(依次是Seedance2.0、可靈3.0、HappyHorse)
這段提示詞的難點不在于任何單一元素,而在于合不能讓觀眾笑場,也不能顯得違和。
即夢的完成度最高,人物辨識度也最準。清雅氣質、憂郁眉眼,黛玉的人物特征被準確捕捉。同時,環形補光燈、蘋果筆記本、iPhone取景器、產品禮盒、新中式書房布景也全部到位。人物的口型自然、眼神溫和、刺繡細節清晰可見。它讓黛玉和直播間在同一個畫面里看起來是合理的,而不是滑稽的。
可靈3.0在鏡頭視角上做了最大膽的設計。它沒有正面拍“穿古裝的人在直播”,而是給出了一個直播間外的觀眾視角:前景是一臺顯示著密密麻麻彈幕的屏幕,后景才是身著古裝的少女在直播。這種視角設計還原了直播間這個空間的層次感,沒有把它當成一個普通背景。但人物氣質偏離了黛玉。
HappyHorse人物鏡頭出現了嚴重翻車。主播臉部被一塊發光的白色光斑遮擋,可能是模型把環形補光燈的反射誤生成在了人物面部上;產品特寫鏡頭中又出現了三只手,這是AI生成手部時最常見的物理翻車之一。
值得注意的是,中文文字生成這個公認的軟肋。可靈3.0和HappyHorse模型都給出了帶彈幕屏的畫面,但所有彈幕文字都是糊的亂碼。
07.
結語
這六組測試打下來,三家模型的水平差距明顯。
Seedance 2.0是這次測試里綜合完成度最高的,核心優勢在于敘事密度,能在10秒內把提示詞里的動作弧線基本跑完,趙子龍一戰幾乎是逐句還原,黛玉焚稿也給出了哀而不傷的情緒層次。但它并非沒有短板,溫酒斬華雄出現了空間穿模。
可靈3.0的單幀質量是三家里最穩的,黛玉焚稿的燭光構圖、元妃省親的水面倒影、地鐵場景的標識細節,每一幀單獨截出來都經得住放大看。但在連續敘事上仍有所欠缺,有時場景交代充分,人物和事件姍姍來遲。
HappyHorse作為三家里最新公測的模型,它在局部精度與某些場景表現突出,但整體穩定性與風格仍有待探索,例如,在趙子龍測試中給出3D游戲CG風格,元妃省親前七秒全是空鏡。
需要注意的是,不同效果背后,各家的收費也有差異。「AIX財經」同時購買了即夢、HappyHorse最高等級會員、可靈鉑金會員,價格分別為499元、188元和186元,生成一段視頻三家分別需要330積分、160積分和96積分。
另外,三家模型存在共同沒有解決的問題,也代表著當前AI視頻生成的天花板。例如,沒有一家能在畫面里穩定生成可讀的中文,多人面孔一致性也是集體翻車點。
總結來看,三家模型都能生成好看的畫面,但還沒有一家能穩定生成一個完整的故事。AI視頻生成要邁向“精準敘事”的專業創作門檻,還需要時間。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.