網易首頁 > 網易號 > 正文申請入駐

即夢、可靈、HappyHorse三強測評，誰翻車了？

2026-04-28 23:30:29　來源: AIX財經

北京舉報

分享至

AI視頻模型進入“三國殺”。

AIX財經（AIXcaijing）原創

作者 | 陳丹

編輯 | 魏佳

隨著HappyHorse的正式公測，中國視頻生成模型進入“三國殺”時代。

在過去半年里，字節的即夢（Seedance 2.0）、快手的可靈3.0、阿里的HappyHorse先后登頂 Artificial Analysis視頻模型榜單第一。

「AIX財經」用六段統一的提示詞對三款模型進行了橫向測試——四組古典藝術題材、兩組現代落地題材。這六組覆蓋了AI視頻生成關鍵的能力維度：動作敘事、靜態情緒、多人調度、文化符號還原、現代寫實質感、商業可用性等。

三家模型在敘事密度、鏡頭語言、文化辨識度上，給出了三種完全不同的解法，也在不同的環節翻車，如中文文字亂碼、多人面孔的“克隆人”現象，以及對特定文化符號的還原失誤等。

以下是完整的測試報告。

01.

測試一：趙子龍單騎救幼主

提示詞：0-3秒：遠景。黃昏戰場，煙塵彌漫，殘陽如血。一員白袍銀甲的年輕將軍單騎自遠處疾馳而來，白馬奔騰，紅色披風在身后獵獵飛揚。他懷中緊抱一個襁褓嬰兒，一手緊握長槍。

3-6秒：中景。鏡頭跟隨推近，白袍上已濺有斑斑血跡，銀甲反射夕陽余暉。他長槍一挑，挑落迎面而來的一名敵將，動作迅猛如梨花紛飛。四周曹軍黑甲紅旗如潮水般涌動，他穿插其中。

6-10秒：近景特寫。將軍回首一望，目光堅毅決絕，韁繩一帶，白馬長嘶人立，他低頭看了一眼懷中嬰孩，隨即揚槍策馬，沖入更深的塵煙之中。鏡頭定格于他沖入塵霧的背影。

整體：中國古典戰爭電影質感，冷暖對比強烈——白袍銀甲與黃沙血色的對比，慢動作與實時動作交錯，塵土飛揚，膠片顆粒感，自然光。參考《赤壁》《影》《滿城盡帶黃金甲》戰場鏡頭美學，4K。

難點：多鏡頭、多景別、連續敘事；高速動作與慢動作交錯；密集群體交互；特定歷史風格與畫面質感。

戰爭戲是影視拍攝難度最高的場面之一。模型生成單鏡頭大片感畫面并不難，難的是連續切換景別還能保持敘事連續——馬的顏色變了、披風消失、人物面孔在鏡頭切換間漂移，是這類生成最常見的翻車方式。

這段提示詞把難度疊在了一起：景別從遠景到近景，節奏實時與慢動作交錯，趙子龍、白馬等多主體調度，三層挑戰同時存在。任何一層失控，畫面就垮。

視頻：長坂坡趙子龍（即夢版）

Seedance2.0的執行最完整。白馬、銀甲、紅披風、懷抱襁褓、長槍、敵軍紅旗、夕陽戰場這些提示詞里的視覺要素幾乎全部命中；趙子龍臉頰的傷痕、銀甲上的血跡這類細節也按提示詞如實生成。最關鍵的是敘事密度，它在10秒內完成了沖入戰場—挑落敵將—回首決絕—沖入塵煙的完整動作弧線，幾乎是對提示詞的逐句還原。

視頻：長坂坡趙子龍（可靈版）

可靈3.0單幀畫面質感好，第5秒那一幀，盔甲花紋、披風紋理、群演調度等細節非常充實。但它實際敘事內容只完成了“沖入戰場”這一個動作，即夢用4秒講完的事，可靈用5秒只講了一半。

視頻：長坂坡趙子龍（HappyHorse）

HappyHorse在畫面風格上偏離了提示詞。提示詞要求的是《赤壁》《影》一類的實拍電影質感，HappyHorse給出的卻是3D游戲的CG畫風，煙塵飽和度過高、寫實感偏弱、背景群演面目模糊。在敘事密度上，它最弱。

02.

測試二：黛玉焚稿

提示詞：燭光昏暗的臥房內，一名病弱的年輕女子（林黛玉）坐于火盆前，手持詩稿緩緩投入火中。火光映照她蒼白消瘦的面容，紙灰隨熱氣飛起。鏡頭近景固定，極淺景深，光影對比強烈。

難點：靜態情緒表演、"哀而不傷"的復雜情緒傳達；古典室內空間的光影氛圍；火焰與紙張的物理表現。

視頻：黛玉焚稿（依次是Seedance2.0、可靈3.0、HappyHorse）

如果說趙子龍考驗的是模型的動作能力，那黛玉焚稿考驗的就是模型的表演能力。它沒有劇烈動作、沒有復雜場景，幾乎所有信息都靠一張臉表達。這一組的真正難度在于復雜情緒的層次，模型必須在10秒內，通過面部微表情而不是動作來傳達人物情感的復雜性。

Seedance2.0的表演水準接近古裝劇的演員特寫。視頻中的黛玉情緒是克制、壓抑的哀。后段有一幀人物含淚帶笑、似哭非哭，表現出了黛玉“哀而不傷”的復雜感情。

可靈3.0把燭光、火盆、淡青色衣襟、深色木結構組成了一個冷暖對比的工整構圖。它處理“焚稿”這個動作時給出了一個比即夢更具敘事鋪墊的鏡頭——先凝視詩稿，再放入火焰，表達黛玉焚稿前的猶豫，但人物表演的層次稍弱。

HappyHorse開場把火焰直接擋在人物面前，后段鏡頭才切換到人物正面，人物眉頭微蹙、眼眶泛紅、神情哀痛，比可靈的人物情緒更有帶動性，但更像是一種動漫女主式的夸張表達。

03.

測試三：溫酒斬華雄

提示詞：溫酒斬華雄，關羽推簾而入。古代軍帳內，眾將領圍坐于桌前神情凝重。帳外遠處傳來馬蹄聲與金鼓聲。一員紅袍長髯的將軍掀開帳簾大步而入，將手中物件擲于桌上。鏡頭從帳內眾人轉向帳門，跟隨入帳之人轉身回到桌前。

難點：多場景跨越敘事（帳內等候-關羽歸來）；關羽人物形象的精確還原；多人凝視一人的場面調度；暗示性敘事（斬華雄不直接展示）。

視頻：溫酒斬華雄（依次是Seedance2.0、可靈3.0、HappyHorse）

這段提示詞要求模型完成一個真正的電影敘事：兩個空間（帳內、帳外）、兩個時間（關羽離去、歸來）、一組角色關系（凝重的眾將VS歸來的關羽），要講一個事件。

主角辨識度也是難點之一。關羽是中國文化里高度符號化的形象，青龍偃月刀、長髯過腹、丹鳳眼，任何一項缺失，這個人物就立不住。

這一組，三家模型都翻車了。

Seedance2.0幾乎呈現了關羽的所有視覺符號。但視頻后半段出現了空間穿模，關羽將手中物件原本擱在桌面靠近自己的一側，下一幀卻跳到了桌面另一側，身旁眾將的視線也隨之轉向另一邊。主體一致性在10秒內出現了斷裂。此外，提示詞中“溫酒”這一關鍵細節，即夢完全沒有表現。

可靈3.0和HappyHorse的關羽辨識度都不足，紅袍是有的，但長髯過腹這些關羽的核心視覺符號缺失。“斬首歸來”這一核心動作兩家也都沒有表現。關羽手中之物被理解為酒壺，而不是華雄的首級。動作也變成了“溫酒入帳”，敘事的核心反轉完全消失。

值得專門指出的是，這一組鏡頭幾乎集中暴露了AI生成多人時的標志性問題：幾位將軍的面孔高度雷同，同樣的胡須、同樣的發型、同樣的盔甲，這是典型的“克隆人”翻車。

04.

測試四：元妃省親

提示詞：夜晚的中國古典園林，亭臺樓閣燈火通明，處處懸掛紅色宮燈。香煙繚繞，花影婆娑。仕女們身著華麗古裝在長廊中緩步行走。鏡頭緩慢橫移，展現園林全景。柔和暖光，中國古典電影美學。

難點：多元素靜態場景調度；復雜建筑空間還原；群體仕女形態一致性；古典園林夜景的光影氛圍。

視頻：元妃省親（依次是Seedance2.0、可靈3.0、HappyHorse）

這組測試考驗的是模型的東方美學還原能力，它不像戰場戲那樣靠動作密度贏得視覺刺激，而是靠靜態畫面里的元素精度。飛檐、雕梁、宮燈、長廊、香煙、水面倒影、人物服裝，這些元素中任何一項出錯，整個畫面就會“塑料化”。

Seedance2.0的畫面以人物為主體，敘事感最強。一隊仕女緩步行進于水邊長廊，服色錯落有致，發髻整齊統一。鏡頭從水面倒影開始，逐步帶出建筑、燈籠、再到行進的隊列，信息密度層層遞進。

可靈3.0的建筑更有質感，池塘霧氣和水面倒影更是接近實拍。但開篇近5秒幾乎是建筑空鏡，人物只在畫面邊緣晃過；直到后半段鏡頭切換才出現仕女特寫。在這組鏡頭設計上更重場景，輕人物。

HappyHorse前7秒全是空鏡，仰拍燈籠、煙霧、閣樓，鏡頭在建筑間游移，完全沒有人物。到最后2秒才讓兩位紅衣綠裙的仕女緩步入畫。雖然后兩秒人物的服飾精度、面容質感、回廊光影都可圈可點，但整個視頻沒有表現出省親主題。

05.

測試五：早高峰地鐵

提示詞：早高峰的地鐵車廂，鏡頭緩慢橫移掃過幾位乘客。有人低頭看手機，有人靠窗打盹，有人帶著耳機望向窗外。車廂輕微搖晃，窗外隧道燈光快速掠過。

難點：現代城市場景的真實質感；多人物群像；通勤者狀態的精準刻畫；地鐵車廂內部細節。

視頻：早高峰地鐵（依次是Seedance2.0、可靈3.0、HappyHorse）

這組測試的是純現代寫實場景，任何一處違和，如錯誤的扶手形制、錯位的廣告牌、不像中國人的面孔、不真實的擁擠密度，都會讓觀眾出戲。尤其值得指出的是，這組測試具有高度的地域性，北上廣深的地鐵幾乎都有自己的車廂風格，人群的構成、車廂廣告等細節很容易出現錯位。

Seedance2.0在地域上出現了明顯偏移。它的車廂內部精度接近實拍，不銹鋼扶手、白色拉環、車門、廣告位、座椅藍色、人物姿態也很自然。但問題在于，畫面整體看起來像韓國地鐵，廣告牌上的疑似韓文、車廂風格、人物面孔都偏韓系。

可靈3.0是三家中地域識別最準確的，車廂風格、宣傳海報、廣告LED屏、“禁止吸煙”標識等，都是國內地鐵的標準配置。可靈的畫面同樣精度高，人物狀態也真實。但它的問題是另一個維度的，車廂太空曠，不像早高峰。

HappyHorse是這一組的意外反超者。它最準確還原了早高峰的擁擠感，密集的站立通勤者、西裝上班族在低頭刷手機、戴圍巾的中年女士、座位上閉眼休息的乘客。

06.

測試六：林黛玉直播帶貨

提示詞：現代直播間內，一位古裝少女（林黛玉）坐于精美中式書房布景前，身著月白色繡花襦裙，手持一瓶護膚精華，面帶淺笑娓娓而談。她體態柔弱清瘦，眉間略帶憂郁。背景有書架、瓷瓶、綠植，環形補光燈打在她臉上，桌前可見彈幕飄過的屏幕剪影。

難點：古今元素融合的合理性；直播間布景的現代真實感；古典人物氣質的精確還原；產品特寫的商業可用性；直播表演的微表情。

視頻：林黛玉帶貨（依次是Seedance2.0、可靈3.0、HappyHorse）

這段提示詞的難點不在于任何單一元素，而在于合不能讓觀眾笑場，也不能顯得違和。

即夢的完成度最高，人物辨識度也最準。清雅氣質、憂郁眉眼，黛玉的人物特征被準確捕捉。同時，環形補光燈、蘋果筆記本、iPhone取景器、產品禮盒、新中式書房布景也全部到位。人物的口型自然、眼神溫和、刺繡細節清晰可見。它讓黛玉和直播間在同一個畫面里看起來是合理的，而不是滑稽的。

可靈3.0在鏡頭視角上做了最大膽的設計。它沒有正面拍“穿古裝的人在直播”，而是給出了一個直播間外的觀眾視角：前景是一臺顯示著密密麻麻彈幕的屏幕，后景才是身著古裝的少女在直播。這種視角設計還原了直播間這個空間的層次感，沒有把它當成一個普通背景。但人物氣質偏離了黛玉。

HappyHorse人物鏡頭出現了嚴重翻車。主播臉部被一塊發光的白色光斑遮擋，可能是模型把環形補光燈的反射誤生成在了人物面部上；產品特寫鏡頭中又出現了三只手，這是AI生成手部時最常見的物理翻車之一。

值得注意的是，中文文字生成這個公認的軟肋。可靈3.0和HappyHorse模型都給出了帶彈幕屏的畫面，但所有彈幕文字都是糊的亂碼。

07.

結語

這六組測試打下來，三家模型的水平差距明顯。

Seedance 2.0是這次測試里綜合完成度最高的，核心優勢在于敘事密度，能在10秒內把提示詞里的動作弧線基本跑完，趙子龍一戰幾乎是逐句還原，黛玉焚稿也給出了哀而不傷的情緒層次。但它并非沒有短板，溫酒斬華雄出現了空間穿模。

可靈3.0的單幀質量是三家里最穩的，黛玉焚稿的燭光構圖、元妃省親的水面倒影、地鐵場景的標識細節，每一幀單獨截出來都經得住放大看。但在連續敘事上仍有所欠缺，有時場景交代充分，人物和事件姍姍來遲。

HappyHorse作為三家里最新公測的模型，它在局部精度與某些場景表現突出，但整體穩定性與風格仍有待探索，例如，在趙子龍測試中給出3D游戲CG風格，元妃省親前七秒全是空鏡。

需要注意的是，不同效果背后，各家的收費也有差異。「AIX財經」同時購買了即夢、HappyHorse最高等級會員、可靈鉑金會員，價格分別為499元、188元和186元，生成一段視頻三家分別需要330積分、160積分和96積分。

另外，三家模型存在共同沒有解決的問題，也代表著當前AI視頻生成的天花板。例如，沒有一家能在畫面里穩定生成可讀的中文，多人面孔一致性也是集體翻車點。

總結來看，三家模型都能生成好看的畫面，但還沒有一家能穩定生成一個完整的故事。AI視頻生成要邁向“精準敘事”的專業創作門檻，還需要時間。

聲明：內容由AI生成

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.