![]()
未來視頻生成的壁壘是復合型的,就是數據、產品、用戶之間的協同。
文|《中國企業家》記者閆俊文
見習編輯|李原編輯|何伊凡
頭圖攝影|鄧攀
AI視頻生成的熱戰,比想象中來得更早。
字節跳動的Seedance 2.0在2月爆火,其性能直接改變了AI漫劇產業發展走向。緊隨其后,阿里的HappyHorse(歡樂馬)開啟了API內測。據報道,快手旗下可靈也正以200億美元估值謀求獨立融資,ARR(年度經常性收入)已達到5億美元。
有巨頭集結資源,也有玩家被淘汰出局。今年3月,OpenAI旗下的Sora被關停,原因被歸咎于OpenAI需要聚攏資源和注意力。這也不免讓文生視頻能否跑通商業模式,被打上問號。
不過,AI視頻生成公司愛詩科技創始人兼CEO王長虎仍樂觀表示,目前視頻生成的機會大于挑戰。“(如果)每個時代只有(像抖音、快手)一兩個產品,只有幾十億用戶的產品才有生存空間,那就太枯燥了。”
王長虎曾任字節跳動視覺技術負責人,搭建了字節跳動視覺算法平臺和業務中臺,并主導了字節視覺大模型從0到1的建設。2023年創業后,王長虎已成為“字節系”出身、上升勢頭最猛、獲得融資最多的創業者之一。
最近6個月,王長虎和愛詩科技拿到了累計25億元的融資。今年3月,愛詩科技獲得3億美元的C輪融資,由鼎暉香港基金、鼎暉VGC、鼎暉百孚領投,產業投資人中國儒意、三七互娛,以及投資機構亦莊國投、眾為資本、國泰君安創新投資等共同參與,估值達到10億美元。
在模型端和產品端,王長虎和團隊幾乎每3個月就會進行一次模型升級。2023年10月,愛詩科技推出PixVerse V1,成為全球首個可生成4K視頻的視頻大模型。到了PixVerse V4版本,愛詩科技已可將視頻生成做到5秒之內。目前,PixVerse系列模型已經到了V6版本,AI生成視頻不僅實現了音畫同步,人物與場景質感也更貼近真實世界。
![]()
來源:視覺中國
2025年年底,愛詩科技旗下產品PixVerse的App端和網頁端用戶規模超過1億,其ARR已超過4000萬美元。
王長虎性格內斂,達晨財智曾主投愛詩科技A輪,并參投B輪,達晨財智合伙人、執行總裁兼首席投資官鄔曦告訴《中國企業家》:王長虎沒有自己獨立的辦公室,和100多位同事一起辦公。愛詩科技的公司文化也被王長虎概括為“愛詩范兒”——簡單直接。匯報等級只有兩級,組織扁平,反應速度快。
在接受《中國企業家》的專訪中,王長虎提到了10次“進化”,8次“效率”,3次“畫問號”。對于一些投資人將愛詩科技比作視頻生成領域的“DeepSeek”,王長虎提到,“從創業至今,我們只用了同行十分之幾甚至1%的成本資源,就做出了優于或持平于同行的技術能力與產品。”
這種對效率的追求源于王長虎在字節跳動時期的技術積累。鄔曦說,王長虎和團隊在字節管理過2萬塊V系列GPU,他們非常懂得如何高效利用有限的資源去迭代產品。
3次“畫問號”則主要來自3個方面:抖快之外的機會、大廠離職創業者如何處理與大廠的競對關系、AI時代to C和to B產品的分野等。同時,王長虎亦有信心和勇氣,比如他并不認同,創業者就該“躲避”大廠的炮火射程。
除了V系列模型,愛詩科技還在布局C(面向影視)、E(面向營銷)等一系列行業垂類視頻生成模型。2026年1月,愛詩科技率先推出了全球首個通用實時世界模型PixVerse R1。2026年4月,又推出了全球首個影視行業大模型PixVerse C1。
一位愛詩科技的業務負責人告訴《中國企業家》:2026年,公司高管內部討論的重點是:愛詩并不是一個單純的MaaS公司,也不想單純地為提供Token而生。模型發展到現在的趨勢是,要越來越多地跟行業結合。
這也意味著愛詩科技正在走向兩線作戰,一方面,奉行“讓每個人成為生活的導演”的大C端策略,就像王長虎所說的:“讓全球幾十億人,都有機會從一個旁觀者變成參與者,從普通的消費者變成創作者。”另一方面,也要深入產業端,正面和字節、快手等巨頭公司展開競爭。
最近,愛詩科技宣布了和芒果TV、中國儒意等影視頭部公司的合作——中國儒意也是愛詩科技的產業投資人和戰略投資人。今年1月,愛詩科技獲得了中國儒意1420萬美元的戰略投資。
以下是王長虎與《中國企業家》的獨家對話內容(有刪減):
用同行1%的投入,達到100%的效果
《中國企業家》:最近視頻生成行業很熱鬧,各家都在密集迭代,你認為整個行業有沒有進入到分化階段?
王長虎:我認為是更繁榮了。我們(2023年)創業的時候,大模型剛出來,那時候我們就選擇All in視頻生成。我們為什么能更早看到視頻大模型和應用賽道的繁榮?因為視頻就是離我們最近的,它本來就應該更繁榮。
這兩年,視頻生成的進化速度非常快。單看我們公司,過去一年半時間里,我們發布了八九次大模型更新,每兩三個月就有新的大模型(版本)誕生。我們認為,視頻生成還有很長的爆發期,以及很長的進化空間。
![]()
來源:視覺中國
《中國企業家》:模型進化和升級這么快,是不是也意味著它的能力還沒有完全穩定下來?
王長虎:如果一件事情很快穩定了,就會陷入到路徑收斂,效果穩定,拼資源,更適合大廠競爭。但視頻生成的高速發展,也在不斷產生更多的可能性,創業公司仍然有很多機會。
《中國企業家》:你怎么看Sora產品體驗口碑很好,卻留存不佳的問題?
王長虎:我非常贊賞Sora這些勇于探險的先驅者,但創新畢竟是一個失敗率更高的事情。所以你們現在看到的所謂我們做出的“模板”,產品用量這么大,同行也都在持續做創新,只是有人可能沒跟上節奏。
Sora 2做了兩件成功的事情,第一,音畫同步生成質量做得很好,模型終于不再拉胯。第二,它在消費平臺做了很好,甚至很激進的嘗試,不管它最后是否成功,不影響它是一次勇敢的嘗試。
嘗試失敗并不意味著這個方向失敗。Sora可能遇到了很多困難,但他們的效率沒有我們高,它每幀的成本可能是我們的幾十倍甚至更多。
第三,它在人和內容的交互消費端向社交做了探索,用AI視頻生成嘗試社交,這是非常有價值的。
《中國企業家》:Sora是不是有點太超前了?它去探索的AI視頻社交,或者社區類產品,是不是行業還沒有準備好?
王長虎:我們不能用幾個詞去簡單歸因。我們認為,在新時代,消費和創作邊界越來越模糊,未來將會是什么樣的場景?每個人都可以消費,每個人都可以創作。Sora 2朝著這個目標走出了一步,但最終什么樣的產品能夠獲得用戶的芳心,還需要不斷打磨。
《中國企業家》:抖音快手的一個重要貢獻是,最大程度地給了普通人表達的機會。你認為AI生成視頻這波浪潮能帶給他們什么?
王長虎:我也經歷過抖音那個波瀾壯闊的時代,智能手機和4G、5G的普及,流量成本越來越低,讓抖音和快手造就了一個現象,每個人都可以輕而易舉地在短視頻平臺上去刷新視頻。
但這是不是意味著每個人都能成為創作者?這是我畫個問號的。全球幾十億人在玩視頻,但真正去拍攝、上傳和分享的人數占比可能小于10%,還是極小的比例。所以,我們要讓那些沒有這種體驗的90%以上的幾十億用戶,通過我們的產品把他們的想象力變成視頻,去創作,去傳播,去分享,去交流,去互動。
《中國企業家》:PixVerse爆火離不開內容模板,模板為什么這么重要?
王長虎:我們上線模板大概在2024年10月,這是一個非常獨特的節點。之前,都是創作者有明確的意圖,比如創作一個廣告片或者短預告片,然后通過調用模型生成片段。那時候遇到的困難是什么?生成的成功率非常低,生成10個才能挑到1個精華。用戶生成一次,發現生成不好,就不會再用第二次了。
于是我們就希望提供更低門檻的創作工具,所以(模板)一下子把生成的成功率從10%、20%拉到接近100%。
第二點,降低用戶的生成門檻,甚至不需要輸提示詞,可以直接上傳自己的一張照片,選擇模板就可以了,可以真正讓幾十億普通人玩起來,用起來。所以,我們認為它是視頻生成的GPT時刻。
這也讓我們做出了全球最好的視頻生成能力,并且推出了普通用戶最喜愛的、門檻最低的生成產品,達到了破圈的效果。
《中國企業家》:你認為模板只是一個過渡還是終局產品形態?
王長虎:它只是我們產品里的一個feature(特色)而已。除了模板,還有我們的首尾幀能力,你上傳兩張圖片,就能生成一個從A圖片變到B圖片的動態視頻。還有我們的Agent能力,一些用戶希望能生成更長的內容,可編輯性更強的故事,我們就開發了一個Agent,可以調用不同的模板能力,調用不同的基礎視頻生產能力,自動生成更長、沖擊力更大的視頻。
《中國企業家》:你們有一個很重要的技術突破是,2025年發布的V5上實現了音畫同步。這會不會讓單個視頻的成本變得很高,你們怎么去控制成本?
王長虎:我們是一家創業公司,但在模型能力上,我們一直以來是全球第一梯隊。我們的產品位列“全球前25大AI產品”,也是視頻生成領域里最早破千萬用戶的。
這意味著我們的效率是極高的,這不是做音畫同步生成開始的。我們從一開始就考慮,要用相比同行1/10甚至1%的成本資源,做出更好的能力和產品。
《中國企業家》:你們在技術上具體是怎么實現的?
王長虎:最大的成本是認知帶來的成本,即你的判斷力。我舉個例子,如果做一件復雜的事情,比如大模型,你要判斷非常多的節點,任何一個節點都是未知的。
當我要去攻克5個難題,每個難題都是未知的。你有5個解決方案,你要決定選擇哪一個和不選擇哪一個,它就會產生巨大的成本差。最優秀的團隊,總能選擇正確的道路。相反,另外一支團隊有可能每次都選擇錯誤。你會發現,最好的團隊和最差的團隊里面的效率差是多少?是5的5次方。
在非技術側,它意味著更扁平的決策鏈路。有判斷力的人和有資源決策的人,層級要盡可能少,這可以極大地提升團隊的組織效率。我們公司踐行“簡單直接”“愛詩范兒”的文化,有助于我們在非技術層面上做得更快更好。
在技術側,DeepSeek出來之后,熟悉我們的投資人或者企業,都把我們看成是“視頻生成領域的DeepSeek”。DeepSeek的成功不僅在于開源,而且它用別人1/10的成本做出來了。反過來看,我們的成本壓力可能比他們更大,在文生視頻領域做到了這一點,也要依靠非常多的因素。
我們在數據、模型、DiT(Diffusion Transformer)架構層面,有著天然的優勢。
第一,數據層面,如何能找到那些能幫你進化、提升模型性能的最精華數據。這背后做得好或不好,都會體現到成本、效率、訓練時間上。
第二,模型側也同樣。比如AI建模時,該用什么方式去建模,如何提升視頻質量,同時讓模型訓練和推理的過程成本盡可能低,做到極致。實際上,在模型訓練過程中,如何確保它每次都訓練成功,而不是訓完之后,發現結果不好,我們再去訓練。這也都會涉及到我們整個的投入成本。
第三,在模型架構層面,如何既有效又速度快?推理層面如何更好地去調動資源,因為我們是全球的用戶,如何“削峰填谷”?用有限資源去保障推理能力。這是一個復合型的工作,它既分非技術層面,又分技術層面。技術層面的話涉及到數據、模型和工程,我們每一點都要做到極致,你才有機會走到現在。
《中國企業家》:目前,大模型公司都在改進自己的注意力機制。我注意到,你們在V5版本曾提到過“自適應Attention結構”,Full Attention(全注意力)和Sparse Attention(稀疏注意力),你們為什么選擇將它們結合起來使用?
王長虎:選擇兩種結合,第一,讓效果不受到任何影響。第二,我們要以極高的效率完成建模,所以用不同的三線結構組合方式做這件事情。模型不僅要處理視覺信息,還需融合三維空間之外的音頻維度,因此需要全新的結構進化。
《中國企業家》:聲音加入其中,是不是技術難度會更高一些。
王長虎:一定是更難的,因為模型感知的世界多了一個維度。我們整體的數據量希望能做到可控,雖然數據量一定會變大,但也一定要保證它是可控的。如何在有限樣本的前提下,盡可能提煉出本質規律,強化對世界、音畫同時同步的理解,需要模型扮演更重要的角色。
不要回避與大公司競爭
《中國企業家》:用戶在“拍我AI”上生成了視頻,下一步一定會去做分享或者分發。在自建生態上,你們是如何考慮的?
王長虎:第一,我們鼓勵用戶在各個平臺去發布用我們的產品創作的視頻;第二,我們也鼓勵用戶在我們平臺上發布有價值的視頻,建立個人品牌。用戶也能參考他人發布的內容,做一鍵二創,增強歸屬感。
《中國企業家》:做用戶運營,是不是比做模型和技術更難?
王長虎:在我們看來,模型和產品居于一個維度,用戶會通過非常多的方式來告訴我們,技術產品應該往哪個方向發展,它是一個協同的過程。我們會根據對用戶和技術發展的判斷,去超前進化產品,這是必須做的事情。
在未來,視頻生成的壁壘是復合型的,就是數據、產品、用戶之間的協同。
![]()
來源:AI生成
《中國企業家》:大廠紛紛上線視頻產品,你們如何看待競爭壓力?有從字節離職創業的人告訴我們,創業要盡可能選在大公司的射程之外,但你們選的賽道一直是在大廠的核心地帶。
王長虎:從創業第一天開始,我們就有這樣的壓力,我們一直在參與競爭。AI的新時代,也一定會有最優秀創業公司的機會。
是否該在射程內,不能簡單歸因。我們創業的時候,大家都沒有看到這個方向,當時AI生成視頻是個非共識的事情,但我們很快做起來了。現在, 我們的用戶量和產品規模,包括模型能力,都是可以跟大廠掰手腕的。我們的效率也是極高的,這是我們的優勢。
所以(創業者)要不要做,是不是大廠只要做了同一個東西,你就一定要拐彎,馬上把產品拋棄,做其他事情,要畫個問號。
我們一直在做自己believe的事情,未來空間非常廣闊。我們想做的事情可能會在某個階段,和大廠的一些認知重疊,但更多的階段應該是不同的。
《中國企業家》:你們目前做的還是to C,抖音快手其實做到了幾千萬甚至上億的DAU,才徹底拉開了跟其他產品的差距。視頻生成領域是不是用戶量也要達到這個規模,才能拉開優勢?
王長虎:我們不能簡單做這樣的結論。如果to C產品幾億規模才有優勢,意味著大多數產品都會被打倒,實際上很多公司生存得非常好。
這是一個新的時代,我們不能簡單分類to C和to B,專業創作者和普通用戶的界限越來越模糊。上一個時代的經驗是否適用于這個時代,一定是畫個問號的。我們希望打破這種固有的認知。
我認為我們有能力在相應的用戶規模上把產品做得更好,1億用戶不是天花板,但我們也不認為,只有做到幾十億用戶,我們才能生存。AI信息時代到來,產品側一定是百花齊放的。
如果每個時代只有一兩個產品,只有幾十億用戶的產品才有生存空間,那這個時代太枯燥了。
《中國企業家》:在AI時代,人和內容的關系是怎么樣的?
王長虎:我們極致去推進模型能力的進化,讓用戶可以輕而易舉地完成自己的夢想。我們希望模型能承載更多的東西,讓更廣泛的用戶群體做出過去只有非常專業的創作者才能做出的內容。這是一個更大的群體,更值得我們去努力。
《中國企業家》:你認為AI時代的抖音,又會是什么樣子?
王長虎:未來的抖音,一定不是把抖音的內容替換成AI,這樣多枯燥。我覺得,每個時代都會有新的人和內容交互方式,會出現新的硬件。
我們相信新的時代一定有新的國民產品,我們是往這個方向去努力的。但同時,新的產品需要通過模型、產品、用戶飛輪轉起來,在這個過程中,要不斷試錯,去找到答案。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.