![]()
作者 | 趙舟辰
郵箱 | zhaozhouchen@pingwest.com
最近在測(cè)試各種AI生圖模型的時(shí)候,我們發(fā)現(xiàn)了一個(gè)現(xiàn)象:同樣一個(gè)提示詞,丟給不同的模型,出來(lái)的圖片風(fēng)格差異大到像是出自不同攝影流派。
Image-2生成的圖就像我昨天隨手拍的,但Nano Banana生成的圖感覺像某個(gè)家居品牌的廣告大片。有些模型執(zhí)著于捕捉現(xiàn)實(shí)的每一絲瑕疵,有些則癡迷于把日常場(chǎng)景變成精致的藝術(shù)品。這背后反映的不是能力差別,而是每個(gè)模型對(duì)"什么值得被看"有了不同的商業(yè)假設(shè)。
這就是"模型味",也就是這種模型特點(diǎn)的底色——一種被量化、被大規(guī)模復(fù)制、正在成為下一代視覺內(nèi)容底色的審美偏執(zhí)。
1
Image-2:隱藏于真實(shí)世界的間諜
Image-2的核心邏輯很簡(jiǎn)單:放棄所有攝影技巧,只生成人眼真實(shí)看到的樣子。
從商業(yè)角度看,這意味著最低的視覺加工成本。
下雨天的公交站不需要電影級(jí)打光——就是淅淅瀝瀝、蕭瑟的樣子。
![]()
吃了一半的外賣不需要精修——油膩、不怎么美觀就是它的真實(shí)成本結(jié)構(gòu)。
深夜的便利店黑漆漆一片,只有711亮著燈的詭異感。
![]()
垃圾桶周圍天色微微沙塵,柏油馬路有些年頭的感覺。
城中村那種根本沒有管制,小商小戶們一起在小小地方無(wú)規(guī)則的擁擠的感覺非常真實(shí)。
![]()
這些"不完美"其實(shí)是成本最低的表達(dá)方式——因?yàn)樗鼈兙褪乾F(xiàn)實(shí)本身。
陽(yáng)臺(tái)的晾衣桿雖然有點(diǎn)穿幫,但是那種黑云壓城城欲摧的低氣壓感表達(dá)的很到位,那些現(xiàn)實(shí)的瑕疵、不規(guī)則感,別的模型可能視為缺陷要修正,Image-2卻把握得很到位。為什么?因?yàn)檫@些不規(guī)則本身就是真實(shí)的證明,也是最省算力的渲染方案。它不會(huì)給你打光、調(diào)色、精心構(gòu)圖,它就是你的眼睛——你瞥到什么,它就生成什么。
這就是Image-2的商業(yè)密碼:看它的輸出,你的第一反應(yīng)永遠(yuǎn)是"這好像是我昨天看過的",而不是"這是AI生的"。它成功地把自己隱沒在了日常生活里,成為最隱形的攝像機(jī)。對(duì)于需要大量真實(shí)素材的產(chǎn)品(比如Adobe的設(shè)計(jì)工具),這種"不被認(rèn)出來(lái)"反而是最大的價(jià)值——用戶不需要二次加工,直接可用。
1
Nano Banana2:楚門世界的藝術(shù)總監(jiān)
Nano的邏輯完全相反——把現(xiàn)實(shí)變成一個(gè)被精心擺拍的世界,讓每一個(gè)物體都配得上被凝視和轉(zhuǎn)化。
同樣是垃圾堆,Image-2給你的是真實(shí)的臟亂臭味,Nano給你的是一個(gè)藝術(shù)布景。
![]()
一杯水在Image-2里是一杯普通的水,在Nano里就是擺在這里要拍輕松閑適氛圍的廣告道具。
半個(gè)西紅柿不是隨便切的——二十精挑萬(wàn)選、打了面光、噴了水、特意固定了位置。
![]()
一塊泥巴也是,有人找了平整的土地,噴了點(diǎn)水,團(tuán)了一把泥巴,塑了塑形,擺到正當(dāng)間,調(diào)整了構(gòu)圖才拍的。
這個(gè)剛起床的臥室根本毫無(wú)睡了一夜的雜亂感,而是感覺這是一個(gè)臥室家居用品的廣告拍攝現(xiàn)場(chǎng)
![]()
這幾張塑料拖鞋,生銹的鐵釘,洗手臺(tái)上的肥皂,都有一種精心的擺拍感
![]()
這不是無(wú)用功。Nano Banana的核心商業(yè)假設(shè)是:如果要大規(guī)模生成內(nèi)容,不如直接生成"已經(jīng)被設(shè)計(jì)過的現(xiàn)實(shí)"。對(duì)Google的Cosmic這樣的web端產(chǎn)品來(lái)說(shuō),這意味著素材可以直接用,無(wú)需二次打磨。售樓處的宣傳圖就該這樣——精致、無(wú)暇、充滿了"生活在這里很舒服"的心理暗示。這是一種更直接的商業(yè)轉(zhuǎn)化邏輯。
Nano Banana 的世界觀很清晰:本該自然無(wú)序的一切,都被調(diào)教得更適合被觀看、被欣賞、被購(gòu)買。這是一個(gè)過度設(shè)計(jì)的烏托邦,也是互聯(lián)網(wǎng)產(chǎn)品想要呈現(xiàn)給用戶的那個(gè)理想世界。
1
豆包/即夢(mèng):不太全能的情感闡述高手
字節(jié)系的這兩個(gè)模型遇到了一個(gè)典型的商業(yè)難題:把大部分算力投給了人物情緒和面部特征,其他維度的成本控制就顯得很吃力。
優(yōu)勢(shì)很明顯。望著窗外的女孩那張,舒適和愜意表達(dá)得精準(zhǔn)。
![]()
流浪貓那張,把可憐無(wú)助、還有點(diǎn)懼怕人而保持一點(diǎn)攻擊性的感覺表達(dá)得很精確。這種對(duì)人物細(xì)微情緒的洞察力在競(jìng)品中很難復(fù)現(xiàn)。對(duì)于需要"打動(dòng)人"的內(nèi)容場(chǎng)景(比如短視頻封面、社交媒體素材),這種能力是真正的稀缺資源。
但短板也很直白。色調(diào)比較濃重,暖調(diào)和冷調(diào)十分失衡。最能暴露問題的是光影處理——光線要么極度強(qiáng)烈,要么幾乎沒有光影。影子一多了,豆包就干脆只精心生成有光線的地方。在生成智能手機(jī)、舊書店角落、黑咖啡這些圖片中,這個(gè)成本分配的不均衡表現(xiàn)得最突出。
![]()
桌面橘子這張圖片的背景處理問題更嚴(yán)重。縱深感表達(dá)不好,有一種背景要翻上來(lái)的感覺。最極端的是智能手機(jī)那一張,背景直接變成大白板——這樣手機(jī)這種狹窄的光影才能比較不費(fèi)算力地生成。還有個(gè)有意思的現(xiàn)象:豆包過于愛渲染"氛圍",有時(shí)會(huì)按照自己對(duì)"氛圍"的理解去改寫你的需求,而不是真正聽你的。
![]()
這其實(shí)反映了一個(gè)更大的問題:當(dāng)模型在某個(gè)維度投入過多,就會(huì)被迫在其他維度做出妥協(xié)。字節(jié)的選擇是用"情感打動(dòng)"來(lái)補(bǔ)償"場(chǎng)景還原"的不足,這在內(nèi)容創(chuàng)意場(chǎng)景可能有效,但在需要全方位精致度的場(chǎng)景就會(huì)顯得單薄。
1
可靈:追求幀幀充滿故事感的好萊塢導(dǎo)演
可靈作為短視頻的主力生成工具,遵循的是完全不同的商業(yè)邏輯——每一幀都必須在講故事。
所有的圖都被放置在了一個(gè)已有的世界觀或語(yǔ)境里,每一個(gè)畫面都在暗示:接下來(lái)會(huì)發(fā)生什么。這種"預(yù)敘事"能力體現(xiàn)在細(xì)節(jié)里。正在系鞋帶的男人,你一看就感覺他發(fā)現(xiàn)你在看他了。走廊盡頭那張,透視感極強(qiáng),感覺是高檔酒店的短劇現(xiàn)場(chǎng),你能想象有人會(huì)從那頭走出來(lái)。地下停車場(chǎng)給人安靜的詭異感,下一秒燈就會(huì)從遠(yuǎn)處一個(gè)個(gè)快速熄滅。
![]()
這種故事感體現(xiàn)在對(duì)攝影技巧的精準(zhǔn)運(yùn)用上。掉在地上的雨傘用側(cè)逆光、死角做了黑暗虛化處理,像案發(fā)現(xiàn)場(chǎng)證物。后視鏡里的眼睛,構(gòu)圖壓迫感極強(qiáng),直接聚焦在后視鏡。空蕩的地鐵車廂調(diào)色真實(shí)到電影級(jí)別,有《黑客帝國(guó)》的感覺。
![]()
可靈的成本結(jié)構(gòu)是:用光影、構(gòu)圖、虛化、調(diào)色等所有攝影語(yǔ)言服務(wù)于敘事,把靜止畫面轉(zhuǎn)化成正在展開的故事。這對(duì)短視頻、游戲角色、廣告創(chuàng)意這類"需要視覺沖擊"的場(chǎng)景是理想的。但如果你只是想要一張干凈的產(chǎn)品圖,可靈會(huì)強(qiáng)行給你加上故事性——這種"過度設(shè)計(jì)"在某些場(chǎng)景反而成了負(fù)擔(dān)。
使用越多,越會(huì)發(fā)現(xiàn)今天各個(gè)模型都有了它自己的一套視覺“方言”,而這些視覺語(yǔ)言都是審美的直接反映,模型逐漸在審美品味上直接區(qū)分開來(lái)。
而除了各種數(shù)據(jù)和訓(xùn)練方法帶來(lái)的審美不同,選擇不同模型時(shí),還有不同的成本考量。
需要真實(shí)/電影級(jí)素材用Image-2——現(xiàn)實(shí)感強(qiáng),瑕疵本身就是素材,省去了后期精修的成本。需要3A游戲場(chǎng)景或房屋中介宣傳圖用Nano Banana 2——那種真實(shí)華麗但又一眼看出不是現(xiàn)實(shí)的感覺,正好適配售樓處"理想化呈現(xiàn)"的成本結(jié)構(gòu)。需要表達(dá)人物情緒和面部特征用豆包或即夢(mèng)——這兩個(gè)模型在"情感轉(zhuǎn)化"上的成本最低。需要游戲人物或短視頻素材用可靈——敘事感和視覺沖擊力的ROI最高。
這都會(huì)使得接下來(lái)AI生圖的競(jìng)爭(zhēng)從"誰(shuí)更強(qiáng)"轉(zhuǎn)向"誰(shuí)的味兒更對(duì)口"。而且,這種視覺傾向和偏好在使用中會(huì)再被加強(qiáng),形成一個(gè)個(gè)風(fēng)格的閉環(huán)。最終,最多用戶的幾個(gè)主要的模型很可能會(huì)一起改變?nèi)藗儗?duì)于審美的最根本理解。
點(diǎn)個(gè)“愛心”,再走 吧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.