![]()
作者 | 孫芮
郵箱 | sunrui@pingwest.com
“總有一天,我們會把現在這種‘人工制作的電影’當作舊時代的東西來談論,而主流將變成按需生成、可以無限延展的 AI 內容。”這是Karpathy在2016年發布的推文。
![]()
按需生成、可以無限延展的 AI 內容是什么樣的呢?
如果這種能力不僅用于生成內容,也用于重構我們獲取信息的方式,那Flipbook或許提供了一種值得參考的形態。它用一種全新的方式在做瀏覽器——不再把信息組織成一頁頁可以跳轉的網頁,而是把整個互聯網變成一張可以不斷生成、不斷延展的圖像。
![]()
1
當瀏覽器不再是網頁
根據官方介紹,Flipbook 是一個可以無限延展的視覺瀏覽器,所有內容都是按需、實時生成的。
怎么理解視覺瀏覽器呢?
在Flipbook中,你看到的每一個“頁面”,本質上都是一張圖片。當你點擊圖片中的任意位置時,系統會根據你的點擊生成一張新的圖片,帶你繼續往更深入的方向探索。整個過程里,沒有 HTML、沒有代碼,也沒有傳統意義上的鏈接或輸入框,你所看到的“網頁”,其實都只是屏幕上一幀一幀被生成出來的像素。
屏幕上的所有文字,同樣也是由圖像模型直接渲染出來的,而不是疊加在圖片上的文本。當然,這會導致文字有時候會出現錯位或不夠清晰的情況,這需要通過模型能力的提升來改善。
用文字闡述可能有點難理解,他們發布的Demo能夠更直觀的感受到Flipbook想做的事情。
他們以旅行規劃這個場景為例,左側的筆記本電腦上顯示的是 Notion 界面,正在進行“巴黎旅行規劃”。這是大家做旅行規劃通常會用到的交互方式——在不同的網頁之間跳轉,通過文字和列表來整理碎片化的信息。
在當下的互聯網中,信息通常以文本、鏈接和模塊化界面的形式被組織起來,一個網頁會被拆分成不同的內容區塊,再通過鏈接彼此連接。用戶獲取信息的過程,本質上就是不斷點擊按鈕、在不同頁面之間跳轉。其底層依賴的是 HTML 和 DOM 所構成的結構化體系。
也就是說,我們所使用的網頁,本質上是一個由清晰結構和固定關系組織起來的信息系統。
![]()
而右側則是一幅等軸測插圖,上面是一幅干凈線描、低飽和配色的巴黎地標交互圖,有埃菲爾鐵塔、盧浮宮、圣母院這類巴黎的標志性地標。
在任意區域點擊一下就能得到一個“詳情頁”,圖中用簡潔的文字和圖標整合了原本需要去官網查詢的碎片信息:門票購買(Buying Tickets)、開放時間(Opening Hours)、無障礙(Accessibility)、著裝要求(Dress Code)。
![]()
再點擊一次,又能獲得更多建筑內部的細節。左側的文字信息變得更加具體,像是一個實時的“智能助手卡片”。這里不僅有各個區域的價格表 ,還有預期情況,以及詳細時間表。底部灰色方框給出了最優建議,“提前 1-3 天預約是明智之舉”。甚至還有一個明顯的 “Reserve Now” (立即預約) 按鈕,實現了一站式閉環。
![]()
團隊表示,這些圖片中的信息,來自兩部分的結合,一部分來自模型本身的知識,另一部分來自具備行動能力的搜索系統。
內容可能會偶爾出現不準確的情況,但通常可以作為一個初步了解的參考,而且大多是基于真實的在線數據生成的。整體的事實準確性,大致可以達到平時使用 ChatGPT、Gemini 或 Claude 時的水平。
1
復雜信息理解的最佳打開方式
不過,這種效果在實際體驗中究竟是怎樣的?
于是,我上傳了一張之前用ChatGPT Images 2.0生成的《百年孤獨》人物關系圖,來測試它的表現。
![]()
在我點擊左下角的奧雷里亞諾·布恩迪亞上校后,大約等待了20秒,新的頁面才生成出來。生成出來的圖像是一張奧雷里亞諾·布恩迪亞上校的家族關系和生平邏輯圖。再點擊左下角出現的攤開的書本,就能看到梅爾基亞德斯的預言的圖解。
![]()
![]()
整個使用過程中,確實如團隊所說的圖片中的任意位置都可以被點擊,被探索。讀過《百年孤獨》的人一定都知道,書里的人物和結構都很復雜,同一個家族里幾代人反復使用相同的名字,人物之間又不斷交錯,加上敘事不是按時間線推進,而是跳躍、回環、甚至把未來寫在過去里,很容易讀著讀著就分不清“現在是誰、發生在什么時候”。
而Flipbook用交互式可視化可以很好地建立一個閱讀參考系,幫助讀者理清人物關系和書中的重點信息。這是 Flipbook 在復雜信息的可視化與交互式理解場景下的應用。
不過需要注意的是,Flipbook因為訪問人數過多,服務器壓力太大,暫時需要排隊進入。
在X中,也有不少用戶發布了自己的使用案例。
Gemini的后訓練軟件工程師Xiao Ma用Flipbook學習葡萄酒知識。
![]()
還有用戶做了一張葉綠體光合作用圖解,表示這非常適合教育場景。
![]()
從以上的使用案例來看,Flipbook最適合解決的是結構復雜、關系交錯、需要建立整體認知的問題,它可以把這些信息壓縮進一個可以不斷展開的視覺空間里,通過點擊逐層深入,讓“理解”變成一個連續的過程。
放在教學場景中,Flipbook可以用圖像來承載信息,再配合可點擊的圖像延伸,會比純文字更容易建立直觀感受。比如科學原理、流程機制、歷史事件演變,這些場景的需求不是查標準答案,而是搞清楚原理、邏輯。
它同樣適用于啟發式探索的場景。比如你并不是帶著一個明確問題來查資料,而是想了解一個領域、尋找靈感。在這種情況下,是沒有固定路徑的,Flipbook可以點哪里看哪里,會帶來一種類似瀏覽展覽或翻閱畫冊的體驗,更容易產生新的聯想和靈感。
但反過來說,它并不適合那些高頻、精確、效率優先的任務。比如查一個具體數據、快速對比信息、完成一段明確流程,這類場景更需要的是結構化信息和穩定、快速的響應,而不是生成式的視覺表達。生成延遲、信息不穩定、文字不可復制這些問題,在這些場景下都會被放大。
1
為了實時生成,底層做了什么
Flipbook令人驚艷的同時,也讓人好奇這到底到底是用了怎樣的技術來實現的。
創始團隊在X說,他們大量用了激活緩存、量化,以及 torch.compile + 內存快照。
![]()
Flipbook 追求的是一種即時交互,但圖像生成模型通常非常龐大和緩慢,想做到這種響應速度,就必須在底層進行極致的性能壓榨。Zain提到的這四項為了解決這個瓶頸而做的工程優化,他們從計算路徑、數值表示、執行方式和狀態管理四個層面同時做了改造。
首先,激活緩存(activation caching)減少了圖像生成過程中大量重復計算。傳統擴散模型每去除一點噪聲、畫出一個細節,都要完整跑一遍神經網絡的所有層,而其中很多層的計算結果其實和上一步幾乎一樣,特別是那些負責提取基礎特征的部分。
激活緩存就是把這些變化不大的中間結果保存下來,在后續的步驟里直接復用,不再重新計算。在連續生成多幀畫面(比如制作視頻流)時,幀與幀之間的共性更大,能共用的激活值就更多,這能砍掉絕大部分冗余運算,讓推理速度成倍提升。
其次,量化(quantization)技術解決的是模型在數值計算層面上的效率問題。你可以把模型參數原本使用的16位浮點數,想象成一種高精度但非常占用空間和計算資源的表示方式。量化的過程,就是將這一個個“高成本浮點數”精準地映射為對應的“低成本整數”,比如8位整數。
這樣做有兩方面的好處:第一,整數運算遠比浮點運算快,而且現在的硬件對此有專門的加速設計,所以每一個計算步驟的耗時都縮短了,模型推理速度直接提升;第二,每個數字從16位壓縮到8位,整個模型文件的體積和運行時占用的顯存都至少減半。
結果是,原本需要消耗大量顯存才能運行的高分辨率圖像生成任務,現在可以在更小、更普及的GPU上跑起來,或者在同一塊GPU上同時處理更多的生成請求。對Flipbook而言,這幾乎是實現快速、連續出圖必不可少的一步。
接著,torch.compile 充當了翻譯優化器的角色。通常用寫 PyTorch 代碼時,每執行一個操作,Python 解釋器都要調度一次,產生很多零碎的小任務,GPU 也因此頻繁地啟動和停止。torch.compile 會將整個計算圖拿過來整體分析,把相鄰的、可以合并的運算融合成一個大的優化內核,并且一次性編譯好。這樣,當模型真正開始生成圖像時,就相當于從一條條解釋執行變成了一段連續的編譯程序在跑,省去了大量的 Python 開銷和算子調度時間,在不少場景下可以帶來明顯的性能提升。
最后,內存快照(memory snapshotting)是一種消除調度延遲的手段,通常指像 CUDA Graph 這類技術。傳統流程里,CPU需要一步一步地向GPU下達指令,每一次調度都有微小的延遲。內存快照的做法是將一整套固定的GPU操作序列(例如去噪步驟中的特征提取、注意力計算、卷積等)完整“錄制”下來,形成一個靜態執行圖。后續生成新圖像時,不再需要CPU逐條調度,而是直接重放這張圖,讓GPU像播放錄像帶一樣無停頓地連續工作。對于需要每秒24幀連續輸出的視頻流場景,消除這些累積的調度間隙是實現實時生成的關鍵。
本質上,它一方面通過緩存中間結果來避免重復計算,一方面通過量化降低計算成本,同時借助編譯優化執行效率,并通過內存快照消除調度間隙,從而在有限算力下顯著降低單次推理延遲和單位請求成本,使系統能夠穩定支撐高頻、連續的生成請求。
同樣值得一提的是,我們現在看到Flipbook的畫面風格經歷了上百次迭代打磨。一開始,他們嘗試用80 年代老式 CRT 屏幕的復古科幻風格,有掃描線、霓虹色和類似《新世紀福音戰士》的高密度視覺界面感。還有20 世紀 50 年代漫畫插畫風格,帶有老式印刷、粗描邊、高飽和色。
![]()
![]()
![]()
![]()
最后他們選定編輯插畫感的等距視角風格。這是一種斜俯視、帶立體感但不復雜的插畫方式,把信息、空間和概念清晰地組織起來,EbbieJiao說,這種風格在可讀性和表現力之間找到了一個很好的平衡,不僅方便用戶理解,又能用一種 HTML 永遠做不到的方式把想法呈現出來。
風格的選擇,指向的是團隊做這件事的初衷。 他們認為,一張圖往往比大量文字更有表達力,但今天的屏幕卻被文字和各種方框界面所占據。很多所謂“生成式 UI”,看起來更先進,但本質上仍然是在用有限的形式去承載復雜的信息,就像試圖用一根細吸管去吸一整片海洋。
所以他們想嘗試另一種方式,就是讓計算結果變得更直觀、更豐富,用為每個人即時生成的視覺內容來表達信息。
我們現在看到的屏幕,本質上也是一張圖,只不過它是由固定的代碼和規則生成的,這種方式在表達復雜內容時存在局限。而 Flipbook 則擺脫了這些限制,它會根據內容本身,選擇最合適的表達方式——可能是一句話、一幅插圖,或者一張接近真實的畫面。
目前,Flipbook 還是一個實驗項目,主要用于開放式探索和學習。隨著圖像和視頻模型能力的提升,未來這些頁面可能會接入更多真實數據,變得更加可交互,甚至可以直接執行操作、保存數據。
這也意味著,很多原本需要在不同應用或網站之間完成的事情,未來有可能在一個類似 Flipbook 的界面中一次性完成。比如你現在可以用它來查旅行信息,但需要去別的平臺完成預訂。未來,這些步驟都可以在同一個系統中完成。
Flipbook設想的,是一個所有工具都像現實世界一樣豐富、直觀、以視覺為核心的計算世界。
盡管現在Flipbook 還遠談不上成熟,但當信息不再被鎖死在代碼框架里,而是按內容自由生長成圖像時,我們在Flipbook的每一次交互都在實時重組信息的呈現方式。
而我們理解世界的方式,可能也會隨之改變。
![]()
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.