網易首頁 > 網易號 > 正文申請入駐

最近刷屏的Flipbook，想把互聯網徹底變成實時生成的無限世界

2026-04-29 11:52:09　來源: 硅星人

北京舉報

分享至

作者｜孫芮
郵箱｜ sunrui@pingwest.com

“總有一天，我們會把現在這種‘人工制作的電影’當作舊時代的東西來談論，而主流將變成按需生成、可以無限延展的 AI 內容。”這是Karpathy在2016年發布的推文。

按需生成、可以無限延展的 AI 內容是什么樣的呢？

如果這種能力不僅用于生成內容，也用于重構我們獲取信息的方式，那Flipbook或許提供了一種值得參考的形態。它用一種全新的方式在做瀏覽器——不再把信息組織成一頁頁可以跳轉的網頁，而是把整個互聯網變成一張可以不斷生成、不斷延展的圖像。

當瀏覽器不再是網頁

根據官方介紹，Flipbook 是一個可以無限延展的視覺瀏覽器，所有內容都是按需、實時生成的。

怎么理解視覺瀏覽器呢？

在Flipbook中，你看到的每一個“頁面”，本質上都是一張圖片。當你點擊圖片中的任意位置時，系統會根據你的點擊生成一張新的圖片，帶你繼續往更深入的方向探索。整個過程里，沒有 HTML、沒有代碼，也沒有傳統意義上的鏈接或輸入框，你所看到的“網頁”，其實都只是屏幕上一幀一幀被生成出來的像素。

屏幕上的所有文字，同樣也是由圖像模型直接渲染出來的，而不是疊加在圖片上的文本。當然，這會導致文字有時候會出現錯位或不夠清晰的情況，這需要通過模型能力的提升來改善。

用文字闡述可能有點難理解，他們發布的Demo能夠更直觀的感受到Flipbook想做的事情。

他們以旅行規劃這個場景為例，左側的筆記本電腦上顯示的是 Notion 界面，正在進行“巴黎旅行規劃”。這是大家做旅行規劃通常會用到的交互方式——在不同的網頁之間跳轉，通過文字和列表來整理碎片化的信息。

在當下的互聯網中，信息通常以文本、鏈接和模塊化界面的形式被組織起來，一個網頁會被拆分成不同的內容區塊，再通過鏈接彼此連接。用戶獲取信息的過程，本質上就是不斷點擊按鈕、在不同頁面之間跳轉。其底層依賴的是 HTML 和 DOM 所構成的結構化體系。

也就是說，我們所使用的網頁，本質上是一個由清晰結構和固定關系組織起來的信息系統。

而右側則是一幅等軸測插圖，上面是一幅干凈線描、低飽和配色的巴黎地標交互圖，有埃菲爾鐵塔、盧浮宮、圣母院這類巴黎的標志性地標。

在任意區域點擊一下就能得到一個“詳情頁”，圖中用簡潔的文字和圖標整合了原本需要去官網查詢的碎片信息：門票購買（Buying Tickets）、開放時間（Opening Hours）、無障礙（Accessibility）、著裝要求（Dress Code）。

再點擊一次，又能獲得更多建筑內部的細節。左側的文字信息變得更加具體，像是一個實時的“智能助手卡片”。這里不僅有各個區域的價格表，還有預期情況，以及詳細時間表。底部灰色方框給出了最優建議，“提前 1-3 天預約是明智之舉”。甚至還有一個明顯的 “Reserve Now” (立即預約) 按鈕，實現了一站式閉環。

團隊表示，這些圖片中的信息，來自兩部分的結合，一部分來自模型本身的知識，另一部分來自具備行動能力的搜索系統。

內容可能會偶爾出現不準確的情況，但通常可以作為一個初步了解的參考，而且大多是基于真實的在線數據生成的。整體的事實準確性，大致可以達到平時使用 ChatGPT、Gemini 或 Claude 時的水平。

復雜信息理解的最佳打開方式

不過，這種效果在實際體驗中究竟是怎樣的？

于是，我上傳了一張之前用ChatGPT Images 2.0生成的《百年孤獨》人物關系圖，來測試它的表現。

在我點擊左下角的奧雷里亞諾·布恩迪亞上校后，大約等待了20秒，新的頁面才生成出來。生成出來的圖像是一張奧雷里亞諾·布恩迪亞上校的家族關系和生平邏輯圖。再點擊左下角出現的攤開的書本，就能看到梅爾基亞德斯的預言的圖解。

整個使用過程中，確實如團隊所說的圖片中的任意位置都可以被點擊，被探索。讀過《百年孤獨》的人一定都知道，書里的人物和結構都很復雜，同一個家族里幾代人反復使用相同的名字，人物之間又不斷交錯，加上敘事不是按時間線推進，而是跳躍、回環、甚至把未來寫在過去里，很容易讀著讀著就分不清“現在是誰、發生在什么時候”。

而Flipbook用交互式可視化可以很好地建立一個閱讀參考系，幫助讀者理清人物關系和書中的重點信息。這是 Flipbook 在復雜信息的可視化與交互式理解場景下的應用。

不過需要注意的是，Flipbook因為訪問人數過多，服務器壓力太大，暫時需要排隊進入。

在X中，也有不少用戶發布了自己的使用案例。

Gemini的后訓練軟件工程師Xiao Ma用Flipbook學習葡萄酒知識。

還有用戶做了一張葉綠體光合作用圖解，表示這非常適合教育場景。

從以上的使用案例來看，Flipbook最適合解決的是結構復雜、關系交錯、需要建立整體認知的問題，它可以把這些信息壓縮進一個可以不斷展開的視覺空間里，通過點擊逐層深入，讓“理解”變成一個連續的過程。

放在教學場景中，Flipbook可以用圖像來承載信息，再配合可點擊的圖像延伸，會比純文字更容易建立直觀感受。比如科學原理、流程機制、歷史事件演變，這些場景的需求不是查標準答案，而是搞清楚原理、邏輯。

它同樣適用于啟發式探索的場景。比如你并不是帶著一個明確問題來查資料，而是想了解一個領域、尋找靈感。在這種情況下，是沒有固定路徑的，Flipbook可以點哪里看哪里，會帶來一種類似瀏覽展覽或翻閱畫冊的體驗，更容易產生新的聯想和靈感。

但反過來說，它并不適合那些高頻、精確、效率優先的任務。比如查一個具體數據、快速對比信息、完成一段明確流程，這類場景更需要的是結構化信息和穩定、快速的響應，而不是生成式的視覺表達。生成延遲、信息不穩定、文字不可復制這些問題，在這些場景下都會被放大。

為了實時生成，底層做了什么

Flipbook令人驚艷的同時，也讓人好奇這到底到底是用了怎樣的技術來實現的。

創始團隊在X說，他們大量用了激活緩存、量化，以及 torch.compile + 內存快照。

Flipbook 追求的是一種即時交互，但圖像生成模型通常非常龐大和緩慢，想做到這種響應速度，就必須在底層進行極致的性能壓榨。Zain提到的這四項為了解決這個瓶頸而做的工程優化，他們從計算路徑、數值表示、執行方式和狀態管理四個層面同時做了改造。

首先，激活緩存（activation caching）減少了圖像生成過程中大量重復計算。傳統擴散模型每去除一點噪聲、畫出一個細節，都要完整跑一遍神經網絡的所有層，而其中很多層的計算結果其實和上一步幾乎一樣，特別是那些負責提取基礎特征的部分。

激活緩存就是把這些變化不大的中間結果保存下來，在后續的步驟里直接復用，不再重新計算。在連續生成多幀畫面（比如制作視頻流）時，幀與幀之間的共性更大，能共用的激活值就更多，這能砍掉絕大部分冗余運算，讓推理速度成倍提升。

其次，量化（quantization）技術解決的是模型在數值計算層面上的效率問題。你可以把模型參數原本使用的16位浮點數，想象成一種高精度但非常占用空間和計算資源的表示方式。量化的過程，就是將這一個個“高成本浮點數”精準地映射為對應的“低成本整數”，比如8位整數。

這樣做有兩方面的好處：第一，整數運算遠比浮點運算快，而且現在的硬件對此有專門的加速設計，所以每一個計算步驟的耗時都縮短了，模型推理速度直接提升；第二，每個數字從16位壓縮到8位，整個模型文件的體積和運行時占用的顯存都至少減半。

結果是，原本需要消耗大量顯存才能運行的高分辨率圖像生成任務，現在可以在更小、更普及的GPU上跑起來，或者在同一塊GPU上同時處理更多的生成請求。對Flipbook而言，這幾乎是實現快速、連續出圖必不可少的一步。

接著，torch.compile 充當了翻譯優化器的角色。通常用寫 PyTorch 代碼時，每執行一個操作，Python 解釋器都要調度一次，產生很多零碎的小任務，GPU 也因此頻繁地啟動和停止。torch.compile 會將整個計算圖拿過來整體分析，把相鄰的、可以合并的運算融合成一個大的優化內核，并且一次性編譯好。這樣，當模型真正開始生成圖像時，就相當于從一條條解釋執行變成了一段連續的編譯程序在跑，省去了大量的 Python 開銷和算子調度時間，在不少場景下可以帶來明顯的性能提升。

最后，內存快照（memory snapshotting）是一種消除調度延遲的手段，通常指像 CUDA Graph 這類技術。傳統流程里，CPU需要一步一步地向GPU下達指令，每一次調度都有微小的延遲。內存快照的做法是將一整套固定的GPU操作序列（例如去噪步驟中的特征提取、注意力計算、卷積等）完整“錄制”下來，形成一個靜態執行圖。后續生成新圖像時，不再需要CPU逐條調度，而是直接重放這張圖，讓GPU像播放錄像帶一樣無停頓地連續工作。對于需要每秒24幀連續輸出的視頻流場景，消除這些累積的調度間隙是實現實時生成的關鍵。

本質上，它一方面通過緩存中間結果來避免重復計算，一方面通過量化降低計算成本，同時借助編譯優化執行效率，并通過內存快照消除調度間隙，從而在有限算力下顯著降低單次推理延遲和單位請求成本，使系統能夠穩定支撐高頻、連續的生成請求。

同樣值得一提的是，我們現在看到Flipbook的畫面風格經歷了上百次迭代打磨。一開始，他們嘗試用80 年代老式 CRT 屏幕的復古科幻風格，有掃描線、霓虹色和類似《新世紀福音戰士》的高密度視覺界面感。還有20 世紀 50 年代漫畫插畫風格，帶有老式印刷、粗描邊、高飽和色。

最后他們選定編輯插畫感的等距視角風格。這是一種斜俯視、帶立體感但不復雜的插畫方式，把信息、空間和概念清晰地組織起來，EbbieJiao說，這種風格在可讀性和表現力之間找到了一個很好的平衡，不僅方便用戶理解，又能用一種 HTML 永遠做不到的方式把想法呈現出來。

風格的選擇，指向的是團隊做這件事的初衷。他們認為，一張圖往往比大量文字更有表達力，但今天的屏幕卻被文字和各種方框界面所占據。很多所謂“生成式 UI”，看起來更先進，但本質上仍然是在用有限的形式去承載復雜的信息，就像試圖用一根細吸管去吸一整片海洋。

所以他們想嘗試另一種方式，就是讓計算結果變得更直觀、更豐富，用為每個人即時生成的視覺內容來表達信息。

我們現在看到的屏幕，本質上也是一張圖，只不過它是由固定的代碼和規則生成的，這種方式在表達復雜內容時存在局限。而 Flipbook 則擺脫了這些限制，它會根據內容本身，選擇最合適的表達方式——可能是一句話、一幅插圖，或者一張接近真實的畫面。

目前，Flipbook 還是一個實驗項目，主要用于開放式探索和學習。隨著圖像和視頻模型能力的提升，未來這些頁面可能會接入更多真實數據，變得更加可交互，甚至可以直接執行操作、保存數據。

這也意味著，很多原本需要在不同應用或網站之間完成的事情，未來有可能在一個類似 Flipbook 的界面中一次性完成。比如你現在可以用它來查旅行信息，但需要去別的平臺完成預訂。未來，這些步驟都可以在同一個系統中完成。

Flipbook設想的，是一個所有工具都像現實世界一樣豐富、直觀、以視覺為核心的計算世界。

盡管現在Flipbook 還遠談不上成熟，但當信息不再被鎖死在代碼框架里，而是按內容自由生長成圖像時，我們在Flipbook的每一次交互都在實時重組信息的呈現方式。

而我們理解世界的方式，可能也會隨之改變。

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.