Token經(jīng)濟(jì)學(xué)：AI時代的新貨幣戰(zhàn)爭

2026-05-17 08:03:45　來源: 鈦媒體APP

北京舉報

分享至

文 | 硅谷101

在硅谷，有了一種新的炫富方式——每天燒了多少token。

對于這個炫富方式，現(xiàn)在有一個新詞叫：Token-maxxing，意思是“把token用量拉到極限”。它變成了公司內(nèi)外人們攀比的新方式：你每天消耗多少token、你能同時調(diào)度多少個agent運行、你的token throughput（吞吐量）有多高，這些都正在變成衡量一個人“有多AI原生”的新指標(biāo)。

不過，對于這種新競賽，全球AI圈的巨頭們正在進(jìn)行著一場激烈的辯論：公司是否應(yīng)該不設(shè)限制地鼓勵員工們?nèi)ナ褂胻oken？

而在這場辯論的背后，是一場圍繞token展開的新軍備競賽。硅谷大廠們?yōu)槭裁丛诏偪窬韙oken用量，這背后到底有沒有道理？大模型公司是怎么給token定價的？中國模型如何憑借“物美價廉”殺入全球開發(fā)者市場，在OpenRouter上霸榜？“Token套利”的新模式，怎么來賺差價？以及在所有這些背后，一個更大的問題：中國的token出海，會不會成為下一個結(jié)構(gòu)性的產(chǎn)業(yè)機(jī)會？如果上一個時代中國出口的是襯衫，這個時代是電動車，下一個時代會是token嗎？

Token-maxxing之辯：用得越多就越好嗎？

4月初，Meta被爆內(nèi)部有一個名為“Claudeonomics”排行榜，這個排行榜匯集了超過85000名Meta員工的AI使用數(shù)據(jù)，列出了token消耗量最高的前250名“超級用戶”。

在最近一個月，排行榜上的總使用量突破了60萬億token，如果按照Anthropic Opus 4.6的定價，大約每百萬token平均15美元來粗略換算的話，這些token的價值高達(dá)約9億美元。排名第一的那位員工，燒掉的token價值高達(dá)數(shù)百萬美元。

這個消息曝光之后，立馬在硅谷引發(fā)了一場大辯論。

AI創(chuàng)業(yè)公司W(wǎng)riter的CEO May Habib，直接說這是“生死存亡級別的問題”。她自己公司內(nèi)部也有一個token消耗排行榜，而且她明確告訴員工，她本人在盯這個數(shù)據(jù)。她認(rèn)為如果不全力擁抱AI，就會被淘汰。

Uber也很激進(jìn)。目前Uber后端系統(tǒng)中，11%的新代碼更新已經(jīng)由agent完成，而三個月前這個比例還不到1%。Uber CTO的原話很直白：“我的愿景是把軟件工程轉(zhuǎn)型為agent軟件工程?！?/p>

但反對Token-maxxing的聲音同樣尖銳。

HubSpot的CEO Yamini Rangan，在LinkedIn上發(fā)了一句被廣泛轉(zhuǎn)發(fā)的話：“Outcome maxxing>>token maxxing”。意思是，比起瘋狂消耗token，不如看看你產(chǎn)出了什么結(jié)果。她代表了另一種重要觀點：純粹的token使用量，是一個錯誤的指標(biāo)。

AI軟件工程公司Jellyfish的CEO Andrew Lau，說得更直白：“你可以一天到晚刷token，但得到的結(jié)果可能完全不是你想要的。”

這兩派的吵得不可開交。但更多的中間派似乎還是形成了共識：不充分利用AI的公司，會被競爭對手超越并變得過時。在這種信念下，哪怕排行榜和激勵制度不完美，哪怕一些AI使用最終被證明是浪費的，大廠創(chuàng)始人和高層們也被卷起來了，認(rèn)為必須要這樣做才能讓公司轉(zhuǎn)型成為更AI-native（AI原生）的公司。

自O(shè)penClaw爆火以來，agent任務(wù)燒掉的token量直線上升?？萍季揞^們可以不顧成本的燒token，但對于創(chuàng)業(yè)公司和個人開發(fā)者來說，token的成本帶來的是焦慮。

Nathan Wang 資深A(yù)I Agent開發(fā)者比如像OpenClaw，你可能跑一個任務(wù)，稍微復(fù)雜一點，幾千萬的token量都是非常有可能的。

錢宇靖 GMI Cloud工程主管如果你去跑一個最貴的Claude的模型，你可能讓它做一個很小的事情就要花十幾二十刀，這是真的有點貴。

Uber的CTO在接受采訪時透露，公司2026年的AI預(yù)算在開年幾個月內(nèi)就已經(jīng)全部用完了，主要是因為工程師們對Claude Code的使用量暴增。他的原話是：“我得重新回去做預(yù)算了，因為我以為夠用一年的錢，已經(jīng)沒了。”

硅谷知名投資人Chamath Palihapitiya最近也公開抱怨，他投資的一家軟件公司自從團(tuán)隊開始用AI編程工具后，運營成本在幾個月內(nèi)翻了三倍多，照這個趨勢年化AI支出將達(dá)到千萬美元級別。他半開玩笑地說了一句在社交媒體上廣為流傳的話：感謝VC們掏錢為這場AI盛宴買單。

可以看到，對于企業(yè)來說，特別是軟件SaaS行業(yè)，AI時代的成本結(jié)構(gòu)跟過去完全不一樣了。以前做一個SaaS產(chǎn)品，研發(fā)投入是一次性的，用戶越多邊際成本越低，這是一門越賣越賺的生意。但現(xiàn)在，每個用戶的每一次操作背后都有一筆token賬單在跑，用戶用得越深、功能越智能，作為產(chǎn)品方，反而要付更多錢給模型廠商。這個成本不會像傳統(tǒng)軟件那樣攤薄到接近零，它是跟著用量線性增長的。

這也是為什么token正在變成AI創(chuàng)業(yè)公司最核心的“彈藥”，也有風(fēng)投基金開始嘗試直接給被投企業(yè)提供token額度，作為投資的一部分。這個邏輯很簡單：對很多AI創(chuàng)業(yè)項目來說，拿到錢之后第一件事就是去買token，那為什么不直接給token呢？

順著這個邏輯來講，是不是token正在變成一種新的貨幣？那token又到底是如何定價的呢？

拆解Token賬單，大模型公司到底怎么算錢？

Token的定價是怎么算的？這個問題的答案，遠(yuǎn)不是“一個單價乘以數(shù)量”這么簡單。我們以一次最簡單的對話交互為例，你的賬單上至少有三種不同價格的token在運轉(zhuǎn)：

第一是Input token（輸入token），也就是你發(fā)給模型的內(nèi)容。

第二是Cached input token（被緩存的輸入 token），意思是如果某些prompt、上下文或文件內(nèi)容之前已經(jīng)被模型系統(tǒng)緩存過，再次調(diào)用時，這部分token的價格會更便宜。

第三是Output token（輸出token），也就是模型生成回答時產(chǎn)生的token。

研究芯片與token efficiency（詞元效率）方向的肖志斌在接受硅谷101采訪時就說，平均來說，在對話任務(wù)上，這三者的價格大概是：1:0.1:6的水平。

肖志斌 ZFLOW AI創(chuàng)始人&CEO、華美半導(dǎo)體協(xié)會前主席與董事會顧問如果是對話類應(yīng)用，調(diào)用就比較簡單。你喂給它的input context（輸入上下文）、你提供的上下文和文件，這一部分都作為input。如果你提供的prompt已經(jīng)在緩存里被緩存過，那這個成本基本上就是input token成本的1/10。然后最后輸出的成本，就是output token的成本，基本上是input token成本的6倍，這是OpenAI目前的情況。

不同公司根據(jù)模型的能力給出的定價是不同的。舉個例子，GPT-5的API價格上，Input是每百萬token 1.25美元，Cached input是每百萬token 0.125美元，Output token是每百萬token 10美元。

而OpenAI發(fā)布的最新模型GPT-5.5，分了長短上下文兩檔，長上下文的價格是2倍。短上下文Input是每百萬token 5美元，Cached input是每百萬token 0.5美元，Output token是每百萬token 30美元。

如果直接對比價格的話，是不是覺得漲價了好幾倍，其實不能這么算。

這里面有一個特別反直覺的悖論：越貴的模型，可能反而總成本更低。因為強(qiáng)模型一次就做對了，弱模型可能要反復(fù)重試，中間如果出錯就還需要人工介入，這也是綜合成本。也就是說，雖然token價格在漲，但“每個有效結(jié)論的成本”反而在下降。

所以，最貴的GPT-5.5-pro和GPT-5.4-pro，短上下文Input是每百萬token 30美元，Output token是每百萬token 180美元，長上下文還要再貴一倍。但如果能力足夠強(qiáng)，完成任務(wù)足夠準(zhǔn)確，在一些復(fù)雜任務(wù)和場景上，反而是能把開發(fā)者的成本價格給打下來的。

特別是在agent場景，因為agent不是一問一答，它會來回調(diào)用模型，每一步可能調(diào)用不同的工具，工具又會產(chǎn)生新的日志和上下文，返回給agent繼續(xù)循環(huán)調(diào)用。

肖志斌 ZFLOW AI創(chuàng)始人&CEO、華美半導(dǎo)體協(xié)會前主席與董事會顧問 agent loop（循環(huán)）會重新、持續(xù)調(diào)用，所以對于agent來說，整體是比較復(fù)雜的，除了單次模型調(diào)用的input和output token消耗，還有持續(xù)產(chǎn)生的日志，以及調(diào)用工具成本，實際上相當(dāng)復(fù)雜。最終完成任務(wù)用的token數(shù)，取決于任務(wù)調(diào)用了多少次agent loop（循環(huán)）。如果是質(zhì)量高的模型，可能一次就生成了你想要的答案，調(diào)用的工具也合適，返回的output也是你想要的。但如果用了便宜模型，可能需要花更多時間做iteration（迭代），來來回回調(diào)用，甚至中間出錯。所以現(xiàn)在有個悖論：越貴的模型，完成任務(wù)的成本反而可能越低。

所以，不同的模型公司如何定價，一方面是由模型的推理成本以及大模型研發(fā)費用來決定的，但更關(guān)鍵的是按模型質(zhì)量和任務(wù)完成度。

肖志斌 ZFLOW AI創(chuàng)始人&CEO、華美半導(dǎo)體協(xié)會前主席與董事會顧問首先是推理成本，這是最基本的成本，就是單次推理的成本，比如你調(diào)用一次模型。第二是要在模型里攤平大模型的研發(fā)費用，這也是一部分。但最重要的，其實是按照模型質(zhì)量去定價，不同的模型類型，有沒有推理能力？上下文窗口的大??？完成任務(wù)的次數(shù)，能不能快速找到正確的output？很多公司是按推理成本定價的，但這樣其實不可取，應(yīng)該按模型質(zhì)量或?qū)θ蝿?wù)的完成度去定價，這里面的價值空間是比較大的。

這里還有一派玩家，就是像微軟Azure、亞馬遜AWS或者國內(nèi)的阿里和火山引擎這樣的云廠商。有的企業(yè)是通過這些云廠商去調(diào)用模型，他們收到的token賬單就是從云廠商這邊給出的。

云廠商對token的收費與大模型公司的API官方收費不會相差太多，但有時候云廠商會因為提供了更多的服務(wù)和能力，比如說區(qū)域部署、特定數(shù)據(jù)駐留、企業(yè)合規(guī)、優(yōu)先推理、托管能力，以及私有化或?qū)Ｓ猛掏碌倪@些服務(wù)，使得價格更貴。

這時候，token賬單就是：模型token費+云服務(wù)封裝+企業(yè)級基礎(chǔ)設(shè)施溢價。

錢宇靖 GMI Cloud工程主管大部分云服務(wù)商的計價方式，是根據(jù)當(dāng)下模型在這臺機(jī)器上能跑出多少token每秒，再根據(jù)這個性能反向推算GPU本來的成本是多少，再加上一個premium（溢價），就變成最終的價格。

但有的時候，云廠商也會因為企業(yè)折扣，或者需要激進(jìn)搶占市場，來讓價格更便宜，這種情況也是有的。

而就在后OpenClaw時期，當(dāng)硅谷開始卷我們開頭說到的Token-maxxing這件事情的時候，大家發(fā)現(xiàn)，這個賬單還是很可怕的。于是出現(xiàn)了一個現(xiàn)象：來自中國的開源模型，因為性價比，開始在國際開發(fā)者社區(qū)中，大受歡迎。

Nathan Wang 資深A(yù)I Agent開發(fā)者 Kimi的價格，我記得爆出來的input大概是不到55美分，output大概是2.6美元。

知縣北京大學(xué)計算機(jī)系本碩，AI愛好者和社區(qū)項目OwliaBot builder 比如MiniMax，我記得是受到了OpenClaw官方推薦的。在做設(shè)置、選模型的時候，OpenClaw軟件里，MiniMax后面會有一個推薦的標(biāo)識，這也相當(dāng)于給中國模型做了不少宣傳。宣傳之后，大家可能就試了一下，發(fā)現(xiàn)確實還可以，雖然頂級能力差一些，但很多工作也不是非要那么高的推理能力。很多時候，執(zhí)行反而需要你不要想太多，instruction following（指令遵循）比較好，做得快，最重要的還是便宜。

在一些任務(wù)上，中美模型的價差可以高達(dá)50-70倍。這就解釋了為什么，當(dāng)OpenClaw這類agent工具，讓token消耗從萬級跳到百萬級的時候，全球開發(fā)者幾乎本能地轉(zhuǎn)向了中國的便宜模型。

登頂token調(diào)用排行榜，中國模型如何做到超高性價比

OpenClaw爆火之后，因為agent任務(wù)對開源模型調(diào)用的需求飆升，已經(jīng)上市的中國模型廠商，比如說Zhipu AI和MiniMax在股價上迎來了瘋狂的漲幅。

與此同時，2026年3月掀起了一波集體漲價潮。從阿里云到百度智能云，從智譜到騰訊云混元系列模型，幾乎所有主要廠商，都在同一個月內(nèi)宣布上調(diào)AI相關(guān)產(chǎn)品價格，漲幅從5%到400%不等。

錢宇靖 GMI Cloud工程主管現(xiàn)在大家看到開源模型的token消耗量上升，是因為開源模型的能力已經(jīng)越過了某個門檻，比如智譜或者Kimi，在編程上最近都有比較大的提升。編程這個賽道本來就是大模型token消耗最大的賽道之一，當(dāng)程序員發(fā)現(xiàn)開源模型可能跟幾個月前的Anthropic模型一樣好用，但價格又極其便宜的時候，自然就會換到開源模型，這也是為什么開源模型的價格上升了。

對于個人開發(fā)者和創(chuàng)業(yè)公司來說，處理不那么復(fù)雜任務(wù)的時候，轉(zhuǎn)向開源模型是無可厚非的。

拿MiniMax M2.5和Claude Opus 4.6做個直接對比：在SWE-Bench Verified軟件工程基準(zhǔn)測試中，兩者得分分別是80.2%和80.8%，說實話，這點差距在實際使用中幾乎感受不到。但打開價格表就完全不同了：MiniMax M2.5的輸入價格是每百萬token 0.3美元，Claude Opus 4.6是5美元。同樣的活，前者的價格只有后者的十七分之一。對于一個每天要跑幾千萬token的OpenClaw用戶來說，這不是省一杯咖啡錢的問題，而是賬單從幾百美元直接降到幾十美元的區(qū)別。

那中國模型為什么能做到這么便宜？

肖志斌 ZFLOW AI創(chuàng)始人&CEO、華美半導(dǎo)體協(xié)會前主席與董事會顧問第一是技術(shù)層面上它用了MoE（混合專家模型），非常深度的MoE，專家的size變得越來越小，每一次運行的專家數(shù)目也不大，通過這種方法在技術(shù)上可以節(jié)省。第二是生態(tài)的問題，大家通過補貼去搶占生態(tài)。第三是有些公司像阿里，它是云廠商，自己的成本定價可以比外面計價更低，它有更高的margin（利潤率）去把模型價格打得更低。

不同的模型其實給了開發(fā)者們不同的選擇，比如說復(fù)雜的任務(wù)就交給更高性能的模型，簡單一些或者重復(fù)性高的任務(wù)就給便宜一點的模型，這樣的混合使用，成為了agent時代的新token模式。

黃仁勛在GTC 2026上給出了一個更宏觀的token定價框架。

他把token分成了五個價格區(qū)間：免費層（高吞吐、低交互速度，靠廣告變現(xiàn)）、中級層（每百萬token 3美元）、高級層（每百萬token 6美元）、高速層（每百萬token 45美元）到超高速層（每百萬token 150美元）。黃仁勛的意思很明確，token不再是一種同質(zhì)的商品，它的價格應(yīng)該由交互速度和使用場景決定，就像電力有峰谷電價一樣。

當(dāng)然，這些暴增的需求背后，也有一個不容忽視的問題：到底是不是真的需要消耗這么多token？一些業(yè)內(nèi)人士就批評說，當(dāng)前全球企業(yè)級AI應(yīng)用中，可能有近一半的token沒有產(chǎn)生實際價值。

道理很簡單，agent不像人類那樣知道“夠了就停”，它在執(zhí)行一個任務(wù)的過程中，會反復(fù)讀取整個對話歷史、重新掃描已經(jīng)處理過的文件、把早就過期的上下文一遍又一遍地喂進(jìn)模型。每多跑一輪，這些冗余信息就像滾雪球一樣越滾越大，但真正跟當(dāng)前任務(wù)相關(guān)的，可能只占其中一小部分。

怎么讓Agent少燒冤枉錢，正在成為一個新的技術(shù)和商業(yè)賽道。而Token Efficiency（Token效率）成為了下個階段的關(guān)鍵詞。其中值得提的一個例子，就是OpenRouter這家公司。

OpenRouter，從NFT到AI的“貨架之王”

OpenRouter這個平臺已經(jīng)成了觀察全球模型使用趨勢的一面鏡子。你看到的很多關(guān)于中國模型調(diào)用和排名的數(shù)據(jù)圖都出自于這個平臺。

OpenRouter背后的人很有意思，創(chuàng)始人Alex Atallah的上一個身份，是全球最大NFT交易所OpenSea的聯(lián)合創(chuàng)始人兼CTO。

2023年，他開始做OpenRouter，這門生意的邏輯其實很簡單：市面上模型越來越多，開發(fā)者不想每家單獨注冊、單獨充值、單獨對接API格式，OpenRouter就做了一個統(tǒng)一入口，所有模型一個接口搞定，平臺從中抽取約5%的費用。據(jù)Information報道，a16z在2025年對OpenRouter領(lǐng)投了4000萬美元，當(dāng)時估值約5億美元，而最新一輪融資已將估值推至接近13億美元。

讓這門生意真正起飛的，是OpenClaw的爆發(fā)。當(dāng)全球開發(fā)者瘋狂調(diào)用各種模型來驅(qū)動Agent工作流時，他們需要一個能快速切換模型的中間層，而OpenRouter恰好就在那里等著，這個時機(jī)簡直不要抓得太好。

Atallah曾將OpenRouter與他上一次創(chuàng)業(yè)做過類比，兩次做的都是把分散的供給，整合到一個平臺上。他賭的是：供給越分散，中間商越值錢。

肖志斌 ZFLOW AI創(chuàng)始人&CEO、華美半導(dǎo)體協(xié)會前主席與董事會顧問它加了一層API調(diào)用層，跟OpenAI的API調(diào)用是兼容的。如果你需要做一個任務(wù)，可以自動做不同模型的切換，統(tǒng)一API、統(tǒng)一定價。這樣對大部分用戶來說，特別是從0到1的AI初創(chuàng)公司，快速上線、快速試錯、快速找到匹配的模型，是最重要的。另外它還有fallback（后備）機(jī)制，一個模型出了問題，或者latency（延遲）突然很高，或者下線了，可以快速切換到另一個模型。

當(dāng)然，OpenRouter也有它的數(shù)據(jù)局限性。

肖志斌 ZFLOW AI創(chuàng)始人&CEO、華美半導(dǎo)體協(xié)會前主席與董事會顧問很多token的使用量是統(tǒng)計不到的。從0到1的初創(chuàng)公司可能會用OpenRouter，但從1到10，就會混用OpenRouter和直接API調(diào)用。大廠或者業(yè)務(wù)非常明確的公司，會直接調(diào)用Anthropic、OpenAI或者Google的API。所以O(shè)penRouter對token使用量有一定的指向性，也能做一些prediction（預(yù)測），但并不包含所有的token調(diào)用量。

換句話說，OpenRouter的數(shù)據(jù)，更像是創(chuàng)業(yè)公司和獨立開發(fā)者群體的風(fēng)向標(biāo)，而不是整個AI行業(yè)的全景圖。但正是這個群體，對價格最敏感、對新模型最愿意嘗鮮、遷移成本最低，構(gòu)成了中國模型出海的第一波“自來水”用戶。

Metronome，誰在給Token“裝電表”？

如果token是AI時代的“電”，那總得有人給這些電裝電表。這件事聽上去不夠性感，但看一眼客戶名單就知道它有多重要：OpenAI、NVIDIA、Anthropic、Databricks，全在用同一家公司的計費系統(tǒng)，這家公司就是Metronome。

Metronome創(chuàng)始團(tuán)隊的背景很說明問題，兩位創(chuàng)始人都出自Dropbox，在那里親身經(jīng)歷過一個讓所有SaaS工程師頭疼的事情：改定價。表面上只是把月費調(diào)幾塊錢，背后卻要動一大堆寫死在代碼里的計費邏輯。

到了AI時代，這個痛點被放大了幾個數(shù)量級，收費單位不再是“一個人頭一個月多少錢”，而是變成了token數(shù)、API調(diào)用次數(shù)、GPU時長這些顆粒度極細(xì)的指標(biāo)，而且每個客戶的合同條款、折扣結(jié)構(gòu)、用量階梯可能都不一樣。

知縣北京大學(xué)計算機(jī)系本碩，AI愛好者和社區(qū)項目OwliaBot builder SaaS的成本相對穩(wěn)定，就是服務(wù)器成本，甚至都是跟云廠商預(yù)先商定好的價格。但token公司確實挺tricky（復(fù)雜）的，跟卡本身的情況有關(guān)，跟電的情況有關(guān)，同時還跟請求量有關(guān)，峰值的時候會擠到一起。大家也有體感，就是哪怕買了最頂級的套餐，有時候也需要排隊。而且你做的任務(wù)不一樣，對token的消耗成本也完全不同。

Metronome做的事情，就是“清晰地記住誰在什么時間調(diào)用了什么東西，花了多少token。”但大部分公司自己做這件事做不好，因為“發(fā)生了什么”和“該怎么收費”，是兩套完全不同的邏輯，把它們耦合在一起就會越改越脆弱。

Metronome的核心設(shè)計就是把這兩件事徹底拆開，工程團(tuán)隊只管上報用量數(shù)據(jù)，產(chǎn)品和銷售團(tuán)隊自己配置價格和合同條款，中間的換算、出賬、對賬全部自動化。

知縣北京大學(xué)計算機(jī)系本碩，AI愛好者和社區(qū)項目OwliaBot builder 他的做法我覺得挺不錯的。首先不考慮計費，站在技術(shù)角度，用戶跟API的交互，到底做了哪些事情？是讀還是寫？模型在做思考？還是命中了緩存？這些不同的事件先記下來，因為這些事件代表多少成本，本身可能是動態(tài)的。所以先不把它跟錢掛鉤，記下事件流之后，再有另外一層：這些事件流分別怎么定價？比如命中緩存的可能只要一分錢，沒命中就要一塊錢。第三層就是我們能接觸到的：訂閱制是一種計費方式，直接買API是一種，設(shè)定限額再加超額是一種。第四層可能就是為了賣出去而要打折，比如Opus 200刀是100刀的兩倍成本但用量是四倍，他們就說在打五折。我看完這四層覺得非常合理。

這家公司的發(fā)展速度很快。據(jù)公開報道，Metronome累計融資約1.28億美元，今年1月被Stripe收購。一個做計費基礎(chǔ)設(shè)施的100人團(tuán)隊，估值追上了很多做模型的公司，這本身就說明，在token經(jīng)濟(jì)里，“怎么算錢”也變得越來越重要。

而在這樣的一個產(chǎn)業(yè)中，“套利”的機(jī)會也出現(xiàn)了。

Token套利，當(dāng)“中間商”開始賺差價

我們在前文中說到，現(xiàn)在開發(fā)者們會不同的模型混著用：復(fù)雜任務(wù)用Claude、GPT等昂貴模型，簡單任務(wù)用MiniMax、kimi等中國的性價比模型。

而對應(yīng)的，在token經(jīng)濟(jì)學(xué)里，一種新的商業(yè)模式正在浮出水面，業(yè)內(nèi)叫它Token Arbitrage（Token套利）。

知縣北京大學(xué)計算機(jī)系本碩，AI愛好者和社區(qū)項目OwliaBot builder 這有點像國內(nèi)買運營商套餐，1千兆下行帶寬只配了40兆上行帶寬，但普通用戶感受不到。token上也是類似的，很有可能你全用便宜模型，和全用貴模型，用戶看來區(qū)別不大，那這時候就有套利空間了。本質(zhì)上最后買單的是用戶，只要用戶覺得ok，那就是ok的。這在我看來真的有點像稅務(wù)審計師：你自己報稅可能要交1萬美金，你花5000美金雇了個審計師，他幫你報只報了2000美金的稅，他更專業(yè)、懂優(yōu)化，優(yōu)化出來的部分兩邊各拿一半。token arbitrage（套利）好好做就是這樣的生意。

肖志斌 ZFLOW AI創(chuàng)始人&CEO、華美半導(dǎo)體協(xié)會前主席與董事會顧問像我們自己搭建OpenClaw這種agent，肯定會有一個便宜模型，可能是國內(nèi)的大模型，高端的可能用Anthropic的Sonnet或者更好的OpenAI模型。我們公司也做了一個OpenClaw的token auto tuner（自動調(diào)優(yōu)器），針對不同的任務(wù)可以進(jìn)一步細(xì)分，甚至用一個模型去判斷這個任務(wù)的復(fù)雜度，看能不能用便宜模型來做。

更進(jìn)階的套利方式不只是“批發(fā)轉(zhuǎn)零售”，而是去搭建一個“智能路由器”，用戶需求進(jìn)來后，先用一個模型去判斷任務(wù)的復(fù)雜程度，簡單任務(wù)分配給便宜模型，只有真正復(fù)雜的任務(wù)才給Claude或GPT。對用戶來說是黑盒，但中間商在不斷優(yōu)化成本結(jié)構(gòu)。

錢宇靖 GMI Cloud工程主管作為模型提供商，大家可能都會有自己的路由模型。它就是一個小模型，來判斷當(dāng)下這個任務(wù)的難易程度，然后assign（分配）給合適的模型來最小化成本。還有一種方式是通過一個agent產(chǎn)品，比如Genspark或者M(jìn)anus，他們內(nèi)部對不同模型的能力有認(rèn)知，會針對不同任務(wù)做模型分發(fā)。

Nathan Wang 資深A(yù)I Agent開發(fā)者我覺得省token是正常的。你先有個用戶定價，設(shè)好一個margin（利潤率），比如按復(fù)雜模型的使用量定價，設(shè)定了30%的margin（利潤率）。之后，一旦用戶接受了這個價格，你其實是拿便宜的token換掉高價token給到用戶。如果用戶感知不出來，覺得體感上、表現(xiàn)上沒有變化，那用戶其實還是在付原來高價值token的錢。

知縣也是一個典型的“混合調(diào)度”用戶。他每天跟AI互動幾百次，同時使用Claude、GPT和中國模型，但給它們分配了完全不同的角色。

知縣北京大學(xué)計算機(jī)系本碩，AI愛好者和社區(qū)項目OwliaBot builder Opus最強(qiáng)的是腦洞，我更愿意把Opus當(dāng)產(chǎn)品經(jīng)理來對待，它想問題比較發(fā)散。我跟它聊的時候發(fā)現(xiàn)，我有些想法跟它一點就透，我說想做一個這樣的事情，它基本上就能順著我沒說的話，把我腦子里沒說出來的東西都列出來。GPT就稍微nerd（書呆子）一點，有點像在跟技術(shù)負(fù)責(zé)人講產(chǎn)品，收到的都是挑戰(zhàn)。所以O(shè)pus適合做設(shè)計，天馬行空；Codex適合做把關(guān)、做復(fù)盤。中間的執(zhí)行，只要方案寫好了、分得足夠精細(xì)，主要需要的是有一定的智能，并且快、便宜，因為這是最耗token的時候，真正往外寫代碼是非常非常耗的，輸出是最貴的。這個場景里，就用國產(chǎn)模型去做執(zhí)行，把代碼寫好、寫出來。

Agent開發(fā)者Nathan從工程化實現(xiàn)上，幫我們解釋了一下怎么做：

Nathan Wang 資深A(yù)I Agent開發(fā)者從最簡單的方式入手，可以拿一個模型來分辨用戶的問題，用戶基本上都在問問題，就拿個簡單模型去detect（檢測）用戶意圖，告訴它一定的metrics（指標(biāo)）怎么區(qū)分，再加上不同的threshold（閾值），這是最簡單的工程化方式，就可以把任務(wù)做基本的區(qū)分。到后期抓到一些用戶數(shù)據(jù)，可以通過簡單的RL（強(qiáng)化學(xué)習(xí)）或者訓(xùn)練的方式去優(yōu)化這個小模型。前期先用prompt方式抓數(shù)據(jù)，數(shù)據(jù)夠了再fine-tune（微調(diào)），一步步下來，它就會更高效地區(qū)分復(fù)雜場景和簡單場景。最終讓用戶無法區(qū)分，讓他付高價值token的錢，用低價值的token來服務(wù)。

那問題來了：這種套利可持續(xù)嗎？

肖志斌 ZFLOW AI創(chuàng)始人&CEO、華美半導(dǎo)體協(xié)會前主席與董事會顧問我覺得短期內(nèi)是有機(jī)會的。但對于單個模型，比如Anthropic，其實已經(jīng)把這個能力build（內(nèi)置）到它的coding agent（編程智能體）里面了，它最近加了一個Advisor模式，先用貴的模型判斷哪些任務(wù)可以用便宜模型做、哪些用貴的模型做，大模型廠商自己會把這個東西build in（內(nèi)置）到自己的生態(tài)里。

但跨模型的調(diào)度空間遠(yuǎn)沒有被窮盡。因為每家大模型公司只優(yōu)化自己的模型。然而，市場上的模型太多了，跨模型的智能調(diào)度不會只是短期機(jī)會。

肖志斌 ZFLOW AI創(chuàng)始人&CEO、華美半導(dǎo)體協(xié)會前主席與董事會顧問這個是有創(chuàng)業(yè)空間的，不僅僅是針對模型定價去做這件事，這里要做很多任務(wù)和模型匹配的工作：除了任務(wù)精準(zhǔn)度，還有模型延遲的判斷、模型質(zhì)量的判斷，以及任務(wù)完成度的判斷。而且現(xiàn)在還只是做了比較初步的API聚合，加了一些pricing（定價策略），還沒有做到模型質(zhì)量和任務(wù)的匹配，甚至是模型和硬件的匹配，也就是延遲和吞吐量的匹配。到底誰會贏？我的判斷是，最會調(diào)度token的系統(tǒng)會贏。但這種系統(tǒng)不會止步于OpenRouter這個程度，因為還有比如prompt壓縮這類功能，大模型廠商會把這些做進(jìn)自己的ecosystem（生態(tài)系統(tǒng)）。如果你做通用的token調(diào)度系統(tǒng)，一定要做得更深。

中國Token出海，結(jié)構(gòu)性的產(chǎn)業(yè)機(jī)會？

講到這里，我們可以把視角再拉大一點。想一想，當(dāng)一個倫敦的程序員，用MiniMax的API跑OpenClaw的時候，物理層面發(fā)生了什么？

他的請求從英國出發(fā)，穿過海底光纜，落在貴州的數(shù)據(jù)中心里。GPU開始工作，風(fēng)扇開始轉(zhuǎn)，電表開始跳。幾秒鐘后，結(jié)果原路返回。整個過程中，沒有一度電離開過中國的電網(wǎng)，但這度電的價值，已經(jīng)通過API賬單，以token的形式完成了跨境結(jié)算。

某種意義上，這是一種全新形態(tài)的“出口”對不對？

中國過去出口日用品、襯衫、家電，后來是電動車，但這些都是實物要過海關(guān)。Token出海不需要集裝箱，甚至不需要任何實體商品離開國境。電力在本地消耗，算力在本地運轉(zhuǎn)，但創(chuàng)造的價值通過互聯(lián)網(wǎng)，瞬間交付到全球任何一個開發(fā)者手上。有人把這叫做“電力出?！?，雖然電沒出去，但電的價值出去了。

那么一個自然的問題是：中國token能賣這么便宜，很多人的第一反應(yīng)是電價，這種狀態(tài)會一直持續(xù)下去嗎？實際情況還挺復(fù)雜。GMI Cloud創(chuàng)始人Alex在GTC現(xiàn)場給了我們一個很直率的判斷：美國其實不缺電，缺的是輸送能力。

Alex Yeh GMI Cloud創(chuàng)始人瓶頸還是在能源供給端，實際上美國不缺電，缺的是distribution power（配電能力）。高壓電上有很多電，天然氣一燒就能發(fā)電，但問題是distribution（分配），你要把電傳輸?shù)揭粋€點，這需要大量審批，要建變電站，從330kV一路降到400V或800V，這個過程非常冗長，光是拿審批就煩到爆炸。

實際上，中美電力成本的絕對值差異并不大，中國工業(yè)用電0.4-0.6元/度，美國0.8-1.2元/度，中美兩邊的工業(yè)電價差距其實沒有想象中那么大，真正拉開差距的是基礎(chǔ)設(shè)施的響應(yīng)速度：中國可以在西部沙漠里鋪滿光伏板，再通過特高壓電網(wǎng)把電送到東部的算力集群。

所以從電力角度看，美國的token價格一時半會很難降很多。同時，Alex認(rèn)為，從存儲等供應(yīng)鏈角度看，token價格短期內(nèi)更難下降。

Alex Yeh GMI Cloud創(chuàng)始人 DDR4的DRAM價格，是一年前的10倍。現(xiàn)在CX7也在缺貨、電源供應(yīng)和CPU也開始在缺貨，各個供應(yīng)鏈都開始缺貨。我看到OpenClaw的起來、agent起來、多模態(tài)的起來以及編程的起來，剛好這三個是一個完美的風(fēng)暴，所有的供應(yīng)鏈就跟不上這個節(jié)奏。

錢宇靖 GMI Cloud工程主管最大的挑戰(zhàn)還是建足夠多的數(shù)據(jù)中心，這是物理上的限制，提效當(dāng)然也非常重要。每一個云服務(wù)商都會緊跟技術(shù)迭代的步伐去提升token效率、降低延遲，但最終我們都被限制在一件事上：我們一共有多少數(shù)據(jù)中心、有多少卡、通了多少電。

這波出海紅利，已經(jīng)實實在在地反映在了收入上。如今MiniMax海外收入占比超過七成，月之暗面在Kimi K2.5發(fā)布后，短短數(shù)周內(nèi)收入就超過了2025年全年，智譜的模型API收入也在今年出現(xiàn)了爆發(fā)式增長。而token需求的天花板目前根本還看不到。

錢宇靖 GMI Cloud工程主管每一個event（事件）都觸發(fā)了token消耗的指數(shù)級增長，目前還沒有看到明顯的天花板。因為現(xiàn)在并不是每個人都在用OpenClaw，也沒有把生活中每一個vertical（垂直方向）都AI化，所以整體token consumption（消費）還會繼續(xù)增長，就像老黃說的，未來的潛力還是非常大，目前看不到天花板。

大家想想看，現(xiàn)在大部分人還只是偶爾用用OpenClaw，大部分行業(yè)還遠(yuǎn)遠(yuǎn)沒有被Agent滲透。但趨勢已經(jīng)很清楚了：token的消耗正在從“人類主動發(fā)起”變成“機(jī)器自動運轉(zhuǎn)”。一個程序員手動用AI編程助手，一天可能燒幾十萬token。但一旦他配了一個Agent全天候在后臺跑：寫代碼、查資料、跑測試、發(fā)部署，消耗量可以直接跳到千萬級。當(dāng)這種使用方式從少數(shù)極客擴(kuò)散到普通開發(fā)者，再擴(kuò)散到每一個知識工作者，token的需求增長就是指數(shù)級別的增長了。

如果用一句話來概括這個趨勢：如果上一個時代中國出口的是襯衫和家電，這個時代是電動車，那下一個時代可能就是token。

回到開頭的問題：token到底意味著什么？

對Meta員工來說，它是排行榜上的勛章。對創(chuàng)業(yè)公司來說，它是每個月最大的一筆開支。對OpenRouter來說，它是抽5%傭金的流水。對中國的云廠商來說，它是把電力變成美元的管道。對于黃仁勛來說，Token會變成大宗商品，每一個輸入和輸出都與芯片掛鉤。

錢宇靖 GMI Cloud工程主管我覺得這是一個正常的發(fā)展方向。就像我說的，token是一種commodity（大宗商品），那人類歷史上對于銷售commodity（大宗商品）出現(xiàn)過的所有銷售方式，都可以預(yù)計會在token上重現(xiàn)。所以最后就是看誰更有創(chuàng)意、誰的市場打得更好，因為只要底層模型技術(shù)過硬，它們的accuracy（準(zhǔn)確性）實際上不會有太大區(qū)別。

未來，Token就會是一種大宗商品。而圍繞大宗商品，人類幾千年來發(fā)明過的所有商業(yè)模式：期貨、套利、批發(fā)零售、聚合平臺、計量計費，都會在token身上重演一遍。同時，token定價的方式也可能會發(fā)生巨大的變化，比如說業(yè)界也正在開始嘗試按“復(fù)雜度計費”的effort-based pricing模式，或者是按任務(wù)完成度計費的task-based pricing模式，這都使得token economy的定價方式在未來有著巨大的進(jìn)化空間。這就像原油到汽油再到續(xù)航里程，這中間定價的邏輯，也會在token到任務(wù)到業(yè)務(wù)結(jié)果，這條進(jìn)化路徑上再復(fù)現(xiàn)一遍。

我們在這篇文章里看到的每一個概念和公司，從Token-maxxing到token套利，從OpenRouter到Metronome，本質(zhì)上都是這個古老邏輯的AI升級版本。

唯一不同的是速度。這一切不是在幾十年里慢慢展開的，而是在幾個月內(nèi)迅速發(fā)生的。當(dāng)你讀完這篇文章的時候，OpenRouter上可能又多了一個新模型沖上了榜單，某家云廠商可能又調(diào)了一次價，某個開發(fā)者可能又發(fā)現(xiàn)了一種新的省token的方法，而這場游戲才剛剛開始。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.