網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

深入談?wù)凣LM-5-Turbo：先有模型，后有Agent

2026-03-16 11:19:39　來(lái)源: 沃垠AI

四川舉報(bào)

分享至

大家好，我是最近有點(diǎn)焦慮的冷逸。

焦慮的原因是，龍蝦太火了，市面上魚(yú)龍混雜，大家體驗(yàn)后覺(jué)得不過(guò)如此，又把它給卸載了，回到過(guò)去“能工智能”的老路。

以至于網(wǎng)上有個(gè)段子：有人花499請(qǐng)人上面安裝OpenClaw，在用了幾天后實(shí)在難用而且又不知道怎么刪除，于是花了299找人上門(mén)卸載，結(jié)果卸載后電腦藍(lán)屏，只得再花1000找人恢復(fù)數(shù)據(jù)。

圖由Lovart生成

普及Agent本是好事，但如因?yàn)闉E竽充數(shù)導(dǎo)致人們對(duì)AI大失所望，反而會(huì)透支行業(yè)信用。

所以，又挺讓人焦慮的。

我在很多地方都分享過(guò)一個(gè)觀點(diǎn)：用好龍蝦，關(guān)鍵在于模型和Skills。

如果沒(méi)有好的底層模型，沒(méi)有找到好的場(chǎng)景Skills，那還真不如“能工智能”，畢竟人可以無(wú)限Token，微信直接發(fā)布命令……

模型這塊，現(xiàn)在已經(jīng)有幾個(gè)不錯(cuò)的模型了，比如GPT-5.4、Claude Opus 4.6、Gemini 3 Flash等。

但說(shuō)實(shí)話(huà)，真不便宜，而且也有門(mén)檻，很多人用不了。

今天，智譜發(fā)布了「全球首款龍蝦模型」GLM-5-Turbo，專(zhuān)門(mén)針對(duì)龍蝦工作流進(jìn)行優(yōu)化。

在ZClawBench上取得了僅次于Claude Opus 4.6的全面表現(xiàn)，相比自己的GLM-5更是提升顯著。

ZClawBench大家可能比較陌生，我給大家簡(jiǎn)單介紹一下。這是一個(gè)基于大量OpenClaw的真實(shí)用例，專(zhuān)門(mén)用來(lái)評(píng)估模型在真實(shí)工作流中執(zhí)行能力的測(cè)評(píng)基準(zhǔn)。

不同于傳統(tǒng)的Benchmark，ZClawBench更接近Agent能力測(cè)評(píng)，不只是看模型會(huì)不會(huì)答問(wèn)題，而是看模型能不能完成一件完整的事情。

龍蝦任務(wù)講求成功率，并不是模型的參數(shù)越大越好，而是要專(zhuān)門(mén)對(duì)Agent任務(wù)（比如工具調(diào)用、多步規(guī)劃）進(jìn)行優(yōu)化，同時(shí)兼顧推理效率（也就是速度）。

所以，一般是用推理效率更高的中端或輕量級(jí)模型來(lái)跑龍蝦，任務(wù)成功率會(huì)更高一些。GLM-5-Turbo，便是基于GLM-5基座調(diào)優(yōu)出來(lái)的龍蝦增強(qiáng)模型。

很多人玩龍蝦，喜歡用它來(lái)做定時(shí)任務(wù)，但你發(fā)覺(jué)沒(méi)有，經(jīng)常定著定著它就沒(méi)有時(shí)間觀念了，可能隔幾天就忘記了前面的設(shè)定。

這本質(zhì)上是模型長(zhǎng)文本instruction following能力的缺陷，導(dǎo)致它容易“失憶”，或者無(wú)法被喚醒。

針對(duì)這個(gè)問(wèn)題，GLM-5-Turbo進(jìn)行了專(zhuān)項(xiàng)優(yōu)化，不僅能拆解復(fù)雜指令、指揮多智能體協(xié)作，還能在“時(shí)間維度”上保持對(duì)指令的長(zhǎng)期記憶，確保長(zhǎng)任務(wù)持續(xù)執(zhí)行不斷線。

所以，它很擅長(zhǎng)處理定時(shí)和持續(xù)性任務(wù)，能夠保持長(zhǎng)任務(wù)不中斷。

如果你最近有用過(guò)澳龍（AutoClaw），你就會(huì)發(fā)現(xiàn)上面多了一個(gè)叫Pony Alpha-2的模型。

在海外，有很多老哥猜測(cè)這到底是什么模型。比如@Numman Ali 就說(shuō)，Pony Alpha-2看起來(lái)像Opus級(jí)別的模型。

今天，智譜官方揭曉：這其實(shí)就是GLM-5-Turbo。

我們也第一時(shí)間在澳龍里測(cè)了測(cè)，給大家看下我的一手體驗(yàn)。

我的任務(wù)是：

到豆瓣 https://movie.douban.com 搜索最近熱門(mén)的電影，結(jié)合熱度、評(píng)分和上映時(shí)間綜合篩選10部電影給我，整理成Excel表格，并根據(jù)Excel表格的信息設(shè)計(jì)一個(gè)可視化HTML，最后把Excel和HTML一并發(fā)到我的飛書(shū)上。

這個(gè)任務(wù)其實(shí)挺復(fù)雜的，澳龍要自己上網(wǎng)篩選信息→總結(jié)內(nèi)容→生成表格→編寫(xiě)代碼→自動(dòng)發(fā)送到飛書(shū)。

這里面一共有5步，分別調(diào)用了搜索工具、文檔工具、IM接口和模型Coding能力，很多模型走到第3步就崩了。

問(wèn)題出在哪？會(huì)聊天≠會(huì)干活。

龍蝦任務(wù)需要的是連續(xù)執(zhí)行、精準(zhǔn)調(diào)用工具、長(zhǎng)時(shí)間不斷線……這些，通用模型沒(méi)有專(zhuān)門(mén)訓(xùn)過(guò)，根本就不會(huì)。

而搭載了GLM-5-Turbo的澳龍，它真的把Excel和HTML就直接給了我。

是的，就直接給了我，連過(guò)程它都沒(méi)有輸出幾句廢話(huà)……是不是像極了你們公司剛?cè)肼氋u(mài)力干活求轉(zhuǎn)正的新員工？

那來(lái)看下最終的結(jié)果呢？

臥槽，我還以為我打開(kāi)的會(huì)是一個(gè)一看就是Python寫(xiě)的原始表格。沒(méi)想到，它連配色、排版這些都考慮到了，我直接就可以用。

生成的可視化網(wǎng)頁(yè)，這塊我完全相信GLM模型的Coding能力。

接著，我又測(cè)了一個(gè)任務(wù)，這是我很早就想做的定時(shí)任務(wù)，讓大模型來(lái)監(jiān)控DeepSeek，看他們公司究竟什么時(shí)候發(fā)新模型。

一旦有新動(dòng)態(tài)，第一時(shí)間通過(guò)飛書(shū)滴我。

任務(wù)需求是：

這是DeepSeek的4個(gè)官方信息發(fā)布渠道：
https://github.com/deepseek-ai
https://huggingface.co/deepseek-ai
https://www.xiaohongshu.com/user/profile/66821202000000001b01a005
https://x.com/deepseek_ai

 請(qǐng)監(jiān)控這4個(gè)url，每隔30分鐘給我匯報(bào)一次DeepSeek的最新動(dòng)態(tài)，并通過(guò)飛書(shū)反饋給我。

 需要注意：
1.如果DeepSeek有發(fā)布新模型/新消息，請(qǐng)匯報(bào)詳細(xì)情況，并貼出信息地址；如果無(wú)新消息，也要匯報(bào)，但是內(nèi)容略。
2.如果DeepSeek發(fā)布了新模型（比如DeepSeek V4），請(qǐng)第一時(shí)間通過(guò)飛書(shū)滴我，緊急告知。
3.僅監(jiān)控這4個(gè)渠道。
4.2025年以前的消息都可以忽視，只看2026年以后的。

真的，一開(kāi)始我都不抱希望，因?yàn)檫@里面涉及到各種反爬機(jī)制，很多模型大概率會(huì)失敗。

之后，我就去吃飯了。2個(gè)小時(shí)后回來(lái)，沒(méi)想到它真的開(kāi)始監(jiān)控了。

并成功通過(guò)飛書(shū)推送了監(jiān)控報(bào)告。到發(fā)稿，我這個(gè)定時(shí)任務(wù)依然還在跑著。

它創(chuàng)建這個(gè)定時(shí)任務(wù)的思考過(guò)程超長(zhǎng)超長(zhǎng)，但你別管人家怎么想的，最終就是搞定了。

我只能說(shuō)，真的，智譜。

這真的解決了我很早就想做但一直沒(méi)能去做的需求問(wèn)題，而今天我只口噴了幾句提示，GLM-5-Turbo就接管了我的需求。

價(jià)格方面，這次智譜專(zhuān)門(mén)搞了個(gè)龍蝦套餐，支持個(gè)人和Team訂閱。

Claw體驗(yàn)月卡，3500萬(wàn)Tokens，39元/張；
Claw進(jìn)階月卡，1億Tokens，99元/張。

說(shuō)實(shí)話(huà)，對(duì)于高頻養(yǎng)蝦戶(hù)來(lái)說(shuō)，1億Tokens可能不太夠。

之前GLM模型就一直供不應(yīng)求，我估計(jì)這個(gè)龍蝦套餐也會(huì)很快售罄（還是算力緊張給影響的），需要的朋友，得早點(diǎn)下手了。

訂閱地址：https://www.bigmodel.cn/claw-plan-team

除Claw套餐外，他們家的Coding Plan Max套餐已經(jīng)支持GLM-5-Turbo。很幸運(yùn)，我在春節(jié)前就買(mǎi)了他們的Max套餐，現(xiàn)在算是實(shí)現(xiàn)了“GLM模型自由”。

真的，還是那句話(huà)，底層模型太重要了。

沒(méi)有優(yōu)秀的底層模型，即使你的Agent框架設(shè)計(jì)得再好，soul、memory、Heartbeat、skills設(shè)計(jì)得再漂亮，也是白搭。

先有模型，后有Agent。

最近，我看到一個(gè)觀點(diǎn)：

「大模型，不是一個(gè)只安靜呆在底下給你調(diào)API的基礎(chǔ)設(shè)施，它本身就是智能，就是認(rèn)知，就是那個(gè)會(huì)持續(xù)進(jìn)化、持續(xù)吞并、持續(xù)往上吃的東

西。」（by@Melly在硅谷）

深感認(rèn)同！我們不應(yīng)被Agent表面的繁榮轉(zhuǎn)移了注意力，底層模型的進(jìn)化，才是定義這個(gè)時(shí)代的根本力量。

框架和應(yīng)用可能是時(shí)代的弄潮兒，但只有模型本身才是推動(dòng)這個(gè)時(shí)代的潮水。

所以，我是真的很高興，今天能夠看到有這么厲害的國(guó)產(chǎn)龍蝦模型面世。

最后，再分享一個(gè)行業(yè)細(xì)節(jié)：近期，OpenAI內(nèi)部已經(jīng)將核心KPI從傳統(tǒng)的DAU（日活躍用戶(hù)數(shù)）轉(zhuǎn)向了TPD（每日Token消耗量）。

這什么意思呢？未來(lái)衡量AI的價(jià)值不是有多少人在用，而是AI替人類(lèi)干了多少活。

不知道大家有沒(méi)有注意，現(xiàn)在提Token，大家也都能明白，都能理解了，并不需要你給他科普 1 Token到底等于等于幾個(gè)漢字、幾個(gè)單詞。

沒(méi)人在乎Token的具體含義，但人人都在談Token。

這就是，時(shí)代真的變了。

而我們，每個(gè)人都成了時(shí)代的一份子。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.