大家好,我是最近有點(diǎn)焦慮的冷逸。
焦慮的原因是,龍蝦太火了,市面上魚(yú)龍混雜,大家體驗(yàn)后覺(jué)得不過(guò)如此,又把它給卸載了,回到過(guò)去“能工智能”的老路。
以至于網(wǎng)上有個(gè)段子:有人花499請(qǐng)人上面安裝OpenClaw,在用了幾天后實(shí)在難用而且又不知道怎么刪除,于是花了299找人上門(mén)卸載,結(jié)果卸載后電腦藍(lán)屏,只得再花1000找人恢復(fù)數(shù)據(jù)。
![]()
圖由Lovart生成
普及Agent本是好事,但如因?yàn)闉E竽充數(shù)導(dǎo)致人們對(duì)AI大失所望,反而會(huì)透支行業(yè)信用。
所以,又挺讓人焦慮的。
我在很多地方都分享過(guò)一個(gè)觀點(diǎn):用好龍蝦,關(guān)鍵在于模型和Skills。
如果沒(méi)有好的底層模型,沒(méi)有找到好的場(chǎng)景Skills,那還真不如“能工智能”,畢竟人可以無(wú)限Token,微信直接發(fā)布命令……
![]()
模型這塊,現(xiàn)在已經(jīng)有幾個(gè)不錯(cuò)的模型了,比如GPT-5.4、Claude Opus 4.6、Gemini 3 Flash等。
但說(shuō)實(shí)話(huà),真不便宜,而且也有門(mén)檻,很多人用不了。
今天,智譜發(fā)布了「全球首款龍蝦模型」GLM-5-Turbo,專(zhuān)門(mén)針對(duì)龍蝦工作流進(jìn)行優(yōu)化。
在ZClawBench上取得了僅次于Claude Opus 4.6的全面表現(xiàn),相比自己的GLM-5更是提升顯著。
![]()
ZClawBench大家可能比較陌生,我給大家簡(jiǎn)單介紹一下。這是一個(gè)基于大量OpenClaw的真實(shí)用例,專(zhuān)門(mén)用來(lái)評(píng)估模型在真實(shí)工作流中執(zhí)行能力的測(cè)評(píng)基準(zhǔn)。
不同于傳統(tǒng)的Benchmark,ZClawBench更接近Agent能力測(cè)評(píng),不只是看模型會(huì)不會(huì)答問(wèn)題,而是看模型能不能完成一件完整的事情。
龍蝦任務(wù)講求成功率,并不是模型的參數(shù)越大越好,而是要專(zhuān)門(mén)對(duì)Agent任務(wù)(比如工具調(diào)用、多步規(guī)劃)進(jìn)行優(yōu)化,同時(shí)兼顧推理效率(也就是速度)。
所以,一般是用推理效率更高的中端或輕量級(jí)模型來(lái)跑龍蝦,任務(wù)成功率會(huì)更高一些。GLM-5-Turbo,便是基于GLM-5基座調(diào)優(yōu)出來(lái)的龍蝦增強(qiáng)模型。
很多人玩龍蝦,喜歡用它來(lái)做定時(shí)任務(wù),但你發(fā)覺(jué)沒(méi)有,經(jīng)常定著定著它就沒(méi)有時(shí)間觀念了,可能隔幾天就忘記了前面的設(shè)定。
這本質(zhì)上是模型長(zhǎng)文本instruction following能力的缺陷,導(dǎo)致它容易“失憶”,或者無(wú)法被喚醒。
針對(duì)這個(gè)問(wèn)題,GLM-5-Turbo進(jìn)行了專(zhuān)項(xiàng)優(yōu)化,不僅能拆解復(fù)雜指令、指揮多智能體協(xié)作,還能在“時(shí)間維度”上保持對(duì)指令的長(zhǎng)期記憶,確保長(zhǎng)任務(wù)持續(xù)執(zhí)行不斷線。
所以,它很擅長(zhǎng)處理定時(shí)和持續(xù)性任務(wù),能夠保持長(zhǎng)任務(wù)不中斷。
如果你最近有用過(guò)澳龍(AutoClaw),你就會(huì)發(fā)現(xiàn)上面多了一個(gè)叫Pony Alpha-2的模型。
![]()
在海外,有很多老哥猜測(cè)這到底是什么模型。比如@Numman Ali 就說(shuō),Pony Alpha-2看起來(lái)像Opus級(jí)別的模型。
![]()
今天,智譜官方揭曉:這其實(shí)就是GLM-5-Turbo。
我們也第一時(shí)間在澳龍里測(cè)了測(cè),給大家看下我的一手體驗(yàn)。
我的任務(wù)是:
到豆瓣 https://movie.douban.com 搜索最近熱門(mén)的電影,結(jié)合熱度、評(píng)分和上映時(shí)間綜合篩選10部電影給我,整理成Excel表格,并根據(jù)Excel表格的信息設(shè)計(jì)一個(gè)可視化HTML,最后把Excel和HTML一并發(fā)到我的飛書(shū)上。這個(gè)任務(wù)其實(shí)挺復(fù)雜的,澳龍要自己上網(wǎng)篩選信息→總結(jié)內(nèi)容→生成表格→編寫(xiě)代碼→自動(dòng)發(fā)送到飛書(shū)。
這里面一共有5步,分別調(diào)用了搜索工具、文檔工具、IM接口和模型Coding能力,很多模型走到第3步就崩了。
問(wèn)題出在哪?會(huì)聊天≠會(huì)干活。
龍蝦任務(wù)需要的是連續(xù)執(zhí)行、精準(zhǔn)調(diào)用工具、長(zhǎng)時(shí)間不斷線……這些,通用模型沒(méi)有專(zhuān)門(mén)訓(xùn)過(guò),根本就不會(huì)。
而搭載了GLM-5-Turbo的澳龍,它真的把Excel和HTML就直接給了我。
![]()
是的,就直接給了我,連過(guò)程它都沒(méi)有輸出幾句廢話(huà)……是不是像極了你們公司剛?cè)肼氋u(mài)力干活求轉(zhuǎn)正的新員工?
那來(lái)看下最終的結(jié)果呢?
![]()
臥槽,我還以為我打開(kāi)的會(huì)是一個(gè)一看就是Python寫(xiě)的原始表格。沒(méi)想到,它連配色、排版這些都考慮到了,我直接就可以用。
生成的可視化網(wǎng)頁(yè),這塊我完全相信GLM模型的Coding能力。
![]()
接著,我又測(cè)了一個(gè)任務(wù),這是我很早就想做的定時(shí)任務(wù),讓大模型來(lái)監(jiān)控DeepSeek,看他們公司究竟什么時(shí)候發(fā)新模型。
一旦有新動(dòng)態(tài),第一時(shí)間通過(guò)飛書(shū)滴我。
任務(wù)需求是:
這是DeepSeek的4個(gè)官方信息發(fā)布渠道:
https://github.com/deepseek-ai
https://huggingface.co/deepseek-ai
https://www.xiaohongshu.com/user/profile/66821202000000001b01a005
https://x.com/deepseek_ai
請(qǐng)監(jiān)控這4個(gè)url,每隔30分鐘給我匯報(bào)一次DeepSeek的最新動(dòng)態(tài),并通過(guò)飛書(shū)反饋給我。需要注意:
1.如果DeepSeek有發(fā)布新模型/新消息,請(qǐng)匯報(bào)詳細(xì)情況,并貼出信息地址;如果無(wú)新消息,也要匯報(bào),但是內(nèi)容略。
2.如果DeepSeek發(fā)布了新模型(比如DeepSeek V4),請(qǐng)第一時(shí)間通過(guò)飛書(shū)滴我,緊急告知。
3.僅監(jiān)控這4個(gè)渠道。
4.2025年以前的消息都可以忽視,只看2026年以后的。
真的,一開(kāi)始我都不抱希望,因?yàn)檫@里面涉及到各種反爬機(jī)制,很多模型大概率會(huì)失敗。
之后,我就去吃飯了。2個(gè)小時(shí)后回來(lái),沒(méi)想到它真的開(kāi)始監(jiān)控了。
![]()
并成功通過(guò)飛書(shū)推送了監(jiān)控報(bào)告。到發(fā)稿,我這個(gè)定時(shí)任務(wù)依然還在跑著。
![]()
它創(chuàng)建這個(gè)定時(shí)任務(wù)的思考過(guò)程超長(zhǎng)超長(zhǎng),但你別管人家怎么想的,最終就是搞定了。
![]()
我只能說(shuō),真的,智譜。
這真的解決了我很早就想做但一直沒(méi)能去做的需求問(wèn)題,而今天我只口噴了幾句提示,GLM-5-Turbo就接管了我的需求。
價(jià)格方面,這次智譜專(zhuān)門(mén)搞了個(gè)龍蝦套餐,支持個(gè)人和Team訂閱。
Claw體驗(yàn)月卡,3500萬(wàn)Tokens,39元/張;
Claw進(jìn)階月卡,1億Tokens,99元/張。
說(shuō)實(shí)話(huà),對(duì)于高頻養(yǎng)蝦戶(hù)來(lái)說(shuō),1億Tokens可能不太夠。
之前GLM模型就一直供不應(yīng)求,我估計(jì)這個(gè)龍蝦套餐也會(huì)很快售罄(還是算力緊張給影響的),需要的朋友,得早點(diǎn)下手了。
![]()
訂閱地址:https://www.bigmodel.cn/claw-plan-team
除Claw套餐外,他們家的Coding Plan Max套餐已經(jīng)支持GLM-5-Turbo。很幸運(yùn),我在春節(jié)前就買(mǎi)了他們的Max套餐,現(xiàn)在算是實(shí)現(xiàn)了“GLM模型自由”。
真的,還是那句話(huà),底層模型太重要了。
沒(méi)有優(yōu)秀的底層模型,即使你的Agent框架設(shè)計(jì)得再好,soul、memory、Heartbeat、skills設(shè)計(jì)得再漂亮,也是白搭。
先有模型,后有Agent。
![]()
最近,我看到一個(gè)觀點(diǎn):
「大模型,不是一個(gè)只安靜呆在底下給你調(diào)API的基礎(chǔ)設(shè)施,它本身就是智能,就是認(rèn)知,就是那個(gè)會(huì)持續(xù)進(jìn)化、持續(xù)吞并、持續(xù)往上吃的東
西。」(by@Melly在硅谷)
深感認(rèn)同!我們不應(yīng)被Agent表面的繁榮轉(zhuǎn)移了注意力,底層模型的進(jìn)化,才是定義這個(gè)時(shí)代的根本力量。
框架和應(yīng)用可能是時(shí)代的弄潮兒,但只有模型本身才是推動(dòng)這個(gè)時(shí)代的潮水。
所以,我是真的很高興,今天能夠看到有這么厲害的國(guó)產(chǎn)龍蝦模型面世。
最后,再分享一個(gè)行業(yè)細(xì)節(jié):近期,OpenAI內(nèi)部已經(jīng)將核心KPI從傳統(tǒng)的DAU(日活躍用戶(hù)數(shù))轉(zhuǎn)向了TPD(每日Token消耗量)。
這什么意思呢?未來(lái)衡量AI的價(jià)值不是有多少人在用,而是AI替人類(lèi)干了多少活。
不知道大家有沒(méi)有注意,現(xiàn)在提Token,大家也都能明白,都能理解了,并不需要你給他科普 1 Token到底等于等于幾個(gè)漢字、幾個(gè)單詞。
沒(méi)人在乎Token的具體含義,但人人都在談Token。
這就是,時(shí)代真的變了。
而我們,每個(gè)人都成了時(shí)代的一份子。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.