<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      全解讀|智譜 GLM-5V-Turbo 發布,多模態 Coding 基模

      0
      分享至

      MODEL

      今天,智譜發布 GLM-5V-Turbo,定位「面向視覺編程的多模態 Coding 基座模型」

      一句話概括:在 GLM-5-Turbo 的編程和龍蝦能力基座上,加入了原生的視覺理解和推理能力

      模型能看懂設計稿、截圖、網頁界面,據此生成完整可運行的代碼


      GLM-5V-Turbo Playground:左邊是手繪草圖,右邊是生成的完整前端頁面

      從 GLM-5 到 GLM-5V-Turbo

      先理一下產品線關系

      2 月 11 日,智譜發布 GLM-5,744B 參數的開源旗艦,主打編程和 Agentic Engineering。3 月 16 日,GLM-5-Turbo 跟進,專門針對龍蝦(OpenClaw/AutoClaw)場景做了優化,強化工具調用、指令遵循、長鏈路執行

      今天的 GLM-5V-Turbo 是這條線的第三步:在 GLM-5-Turbo 的全部能力基礎上,從預訓練階段就融入了視覺能力

      具體多了什么:

      → 原生理解圖片、視頻、設計稿、文檔版面等多模態輸入

      → 支持畫框、截圖、讀網頁等多模態工具調用

      → 上下文窗口 200K

      → 與 Claude Code、OpenClaw/AutoClaw 深度適配

      關鍵詞是「原生」。這里的視覺能力是從預訓練階段就開始訓的,后訓練階段再做多模態協同優化,和在文本模型上面接一個視覺編碼器的做法不一樣

      Benchmark

      先看多模態相關的指標。對比對象是 Kimi K2.5 和 Claude Opus 4.6


      多模態 Benchmark:Multimodal Coding / Tool Use / GUI Agent

      在 Design2Code、ImageMining、BrowseComp-VL、MMSearch、AndroidWorld 這幾項上,GLM-5V-Turbo 均為三者最高。Opus 4.6 在 Flame-VLM-Code(98.8)和 Vision2Web(43.5)上領先

      再看純文本 Coding 和龍蝦任務的指標。這張表多了一列 GLM-5-Turbo(純文本版),可以看視覺能力引入后純文本能力有沒有退化


      純文本 Coding 和 Claw Benchmark

      CC-Backend:GLM-5V-Turbo 22.8 vs GLM-5-Turbo 20.5,視覺版反而略高

      CC-Frontend:68.4 vs 69.4,基本持平

      CC-Repo-Exploration:72.2 vs 68.9,視覺版略高

      官方的結論是:視覺能力引入后,純文本編程與推理能力保持了同等水準。從數據看,個別項還有小幅提升。Opus 4.6 在純文本 Coding 三項上均領先(CC-Backend 26.9,CC-Frontend 75.9,CC-Repo-Exploration 74.4),在 PinchBench 和 ClawEval 上也占優,這個差距客觀存在

      內測合作伙伴反饋

      內測階段,字節 TRAE 模型測評團隊、美團和快手萬擎模型測評團隊分別給出了評價:

      GLM-5V-Turbo 實現了從設計稿到代碼的完整還原,作為一款視覺理解模型,能夠很好地滿足開發者的前端開發場景

      TRAE 模型測評團隊

      原生多模態能力的引入并未削弱其編程邏輯,其編程能力仍屬于國內第一梯隊

      美團

      它為 Agent 安上了「眼睛」,同時在編程領域展現出優于同類多模態模型的能力,在視覺編程場景中更具競爭力

      快手萬擎模型測評團隊

      四項技術升級

      GLM-5V-Turbo 的能力來自模型架構、訓練方法、數據構造、工具鏈四個層面的系統性改動

      原生多模態融合

      GLM-5V-Turbo 從預訓練階段開始做文本與視覺的深度融合。智譜研發了新一代 CogViT 視覺編碼器,官方稱在通用物體識別、細粒度理解、幾何與空間感知上均達最優。同時設計了兼容多模態輸入的 MTP(Multi-Token Prediction) 結構,在多模態場景下保持較高的推理效率

      30+ 任務協同強化學習

      強化學習階段同時優化 30 多 個任務類型,覆蓋 STEM、grounding、video、GUI Agent 等子領域。官方稱這種多任務協同的方式有效緩解了單領域訓練的不穩定性,模型在感知、推理、Agentic 執行上均有提升

      Agentic 數據與任務構造

      Agent 數據一直是行業痛點:數據稀缺,驗證困難。智譜的做法是構建從元素感知到序列級動作預測的多層級體系,用合成環境大規模生成可控、可驗證的訓練數據

      一個有意思的細節:他們從預訓練階段就注入 Agentic 元能力,比如把 GUI Agent PRM 數據加入預訓練來降低幻覺

      多模態工具鏈擴展

      在文本工具之外,GLM-5V-Turbo 新增支持多模態搜索、畫框、截圖、讀網頁等多模態 tools。這讓 Agent 的感知鏈路從純文本擴展到視覺交互,可以「看懂環境 → 規劃動作 → 執行任務」形成完整閉環

      典型場景

      下面用實際案例展開,信息量比較大

      圖像即代碼

      GLM-5V-Turbo 最核心的能力場景。你可以發送草圖、設計稿、參考網站的截圖或錄屏,模型直接理解布局、配色、組件層級與交互邏輯,生成完整可運行的前端工程


      前端復刻:發截圖或錄屏,模型還原版式、配色、動效等視覺細節,生成可運行代碼


      GUI 自主探索復刻:結合 Claude Code,模型自主探索目標網站,瀏覽頁面結構、梳理跳轉關系、采集素材,然后直接生成代碼復現整個站點


      交互式編輯:支持按需求增刪頁面模塊、修改文案樣式、調整布局、補充交互功能


      文檔解讀與寫作

      給模型一份 PDF 文檔,它讀完之后可以按照你的要求撰寫特定格式的文章


      NVIDIA 10-Q 財報 → 中文財務簡報

      比如把 NVIDIA 2026 財年第一季度 10-Q 表格扔給 AutoClaw,提示詞是「閱讀文檔,匯總關鍵數據,撰寫一份簡報,保存到 result.md」,模型輸出了包含營收、利潤、毛利率、EPS 等關鍵數據和業務板塊分析的中文財務簡報

      另一個案例是給一篇 40 頁的 GLM-5 論文 PDF,讓模型按微信公眾號風格撰寫宣傳文案。模型自動從原文中定位和截取關鍵圖表,嵌入到合適的位置,輸出圖文并茂的文章


      論文 PDF → 公眾號風格圖文文案

      PDF-to-WEB / PDF-to-PPT

      這兩個能力做成了官方 Skill。PDF-to-WEB 是把論文或報告轉成精美的單頁學術網站。用 BERT 論文和 GLM-5 論文做的實測,渲染結果的完成度很高,接近手工做的學術項目主頁


      PDF-to-WEB 渲染結果

      PDF-to-PPT 則是把文檔轉成多頁 HTML 演示文稿。比如用阿里巴巴的近期動態做了一個 14 頁的分析 PPT,模型自主搜索了季度財報、業務板塊數據和競爭格局,配了圖表

      多模態 Deep Research

      這里展示兩個深度調研的案例

      第一個是「搜集小米汽車相關圖片,輸出圖文交錯的專題報告」。模型通過約 50 輪網絡搜索,從各個渠道獲取了包括新一代 SU7、YU7/YU7 GT、YU9 等車型的圖片和產線、工廠照片,輸出了一份結構化分析報告


      小米汽車 Deep Research 報告

      第二個是「結合阿里巴巴的近期動態和季度財報,仿照麥肯錫風格,生成專業 PPT」。模型同樣自主完成了信息搜集、數據整理和可視化呈現


      阿里巴巴麥肯錫風格 PPT

      視覺 Grounding

      模型能在圖片中精準定位目標物體。幾個有意思的例子:

      數手指:給一張手部 X 光片,讓模型用坐標標出所有手指的位置。模型準確識別并標注了 6 個手指(包括左右兩側拇指和中間 4 個手指)


      多模態搜索 + 識別:給了一張 1927 年第五屆索爾維會議的合影照片,提示詞是「框出圖中全部人物以及他們的名字」。模型成功識別并框出了全部 29 位人物,從第三排的奧古斯特·皮卡爾德到第一排的愛因斯坦


      索爾維會議 29 人全部識別并框出

      空間推理

      模型在空間理解上的能力可以和具身機器人結合。一個實測案例是一張廚房場景照片,提示詞是「我想切火腿腸,請問我的手應該操作哪個位置?請在圖中點出對應的位置」。模型標注出了菜刀刀柄的位置,并給出了操作指導


      空間推理 - 標注菜刀刀柄位置

      為龍蝦裝上眼睛

      接入 GLM-5V-Turbo 之后,龍蝦(AutoClaw/OpenClaw)的任務邊界大幅拓寬。以前只能處理純文本任務,現在可以瀏覽網頁和文檔、生成圖文并茂的報告和 PPT、查詢并解讀 K 線圖

      官方已上線「股票分析師」Skill,利用視覺能力讓龍蝦直接看懂 K 線走勢、估值區間圖和券商研報圖表,四路數據源 60 秒并行采集,輸出圖文交錯的研報

      14 個官方 Skills

      智譜為 GLM-5V-Turbo 準備了 14 個官方 Skills,分三類

      基于主模型原生能力(4 個)

      PDF-to-WEB:論文/報告轉單頁學術網站

      PDF-to-PPT:文檔轉多頁 HTML 演示文稿

      Web-Replication:給 URL,模型自主探索并復刻整個網站

      PRD-to-App:產品需求文檔 + 原型圖轉全棧 Web 應用

      作為外部工具調用(5 個)

      圖像 Captioning:自動分析圖像內容,生成自然語言描述

      視覺 Grounding:根據文字描述在圖像中精準定位目標

      基于文檔的寫作:讀文檔、提關鍵信息、生成特定格式文本

      簡歷篩選:讀簡歷,和職位要求智能比對

      提示詞生成:根據參考圖/視頻,自動構建文生圖/視頻的 Prompt

      基于專用模型 GLM-OCR / GLM-Image(5 個)

      通用文字識別:印刷體、手寫體、多語言文本

      表格識別:還原行列結構和合并單元格

      手寫體識別:適應連筆、潦草等復雜書寫

      公式識別:復雜公式轉 LaTeX

      文生圖:自然語言生成圖像

      全部 Skills 已上線 ClawHub:一鍵安裝

      GitHub:zai-org/GLM-skills

      接入方式 產品體驗

      → AutoClaw(澳龍):autoglm.zhipuai.cn/autoclaw

      → Z.ai:chat.z.ai


      z.ai

      API 接入

      → BigModel 開放平臺:docs.bigmodel.cn

      → Z.ai:docs.z.ai


      https://docs.bigmodel.cn/cn/guide/models/vlm/glm-5v-turbo

      Claude Code

      ~/.claude/settings.json 中配置:

      ANTHROPIC_BASE_URL 設為 https://open.bigmodel.cn/api/anthropic

      → 模型 ID 填 glm-5v-turbo

      或在會話中直接 /model glm-5v-turbo 切換

      AutoClaw / OpenClaw 接入

      設置里添加自定義模型:

      → 服務商選「智譜」

      → 模型 ID 填 glm-5v-turbo

      → Base URL 填 https://open.bigmodel.cn/api/paas/v4

      → 填入 API Key 即可

      Coding Plan:現面向 Coding Plan 用戶開放申請,后續 GLM Coding Plan 也會納入 GLM-5V-Turbo

      申請問卷:zhipu-ai.feishu.cn/share/base/form/shrcn...

      GLM-5,2 月 11 日

      GLM-5-Turbo,3 月 16 日

      GLM-5V-Turbo,4 月 2 日

      大約每兩到三周一個版本。這次補上的是視覺能力,龍蝦和 Claude Code 的感知鏈路從純文本擴展到了視覺交互

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      心理學上說:永遠不要指出你身邊人的任何問題,包括你的親戚朋友。否則只會給你自己帶來這兩種傷害

      心理學上說:永遠不要指出你身邊人的任何問題,包括你的親戚朋友。否則只會給你自己帶來這兩種傷害

      心理觀察局
      2026-05-10 08:08:12
      中央巡視組已亮劍!這5類問題是重點 , 老百姓福音來了!

      中央巡視組已亮劍!這5類問題是重點 , 老百姓福音來了!

      細說職場
      2026-05-13 13:42:26
      白宮公布名單,16位美國商界領袖將隨特朗普訪華

      白宮公布名單,16位美國商界領袖將隨特朗普訪華

      界面新聞
      2026-05-12 21:23:09
      同樣是冠軍家長,梁爸低調接機,蒯曼父親公開護女,差距太真實

      同樣是冠軍家長,梁爸低調接機,蒯曼父親公開護女,差距太真實

      吳蛛旅行ing
      2026-05-14 10:18:22
      活塞末節最后3分鐘0分 騎士拿下天王山!哈登30分+加時搶制勝籃板

      活塞末節最后3分鐘0分 騎士拿下天王山!哈登30分+加時搶制勝籃板

      Emily說個球
      2026-05-14 11:07:41
      被曝涉黃,觸目驚心!網友怒了: 看得脊背發涼

      被曝涉黃,觸目驚心!網友怒了: 看得脊背發涼

      每日經濟新聞
      2026-05-13 21:30:06
      美國人的覺醒:與中國人相比,我們過著狗屎般的生活?

      美國人的覺醒:與中國人相比,我們過著狗屎般的生活?

      老謝談史
      2026-04-08 22:56:46
      菲律賓專家:為什么馬尼拉必須回報北京的善意

      菲律賓專家:為什么馬尼拉必須回報北京的善意

      參考消息
      2026-05-13 10:12:04
      特朗普訪華首日就亮明真實意圖,中國一句高情商回應瞬間點滿全場

      特朗普訪華首日就亮明真實意圖,中國一句高情商回應瞬間點滿全場

      老寓雜談
      2026-05-14 10:41:07
      全日空日航突然漲價,買完機票才發現虧了?

      全日空日航突然漲價,買完機票才發現虧了?

      東京在線
      2026-05-13 20:21:55
      “形勢相當嚴峻”:烏克蘭正奪取戰場主動權,俄羅斯擴軍計劃受挫

      “形勢相當嚴峻”:烏克蘭正奪取戰場主動權,俄羅斯擴軍計劃受挫

      鷹眼Defence
      2026-05-12 15:34:33
      半決賽5月14日直播:中國女足VS朝鮮!蘇州不愧是江蘇“真省會”

      半決賽5月14日直播:中國女足VS朝鮮!蘇州不愧是江蘇“真省會”

      開成運動會
      2026-05-13 17:44:28
      病人問“驗血為何抽滿管”,網友質疑血液被倒賣,評論區一片恐慌

      病人問“驗血為何抽滿管”,網友質疑血液被倒賣,評論區一片恐慌

      譚談社會
      2026-05-13 03:24:58
      面對中國時,特朗普像換了個人,落地北京前,對華提了一個要求

      面對中國時,特朗普像換了個人,落地北京前,對華提了一個要求

      三石記
      2026-05-14 10:32:26
      消息曝光:庫里退役已提上日程,生涯倒計時正式開啟!

      消息曝光:庫里退役已提上日程,生涯倒計時正式開啟!

      夜白侃球
      2026-05-14 11:07:24
      男同學吹牛說長大要娶我,我氣得追了他三條街,我卻成了他的新娘

      男同學吹牛說長大要娶我,我氣得追了他三條街,我卻成了他的新娘

      人間百態大全
      2026-05-13 06:35:04
      容祖兒這輩子別想逃了,楊受成不放手也不娶,兩人關系藏著啥秘密

      容祖兒這輩子別想逃了,楊受成不放手也不娶,兩人關系藏著啥秘密

      琴琴有氧運動
      2026-05-14 12:01:29
      80后家長發明“防早戀”發型,女兒面如死灰,網友都看不下去了

      80后家長發明“防早戀”發型,女兒面如死灰,網友都看不下去了

      妍妍教育日記
      2026-04-27 09:20:13
      福建海鮮火鍋“雙雄記”:朱富貴與寄海的運營對決,折射出哪些行業大勢?

      福建海鮮火鍋“雙雄記”:朱富貴與寄海的運營對決,折射出哪些行業大勢?

      餐飲O2O
      2026-05-13 21:55:55
      包工頭與做飯大姐相好5年,工程完工想走,誰曾想大姐竟不好惹

      包工頭與做飯大姐相好5年,工程完工想走,誰曾想大姐竟不好惹

      磊子講史
      2025-07-02 13:45:23
      2026-05-14 12:51:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      437文章數 53關注度
      往期回顧 全部

      科技要聞

      馬斯克:只有我和黃仁勛坐上了"空軍一號"

      頭條要聞

      兄妹救4名落水者后遭拉黑 被告知獲救者身份不便公開

      頭條要聞

      兄妹救4名落水者后遭拉黑 被告知獲救者身份不便公開

      體育要聞

      登海報!哈登30+8+6創多項紀錄 第8次贏天王山

      娛樂要聞

      肖戰提名金海燕獎,這一步走得太穩

      財經要聞

      片仔癀依舊困在“片仔癀”

      汽車要聞

      C級純電轎跑 吉利銀河"TT"申報圖來了

      態度原創

      房產
      家居
      游戲
      親子
      數碼

      房產要聞

      海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

      家居要聞

      精神奢享 對話塔尖需求

      卡牌生存射擊游戲《掏槍干吧》公開

      親子要聞

      姐姐家三歲的兒子,上床前的一個動作,讓老師夸贊許久!

      數碼要聞

      泡泡瑪特高管否認進軍傳統家電 專注IP衍生小家電品類

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 大帝AV| 一区二区三区在线 | 欧洲| 欧洲熟妇色xxxx欧美老妇多毛| 国产偷v国产偷v亚洲高清| 三级黄色电影网站| 亚洲仺av香蕉久久| 亚洲欧美日韩国产成人精品影院| 2021av在线天堂网| 国产另类乱子伦精品免费女| 一日本道伊人久久综合影| 国产av一区二区三区精品| 中文字幕日韩有码| 日韩夜夜操| 国产亚洲精品福利视频在线观看 | 俺去啦中文网| 国产精品va在线观看入口| 国产精品极品在线拍| 亚洲性受| 日本一区二区视频| 亚洲A片在线观看网| 中文字幕国产精品二区| 亚洲天堂网av在线| 亚洲欧洲精品成人久久av| 99久久久无码国产精品性| 九九国产| 青青草白浆在线| 中文字幕无码视频手机免费看| 三级网站视频在在线播放| 日韩顶级metart裸体自慰| 樱花AV在线无码| 天堂av在线一区二区| 精品久久高清| 久久久久国色αv免费观看| 国产h视频在线观看| 亚洲欧美日韩中文字幕一区二区| 香蕉久久人人97超碰caoproen| 国产三级国产精品久久成人 | 国产偷国产偷高清精品| 国产中文在线亚洲精品官网| 中文字幕精品亚洲人成在线| 制服?美女?丝袜美腿?诱惑?中文字幕 |