網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

讓智能體看見世界：CV × AI Agent 的行業(yè)場(chǎng)景新實(shí)踐| 2026AI Partner·北京亦莊AI+產(chǎn)業(yè)大會(huì)

2026-05-22 17:06:30　來源: 36氪

北京舉報(bào)

分享至

讓智能體“看見”世界，不是給它裝上攝像頭那么簡(jiǎn)單。當(dāng)CV遇上AI Agent，乘數(shù)效應(yīng)正在發(fā)生。AI Agent不等于Chatbot，真正的價(jià)值在于靜默看護(hù)與自主決策。

AI進(jìn)入產(chǎn)業(yè)腹地仍面臨兩大鴻溝：視覺認(rèn)知與行業(yè)的理解。為此，大華股份構(gòu)建了星漢大模型系列——V系列視覺大模型讓系統(tǒng)“看得懂”物理世界，L系列行業(yè)模型打通業(yè)務(wù)邏輯。未來“基模+行業(yè)Know-how”將成為新范式，而AI的終局不是刷榜，是讓每個(gè)行業(yè)、每個(gè)個(gè)體都不掉隊(duì)。

以下為大華股份研發(fā)中心副總裁周文凱演講內(nèi)容，經(jīng)36氪整理編輯：

周文凱丨大華股份研發(fā)中心副總裁

非常感謝北京亦莊和36氪給我們這個(gè)機(jī)會(huì)來給大家做一個(gè)分享。

我今天分享的主題是讓智能體看見世界。為什么讓智能體看見世界？看見世界并不是讓數(shù)字世界的智能體裝上攝像頭，或者輸入視頻數(shù)據(jù)讓它看得到物理世界這么簡(jiǎn)單，CV × AI Agent，為什么是乘，CV是視覺計(jì)算，AI Agent是智能體，讓數(shù)字世界的AI智能體可以認(rèn)知物理世界非常重要，這兩個(gè)事情并不是特性和功能的孤立，而是相互乘數(shù)效應(yīng)的加強(qiáng)。

我們對(duì)于數(shù)字世界的決策可以利用對(duì)物理世界的認(rèn)知正在發(fā)生什么事情的認(rèn)知，給帶來更大的幫助。我們開始今天的分享。

2022年ChatGPT面世，自發(fā)布至今已三年多，AI產(chǎn)業(yè)發(fā)生了非常大的變化。我們看到AI更多的發(fā)展是在2C消費(fèi)者領(lǐng)域，在政企、行業(yè)落地過程中依然遇到非常多的問題。

從硬件角度上看，過去三年非常強(qiáng)調(diào)GPU的計(jì)算，不管對(duì)于視覺上的GPU運(yùn)算還是看到一系列的推理、訓(xùn)練過程中對(duì)GPU的使用，到現(xiàn)在我們回頭來重新審視在AI Agent任務(wù)編排中CPU的使用。硬件角度，不管是資源調(diào)度、系統(tǒng)連接、任務(wù)流程等，我們?cè)絹碓疥P(guān)注在硬件載體上，CPU和GPU的平衡。技術(shù)突破，2023年我們看提示詞工程，大家關(guān)注怎么讓智能體了解我們的業(yè)務(wù)，了解我們的意圖，到2024年我們希望通過面向各種行業(yè)的知識(shí)庫(kù)來讓智能體可以離我們的產(chǎn)業(yè)更近，2025年我們講長(zhǎng)上下文，MoE專家模型來節(jié)省推理資源，以及到今年我們看到以O(shè)pen Claw為代表的自主AI Agent變得非常普遍。模型和產(chǎn)業(yè)之間的連接越來越緊密，模型也變得越來越聰明。

產(chǎn)業(yè)角度，把Agent變成大模型作為搜索引擎和工具，Agent融入到業(yè)務(wù)流程，不管是從技術(shù)、硬件角度，可以看到產(chǎn)業(yè)對(duì)AI的場(chǎng)景適配提出比算法本身更強(qiáng)烈的訴求。這里面依然有兩個(gè)GAP很難跨過去，我剛才講的一個(gè)是CV，一個(gè)是Agent對(duì)行業(yè)數(shù)據(jù)以及行業(yè)業(yè)務(wù)流程的理解。

大華是從安防起家逐步進(jìn)入到現(xiàn)在面向于智慧物聯(lián)的產(chǎn)業(yè)賽道，在CV和AI Agent兩個(gè)領(lǐng)域，這幾年有非常多的實(shí)踐跟大家分享。

首先在視覺AI上，大華2016年基于人像、車輛視圖數(shù)據(jù)的結(jié)構(gòu)化，希望讓我們的系統(tǒng)、攝像頭可以“看得清”這個(gè)世界；到2023年我們發(fā)布了星漢大模型，圍繞物理世界全局和局部的解析，讓我們的數(shù)智化系統(tǒng)可以“看得懂”這個(gè)世界；今年我們進(jìn)一步推動(dòng)AI具備“自主認(rèn)知”物理世界的能力，并在此基礎(chǔ)上升級(jí)構(gòu)建了星漢大模型系列，包括 V 系列（視覺大模型）、L 系列（語(yǔ)言大模型）和 M 系列（多模態(tài)大模型）模型集。

有這樣一個(gè)模型框架，可以讓面向用戶的應(yīng)用范式發(fā)生巨大的改變，我們?yōu)橛脩魳?gòu)建了全域泛在的感知系統(tǒng)：既可以全局看一個(gè)城市、一個(gè)園區(qū)、一個(gè)企業(yè)的運(yùn)行態(tài)勢(shì)，同時(shí)還可以聚焦到任何局部物體的信息，來實(shí)現(xiàn)智能識(shí)別。我們打造了自主效率引擎，為智能體構(gòu)建更強(qiáng)、更方便的視覺插件，同時(shí)升級(jí)了智能體系，通過視覺的小模型、大模型之間的協(xié)作，從而提升對(duì)物理世界認(rèn)知的效率。

另一部分是智能體，在2023年我們發(fā)布了從L1到L4行業(yè)智能體的構(gòu)建邏輯：L1圍繞著基礎(chǔ)大模型實(shí)現(xiàn)知識(shí)庫(kù)和智能問答；L2是在整個(gè)業(yè)務(wù)流程里，以AI強(qiáng)化包括視覺、認(rèn)知、決策、執(zhí)行等各個(gè)環(huán)節(jié)；L3則是AI參與部分決策，在子業(yè)務(wù)鏈路中實(shí)現(xiàn)閉環(huán)；L4希望能夠產(chǎn)生對(duì)業(yè)務(wù)環(huán)境的深刻理解，能自主行動(dòng)規(guī)劃并持續(xù)進(jìn)化。

從L1到L4，本質(zhì)上是在講人和智能體之間的關(guān)系，在與AI Agent協(xié)作過程中，人參與的環(huán)節(jié)越來越少。Human in the Loop，但人參與的是更高級(jí)別的決策。在L4自主AI Agent的構(gòu)建中，我簡(jiǎn)單畫了一個(gè)框架圖，基于已經(jīng)積累的視圖中臺(tái)以及數(shù)據(jù)中臺(tái)，我們構(gòu)建了AI Agent Loop智能體框架，包含視覺識(shí)別、業(yè)務(wù)編排、行業(yè)Skills、自主能力引擎等模塊，人和Agent之間形成面向行業(yè)業(yè)務(wù)有效的協(xié)作。

現(xiàn)在我們講到大模型，行業(yè)里許多人認(rèn)為是通過對(duì)話框和智能體之間實(shí)現(xiàn)交互和連接。但事實(shí)上我們要面對(duì)物理世界的時(shí)候，需要的是能夠輔助人的外腦，而這個(gè)外腦在很多時(shí)候是在為用戶做著靜默看護(hù)和決策。智能體會(huì)讓我們的用戶與他的數(shù)據(jù)以及業(yè)務(wù)系統(tǒng)之間的關(guān)系產(chǎn)生更深刻的變化。在過往這些年里大華積累了面向前端感知和后端存儲(chǔ)、集成系統(tǒng)等一系列全棧智能硬件的載體，我們也有面向各類場(chǎng)景的視覺大小模型，構(gòu)建了不斷沉淀行業(yè)Know-How業(yè)務(wù)組件的“螢火蟲”平臺(tái)。大模型深入行業(yè)最大的鴻溝在于如何連接AI和行業(yè)中廣泛存在的數(shù)據(jù)和系統(tǒng)孤島，而這些行業(yè)的Know-How積累在過往所有信息化系統(tǒng)，我們需要組件化腳手架，形成知識(shí)資產(chǎn)，而這些知識(shí)和工具就是大模型外腦得以連接我們用戶的系統(tǒng)，產(chǎn)生新的乘數(shù)效應(yīng)的地方。

這里有三個(gè)Demo給大家呈現(xiàn)。

公共安全領(lǐng)域，在景區(qū)接到小孩丟失報(bào)警，智能體自主目標(biāo)設(shè)定、任務(wù)編排，需要找尋的小孩什么時(shí)間、什么地點(diǎn)走失，身體特征是什么樣，跟線索追蹤、軌跡預(yù)測(cè)；一旦鎖定人體特征后，根據(jù)小孩的行速特征，在整個(gè)監(jiān)控地圖軌跡上嘗試預(yù)測(cè)有可能往哪些方向，他的行蹤有哪些方向走動(dòng)，同時(shí)在他能涉及的地點(diǎn)范圍內(nèi)，去找尋現(xiàn)場(chǎng)巡邏的比如保安、攝像頭；快速定位到這些人員，同時(shí)下發(fā)整個(gè)廣播、保安等一系列可供執(zhí)行的單元。在這個(gè)場(chǎng)景中智能體深度整合了目標(biāo)設(shè)定、視覺識(shí)別、任務(wù)規(guī)劃、軌跡追蹤預(yù)測(cè)到最后的action調(diào)度執(zhí)行落地等能力。

工業(yè)巡檢Agent，在巡檢過程中我們會(huì)關(guān)心設(shè)備的質(zhì)量運(yùn)行情況、工人操作的規(guī)范性，以及工人背后的服務(wù)資質(zhì)等要素，我們有智能體對(duì)安全場(chǎng)景的判斷非常專業(yè)，同時(shí)有智能體對(duì)資質(zhì)審核非常專業(yè)，這些智能體可以在AI Agent領(lǐng)域里編排，自主實(shí)現(xiàn)對(duì)場(chǎng)景的把控以及危險(xiǎn)情況的預(yù)警。這段Demo體現(xiàn)的是輸電電站場(chǎng)地機(jī)器人的巡檢。

最后這個(gè)例子是面向于森林防火。傳統(tǒng)的做法是需要人守著巨大的林場(chǎng)，當(dāng)發(fā)生火情報(bào)警，人要到現(xiàn)場(chǎng)做確認(rèn)。當(dāng)有了CV和AI Agent有效協(xié)作后，可以調(diào)度攝像頭、無人機(jī)實(shí)現(xiàn)二次確認(rèn)。Agent不再只是根據(jù)我們的指令去做程式化的事情，它有自主決策的能力可以調(diào)度它所需要的感知單元，去靈活處理應(yīng)急事件，同時(shí)讓人非常有效地在關(guān)鍵時(shí)參與到流程里，發(fā)揮決定性的作用。

業(yè)界已經(jīng)有比較大的共識(shí)，整個(gè)AI產(chǎn)業(yè)我們做了分層，從能源、基礎(chǔ)設(shè)施到大模型計(jì)算范式、工具集成、智能體以及整個(gè)產(chǎn)業(yè)生態(tài)，能源和基礎(chǔ)設(shè)施——如果我們按中西方比較，中國(guó)有非常強(qiáng)的效率和成本優(yōu)勢(shì)，而在大模型和計(jì)算范式，我們處于追趕者角色。在這里可以看到大模型的能力不斷往行業(yè)傾斜，從OpenClaw剛發(fā)布到后面不少大模型默認(rèn)集成基礎(chǔ)Skills以及腳手架，逐步嘗試讓大模型變得更業(yè)務(wù)、更靈活。但行業(yè)的實(shí)際情況是一系列的數(shù)據(jù)和系統(tǒng)依然處于孤島。舉個(gè)例子，我們做Vibe Coding，通用業(yè)務(wù)效率提升非常明顯，這時(shí)候你會(huì)覺得大模型非常聰明，但在極高效率要求的底層或者專業(yè)業(yè)務(wù)中又會(huì)覺得非常蠢。能力邊界如此明顯的原因在于，面向行業(yè)業(yè)務(wù)的數(shù)據(jù)根本不在大模型的訓(xùn)練集里，我們依然在行業(yè)里有非常多的系統(tǒng)孤島以及用戶不愿意分享的數(shù)據(jù)以及Know-How。這對(duì)我們反而是一個(gè)機(jī)會(huì)，我們?cè)诒镜鼗懔Α⒁晥D解析、行業(yè)化智能體、工具集成的長(zhǎng)期積累，讓我們可以在兼顧客戶數(shù)據(jù)安全的要求下實(shí)現(xiàn)其行業(yè)外腦的構(gòu)建，助力客戶商業(yè)成功。

上面三層也是大華努力為我們的行業(yè)客戶解決的問題。

我們面向未來，一定是基模+FDE，可以變成智能體即軟件，模型即軟件的范式，硬件從純粹聚焦GPU到CPU并舉，我們判斷這兩條技術(shù)演進(jìn)路徑會(huì)大大加速AI產(chǎn)業(yè)在中國(guó)的成熟。

凱文·凱利曾問“科技想要什么”，而我想說“AI想要什么”。AI的終局肯定不是技術(shù)的刷榜和概念熱度，而是讓每個(gè)行業(yè)、每個(gè)個(gè)體都能享受到智能化帶來的真正改變，而我們正在這條路上。

謝謝大家！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.