讓智能體“看見”世界,不是給它裝上攝像頭那么簡(jiǎn)單。當(dāng)CV遇上AI Agent,乘數(shù)效應(yīng)正在發(fā)生。AI Agent不等于Chatbot,真正的價(jià)值在于靜默看護(hù)與自主決策。
AI進(jìn)入產(chǎn)業(yè)腹地仍面臨兩大鴻溝:視覺認(rèn)知與行業(yè)的理解。為此,大華股份構(gòu)建了星漢大模型系列——V系列視覺大模型讓系統(tǒng)“看得懂”物理世界,L系列行業(yè)模型打通業(yè)務(wù)邏輯。未來“基模+行業(yè)Know-how”將成為新范式,而AI的終局不是刷榜,是讓每個(gè)行業(yè)、每個(gè)個(gè)體都不掉隊(duì)。
以下為大華股份研發(fā)中心副總裁 周文凱 演講內(nèi)容,經(jīng)36氪整理編輯:
![]()
周文凱丨大華股份研發(fā)中心副總裁
非常感謝北京亦莊和36氪給我們這個(gè)機(jī)會(huì)來給大家做一個(gè)分享。
我今天分享的主題是讓智能體看見世界。為什么讓智能體看見世界?看見世界并不是讓數(shù)字世界的智能體裝上攝像頭,或者輸入視頻數(shù)據(jù)讓它看得到物理世界這么簡(jiǎn)單,CV × AI Agent,為什么是乘,CV是視覺計(jì)算,AI Agent是智能體,讓數(shù)字世界的AI智能體可以認(rèn)知物理世界非常重要,這兩個(gè)事情并不是特性和功能的孤立,而是相互乘數(shù)效應(yīng)的加強(qiáng)。
我們對(duì)于數(shù)字世界的決策可以利用對(duì)物理世界的認(rèn)知正在發(fā)生什么事情的認(rèn)知,給帶來更大的幫助。我們開始今天的分享。
2022年ChatGPT面世,自發(fā)布至今已三年多,AI產(chǎn)業(yè)發(fā)生了非常大的變化。我們看到AI更多的發(fā)展是在2C消費(fèi)者領(lǐng)域,在政企、行業(yè)落地過程中依然遇到非常多的問題。
從硬件角度上看,過去三年非常強(qiáng)調(diào)GPU的計(jì)算,不管對(duì)于視覺上的GPU運(yùn)算還是看到一系列的推理、訓(xùn)練過程中對(duì)GPU的使用,到現(xiàn)在我們回頭來重新審視在AI Agent任務(wù)編排中CPU的使用。硬件角度,不管是資源調(diào)度、系統(tǒng)連接、任務(wù)流程等,我們?cè)絹碓疥P(guān)注在硬件載體上,CPU和GPU的平衡。技術(shù)突破,2023年我們看提示詞工程,大家關(guān)注怎么讓智能體了解我們的業(yè)務(wù),了解我們的意圖,到2024年我們希望通過面向各種行業(yè)的知識(shí)庫(kù)來讓智能體可以離我們的產(chǎn)業(yè)更近,2025年我們講長(zhǎng)上下文,MoE專家模型來節(jié)省推理資源,以及到今年我們看到以O(shè)pen Claw為代表的自主AI Agent變得非常普遍。模型和產(chǎn)業(yè)之間的連接越來越緊密,模型也變得越來越聰明。
產(chǎn)業(yè)角度,把Agent變成大模型作為搜索引擎和工具,Agent融入到業(yè)務(wù)流程,不管是從技術(shù)、硬件角度,可以看到產(chǎn)業(yè)對(duì)AI的場(chǎng)景適配提出比算法本身更強(qiáng)烈的訴求。這里面依然有兩個(gè)GAP很難跨過去,我剛才講的一個(gè)是CV,一個(gè)是Agent對(duì)行業(yè)數(shù)據(jù)以及行業(yè)業(yè)務(wù)流程的理解。
![]()
大華是從安防起家逐步進(jìn)入到現(xiàn)在面向于智慧物聯(lián)的產(chǎn)業(yè)賽道,在CV和AI Agent兩個(gè)領(lǐng)域,這幾年有非常多的實(shí)踐跟大家分享。
首先在視覺AI上,大華2016年基于人像、車輛視圖數(shù)據(jù)的結(jié)構(gòu)化,希望讓我們的系統(tǒng)、攝像頭可以“看得清”這個(gè)世界;到2023年我們發(fā)布了星漢大模型,圍繞物理世界全局和局部的解析,讓我們的數(shù)智化系統(tǒng)可以“看得懂”這個(gè)世界;今年我們進(jìn)一步推動(dòng)AI具備“自主認(rèn)知”物理世界的能力,并在此基礎(chǔ)上升級(jí)構(gòu)建了星漢大模型系列,包括 V 系列(視覺大模型)、L 系列(語(yǔ)言大模型)和 M 系列(多模態(tài)大模型)模型集。
有這樣一個(gè)模型框架,可以讓面向用戶的應(yīng)用范式發(fā)生巨大的改變,我們?yōu)橛脩魳?gòu)建了全域泛在的感知系統(tǒng):既可以全局看一個(gè)城市、一個(gè)園區(qū)、一個(gè)企業(yè)的運(yùn)行態(tài)勢(shì),同時(shí)還可以聚焦到任何局部物體的信息,來實(shí)現(xiàn)智能識(shí)別。我們打造了自主效率引擎,為智能體構(gòu)建更強(qiáng)、更方便的視覺插件,同時(shí)升級(jí)了智能體系,通過視覺的小模型、大模型之間的協(xié)作,從而提升對(duì)物理世界認(rèn)知的效率。
另一部分是智能體,在2023年我們發(fā)布了從L1到L4行業(yè)智能體的構(gòu)建邏輯:L1圍繞著基礎(chǔ)大模型實(shí)現(xiàn)知識(shí)庫(kù)和智能問答;L2是在整個(gè)業(yè)務(wù)流程里,以AI強(qiáng)化包括視覺、認(rèn)知、決策、執(zhí)行等各個(gè)環(huán)節(jié);L3則是AI參與部分決策,在子業(yè)務(wù)鏈路中實(shí)現(xiàn)閉環(huán);L4希望能夠產(chǎn)生對(duì)業(yè)務(wù)環(huán)境的深刻理解,能自主行動(dòng)規(guī)劃并持續(xù)進(jìn)化。
從L1到L4,本質(zhì)上是在講人和智能體之間的關(guān)系,在與AI Agent協(xié)作過程中,人參與的環(huán)節(jié)越來越少。Human in the Loop,但人參與的是更高級(jí)別的決策。在L4自主AI Agent的構(gòu)建中,我簡(jiǎn)單畫了一個(gè)框架圖,基于已經(jīng)積累的視圖中臺(tái)以及數(shù)據(jù)中臺(tái),我們構(gòu)建了AI Agent Loop智能體框架,包含視覺識(shí)別、業(yè)務(wù)編排、行業(yè)Skills、自主能力引擎等模塊,人和Agent之間形成面向行業(yè)業(yè)務(wù)有效的協(xié)作。
現(xiàn)在我們講到大模型,行業(yè)里許多人認(rèn)為是通過對(duì)話框和智能體之間實(shí)現(xiàn)交互和連接。但事實(shí)上我們要面對(duì)物理世界的時(shí)候,需要的是能夠輔助人的外腦,而這個(gè)外腦在很多時(shí)候是在為用戶做著靜默看護(hù)和決策。智能體會(huì)讓我們的用戶與他的數(shù)據(jù)以及業(yè)務(wù)系統(tǒng)之間的關(guān)系產(chǎn)生更深刻的變化。在過往這些年里大華積累了面向前端感知和后端存儲(chǔ)、集成系統(tǒng)等一系列全棧智能硬件的載體,我們也有面向各類場(chǎng)景的視覺大小模型,構(gòu)建了不斷沉淀行業(yè)Know-How業(yè)務(wù)組件的“螢火蟲”平臺(tái)。大模型深入行業(yè)最大的鴻溝在于如何連接AI和行業(yè)中廣泛存在的數(shù)據(jù)和系統(tǒng)孤島,而這些行業(yè)的Know-How積累在過往所有信息化系統(tǒng),我們需要組件化腳手架,形成知識(shí)資產(chǎn),而這些知識(shí)和工具就是大模型外腦得以連接我們用戶的系統(tǒng),產(chǎn)生新的乘數(shù)效應(yīng)的地方。
這里有三個(gè)Demo給大家呈現(xiàn)。
公共安全領(lǐng)域,在景區(qū)接到小孩丟失報(bào)警,智能體自主目標(biāo)設(shè)定、任務(wù)編排,需要找尋的小孩什么時(shí)間、什么地點(diǎn)走失,身體特征是什么樣,跟線索追蹤、軌跡預(yù)測(cè);一旦鎖定人體特征后,根據(jù)小孩的行速特征,在整個(gè)監(jiān)控地圖軌跡上嘗試預(yù)測(cè)有可能往哪些方向,他的行蹤有哪些方向走動(dòng),同時(shí)在他能涉及的地點(diǎn)范圍內(nèi),去找尋現(xiàn)場(chǎng)巡邏的比如保安、攝像頭;快速定位到這些人員,同時(shí)下發(fā)整個(gè)廣播、保安等一系列可供執(zhí)行的單元。在這個(gè)場(chǎng)景中智能體深度整合了目標(biāo)設(shè)定、視覺識(shí)別、任務(wù)規(guī)劃、軌跡追蹤預(yù)測(cè)到最后的action調(diào)度執(zhí)行落地等能力。
工業(yè)巡檢Agent,在巡檢過程中我們會(huì)關(guān)心設(shè)備的質(zhì)量運(yùn)行情況、工人操作的規(guī)范性,以及工人背后的服務(wù)資質(zhì)等要素,我們有智能體對(duì)安全場(chǎng)景的判斷非常專業(yè),同時(shí)有智能體對(duì)資質(zhì)審核非常專業(yè),這些智能體可以在AI Agent領(lǐng)域里編排,自主實(shí)現(xiàn)對(duì)場(chǎng)景的把控以及危險(xiǎn)情況的預(yù)警。這段Demo體現(xiàn)的是輸電電站場(chǎng)地機(jī)器人的巡檢。
![]()
最后這個(gè)例子是面向于森林防火。傳統(tǒng)的做法是需要人守著巨大的林場(chǎng),當(dāng)發(fā)生火情報(bào)警,人要到現(xiàn)場(chǎng)做確認(rèn)。當(dāng)有了CV和AI Agent有效協(xié)作后,可以調(diào)度攝像頭、無人機(jī)實(shí)現(xiàn)二次確認(rèn)。Agent不再只是根據(jù)我們的指令去做程式化的事情,它有自主決策的能力可以調(diào)度它所需要的感知單元,去靈活處理應(yīng)急事件,同時(shí)讓人非常有效地在關(guān)鍵時(shí)參與到流程里,發(fā)揮決定性的作用。
業(yè)界已經(jīng)有比較大的共識(shí),整個(gè)AI產(chǎn)業(yè)我們做了分層,從能源、基礎(chǔ)設(shè)施到大模型計(jì)算范式、工具集成、智能體以及整個(gè)產(chǎn)業(yè)生態(tài),能源和基礎(chǔ)設(shè)施——如果我們按中西方比較,中國(guó)有非常強(qiáng)的效率和成本優(yōu)勢(shì),而在大模型和計(jì)算范式,我們處于追趕者角色。在這里可以看到大模型的能力不斷往行業(yè)傾斜,從OpenClaw剛發(fā)布到后面不少大模型默認(rèn)集成基礎(chǔ)Skills以及腳手架,逐步嘗試讓大模型變得更業(yè)務(wù)、更靈活。但行業(yè)的實(shí)際情況是一系列的數(shù)據(jù)和系統(tǒng)依然處于孤島。舉個(gè)例子,我們做Vibe Coding,通用業(yè)務(wù)效率提升非常明顯,這時(shí)候你會(huì)覺得大模型非常聰明,但在極高效率要求的底層或者專業(yè)業(yè)務(wù)中又會(huì)覺得非常蠢。能力邊界如此明顯的原因在于,面向行業(yè)業(yè)務(wù)的數(shù)據(jù)根本不在大模型的訓(xùn)練集里,我們依然在行業(yè)里有非常多的系統(tǒng)孤島以及用戶不愿意分享的數(shù)據(jù)以及Know-How。這對(duì)我們反而是一個(gè)機(jī)會(huì),我們?cè)诒镜鼗懔Α⒁晥D解析、行業(yè)化智能體、工具集成的長(zhǎng)期積累,讓我們可以在兼顧客戶數(shù)據(jù)安全的要求下實(shí)現(xiàn)其行業(yè)外腦的構(gòu)建,助力客戶商業(yè)成功。
上面三層也是大華努力為我們的行業(yè)客戶解決的問題。
我們面向未來,一定是基模+FDE,可以變成智能體即軟件,模型即軟件的范式,硬件從純粹聚焦GPU到CPU并舉,我們判斷這兩條技術(shù)演進(jìn)路徑會(huì)大大加速AI產(chǎn)業(yè)在中國(guó)的成熟。
凱文·凱利曾問“科技想要什么”,而我想說“AI想要什么”。AI的終局肯定不是技術(shù)的刷榜和概念熱度,而是讓每個(gè)行業(yè)、每個(gè)個(gè)體都能享受到智能化帶來的真正改變,而我們正在這條路上。
謝謝大家!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.