![]()
AI的發(fā)展路徑:生成能力-推理能力-Agent能力-數(shù)字虛擬人-具身機器人-腦機接口。
(1)生成
現(xiàn)在生成都已經(jīng)漸入佳境:
文本:文本報告生成、代碼生成,如Claude Code
語音:語音生成
圖片:圖片生成,如Nano banana
視頻:視頻生成,如seedance2.0
我很看好兩個方向:AI寫代碼(主要現(xiàn)在國產(chǎn)模型不爭氣不給力)、AI視覺(現(xiàn)在字節(jié)的視覺識別和視頻生成做的很牛)。
傳聞DeepSeek選擇了多模態(tài)。但愿它不是去做:Nano banana、Seedance,而是只做截圖識別:前端網(wǎng)站截圖進行Coding生成、股票K線截圖進行分析說明。
(2)推理
從2024年10月,OpenAI發(fā)布基于思維鏈CoT技術(shù)的深度思考,推理開始迅速發(fā)展。
2025年2月,國產(chǎn)開源DeepSeek-R1,也把推理普惠到整個中國社會。
不過,總的來說,推理能力的發(fā)展是最慢的。
這三年,推理能力并沒有得到大的提升,只是從:理論方法(思維鏈)成熟,到商業(yè)產(chǎn)品落地(GPT-o1),到推理速度提高(DeepSeek做了很多內(nèi)存和GPU的優(yōu)化)。
大家感覺好像推理能力在進步,其實是外掛工具起的作用(如 Lean 定理器),而不是推理能力起的作用。
但是AI行業(yè)已經(jīng)投入了太多年、投入了太多錢,人們急切需要一些結(jié)果,否則就很難讓人繼續(xù)持續(xù)投入很多錢了。
所以現(xiàn)在大家都在聚焦發(fā)展Agent,本質(zhì)就是把現(xiàn)在AI的能力再加上外掛的能力,趕快能做點啥就做點啥,盡快轉(zhuǎn)換為商業(yè)成果。
我個人覺得:雖然大模型的推理能力已經(jīng)難以突破,但是Coding專有大模型能力提升,再加上Agent輔助基礎(chǔ)模型提高:意圖理解能力-方案規(guī)劃能力-多Agent任務(wù)分工協(xié)作能力,再加上Agent的記憶模塊和Skill模塊,可以使最終結(jié)果表現(xiàn)出來的推理能力再提升提升。
(3)Agent
Agent起源于:深度研究:
第一步:經(jīng)過深度思考,生成深度研究的方案
第二步:連接各個外部系統(tǒng),采集數(shù)據(jù)
第三步:AI生成代碼,對數(shù)據(jù)進行加工
第四步:生成研究報告:WORD/PDF/PPT分析報告、EXCEL數(shù)據(jù)統(tǒng)計、可視化圖表
2025年2月,商業(yè)閉源Agent Manus發(fā)布,引發(fā)大家的熱議。
2026年2月,免費開源Agent OpenClaw發(fā)布,引發(fā)大家的熱議。
Agent的核心有三個:
1、分解任務(wù)-編排任務(wù)-指派任務(wù)-整合任務(wù),讓多Agent分工協(xié)作
2、用戶個性化記憶
3、調(diào)用高手寫的Skill/上下文提示工程,可以正確引導(dǎo)大模型產(chǎn)出期望的結(jié)果
但是,Agent也擴展了很多外部能力:
1、接入外部數(shù)據(jù):在線聯(lián)網(wǎng)搜索、在線MCP/API調(diào)用、存取本地文件系統(tǒng)
2、控制本地瀏覽器:爬蟲、模擬點擊、登錄/取數(shù)、填寫表單數(shù)據(jù)
3、控制本地軟件:在提示工程中直接調(diào)用軟件功能CLI,無須再生成代碼調(diào)用API
不過我個人感覺:中國沒有太多深度研究的需求。
我倒是覺得:基礎(chǔ)大模型現(xiàn)在都能提供1M長上下文理解能力,如何利用這些多輪會話中的長上下文,來不斷清晰化需求的意圖目的、細化以及修正方案。現(xiàn)在Agent走走走就走歪路了,就是不隨著多輪會話的信息,來修正自己的意圖和方案。
(4)數(shù)字虛擬人
視覺生成技術(shù),讓數(shù)字人擁有了可視化的形象。比如生成羅永浩的形象。
語音技術(shù),讓數(shù)字人擁有了開口說話、聽人說話的能力。比如用羅永浩的聲音來說話。
多輪會話技術(shù),讓數(shù)字人可以與用戶連貫對話。
深度思考技術(shù),可以讓數(shù)字人回答更復(fù)雜的問題。
Agent技術(shù),可以讓數(shù)字人使用個性化記憶/個性化風(fēng)格/個性化數(shù)據(jù)來交流。比如用羅永浩平時的知識、習(xí)慣用語、思考風(fēng)格來交流。
現(xiàn)在數(shù)字虛擬人主要用于AI影視,以后可以用于AI游戲。
(5)具身機器人
具身機器人有兩個腦:
一個大腦,用于深度思考-規(guī)劃-決策選擇
一個小腦,用于控制機械手腳運動
現(xiàn)在,宇樹機器人自己的小腦控制機器人的手腳運動已經(jīng)比去年有很大進步。
傳聞,宇樹機器人也采用了DeepSeek-Omni進行思考。
不過,如果把這些技術(shù)放到無人機無人狗身上,可能爆發(fā)的更快。
(6)腦機接口
腦機接口:
一半是人的生物電、腦電波信號,人體的各種傳感/感應(yīng)器官;
一半是機器手腳運動、視覺采集、語音識別/語音合成。
這兩者還需要連通在一起,方便殘疾人、聾啞人。
腦機接口聚焦做好:人腦和機器的連通。
聾啞人,可以使用AI大腦的:視覺識別能力、語音識別能力/語音合成能力。
殘疾人,可以使用具身機器人的小腦:控制機械手腳運動。
這是真正的剛需,比老年人需要具身機器人還剛需。但是,要把人肉人腦和機器軀干機器腦連在一起協(xié)同在一起,顯然難度非常大。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.