網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

AI未來五年發(fā)展路徑

2026-04-07 22:42:33　來源: CMKT咨詢?nèi)?/a>

廣東舉報

分享至

AI的發(fā)展路徑：生成能力-推理能力-Agent能力-數(shù)字虛擬人-具身機器人-腦機接口。

（1）生成

現(xiàn)在生成都已經(jīng)漸入佳境：
文本：文本報告生成、代碼生成，如Claude Code
語音：語音生成
圖片：圖片生成，如Nano banana
視頻：視頻生成，如seedance2.0

我很看好兩個方向：AI寫代碼（主要現(xiàn)在國產(chǎn)模型不爭氣不給力）、AI視覺（現(xiàn)在字節(jié)的視覺識別和視頻生成做的很牛）。

傳聞DeepSeek選擇了多模態(tài)。但愿它不是去做：Nano banana、Seedance，而是只做截圖識別：前端網(wǎng)站截圖進行Coding生成、股票K線截圖進行分析說明。

（2）推理

從2024年10月，OpenAI發(fā)布基于思維鏈CoT技術(shù)的深度思考，推理開始迅速發(fā)展。
2025年2月，國產(chǎn)開源DeepSeek-R1，也把推理普惠到整個中國社會。
不過，總的來說，推理能力的發(fā)展是最慢的。
這三年，推理能力并沒有得到大的提升，只是從：理論方法（思維鏈）成熟，到商業(yè)產(chǎn)品落地（GPT-o1），到推理速度提高（DeepSeek做了很多內(nèi)存和GPU的優(yōu)化）。

大家感覺好像推理能力在進步，其實是外掛工具起的作用（如 Lean 定理器），而不是推理能力起的作用。
但是AI行業(yè)已經(jīng)投入了太多年、投入了太多錢，人們急切需要一些結(jié)果，否則就很難讓人繼續(xù)持續(xù)投入很多錢了。
所以現(xiàn)在大家都在聚焦發(fā)展Agent，本質(zhì)就是把現(xiàn)在AI的能力再加上外掛的能力，趕快能做點啥就做點啥，盡快轉(zhuǎn)換為商業(yè)成果。
我個人覺得：雖然大模型的推理能力已經(jīng)難以突破，但是Coding專有大模型能力提升，再加上Agent輔助基礎(chǔ)模型提高：意圖理解能力-方案規(guī)劃能力-多Agent任務(wù)分工協(xié)作能力，再加上Agent的記憶模塊和Skill模塊，可以使最終結(jié)果表現(xiàn)出來的推理能力再提升提升。

（3）Agent

Agent起源于：深度研究：
第一步：經(jīng)過深度思考，生成深度研究的方案
第二步：連接各個外部系統(tǒng)，采集數(shù)據(jù)
第三步：AI生成代碼，對數(shù)據(jù)進行加工
第四步：生成研究報告：WORD/PDF/PPT分析報告、EXCEL數(shù)據(jù)統(tǒng)計、可視化圖表

2025年2月，商業(yè)閉源Agent Manus發(fā)布，引發(fā)大家的熱議。
2026年2月，免費開源Agent OpenClaw發(fā)布，引發(fā)大家的熱議。

Agent的核心有三個：
1、分解任務(wù)-編排任務(wù)-指派任務(wù)-整合任務(wù)，讓多Agent分工協(xié)作
2、用戶個性化記憶
3、調(diào)用高手寫的Skill/上下文提示工程，可以正確引導(dǎo)大模型產(chǎn)出期望的結(jié)果

但是，Agent也擴展了很多外部能力：
1、接入外部數(shù)據(jù)：在線聯(lián)網(wǎng)搜索、在線MCP/API調(diào)用、存取本地文件系統(tǒng)
2、控制本地瀏覽器：爬蟲、模擬點擊、登錄/取數(shù)、填寫表單數(shù)據(jù)
3、控制本地軟件：在提示工程中直接調(diào)用軟件功能CLI，無須再生成代碼調(diào)用API

不過我個人感覺：中國沒有太多深度研究的需求。

我倒是覺得：基礎(chǔ)大模型現(xiàn)在都能提供1M長上下文理解能力，如何利用這些多輪會話中的長上下文，來不斷清晰化需求的意圖目的、細化以及修正方案。現(xiàn)在Agent走走走就走歪路了，就是不隨著多輪會話的信息，來修正自己的意圖和方案。
（4）數(shù)字虛擬人

視覺生成技術(shù)，讓數(shù)字人擁有了可視化的形象。比如生成羅永浩的形象。

語音技術(shù)，讓數(shù)字人擁有了開口說話、聽人說話的能力。比如用羅永浩的聲音來說話。
多輪會話技術(shù)，讓數(shù)字人可以與用戶連貫對話。

深度思考技術(shù)，可以讓數(shù)字人回答更復(fù)雜的問題。
Agent技術(shù)，可以讓數(shù)字人使用個性化記憶/個性化風(fēng)格/個性化數(shù)據(jù)來交流。比如用羅永浩平時的知識、習(xí)慣用語、思考風(fēng)格來交流。

現(xiàn)在數(shù)字虛擬人主要用于AI影視，以后可以用于AI游戲。
（5）具身機器人

具身機器人有兩個腦：
一個大腦，用于深度思考-規(guī)劃-決策選擇
一個小腦，用于控制機械手腳運動

現(xiàn)在，宇樹機器人自己的小腦控制機器人的手腳運動已經(jīng)比去年有很大進步。
傳聞，宇樹機器人也采用了DeepSeek-Omni進行思考。

不過，如果把這些技術(shù)放到無人機無人狗身上，可能爆發(fā)的更快。

（6）腦機接口

腦機接口：
一半是人的生物電、腦電波信號，人體的各種傳感/感應(yīng)器官；
一半是機器手腳運動、視覺采集、語音識別/語音合成。

這兩者還需要連通在一起，方便殘疾人、聾啞人。
腦機接口聚焦做好：人腦和機器的連通。
聾啞人，可以使用AI大腦的：視覺識別能力、語音識別能力/語音合成能力。
殘疾人，可以使用具身機器人的小腦：控制機械手腳運動。

這是真正的剛需，比老年人需要具身機器人還剛需。但是，要把人肉人腦和機器軀干機器腦連在一起協(xié)同在一起，顯然難度非常大。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.