DeepSeek阮翀加盟元戎首秀，詳解基座VLA，研發(fā)提效10倍

2026-04-26 12:18:17　來源: 智能車參考

北京舉報

分享至

一凡發(fā)自副駕寺
智能車參考 | 公眾號 AI4Auto

前DeepSeek核心成員阮翀，加盟元戎后首次亮相了。

阮翀(chōng），本碩均畢業(yè)于北京大學(xué)，早年從事NLP研發(fā)，2023年加入DeepSeek，參與了DeepSeek VL、V3和R1等工作，是VL2的通訊作者，也是最新發(fā)布的V4的作者之一。

△圖源：DeepSeek V4論文

如今他以新身份元戎首席科學(xué)家，現(xiàn)身北京車展，分享了元戎如何利用40B基座模型，評估模型表現(xiàn)，用模型迭代模型的過程。

這意味著AI不再是被訓(xùn)練出的結(jié)果，而是訓(xùn)練系統(tǒng)本身的組成部分。這也是AI領(lǐng)域當前的趨勢。

比如，同樣是在自動駕駛行業(yè)，小馬智行最近發(fā)布世界模型2.0，就具備自我診斷能力，可以實現(xiàn)自我強化。

再比如，OpenAI今年在發(fā)布 GPT-5.3 Codex時透露，該模型的早期版本，加速了其自身的開發(fā)進度。

在數(shù)字世界和物理世界，AI都初步呈現(xiàn)出自我進化的趨勢。而能同時深刻理解這兩個領(lǐng)域的人才，非常稀缺，阮翀正是這樣一位罕見的人才，從LLM轉(zhuǎn)身自動駕駛，橫跨兩大領(lǐng)域。

阮翀詳解基座模型，元戎研發(fā)提效10倍

據(jù)阮翀介紹，過去自動駕駛研發(fā)，會選擇用很多小模型，專門解決不同的問題，這給開發(fā)和管理，帶來了很多挑戰(zhàn)。

所以，行業(yè)正在向統(tǒng)一基座模型收斂，用一個大模型，分化出多個不同版本，解決幾乎所有問題。

其中元戎的基座模型，是一個40B參數(shù)規(guī)模的VLA（Vision-Language-Action Model），可以拆分成三個部分來看：

駕駛模型：AI司機，專門負責(zé)開車
分析模型：AI分析員，分析和解釋AI司機為什么這么開
評估模型：AI教練，評估AI司機開車的表現(xiàn)

基座模型如何落地，加速元戎開發(fā)呢？阮翀舉了三個例子。

第一個例子是數(shù)據(jù)表征任務(wù)。自動駕駛研發(fā)的關(guān)鍵，是實現(xiàn)數(shù)據(jù)閉環(huán)，但阮翀認為過去數(shù)據(jù)驅(qū)動的方式，其實帶有滯后性：

你必須先訓(xùn)練出模型，才能發(fā)現(xiàn)模型的問題，進而知道哪些數(shù)據(jù)不夠。

數(shù)據(jù)表征則改變了這個順序，它可以提前分析數(shù)據(jù)，并進行歸類，這樣研發(fā)團隊在訓(xùn)練前就知道，自己手頭什么場景的數(shù)據(jù)多，又缺什么場景數(shù)據(jù)，在訓(xùn)練時就可以有所側(cè)重，調(diào)整數(shù)據(jù)配比。

第二個例子是數(shù)據(jù)質(zhì)量評估。過去分析數(shù)據(jù)質(zhì)量，需要通過間接方式，根據(jù)這批數(shù)據(jù)，訓(xùn)出的模型表現(xiàn)，反推數(shù)據(jù)質(zhì)量，迭代周期比較長。

現(xiàn)在基于一個龐大的基座模型，只需要進行簡單的微調(diào)，就能評估數(shù)據(jù)質(zhì)量。

最后，基座模型不僅在數(shù)據(jù)維度實現(xiàn)了提效，同時也加快了模型評估。過去評估模型能力，主要依賴路測，要先更新模型上車，再找人跟車，實測后回傳數(shù)據(jù)，這種方式費時又費力。

現(xiàn)在利用云端虛擬環(huán)境，就能評估模型，判斷AI司機開得好不好，并進行修正。

據(jù)阮翀估計，以前迭代一版模型可能需要100多個小時，現(xiàn)在加速了10倍，迭代時間縮短到了十幾個小時。

在詳解技術(shù)成果后，阮翀還參與了圓桌討論，回應(yīng)了外界最關(guān)心的問題：

為什么他會加盟元戎，轉(zhuǎn)向物理AI？

以下是圓桌實錄，經(jīng)編輯

阮翀回應(yīng)入局物理AI

Q：什么才是物理AI？

阮翀：從狹義的角度講，物理AI一定要有一個現(xiàn)實載體，比如人能操縱它，然后現(xiàn)實世界會給出反饋，像機械手或者車。

但我認為物理AI最重要的事其實是閉環(huán)。

所以從廣義的角度講，比如說AI Coding，寫了代碼然后編譯器會給出反饋，告訴你這個地方寫了對不對，然后你再去調(diào)試。

只有這樣的一個閉環(huán)，才是AI真正進入物理世界的最重要手段，能夠讓它不斷提升。

Q：什么情況讓你意識到了大模型的能力邊界？

阮翀：我認為視覺模型現(xiàn)在最難的問題是空間方位感知，經(jīng)常前后左右不分，然后導(dǎo)致一些奇奇怪怪的行為，比如分不清車門在左邊還是右邊，東西在車內(nèi)和車外。

Q：哪些領(lǐng)域的突破性進展，值得大模型借鑒？

阮翀：我想強調(diào)的一個概念還是閉環(huán)。我覺得這個問題可以反過來看，就是如何把LLM推廣到其他領(lǐng)域，比如用AI去預(yù)測化學(xué)分子性質(zhì)，比如它的熔點或溶解度，然后用這項技術(shù)，加速藥物研發(fā)。

Q：我們?nèi)绾伪ＷCAI發(fā)展，是對人類有利的？

阮翀：我個人現(xiàn)在非常贊同Harness（約束AI邊界的系統(tǒng)工程）的概念。人需要法律和規(guī)章制度，保證他成為一個好人。

對AI也是一樣的，如果你堅信AI能超越人，那么你也需要一些工具來控制它，而不是期待它性本善。

Q：為什么近期不少LLM公司的多模態(tài)負責(zé)人，入局物理AI？

阮翀：對我來說，我覺得有兩方面的原因：

第一，我自己不太喜歡做邊際收益遞減的事情。我覺得做LLM很多年了，當然它的能力在不斷提升，但和ChatGPT剛出來時，感覺已經(jīng)完全不一樣了，有一種疲倦的感覺。

LLM發(fā)展非常好，比其他領(lǐng)域領(lǐng)先，一個模型幾乎可以解決你想要的所有事。

但在別的領(lǐng)域，比如多模態(tài)或者具身智能，還沒有發(fā)展到這樣的階段，我自己更愿意參與這樣的階段，而不是進入一個相對成熟的階段。

第二，我自己性格的原因。我不喜歡跟別人搶著做事，比如LLM很好，那大家都一窩蜂去做，但我更在意某種使命感或者責(zé)任感：

一件事情，如果我去做和我不去做，對世界來說都沒有差別，那我為什么要做？

所以，我選擇換一個領(lǐng)域。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.