一凡 發(fā)自 副駕寺
智能車參考 | 公眾號 AI4Auto
前DeepSeek核心成員阮翀,加盟元戎后首次亮相了。
![]()
阮翀(chōng),本碩均畢業(yè)于北京大學(xué),早年從事NLP研發(fā),2023年加入DeepSeek,參與了DeepSeek VL、V3和R1等工作,是VL2的通訊作者,也是最新發(fā)布的V4的作者之一。
![]()
△圖源:DeepSeek V4論文
如今他以新身份元戎首席科學(xué)家,現(xiàn)身北京車展,分享了元戎如何利用40B基座模型,評估模型表現(xiàn),用模型迭代模型的過程。
![]()
這意味著AI不再是被訓(xùn)練出的結(jié)果,而是訓(xùn)練系統(tǒng)本身的組成部分。這也是AI領(lǐng)域當前的趨勢。
比如,同樣是在自動駕駛行業(yè),小馬智行最近發(fā)布世界模型2.0,就具備自我診斷能力,可以實現(xiàn)自我強化。
再比如,OpenAI今年在發(fā)布 GPT-5.3 Codex時透露,該模型的早期版本,加速了其自身的開發(fā)進度。
在數(shù)字世界和物理世界,AI都初步呈現(xiàn)出自我進化的趨勢。而能同時深刻理解這兩個領(lǐng)域的人才,非常稀缺,阮翀正是這樣一位罕見的人才,從LLM轉(zhuǎn)身自動駕駛,橫跨兩大領(lǐng)域。
阮翀詳解基座模型,元戎研發(fā)提效10倍
據(jù)阮翀介紹,過去自動駕駛研發(fā),會選擇用很多小模型,專門解決不同的問題,這給開發(fā)和管理,帶來了很多挑戰(zhàn)。
所以,行業(yè)正在向統(tǒng)一基座模型收斂,用一個大模型,分化出多個不同版本,解決幾乎所有問題。
![]()
其中元戎的基座模型,是一個40B參數(shù)規(guī)模的VLA(Vision-Language-Action Model),可以拆分成三個部分來看:
- 駕駛模型:AI司機,專門負責(zé)開車
- 分析模型:AI分析員,分析和解釋AI司機為什么這么開
- 評估模型:AI教練,評估AI司機開車的表現(xiàn)
![]()
基座模型如何落地,加速元戎開發(fā)呢?阮翀舉了三個例子。
第一個例子是數(shù)據(jù)表征任務(wù)。自動駕駛研發(fā)的關(guān)鍵,是實現(xiàn)數(shù)據(jù)閉環(huán),但阮翀認為過去數(shù)據(jù)驅(qū)動的方式,其實帶有滯后性:
你必須先訓(xùn)練出模型,才能發(fā)現(xiàn)模型的問題,進而知道哪些數(shù)據(jù)不夠。
數(shù)據(jù)表征則改變了這個順序,它可以提前分析數(shù)據(jù),并進行歸類,這樣研發(fā)團隊在訓(xùn)練前就知道,自己手頭什么場景的數(shù)據(jù)多,又缺什么場景數(shù)據(jù),在訓(xùn)練時就可以有所側(cè)重,調(diào)整數(shù)據(jù)配比。
第二個例子是數(shù)據(jù)質(zhì)量評估。過去分析數(shù)據(jù)質(zhì)量,需要通過間接方式,根據(jù)這批數(shù)據(jù),訓(xùn)出的模型表現(xiàn),反推數(shù)據(jù)質(zhì)量,迭代周期比較長。
現(xiàn)在基于一個龐大的基座模型,只需要進行簡單的微調(diào),就能評估數(shù)據(jù)質(zhì)量。
最后,基座模型不僅在數(shù)據(jù)維度實現(xiàn)了提效,同時也加快了模型評估。過去評估模型能力,主要依賴路測,要先更新模型上車,再找人跟車,實測后回傳數(shù)據(jù),這種方式費時又費力。
現(xiàn)在利用云端虛擬環(huán)境,就能評估模型,判斷AI司機開得好不好,并進行修正。
![]()
據(jù)阮翀估計,以前迭代一版模型可能需要100多個小時,現(xiàn)在加速了10倍,迭代時間縮短到了十幾個小時。
在詳解技術(shù)成果后,阮翀還參與了圓桌討論,回應(yīng)了外界最關(guān)心的問題:
為什么他會加盟元戎,轉(zhuǎn)向物理AI?
以下是圓桌實錄,經(jīng)編輯
阮翀回應(yīng)入局物理AI
Q:什么才是物理AI?
阮翀:從狹義的角度講,物理AI一定要有一個現(xiàn)實載體,比如人能操縱它,然后現(xiàn)實世界會給出反饋,像機械手或者車。
但我認為物理AI最重要的事其實是閉環(huán)。
所以從廣義的角度講,比如說AI Coding,寫了代碼然后編譯器會給出反饋,告訴你這個地方寫了對不對,然后你再去調(diào)試。
只有這樣的一個閉環(huán),才是AI真正進入物理世界的最重要手段,能夠讓它不斷提升。
Q:什么情況讓你意識到了大模型的能力邊界?
阮翀:我認為視覺模型現(xiàn)在最難的問題是空間方位感知,經(jīng)常前后左右不分,然后導(dǎo)致一些奇奇怪怪的行為,比如分不清車門在左邊還是右邊,東西在車內(nèi)和車外。
Q:哪些領(lǐng)域的突破性進展,值得大模型借鑒?
阮翀:我想強調(diào)的一個概念還是閉環(huán)。我覺得這個問題可以反過來看,就是如何把LLM推廣到其他領(lǐng)域,比如用AI去預(yù)測化學(xué)分子性質(zhì),比如它的熔點或溶解度,然后用這項技術(shù),加速藥物研發(fā)。
![]()
Q:我們?nèi)绾伪WCAI發(fā)展,是對人類有利的?
阮翀:我個人現(xiàn)在非常贊同Harness(約束AI邊界的系統(tǒng)工程)的概念。人需要法律和規(guī)章制度,保證他成為一個好人。
對AI也是一樣的,如果你堅信AI能超越人,那么你也需要一些工具來控制它,而不是期待它性本善。
Q:為什么近期不少LLM公司的多模態(tài)負責(zé)人,入局物理AI?
阮翀:對我來說,我覺得有兩方面的原因:
第一,我自己不太喜歡做邊際收益遞減的事情。我覺得做LLM很多年了,當然它的能力在不斷提升,但和ChatGPT剛出來時,感覺已經(jīng)完全不一樣了,有一種疲倦的感覺。
LLM發(fā)展非常好,比其他領(lǐng)域領(lǐng)先,一個模型幾乎可以解決你想要的所有事。
但在別的領(lǐng)域,比如多模態(tài)或者具身智能,還沒有發(fā)展到這樣的階段,我自己更愿意參與這樣的階段,而不是進入一個相對成熟的階段。
第二,我自己性格的原因。我不喜歡跟別人搶著做事,比如LLM很好,那大家都一窩蜂去做,但我更在意某種使命感或者責(zé)任感:
一件事情,如果我去做和我不去做,對世界來說都沒有差別,那我為什么要做?
所以,我選擇換一個領(lǐng)域。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.