2021年,特斯拉宣布取消Model 3和Model Y上的毫米波雷達(dá),只保留攝像頭。一時(shí)間輿論嘩然。很多人不理解:連十幾萬的國產(chǎn)車都上激光雷達(dá)了,特斯拉作為全球電動(dòng)車的標(biāo)桿,怎么反而“倒退”了?
![]()
于是兩種解讀流傳最廣:一種是“特斯拉技術(shù)真牛,靠純算法就能搞定自動(dòng)駕駛”,另一種是“馬斯克就是摳門,為了省幾百美元的成本,連安全都不顧了,而且還賭錯(cuò)了——激光雷達(dá)現(xiàn)在便宜得很”。
這兩種說法,都太淺了。
馬斯克心里真正想的,從來不是“今天的自動(dòng)駕駛怎么省錢”,而是“未來的機(jī)器人需要什么樣的感知系統(tǒng)”。答案很簡單:機(jī)器人要進(jìn)入人類世界、替代人類工作,它就必須像人一樣看世界——用眼睛,而不是頭頂頂著一個(gè)不停旋轉(zhuǎn)的激光雷達(dá)。
一、人類世界的“底層代碼”是為視覺寫的
我們先想一個(gè)問題:我們現(xiàn)在的城市、道路、交通標(biāo)志、車道線、紅綠燈、行人手勢……這些東西是為誰設(shè)計(jì)的?
答案是人。
所有的交通規(guī)則、標(biāo)識體系、建筑布局,都是基于“人能看見”這個(gè)前提設(shè)計(jì)的。紅綠燈用紅黃綠三種顏色,是因?yàn)槿搜蹖@三種顏色最敏感;車道線用白色或黃色,是因?yàn)楹桶赜吐访嫘纬蓪Ρ龋患^標(biāo)志、停車線、人行橫道,一切都默認(rèn)觀察者擁有一雙正常的眼睛。
如果你想讓一臺機(jī)器在這個(gè)世界上自主行動(dòng),最直接、最高效的方式,就是給它一雙“人的眼睛”。攝像頭采集到的圖像信號,和人眼看到的畫面在原理上是一致的——都是光線反射后的二維投影。只要算法足夠強(qiáng),機(jī)器就能從這些圖像中提取出和人腦一樣、甚至更豐富的信息。
激光雷達(dá)不一樣。它發(fā)射激光束,測量反射時(shí)間,生成三維點(diǎn)云。這套系統(tǒng)繞開了“光學(xué)圖像”這個(gè)人類世界的底層接口。它不是不好,而是不兼容。
![]()
想象一個(gè)場景:道路施工臨時(shí)擺放了一塊指示牌,上面用紅底白字寫著“前方繞行”。任何一個(gè)人類司機(jī)看到這塊牌子,瞬間就懂了。一臺只依賴激光雷達(dá)的車呢?它看到的是一個(gè)幾何形狀的物體,無法理解“紅底白字”代表警示,更讀不懂“前方繞行”四個(gè)字。它只能靠預(yù)存的高精地圖或者車聯(lián)網(wǎng)通信來獲取信息,一旦沒有預(yù)先錄入,它就是盲人。
而純視覺方案的車,只要這塊牌子能被攝像頭拍到,就有機(jī)會通過圖像識別讀出上面的文字、理解它的含義。
這就是底層邏輯的差異:激光雷達(dá)感知的是“幾何世界”,而人類世界運(yùn)行的規(guī)則寫在“視覺符號”里。
二、機(jī)器人要走向工廠、家庭和野外,不能頭頂雷達(dá)
馬斯克做自動(dòng)駕駛,最終目的不是造一輛能在高速上跑的車。他的終極目標(biāo)是——擎天柱(Optimus)人形機(jī)器人。
![]()
想象一下,未來的擎天柱要在特斯拉工廠里搬零件、在普通人家里疊衣服、在災(zāi)難現(xiàn)場搜救。這些場景有一個(gè)共同特點(diǎn):環(huán)境高度非結(jié)構(gòu)化。
工廠里的料箱堆疊雜亂,家庭里有沙發(fā)、茶幾、兒童玩具,野外的路面沒有車道線、沒有紅綠燈、沒有路標(biāo)。你不可能在每個(gè)地方都提前架設(shè)激光雷達(dá),更不可能讓機(jī)器人頭頂一個(gè)旋轉(zhuǎn)的64線激光雷達(dá)到處走——成本倒是其次,關(guān)鍵是這東西機(jī)械結(jié)構(gòu)脆弱、功耗高、在強(qiáng)光或雨雪天會失效。
更重要的是,機(jī)器人要和人共存。如果一個(gè)機(jī)器人頂著激光雷達(dá)在你家里走來走去,你是什么感覺?那旋轉(zhuǎn)的激光束會不會掃到孩子的眼睛?有沒有電磁干擾?這些問題不是不能解決,但顯然不如“兩個(gè)攝像頭”來得自然。
人類的大腦經(jīng)過數(shù)百萬年進(jìn)化,依靠雙眼視覺就能完成抓取、避障、導(dǎo)航、識別等一系列復(fù)雜任務(wù)。既然生物學(xué)已經(jīng)證明“純視覺”可以支撐通用智能,那為什么機(jī)器不行?
馬斯克賭的就是這件事:只要神經(jīng)網(wǎng)絡(luò)足夠大、訓(xùn)練數(shù)據(jù)足夠多、算力足夠強(qiáng),純視覺就能達(dá)到甚至超越人類的感知水平。而一旦這條路走通,不僅自動(dòng)駕駛的硬件成本可以降到幾百塊錢(幾個(gè)攝像頭加一塊芯片),而且這套感知系統(tǒng)可以無縫移植到機(jī)器人上——攝像頭不用換,算法不用大改,訓(xùn)練數(shù)據(jù)可以直接復(fù)用。
反觀激光雷達(dá),如果你訓(xùn)練了一個(gè)基于點(diǎn)云數(shù)據(jù)的模型,它只能在帶激光雷達(dá)的平臺上跑。你想移植到機(jī)器人上?可以,那就給機(jī)器人也裝一個(gè)。但如果機(jī)器人的應(yīng)用場景是火星探測、深海作業(yè)或者家庭服務(wù),你真的愿意依賴一個(gè)機(jī)械旋轉(zhuǎn)的激光雷達(dá)嗎?
三、“省錢”只是結(jié)果,不是原因
當(dāng)然,有人會反駁:馬斯克就是算經(jīng)濟(jì)賬,一個(gè)激光雷達(dá)幾百美元,一年幾百萬輛車就是十幾億美元,特斯拉的利潤率就是這么摳出來的。
這個(gè)說法把因果搞反了。
特斯拉不是“因?yàn)槭″X所以選純視覺”,而是“因?yàn)檎J(rèn)定了純視覺才是終局,所以不愿意在未來注定被淘汰的技術(shù)上浪費(fèi)一美元”。馬斯克對第一性原理的癡迷眾所周知:物理上,自動(dòng)駕駛到底需要什么?答案是——足夠多的環(huán)境信息。而可見光波段的信息量,遠(yuǎn)遠(yuǎn)大于激光雷達(dá)的點(diǎn)云。一個(gè)1080P的攝像頭,每秒30幀,每幀200萬個(gè)像素,每個(gè)像素有RGB三個(gè)通道,這信息密度是任何現(xiàn)有激光雷達(dá)都望塵莫及的。
激光雷達(dá)的優(yōu)勢在于直接測距,不需要算法去推斷距離。但隨著視覺算法的進(jìn)步——比如特斯拉的Occupancy Network(占據(jù)網(wǎng)絡(luò))——純視覺系統(tǒng)已經(jīng)能夠從圖像中重建出稠密的三維空間結(jié)構(gòu),精度雖然不如激光雷達(dá),但對于駕駛和機(jī)器人操作來說,已經(jīng)足夠。
更重要的是,激光雷達(dá)的價(jià)格確實(shí)在下降,從幾萬塊降到了幾千甚至幾百元。但攝像頭呢?一顆車載攝像頭成本不到50美元。就算激光雷達(dá)降到100美元,攝像頭仍然是它的一半不到。而且攝像頭沒有運(yùn)動(dòng)部件,可靠性更高,功耗更低,更容易過車規(guī)和安規(guī)。
所以“省錢”不是原因,而是結(jié)果——因?yàn)檫@條路在物理上更優(yōu)雅、在工程上更簡潔、在商業(yè)上更便宜,所以馬斯克選了它。
四、這個(gè)決定的真正代價(jià),馬斯克比誰都清楚
有人可能會說:道理我都懂,但現(xiàn)在特斯拉的純視覺方案確實(shí)還不夠好啊,誤判白色卡車、在雨霧天表現(xiàn)不佳、幽靈剎車……這些都是問題。
沒錯(cuò)。馬斯克不是神,純視覺這條路確實(shí)走得艱難。它需要海量的訓(xùn)練數(shù)據(jù),需要超大規(guī)模的算力集群,需要不斷迭代的神經(jīng)網(wǎng)絡(luò)架構(gòu)。特斯拉為此自研了Dojo超級計(jì)算機(jī),建立了數(shù)據(jù)標(biāo)注和仿真系統(tǒng),投入的人力物力遠(yuǎn)不止省下來的那點(diǎn)激光雷達(dá)的錢。
如果馬斯克只是為了“省錢”,他完全可以像其他廠商一樣,激光雷達(dá)、攝像頭、毫米波、超聲波全堆上去,供應(yīng)商方案拿來就用,反而更省錢、更省事。
他沒有這么做,是因?yàn)樗吹搅艘粋€(gè)更遠(yuǎn)的終點(diǎn):當(dāng)自動(dòng)駕駛成熟之后,下一場戰(zhàn)役是通用機(jī)器人。而通用機(jī)器人的感知系統(tǒng),絕不能依靠激光雷達(dá)這把“拐杖”。你現(xiàn)在舒服地扶著拐杖走路,到時(shí)候扔掉拐杖的那一刻,你會發(fā)現(xiàn)自己根本不會跑。
馬斯克選擇在自動(dòng)駕駛還沒跑通的時(shí)候就去掉激光雷達(dá),相當(dāng)于讓特斯拉的算法團(tuán)隊(duì)從一開始就在“hard模式”下訓(xùn)練。這五年里,特斯拉的視覺算法突飛猛進(jìn),從HydraNet到BEV + Transformer,再到Occupancy Network和端到端模型,每一次迭代都在逼近“純視覺天花板”。而這些技術(shù)積累,現(xiàn)在已經(jīng)可以直接遷移到擎天柱機(jī)器人上。
反觀那些依賴激光雷達(dá)的自動(dòng)駕駛公司,他們或許在L2+級別上體驗(yàn)更好,但一旦去掉激光雷達(dá),算法性能會大幅下降。因?yàn)樗麄儚奈凑嬲鉀Q過“靠眼睛看懂世界”這個(gè)根本問題。
五、結(jié)語:馬斯克賭的不是技術(shù),是世界的底層邏輯
回到最初的問題:特斯拉為什么要走純視覺?
它不是技術(shù)崇拜,不是成本摳門,也不是對激光雷達(dá)的偏見。馬斯克做了一個(gè)基于第一性原理的決策:人類世界是為視覺系統(tǒng)設(shè)計(jì)的,任何要在人類世界中自由行動(dòng)的智能體,都必須以視覺作為首要感知通道。
激光雷達(dá)是一件很好的“工具”,但它不是人類世界的“原生產(chǎn)品”。你可以用它來輔助,但你不能依賴它。因?yàn)槟愕淖罱K目的地——不管是L5自動(dòng)駕駛,還是人形機(jī)器人——那個(gè)世界里,沒有激光雷達(dá)為你提前布設(shè)好一切。
馬斯克真正相信的是:要想造出一個(gè)能在人類世界里生存的機(jī)器,就必須讓它像人類一樣看世界。這不是技術(shù)路線之爭,這是對“智能”本質(zhì)的理解問題。
你認(rèn)為他是對的嗎?五年后再回頭看,答案會更清晰。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.