網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

理想汽車(chē)發(fā)布新一代自動(dòng)駕駛構(gòu)架——MindVLA

2025-03-25 15:48:09　來(lái)源: 智生活雜志

上海舉報(bào)

分享至

在3月18日的NVIDIA GTC 2025上，理想汽車(chē)自動(dòng)駕駛技術(shù)研發(fā)負(fù)責(zé)人賈鵬發(fā)表了主題為《VLA：邁向自動(dòng)駕駛物理智能體的關(guān)鍵一步》的演講，并發(fā)布了理想汽車(chē)的下一代自動(dòng)駕駛架構(gòu)——MindVLA。

理想汽車(chē)董事長(zhǎng)兼CEO李想當(dāng)日在社交平臺(tái)發(fā)文稱(chēng)，“MindVLA是一個(gè)視覺(jué)-語(yǔ)言-行為大模型，但我們更愿意將其稱(chēng)為“機(jī)器人大模型”，它將空間智能、語(yǔ)言智能和行為智能統(tǒng)一在一個(gè)模型里，讓自動(dòng)駕駛擁有感知、思考和適應(yīng)環(huán)境的能力，是我們通往L4路上最重要的一步?！彼€表示，MindVLA能為自動(dòng)駕駛賦予類(lèi)似人類(lèi)的駕駛能力，就像iPhone 4重新定義了手機(jī)，MindVLA也將重新定義自動(dòng)駕駛。

據(jù)介紹，MindVLA不是簡(jiǎn)單地將端到端模型和VLM模型結(jié)合在一起，所有模塊都是全新設(shè)計(jì)。3D空間編碼器通過(guò)語(yǔ)言模型后，和邏輯推理結(jié)合在一起后，給出合理的駕駛決策，并輸出一組action token（動(dòng)作詞元），action token指的是對(duì)周?chē)h(huán)境和自車(chē)駕駛行為的編碼，并通過(guò)diffusion（擴(kuò)散模型）進(jìn)一步優(yōu)化出最佳的駕駛軌跡，整個(gè)推理過(guò)程都要發(fā)生在車(chē)端，并且要做到實(shí)時(shí)運(yùn)行。

從用戶(hù)體驗(yàn)方面來(lái)看，有MindVLA賦能的汽車(chē)不再只是一個(gè)簡(jiǎn)單的駕駛工具，而是一個(gè)能與用戶(hù)溝通、理解用戶(hù)意圖的智能體。能夠聽(tīng)得懂、看得見(jiàn)、找得到，是一個(gè)真正意義上的司機(jī)Agent或者叫“專(zhuān)職司機(jī)”。

所謂“聽(tīng)得懂”是用戶(hù)可以通過(guò)語(yǔ)音指令改變車(chē)輛的路線(xiàn)和行為，MindVLA能夠理解并執(zhí)行“開(kāi)太快了”“應(yīng)該走左邊這條路”等這些指令?！翱吹靡?jiàn)”是指MindVLA具備強(qiáng)大的通識(shí)能力，不僅能夠認(rèn)識(shí)星巴克、肯德基等不同的商店招牌；當(dāng)用戶(hù)在陌生地點(diǎn)找不到車(chē)輛時(shí)，可以拍一張附近環(huán)境的照片發(fā)送給車(chē)輛，擁有MindVLA賦能的車(chē)輛能夠搜尋照片中的位置，并自動(dòng)找到用戶(hù)?！罢业玫健币馕吨?chē)輛可以自主地在地庫(kù)、園區(qū)和公共道路上漫游，其中典型應(yīng)用場(chǎng)景是用戶(hù)在商場(chǎng)地庫(kù)，可以跟車(chē)輛說(shuō)：“去找個(gè)車(chē)位停好”，車(chē)輛就會(huì)利用強(qiáng)大的空間推理能力自主尋找車(chē)位，即便遇到死胡同，車(chē)輛也會(huì)自如地倒車(chē)，重新尋找合適的車(chē)位停下，整個(gè)過(guò)程不依賴(lài)地圖或?qū)Ш叫畔?，完全依?lài)MindVLA的空間理解和邏輯推理能力。

對(duì)于人工智能領(lǐng)域而言，汽車(chē)作為物理人工智能的最佳載體，未來(lái)探索出物理世界和數(shù)字世界結(jié)合的范式，將有望賦能多個(gè)行業(yè)協(xié)同發(fā)展。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.