2025-10-09 17:31 責(zé)任編輯:王昭 來源:m.heb-baidu.cn 點(diǎn)擊:
次
VLA模型即視覺-語言-動作模型,是一種將視覺、語言理解、動作控制融合在一起的多模態(tài)基礎(chǔ)模型。不同于LLM(大語言模型)的文本模態(tài)、VLM(視覺-語言模型)的文本-視覺模態(tài),VLA模型是將視覺、語言和行動三種模態(tài)的數(shù)據(jù)結(jié)合起來,具備感知-理解-決策的潛力。
根據(jù)模型構(gòu)架不同,VLA模型分為單模型構(gòu)架、分層雙系統(tǒng)構(gòu)架、自修正框架。VLA模型通常包含視覺編碼器、語言模型、動作解碼器三大核心部分,其中視覺編碼器負(fù)責(zé)讀取傳感器數(shù)據(jù),將圖像、點(diǎn)云等轉(zhuǎn)成數(shù)字特征,語言模型對視覺特征和其它輸入進(jìn)行推理理解,動作解碼器根據(jù)語言模型的輸出生成相應(yīng)的控制指令。
根據(jù)新思界產(chǎn)業(yè)研究中心發(fā)布的
《2025-2029年中國VLA(視覺-語言-動作)模型市場行情監(jiān)測及未來發(fā)展前景研究報告》顯示,VLA模型是多模態(tài)大模型驅(qū)動的智能體架構(gòu),能直接輸出控制信號,極大地提高了復(fù)雜環(huán)境適應(yīng)能力和決策響應(yīng)速度,在機(jī)器人、自動駕駛、精準(zhǔn)農(nóng)業(yè)、增強(qiáng)現(xiàn)實(AR)導(dǎo)航、工業(yè)自動化等領(lǐng)域具有廣闊應(yīng)用前景。
端到端方案是目前自動駕駛領(lǐng)域的主流范式,從技術(shù)演進(jìn)來看,端到端大致分為模塊化端到端(分段式端到端)、全局端到端(一段式端到端)兩類。近年來,我國智能駕駛技術(shù)正從模塊化端到端向全局端到端演變,而VLA模型作為實現(xiàn)全局端到端的關(guān)鍵技術(shù),正日益受到廣泛關(guān)注。
隨著相關(guān)研究深入,VLA模型技術(shù)路線日新月異。目前國內(nèi)外VLA模型已達(dá)百余項,包括谷歌DeepMind的RT-2、英偉達(dá)的GROOT N1、Wayve的LINGO-1、Phvsical AI的π0、Figure AI的Helix、星動紀(jì)元的ERA-42、銀河通用的GraspVLA、理想汽車的MindVLA等。此外VLA模型布局企業(yè)還包括千尋智能、靈初智能、小鵬汽車等。
在相關(guān)企業(yè)積極布局下,VLA模型即將迎來規(guī)模落地。但VLA模型大規(guī)模落地需要算法、算力、數(shù)據(jù)等多方面助力,目前數(shù)據(jù)成本居高不下、動態(tài)環(huán)境適配差、訓(xùn)練效率較低、算力成本高、落地安全性較差等問題,也制約著VLA模型實現(xiàn)落地應(yīng)用。
新思界
行業(yè)分析人士表示,VLA模型能夠提高機(jī)器人、自動駕駛等在復(fù)雜環(huán)境中的適應(yīng)能力和決策響應(yīng)速度,對機(jī)器人、自動駕駛等產(chǎn)業(yè)發(fā)展十分重要,國內(nèi)外企業(yè)均在進(jìn)行積極的探索和實踐。VLA模型應(yīng)用場景廣泛,但目前VLA模型仍處于早期發(fā)展階段,要實現(xiàn)大規(guī)模落地,仍面臨諸多技術(shù)挑戰(zhàn)。
關(guān)鍵字: