VLA（視覺-語言-動作）模型正日益受到關(guān)注但規(guī)模落地仍面臨諸多技術(shù)挑戰(zhàn)

2025-10-09 17:31 責(zé)任編輯：王昭來源：m.heb-baidu.cn 點(diǎn)擊：次

　　VLA模型即視覺-語言-動作模型，是一種將視覺、語言理解、動作控制融合在一起的多模態(tài)基礎(chǔ)模型。不同于LLM（大語言模型）的文本模態(tài)、VLM（視覺-語言模型）的文本-視覺模態(tài)，VLA模型是將視覺、語言和行動三種模態(tài)的數(shù)據(jù)結(jié)合起來，具備感知-理解-決策的潛力。

　　根據(jù)模型構(gòu)架不同，VLA模型分為單模型構(gòu)架、分層雙系統(tǒng)構(gòu)架、自修正框架。VLA模型通常包含視覺編碼器、語言模型、動作解碼器三大核心部分，其中視覺編碼器負(fù)責(zé)讀取傳感器數(shù)據(jù)，將圖像、點(diǎn)云等轉(zhuǎn)成數(shù)字特征，語言模型對視覺特征和其它輸入進(jìn)行推理理解，動作解碼器根據(jù)語言模型的輸出生成相應(yīng)的控制指令。

　　根據(jù)新思界產(chǎn)業(yè)研究中心發(fā)布的《2025-2029年中國VLA（視覺-語言-動作）模型市場行情監(jiān)測及未來發(fā)展前景研究報告》顯示，VLA模型是多模態(tài)大模型驅(qū)動的智能體架構(gòu)，能直接輸出控制信號，極大地提高了復(fù)雜環(huán)境適應(yīng)能力和決策響應(yīng)速度，在機(jī)器人、自動駕駛、精準(zhǔn)農(nóng)業(yè)、增強(qiáng)現(xiàn)實（AR）導(dǎo)航、工業(yè)自動化等領(lǐng)域具有廣闊應(yīng)用前景。

　　端到端方案是目前自動駕駛領(lǐng)域的主流范式，從技術(shù)演進(jìn)來看，端到端大致分為模塊化端到端（分段式端到端）、全局端到端（一段式端到端）兩類。近年來，我國智能駕駛技術(shù)正從模塊化端到端向全局端到端演變，而VLA模型作為實現(xiàn)全局端到端的關(guān)鍵技術(shù)，正日益受到廣泛關(guān)注。

　　隨著相關(guān)研究深入，VLA模型技術(shù)路線日新月異。目前國內(nèi)外VLA模型已達(dá)百余項，包括谷歌DeepMind的RT-2、英偉達(dá)的GROOT N1、Wayve的LINGO-1、Phvsical AI的π0、Figure AI的Helix、星動紀(jì)元的ERA-42、銀河通用的GraspVLA、理想汽車的MindVLA等。此外VLA模型布局企業(yè)還包括千尋智能、靈初智能、小鵬汽車等。

　　在相關(guān)企業(yè)積極布局下，VLA模型即將迎來規(guī)模落地。但VLA模型大規(guī)模落地需要算法、算力、數(shù)據(jù)等多方面助力，目前數(shù)據(jù)成本居高不下、動態(tài)環(huán)境適配差、訓(xùn)練效率較低、算力成本高、落地安全性較差等問題，也制約著VLA模型實現(xiàn)落地應(yīng)用。

　　新思界行業(yè)分析人士表示，VLA模型能夠提高機(jī)器人、自動駕駛等在復(fù)雜環(huán)境中的適應(yīng)能力和決策響應(yīng)速度，對機(jī)器人、自動駕駛等產(chǎn)業(yè)發(fā)展十分重要，國內(nèi)外企業(yè)均在進(jìn)行積極的探索和實踐。VLA模型應(yīng)用場景廣泛，但目前VLA模型仍處于早期發(fā)展階段，要實現(xiàn)大規(guī)模落地，仍面臨諸多技術(shù)挑戰(zhàn)。

關(guān)鍵字：

相關(guān)內(nèi)容閱讀

VLA（視覺-語言-動作）模型正日益受到關(guān)注但規(guī)模落地仍面臨諸多技術(shù)挑戰(zhàn)

最新資訊

綠色智算市場規(guī)模呈快速增長態(tài)勢智算中心

具身基座大模型應(yīng)用潛力巨大中國市場規(guī)模

AI賦能裝備制造推動全流程智能化升級

車聯(lián)網(wǎng)模組市場增長潛力大國內(nèi)企業(yè)加速技

多模態(tài)感知系統(tǒng)成為發(fā)展趨勢產(chǎn)業(yè)鏈上下游

星間鏈路（ISL）為衛(wèi)星通信核心技術(shù)環(huán)節(jié) 市

大模型一體機(jī)在眾多領(lǐng)域擁有潛在應(yīng)用價值 2

推薦內(nèi)容

研究報告

VLA（視覺-語言-動作）模型正日益受到關(guān)注 但規(guī)模落地仍面臨諸多技術(shù)挑戰(zhàn)

最新資訊

綠色智算市場規(guī)模呈快速增長態(tài)勢 智算中心

具身基座大模型應(yīng)用潛力巨大 中國市場規(guī)模

AI賦能裝備制造 推動全流程智能化升級

車聯(lián)網(wǎng)模組市場增長潛力大 國內(nèi)企業(yè)加速技

多模態(tài)感知系統(tǒng)成為發(fā)展趨勢 產(chǎn)業(yè)鏈上下游

星間鏈路（ISL）為衛(wèi)星通信核心技術(shù)環(huán)節(jié) 市

大模型一體機(jī)在眾多領(lǐng)域擁有潛在應(yīng)用價值 2

推薦內(nèi)容

研究報告

VLA（視覺-語言-動作）模型正日益受到關(guān)注但規(guī)模落地仍面臨諸多技術(shù)挑戰(zhàn)

綠色智算市場規(guī)模呈快速增長態(tài)勢智算中心

具身基座大模型應(yīng)用潛力巨大中國市場規(guī)模

AI賦能裝備制造推動全流程智能化升級

車聯(lián)網(wǎng)模組市場增長潛力大國內(nèi)企業(yè)加速技

多模態(tài)感知系統(tǒng)成為發(fā)展趨勢產(chǎn)業(yè)鏈上下游