当前位置: 新思界 > 产业 > 互联网 > 聚焦 >

VLA(视觉-语言-动作)模型正日益受到关注 但规模落地仍面临诸多技术挑战

2025-10-09 17:31      责任编辑:王昭    来源:www.newsijie.com    点击:
分享到:

VLA(视觉-语言-动作)模型正日益受到关注 但规模落地仍面临诸多技术挑战

  VLA模型即视觉-语言-动作模型,是一种将视觉、语言理解、动作控制融合在一起的多模态基础模型。不同于LLM(大语言模型)的文本模态、VLM(视觉-语言模型)的文本-视觉模态,VLA模型是将视觉、语言和行动三种模态的数据结合起来,具备感知-理解-决策的潜力。

  根据模型构架不同,VLA模型分为单模型构架、分层双系统构架、自修正框架。VLA模型通常包含视觉编码器、语言模型、动作解码器三大核心部分,其中视觉编码器负责读取传感器数据,将图像、点云等转成数字特征,语言模型对视觉特征和其它输入进行推理理解,动作解码器根据语言模型的输出生成相应的控制指令。

  根据新思界产业研究中心发布的《2025-2029年中国VLA(视觉-语言-动作)模型市场行情监测及未来发展前景研究报告》显示,VLA模型是多模态大模型驱动的智能体架构,能直接输出控制信号,极大地提高了复杂环境适应能力和决策响应速度,在机器人、自动驾驶、精准农业、增强现实(AR)导航、工业自动化等领域具有广阔应用前景。

  端到端方案是目前自动驾驶领域的主流范式,从技术演进来看,端到端大致分为模块化端到端(分段式端到端)、全局端到端(一段式端到端)两类。近年来,我国智能驾驶技术正从模块化端到端向全局端到端演变,而VLA模型作为实现全局端到端的关键技术,正日益受到广泛关注。

  随着相关研究深入,VLA模型技术路线日新月异。目前国内外VLA模型已达百余项,包括谷歌DeepMind的RT-2、英伟达的GROOT N1、Wayve的LINGO-1、Phvsical AI的π0、Figure AI的Helix、星动纪元的ERA-42、银河通用的GraspVLA、理想汽车的MindVLA等。此外VLA模型布局企业还包括千寻智能、灵初智能、小鹏汽车等。

  在相关企业积极布局下,VLA模型即将迎来规模落地。但VLA模型大规模落地需要算法、算力、数据等多方面助力,目前数据成本居高不下、动态环境适配差、训练效率较低、算力成本高、落地安全性较差等问题,也制约着VLA模型实现落地应用。

  新思界行业分析人士表示,VLA模型能够提高机器人、自动驾驶等在复杂环境中的适应能力和决策响应速度,对机器人、自动驾驶等产业发展十分重要,国内外企业均在进行积极的探索和实践。VLA模型应用场景广泛,但目前VLA模型仍处于早期发展阶段,要实现大规模落地,仍面临诸多技术挑战。

关键字: