视觉语言行动模型

搜索文档
三问三解 | VLA
中国质量新闻网· 2025-05-15 15:56
自动驾驶技术演进 - 自动驾驶技术从基于规则的系统发展到端到端模型,再到视觉语言模型(VLM),目前已进入视觉语言行动模型(VLA)阶段,每一步都是人工智能实质性应用的范例 [1] - VLA(Vision-Language-Action Model)是视觉-语言-行为大模型,融合视觉、语言和行动能力,实现端到端映射,赋予模型3D空间理解、逻辑推理和行为生成能力 [2] - VLA由视觉编码器、语言编码器、跨模态融合模块和动作生成模块组成,具备多模态感知与决策、全局上下文理解和系统透明性等核心特性 [4] VLA模型的核心能力 - VLA能够基于视觉和语言信息实时感知,通过"思维链"技术构建类人逻辑,推理复杂场景下的最优驾驶决策 [4] - VLA理解长达数十秒的全局路况信息,对施工工区、潮汐车道等复杂场景尤为重要,且推理过程全程可求导,可向用户解释驾驶逻辑 [4] - VLA能够看懂导航软件运行逻辑,理解物理世界,具备语言和思维链系统,可像人类一样执行复杂动作,适应更多驾驶风格 [9] VLA与传统技术的对比 - 早期辅助驾驶采用模块化架构,感知、规划及执行系统独立,响应慢且依赖高精地图,需不断加限定规则 [5] - 端到端阶段通过大模型学习人类驾驶行为,可应对大部分泛化场景,但难以解决从未遇到或特别复杂的问题 [7] - VLM模型对复杂交通环境理解能力更强,但现有模型仅能起辅助作用 [7] VLA的发展前景 - 在海量优质数据加持下,VLA模型在绝大多数场景下接近人类驾驶水平,随着偏好数据丰富,表现逐步接近专业司机水平 [9] - VLA能够实现全自动驾驶,甚至有机会超过人类开车能力 [9] - VLA模型训练和部署面临巨大计算挑战,未来分布式训练技术和模型架构优化将提高训练效率并降低部署成本 [12] 世界模型的作用 - 世界模型通过构建虚拟环境模型模拟和预测真实交通场景,包含交通规则、道路结构和动态物体 [10] - 世界模型为VLA提供更丰富上下文信息,帮助理解复杂场景,并可用于模拟训练和安全验证 [12] - 世界模型通过模拟极端场景验证自动驾驶模型安全性和可靠性,类似摸底考试 [12]
“智驾”是否该叫停?理想汽车CEO李想回应!小米、理想、问界改口,“智驾”更名为“辅助驾驶”
每日经济新闻· 2025-05-07 23:14
智能驾驶技术发展 - 公司CEO将智能驾驶技术发展比作"黎明前的黑暗",认为当前是从规则算法向视觉语言行动模型(VLA)转型的关键阶段[2] - 公司认为行业问题正是其价值所在,如通过增程式产品解决电池成本高、充电难问题,通过5C电池解决充电慢问题[3] - 公司开发操作系统是为了解决传统车控系统性能差、开发周期长、芯片匹配慢等行业痛点[3] 智能驾驶定位与更名 - 公司CEO将智能驾驶定位为"替代专业司机"的生产力工具[3] - 行业出现"智驾"更名现象:小米将"小米智驾Pro/Max"更名为"小米辅助驾驶Pro/端到端辅助驾驶"[3] - 问界汽车4月官方宣传中"智驾"出现频次从3月的5次降至4月的3次,改用"智能辅助驾驶"表述[6] 行业技术路线演进 - 公司技术路线已从规则算法演进至端到端+VLM,目前进入视觉语言行动模型(VLA)阶段[2] - 行业当前处于技术转型期,面临"十字路口"争议,部分声音呼吁叫停智能驾驶[1]