视觉语言模型（VLM） - 财报，业绩电话会，研报，新闻 - Reportify

视觉语言模型（VLM）

搜索文档

具身智能，为何成为智驾公司的下一个战场？

雷峰网· 2025-09-26 12:17

" 具身智能的「智驾味」越来越足。 " 作者丨李雨晨具身智能，已经成为智能驾驶创业者的下一个战场。文远知行前 COO 张力加入逐际动力，任联合创始人兼 COO 。高继扬、赵行创办具身智能公司 —— 星海图。今年，前华为车 BU 首席科学家陈亦伦、百度智能驾驶事业群负责人李震宇联合创立的 " 它石智航 " ，完成 1.2 亿美元天使轮融资，创下国内具身智能领域最大天使轮纪录。全球具身智能市场正处于爆发前夜。据《 2025 人形机器人与具身智能产业研究报告》显示， 2025 年中国具身智能市场规模预计达 52.95 亿元，占全球约 27% ；人形机器人市场规模预计达 82.39 亿元，占全球约 50% 。优必选、宇树科技、银河通用、智元机器人等企业都宣布今年预计量产千台人形机器人。 | 技术层级 | 智能驾驶应用 | 具身智能迁移 | | --- | --- | --- | | 感知层 | 多传感器融合(激光雷达、摄像头、雷达) | 环境建模、物体识别 | | 決策层 | 路径规划、行为预测 | 任务规划、交互策略 | | 控制层 | 车辆动力学控制 | 运动控制、操作执行 | | 仿真层 | 虚拟 ...

端到端模型

视觉语言模型（VLM）

视觉语言动作端到端模型（VLA）

端到端模型

视觉语言模型（VLM）

视觉语言动作端到端模型（VLA）

机器人指数ETF（560770）逆市翻红，当前科技行情进展到哪里了？

21世纪经济报道· 2025-09-02 14:17

市场表现 - A股市场震荡回调三大指数下跌机器人概念午后走高机器人指数ETF(560770)上涨0.40% 秦川机床和华东数控等多股涨停丰立智能和拓斯达等涨超5% [1] - 两市成交额快速突破2万亿元较昨日此时放量超900亿元连续第15个交易日突破2万亿元 [1] - TMT成交额占全部成交额比例约40% 较年初Deepseek驱动和2023年GPT驱动时的成交额占比新高仍有空间 [1] 机构观点 - 科技板块调整更多是情绪扰动前期涨幅较大赛道短期内或将存在波动 [2] - 赚钱效应极致聚焦于算力产业链抱团现象强化 [3] - 若后续资金出现高切低或增量资金有新开仓意愿 6月以来涨跌幅相对落后但近一月盈利未明显下调且后续具备潜在催化的细分科技方向值得关注包括机器人、半导体设备、电池等行业 [6] 产业发展 - 机器人产业加速推进技术侧AI大语言模型与视觉语言模型融合迭代提升理解能力多模态传感器融合提升感知能力 [3] - 产业侧智元机器人和宇树科技获得中国移动1.24亿元订单为国内人形机器人领域最大单笔订单标志行业从技术验证进入规模化量产阶段 [3] - 优必选Walker S系列进入部分车企参与质检流程工业场景渗透加速 [3] - 中国信通院预测2045年后我国在用人形机器人数量将超过1亿台覆盖工业制造、家庭服务、医疗辅助、特种作业等多个场景整机市场规模可达约10万亿元级别 [7] 产品信息 - 机器人指数ETF(560770)追踪中证机器人指数覆盖机器人产业链各个领域 [6] - 标的指数前十大成份股包括汇川技术(权重9.65%)、科大讯飞(9.00%)、石头科技(5.76%)、大华股份(4.98%)、中控技术(4.26%)、大族激光(4.08%)、双环传动(3.27%)、机器人(3.26%)、云天励飞(3.22%)、科沃斯(2.89%) [7] - 该ETF基金还配置场外联接基金(A:020481 C:020482) [8]

机器人(SZ:300024)

机器人概念

科技成长行情

AI大语言模型（LLM）

视觉语言模型（VLM）

机器人概念

科技成长行情

AI大语言模型（LLM）

视觉语言模型（VLM）

还在卷端到端模型？Embodied-R1另辟蹊径：用“指向”+强化学习实现SOTA性能！

具身智能之心· 2025-09-02 08:03

点击按钮预约直播点击下方卡片，关注" 具身智能之心 "公众号 >>直播和内容获取转到 → 具身智能之心知识星球通用具身智能的发展长期受限于一个核心难题："视觉到行动的鸿沟"（seeing-to-doing gap）。这一鸿沟源于两大挑战：（a）数据稀缺，有限的机器人数据难以将语言和视觉与物理动作充分关联；（b）形态异构，多样的机器人形态阻碍了知识的有效迁移。尽管现有的视觉-语言-动作（VLA）模型在模仿专家演示方面表现出色，但在新环境中，其性能往往会急剧下降。无论是端到端模型存在的知识遗忘问题，还是模块化模型易于出现级联故障的弊端，都未能有效解决这一根本性问题。如何让机器人真正"理解"它所看到的，并将其转化为精准的物理操作，是推动通用机器人发展的关键。在机器人研究中，如何让"看到的"顺利转化为"做到的"，一直是一个难题。虽然近年来的视觉语言模型（VLM）和视觉语言动作模型（VLA）大幅提升了机器人理解场景与指令的能力，但当机器人真正要操作物体时，性能常常大打折扣。VLM本身具有强大的环境感知和视觉理解能力，但基于VLM进行继续训练的端到端VLA却几乎完全失去了零样本的操作能力 ...

视觉-语言-动作（VLA）模型

视觉语言模型（VLM）

强化微调（RFT）

监督微调（SFT）

视觉-语言-动作（VLA）模型

视觉语言模型（VLM）

强化微调（RFT）

监督微调（SFT）

最新综述！多模态融合与VLM在具身机器人领域中的方法盘点

具身智能之心· 2025-09-01 12:02

多模态融合与视觉语言模型综述 - 文章系统综述了多模态融合和视觉语言模型在机器人视觉领域的应用，涵盖语义场景理解、3D目标检测、SLAM、具身导航和操作控制等任务，并比较传统方法与新兴大模型方法的优劣 [3][4][11][57] 语义场景理解 - 多模态融合通过整合RGB图像、深度信息、LiDAR点云和语言数据，显著提升复杂环境下物体识别、语义分割和关系建模的准确性与鲁棒性 [9] - 主流融合策略分为早期融合（输入层直接拼接）、中期融合（特征层交互如注意力机制）和后期融合（决策层整合），现代方法趋向统一架构实现隐式协作 [10][12] - 实现路径包括编码器-解码器架构（如DeepLabv3+）、基于注意力的Transformer（如MRFTrans）和图神经网络方法（如MISSIONGNN） [12] 3D目标检测 - 多模态融合结合相机（丰富纹理）和LiDAR（精准几何），解决单一传感器在遮挡、极端天气或低反射物体下的性能缺陷 [16][18][19] - 融合设计核心涉及何时融合（早期/中期/后期）、融合内容（特征图、点云、BEV视图）及融合方法（从非注意力型到基于注意力的跨模态交互） [17] - 技术演进从早期MV3D、AVOD到TransFusion（Transformer建模跨模态依赖）和BEVFusion，并扩展雷达-相机融合（如CenterFusion）和4D雷达提升动态感知 [20][21][22] 具身导航 - 分为目标导向导航（依赖视觉语义与空间先验）、指令跟随导航（结合自然语言理解）和基于对话的导航（主动交互与动态调整），体现从感知到交互的演进 [24][26][27][28] - 代表性系统如InstructNav（零样本规划）和NaVid（视频驱动泛化），强调多模态融合在复杂环境中的适应能力 [27][33] 视觉定位与SLAM - 多模态融合（如DeepVO、D3VO）和自监督学习解决光照变化、遮挡及动态场景中的定位问题，神经隐式表示（如NeRF）压缩场景几何与语义信息 [29][30] - SLAM从传统LiDAR-SLAM（几何精准）和V-SLAM（语义丰富）向多模态融合（如V-LOAM、LIC-Fusion）和神经化转型（如UVIO用Transformer建模时序） [34][35] - 未来方向包括轻量化、自监督与感知决策一体化，提升在动态环境中的语义理解与规划能力 [35][38] 视觉-语言-动作模型（VLA） - VLA模型整合视觉感知、语言理解和动作生成，实现从"感知"到"执行"的闭环，代表方法包括RT-2（预训练对齐）、RoboMamba（动作动态建模）和3D-VLA（三维点云融合） [36][37][39] - 高效化趋势明显：OpenVLA通过LoRA降低训练成本，DeeR-VLA采用动态退出机制减少计算开销，VoxPoser支持语言驱动的实时策略调整 [39][40] - 多模态融合使机器人在操作任务中实现感知更强、理解更深和执行更准的三重跃迁 [47] 视觉-触觉融合 - 视觉提供全局物体信息（位置、形态），触觉补充局部反馈（接触力、滑动），提升抓取精度与稳定性，如FusionNet-A融合特征用于抓取规划 [41][42][48] - 触觉在抓取执行阶段实时调整力度和姿态，避免滑动或掉落，并通过时空注意力（如Li等人方法）或自监督学习（如MimicTouch）优化稳定性预测 [44][45][48] 视觉语言模型演进 - 预训练阶段通过对比学习（如CLIP）或自监督方法对齐多模态表示，实现零样本迁移和泛化能力 [50] - 跨模态对齐方法包括对比学习（拉近相关样本）、自监督学习（掩码预测）和跨模态生成（如DALL·E），解决模态间语义粒度差异 [51][55] - VLM从Flamingo、PaLM-E发展到Gemini、Llama-3.2，支持多模态（图像、文本、音频）和结构优化（MoE、稀疏注意力），增强指令理解与推理能力 [53][54] 挑战与未来方向 - 关键挑战包括跨模态对齐的语义偏差、算力有限平台的轻量化部署需求，以及真实环境中的传感器异质性和延迟问题 [58] - 未来重点方向包括结构化空间建模与记忆机制、可解释性与伦理适应性提升，以及发展具备长期学习能力的认知型VLM架构 [58]

多模态融合

视觉语言模型（VLM）

跨模态对齐

语义场景理解

三维目标检测

多模态融合

视觉语言模型（VLM）

跨模态对齐

语义场景理解

三维目标检测

研究生开学，被大老板问懵了。。。

自动驾驶之心· 2025-09-01 11:17

社区规模与愿景 - 自动驾驶之心知识星球是一个综合类自驾社区集视频图文学习路线问答求职交流为一体目前成员超过4000人预期未来2年内规模达到近万人[1] - 社区愿景是让AI与自动驾驶走进每个有需要的同学致力于打造交流与技术分享的聚集地[1] 技术资源覆盖 - 社区梳理近40+自动驾驶技术路线覆盖端到端 VLA 多模态大模型数据闭环4D标注等前沿方向[1][3] - 包含近60+自动驾驶数据集行业主流仿真平台以及感知仿真规划控制等完整学习路线[14] - 汇总国内外知名高校实验室和自动驾驶公司资源涵盖RoboTaxi 重卡业务造车新势力等领域[26][29] 专家网络与互动 - 邀请数十位一线产业界和工业界嘉宾包括顶会常驻专家提供技术答疑和行业见解[3] - 不定期组织学术界与工业界大佬直播分享目前已举办超过100场专业技术直播[58] - 建立与近300家机构及自驾公司的内推机制直接对接企业招聘需求[10][67] 核心内容体系 - 技术方向系统覆盖BEV感知 3D目标检测多传感器融合世界模型扩散模型等40+领域[5][7] - 实战板块包含模型压缩部署优化以及TensorRT 毫米波雷达融合等100问系列工程实践[7] - 提供全栈学习课程和入门路线图针对0基础小白和进阶研究者分别设计学习路径[8][10] 行业趋势洞察 - 跟踪端到端自动驾驶量产应用区分一段式/二段式技术方案并探讨工程落地难点[32][64] - 聚焦2025年热点VLA技术系统梳理开源数据集思维链推理及量产方案快慢双系统[36][37] - 分析世界模型 3DGS与NeRF等技术在自动驾驶仿真和感知领域的融合应用[33][39]

端到端自动驾驶

视觉语言模型（VLM）

自动驾驶多模态大模型

自动驾驶之心知识星球

端到端自动驾驶

视觉语言模型（VLM）

自动驾驶多模态大模型

自动驾驶之心知识星球

又帮到了一位同学拿到了自动驾驶算法岗......

自动驾驶之心· 2025-08-23 22:44

行业发展趋势 - 自动驾驶行业面临结构性调整出现裁员现象从业者转向具身智能和大模型等热门方向[1] - 技术演进聚焦VLA(视觉语言动作模型)和端到端自动驾驶这些方向被视为具有更高技术壁垒和转型潜力[1] - 行业技术栈快速扩展涵盖多模态大模型数据闭环4D标注世界模型等前沿领域[2] 技术资源体系 - 自动驾驶之心社区建立完整技术体系包含超过40个技术路线分类[2] - 社区资源覆盖从基础数学[3]到前沿VLA算法[40]的全栈技术内容 - 提供近60个自动驾驶数据集资源包括NuScenes Waymo KITTI等主流数据集[16][25][33] 人才发展生态 - 社区成员规模超过4000人目标两年内达到近万人[1] - 汇聚国内外知名高校和头部企业资源包括上海交大清华大学 CMU 蔚小理华为英伟达等机构[16] - 建立与多家自动驾驶公司的内推机制提供岗位对接服务[7][30] 技术应用方向 - 端到端自动驾驶成为研究热点涵盖量产方案多模态融合可解释性等细分方向[29][34] - 3DGS与NeRF技术在场景重建和闭环仿真领域获得重要应用[35] - BEV感知技术成熟度较高已成为量产方案的基石[44] 社区服务内容 - 提供专业技术直播超过100场涵盖VLA 3D检测规划控制等前沿话题[58] - 建立完善的问答机制解答从技术入门到职业发展的各类问题[61][62] - 整合求职资源包括实习校招社招岗位分享和内推服务[30]

端到端自动驾驶

视觉语言模型（VLM）

自动驾驶算法

端到端自动驾驶

视觉语言模型（VLM）

自动驾驶算法

理想VLA到底是不是真的VLA？

自动驾驶之心· 2025-08-22 07:34

文章核心观点 - 理想MindVLA是机器人领域基于大语言模型（LLM）作为主干网络的狭义VLA（Vision-Language-Action）模型，通过多模态信息整合编码和决策输出实现更优的自动驾驶能力，其核心优势包括防御性驾驶、场景理解能力和轨迹稳定性 [2][5][7] 技术架构与原理 - VLA基于LLM作为主干网络，串行整合多模态信息（视觉、激光雷达、语言、地图、定位），输出决策并转换为轨迹及控制细节 [2] - 模型通过扩散模型生成轨迹，相比端到端（E2E）模型更收敛，具备稳定的中短时序轨迹生成能力 [10] - 语音功能是LLM的附加能力，具备基础语音和记忆功能 [11] 场景性能对比（VLA vs E2E+VLM）防御性驾驶 - 在无遮挡十字路口行驶快速稳健，在有遮挡路口基于剩余距离丝滑减速，减速G值根据距离动态调整，无漏检或虚惊情况 [4][5] - E2E模型难以学会丝滑减速，VLM模块在丁字路口需强制减速但体感为急刹 [3] 拥堵场景决策 - VLA在拥堵高架场景中，让行2辆Cut-in车辆后主动向左变道，避免持续加塞，体现深度场景理解能力 [7] - E2E+VLM通常触发绕行逻辑，缺乏真实场景理解能力 [7] 非标准车道行驶 - VLA在1.5-2.5倍宽闸道轻微减速并居中行驶，无画龙现象 [9][11] - E2E+VLM在该场景100%出现轻微画龙轨迹 [10] 复杂路径规划 - VLA在路口右转后需短距离左转时选择直行并触发导航重规划，决策坚决 [11] - E2E+VLM大概率直接变道或小概率直行 [11] 能力边界与局限性 - 当前版本为辅助驾驶而非自动驾驶，需随时接管 [11] - 行车场景（地面/高架/高速）为完整技术栈，但偶发异常如绿灯不走或误判红绿灯 [11] - 部分场景控车细节仍逊于FSD，但选路能力在杭州优于FSD [11] 迭代与工程优化 - VLA因MoE（混合专家模型）和工程巧思，分场景、能力、细节并行优化，迭代速度快于E2E模型 [11] - 关键信息提取COT（Chain-of-Thought）延迟可接受，在路口15-20米触发防御性减速 [11] 硬件与部署 - 模型运行于2022年双OrinX计算芯片平台 [12]

大语言模型（LLM）

端到端模型（E2E）

视觉语言模型（VLM）

大语言模型（LLM）

端到端模型（E2E）

视觉语言模型（VLM）

死磕技术的自动驾驶黄埔军校，4000人了！

自动驾驶之心· 2025-08-15 22:23

社区定位与愿景 - 致力于成为连接学术界与工业界的桥梁推动自动驾驶技术发展 [2] - 构建包含产业研究、学术交流、求职服务、技术问答的闭环生态 [2] - 提供前沿技术内容包括40+技术路线梳理和工业界专家资源 [3][16] 技术资源体系 - 覆盖40+技术方向包含感知、规划控制、仿真、VLA等核心领域 [5][16] - 整理60+自动驾驶数据集包含多模态大模型专用数据集 [34] - 汇总开源项目涉及3D检测、BEV感知、世界模型等热门方向 [32] - 提供学术与工业级解决方案包括端到端自动驾驶量产方案 [36] 学习体系 - 设计完整学习路线包含感知、仿真、规划控制等方向 [16][17] - 提供基础到进阶的课程涵盖数学、CV、深度学习等基础知识 [5] - 开设专项视频课程包含数据工程、多传感器标定等实操内容 [6] - 整理经典教材与课程资料覆盖自动驾驶全技术栈 [30] 行业资源 - 汇总国内外头部自动驾驶企业与高校研究团队 [26][28] - 建立企业内推机制连接蔚小理、华为等头部公司 [6][16] - 分析行业发展趋势跟踪RoboTaxi、重卡等细分领域 [28] 专家网络 - 邀请数十位产业界专家来自头部企业和顶尖高校 [3][16] - 组织超过100场技术直播分享最新研究成果 [81] - 提供实时答疑服务解决技术难题和职业发展问题 [22][82] 技术热点覆盖 - 重点布局VLA、世界模型、扩散模型等前沿方向 [44][47] - 深入BEV感知、3D目标检测等量产关键技术 [49][51] - 跟踪Occupancy Network、NeRF等新兴技术 [38][56]

视觉语言模型（VLM）

Autonomous Driving

自动驾驶感知学习路线

自动驾驶仿真学习路线

视觉语言模型（VLM）

Autonomous Driving

自动驾驶感知学习路线

自动驾驶仿真学习路线

自动驾驶VLA工作汇总（模块化/端到端/推理增强）

自动驾驶之心· 2025-08-12 19:42

文章核心观点 - 文章梳理了近两年VLA（Vision-Language-Action）在自动驾驶领域的发展路线和算法汇总，涵盖前置工作、模块化VLA、端到端VLA和推理增强VLA等多个方向 [1][3][4][6] - 介绍了多个相关论文和开源项目，包括DriveGPT4、TS-VLM、DynRsl-VLM、RAG-Driver、OpenDriveVLA、DriveMoE等 [3][4][6][9] - 提供了自动驾驶之心知识星球的详细信息，包括技术路线、学习资源和行业资源 [7][10][15] VLA前置工作 - DriveGPT4提出通过大型语言模型实现可解释的端到端自动驾驶 [3] - TS-VLM采用文本引导的SoftSort池化方法用于多视角驾驶推理的视觉语言模型 [3] - DynRsl-VLM通过动态分辨率视觉语言模型增强自动驾驶感知能力 [3] 模块化VLA - RAG-Driver在多模态大型语言模型中通过检索增强的上下文学习实现通用驾驶解释 [4] - OpenDriveVLA致力于构建端到端自动驾驶的大型视觉语言动作模型 [4] - DriveMoE采用专家混合方法构建端到端自动驾驶的视觉语言动作模型 [4] - LangCoop探索语言协作驾驶 [4] - SafeAuto利用多模态基础模型实现知识增强的安全自动驾驶 [4] - ReCogDrive提出强化认知框架用于端到端自动驾驶 [4] 端到端VLA - ADriver-I构建自动驾驶通用世界模型 [6] - EMMA是端到端多模态自动驾驶模型 [6] - CoVLA提供全面的视觉语言动作数据集用于自动驾驶 [6] - SimLingo实现仅视觉的闭环自动驾驶与语言动作对齐 [6] - DiffVLA采用视觉语言引导扩散规划用于自动驾驶 [6] - S4-Driver是具备时空视觉表示的可扩展自监督驾驶多模态大型语言模型 [6] - ORION是通过视觉语言指令动作生成的整体端到端自动驾驶框架 [6] - Impromptu VLA提供开放权重和开放数据用于驾驶视觉语言动作模型 [6][9] 推理增强VLA - FutureSightDrive通过时空思维链实现视觉思考的自动驾驶 [9] - AutoVLA是具备自适应推理和强化微调的端到端自动驾驶视觉语言动作模型 [9] - Drive-R1通过强化学习桥接自动驾驶视觉语言模型中的推理和规划 [9] 自动驾驶之心知识星球 - 社区汇总40+技术路线、60+数据集和行业主流仿真平台 [7][15] - 提供自动驾驶感知、仿真、规划控制等多领域学习路线 [15] - 成员来自国内外知名高校和头部自动驾驶公司 [15] - 建立与多家自动驾驶公司的岗位内推机制 [11] - 为入门者提供完备的技术栈和路线图 [12] - 为研究者提供有价值的产业体系和项目方案 [13]

视觉语言模型（VLM）

自动驾驶VLA

视觉语言模型（VLM）

自动驾驶VLA

本来决定去具身，现在有点犹豫了。。。

自动驾驶之心· 2025-08-11 20:17

具身智能行业现状 - 具身智能是2025年最热门方向之一但当前仍处于技术探索阶段尚未达到生产力转化阶段[1] - 行业经历从沉寂到疯狂再到冷静的周期初创公司融资活跃但技术成熟度有限[3] - 头部企业对具身智能人才需求集中在端到端、大模型、VLA、强化学习等前沿方向[3] 自动驾驶技术发展趋势 - 主流技术路线正从无图方案向端到端架构迁移技术栈迭代周期为1-2年[3] - 行业关注重点包括LV融合、BEV感知、3DGS、世界模型等方向[3][20][26] - 传统机器人技术仍是产品主线但前沿算法研究投入持续加大[3] 自动驾驶人才需求 - 算法岗竞争激烈学历门槛较高更倾向招收掌握端到端、大模型等前沿技术的人才[3] - 机器人/具身智能领域存在SLAM、ROS等技术优化与集成类岗位机会[3] - 初创公司提供全面技术培养机会但工作强度较大[3] 自动驾驶技术社区资源 - 社区覆盖40+技术路线包含VLA benchmark、综述、学习路线等系统化资源[6][20] - 汇集国内外顶尖高校实验室及头部企业资源形成产学研闭环[19][20][27][29] - 提供60+数据集、40+开源项目及主流仿真平台资源[20][33][35] 前沿技术研究热点 - 端到端自动驾驶技术涵盖量产方案、VLA算法、世界模型结合等方向[26][37] - 3DGS与NeRF技术在场景重建、闭环仿真领域应用广泛[39] - 视觉语言模型(VLM)在预训练数据集、思维链推理等方向快速发展[43] - BEV感知作为量产基石覆盖纯视觉与多模态方案[50] - 扩散模型应用于数据生成、场景重建等场景[48] 行业活动与交流 - 社区组织超100场专业技术直播涵盖VLA、世界模型等前沿主题[82] - 建立头部企业内推机制实现求职与岗位高效匹配[9][18] - 成员可自由提问工作选择、研究方向等实际问题并获得解答[83]

视觉语言模型（VLM）

端到端自动驾驶

视觉语言模型（VLM）

端到端自动驾驶