Workflow
视觉语言模型
icon
搜索文档
在复杂真实场景中评估 π0 这类通用 policy 的性能和边界
自动驾驶之心· 2025-08-17 11:23
核心观点 - PI0-FAST-DROID是一种通用机器人策略模型,能够在复杂真实场景中执行多样化任务,展现出强大的视觉-语言理解能力和适应性 [4][13][16] - 模型在透明物体识别、铰接物体操作等任务中表现优异,但存在空间推理不足、动作冻结等局限性 [20][48][39] - 通过300多次试验验证,模型平均任务完成度为42%,对提示工程和摄像头角度高度敏感 [77][12][61] 技术架构 - 采用Google DeepMind的3B参数PaliGemma作为视觉编码器,仅依赖未校准单目RGB输入(224x224像素) [19] - 基于FAST+动作标记器,预训练数据包含100万条真实机器人轨迹,在DROID数据集上微调 [79] - 硬件配置:Franka Panda机械臂+Robotiq夹持器,ZED 2立体相机+ZED Mini腕部摄像头 [79] 性能表现 优势领域 - 透明物体操作:成功抓取透明瓶子并完成放置任务,无需特殊重建技术 [20] - 复杂背景识别:在彩色棋盘背景中准确定位黄色鱼形物体 [21] - 人体干扰鲁棒性:侧视摄像头捕捉移动人体时仍能专注任务 [25] 主要局限 - 空间推理缺陷:无法精确判断容器高度导致放置失败率高达50% [48][50] - 动作冻结:30%试验因语义模糊或解码错误导致任务中断 [39][43] - 触觉反馈缺失:对精细物体施力不当,塑料瓶抓取失败率63% [58] 任务分类表现 - 拾取放置:平均完成度53.5%,透明物体成功率76% [82][20] - 铰接物体:抽屉操作成功率63%,但咖啡机操作仅8%进度 [91][111] - 人机交互:物体传递成功率62.5%,但握手任务完全失败 [109][115] - 织物处理:T恤折叠进度35%,报纸折叠成功率62% [99][107] 影响因素 - 提示工程:指令措辞变化可使成功率从0%提升至100% [61] - 摄像头依赖:腕部摄像头遮挡直接导致0%成功率 [67] - 数据偏差:无指令时默认抓取出现频率16.67%的记号笔 [63] 行业意义 - 首次实现开箱即用的跨场景策略部署,突破传统策略环境适应性瓶颈 [4][77] - 验证了视觉语言模型在具身智能领域的迁移潜力,为通用机器人开发提供新范式 [19][28] - 当前20-50%的任务成功率虽不足,但标志机器人技术从专用系统向通用系统的范式转变 [77]
VLA与自动驾驶科研论文辅导第二期来啦~
自动驾驶之心· 2025-08-16 20:00
理想VLA司机大模型技术进展 - 核心能力提升体现在三方面:更懂语义(多模态输入)、更擅长推理(思维链)、更接近人类驾驶直觉(轨迹规划)[1] - 四大核心能力展示:空间理解能力、思维能力、沟通与记忆能力(含RAG技术)、行为能力[1][3] - 技术演进路径:从VLM+E2E发展为涵盖端到端、轨迹预测、视觉语言模型、强化学习的综合技术栈[5] 自动驾驶技术研究趋势 - 学术界焦点转移:传统BEV感知、车道线检测等研究减少,大模型与VLA成为顶会主流方向[5] - 工业界动态:传统感知/规划方案仍在优化,但技术迭代明显向VLA倾斜[5] - 典型技术融合案例:思维链输出结合动态目标、静态元素、导航地图等多维度数据[3] VLA论文指导课程体系 课程架构 - 周期设置:12周在线科研+2周论文指导+10周维护期[14][34] - 核心模块:模块化VLA模型(Week8-9)、统一端到端模型(Week10-11)、推理增强模型(Week12)[9][11][35][37] - 方法论覆盖:选题(Week3)、传统端到端技术(Week4-5)、VLA端到端技术(Week6-7)[9][11][30] 教学资源 - 代码库支持:提供基于模仿学习、扩散模型、VLA的6个开源项目基准代码[26] - 数据集配置:采用nuScenes/Waymo/Argoverse等公开数据集,VLA任务结合大语言模型生成数据[27] - 必读论文清单:包含5篇顶会论文如《Senna》《OpenDriveVLA》等[28][29] 学员培养目标 - 能力输出:完成论文初稿、掌握算法对比分析方法、获得定制化研究idea[20][34] - 技术深化路径:从理论认知(Week1-2)到代码实践(Week6-8)最终形成完整论文(Week13-14)[30][31] - 硬件门槛:建议配置8张NVIDIA 4090显卡,最低要求4张[21]
全球工业机器人市场遇冷,中国逆势增长成最大亮点
第一财经· 2025-08-10 09:23
全球工业机器人市场概况 - 2024年全球工业机器人新装机量下降3%至52 3万台 亚欧美三大市场集体遇冷 亚洲下滑2% 欧洲萎缩6% 美洲跌幅达9% [3] - 主要客户行业分化明显 电子行业略有增长 汽车行业出现较大下滑 金属和机械行业保持全球第三大客户地位 塑料 化学品 食品行业均处于增长期 [3] - 区域分化显著 中国市场逆势增长5%至29万台 全球份额占比从51%升至54% 通用工业领域装机量占比从38%跃升至53% 电子行业份额从45%骤降至28% [3] 中国机器人产业表现 - 2024年中国工业机器人市场销量达30 2万套 连续12年保持全球最大市场地位 工业机器人产量从2015年3 3万套增长至2024年55 6万套 服务机器人产量1051 9万套 同比增长34 3% [4] - 中国机器人专利申请量占全球总量2/3 机器人密度达470台/万人 首次超越日本和德国跃居全球第三 仅次于韩国(1012台/万人)和新加坡(770台/万人) [4][6] 其他主要市场动态 - 日本工业机器人装机量下滑7%至4 3万台 仅汽车行业同比增长11% 美国市场萎缩9% 汽车业贡献近40%装机量 欧洲下降6%至8 6万台 创历史第二高位 塑料化工和食品行业成为新增长极 [6] - 德国作为欧洲最大市场装机量下降5%至2 7万台 但机械与电子领域展现韧性 [6] 行业未来趋势 - 亚洲市场2025年一季度订单呈个位数增长 电子业温和复苏 中国将持续引领全球机器人需求 [6] - 技术发展方向聚焦人工智能融合 数字孪生技术突破训练瓶颈 视觉语言模型提升人机交互能力 AI编程重构生产流程 [6] - 人形机器人领域商业化关键在安全性与场景适配 物流与物料搬运或成早期落地领域 建筑业 实验室自动化 仓储物流等行业加速机器人渗透 [6]
全球工业机器人市场遇冷 中国逆势增长成最大亮点
第一财经· 2025-08-09 15:17
全球工业机器人市场概况 - 2024年全球工业机器人新装机量下降3%至52.3万台[1] - 亚欧美三大市场集体遇冷:亚洲下滑2% 欧洲萎缩6% 美洲跌幅达9%[1] - 中国市场逆势增长5%至29万台 全球份额从51%升至54%[1] - 中国连续12年保持全球最大工业机器人市场 2024年销量达30.2万套[2] 行业需求结构变化 - 电子行业略有增长 汽车行业出现较大下滑[1] - 金属和机械行业保持全球第三大客户地位[1] - 塑料、化学品、食品行业处于增长期[1] - 中国市场通用工业领域装机量占比从38%跃升至53% 电子行业份额从45%骤降至28%[1] 区域市场表现 - 日本工业机器人装机量下滑7%至4.3万台 仅汽车行业同比增长11%[4] - 美国市场萎缩9% 汽车业贡献近40%装机量[4] - 欧洲下降6%至8.6万台 创历史第二高位 塑料化工和食品行业成新增长极[4] - 德国装机量下降5%至2.7万台 机械与电子领域展现韧性[4] 机器人密度与技术创新 - 韩国(1012台/万人)新加坡(770台/万人)稳居机器人密度前两位[4] - 中国以470台/万人首超日本和德国跃居第三[4] - 行业聚焦人工智能融合 数字孪生技术突破训练瓶颈[4] - 视觉语言模型提升人机交互能力 AI编程重构生产流程[4] 中国机器人产业发展 - 工业机器人产量从2015年3.3万套增长至2024年55.6万套[2] - 服务机器人产量达1051.9万套 同比增长34.3%[2] - 中国专利申请量占全球机器人专利总量的2/3[2] 行业未来展望 - 亚洲2025年一季度订单呈个位数增长 电子业温和复苏[4] - 中国将持续引领全球机器人需求[4] - 人形机器人商业化关键在安全性与场景适配 物流与物料搬运或成早期落地领域[4] - 建筑业、实验室自动化、仓储物流等行业加速机器人渗透[4]
全球工业机器人市场遇冷,中国逆势增长成最大亮点
第一财经· 2025-08-09 15:13
全球工业机器人市场概况 - 2024年全球工业机器人新装机量下降3%至52.3万台,亚欧美三大市场集体遇冷:亚洲下滑2%,欧洲萎缩6%,美洲跌幅达9% [1] - 主要客户行业中,电子行业略有增长,汽车行业出现较大下滑,金属和机械行业为全球第三大客户,塑料、化学品、食品行业处于增长期 [1] 中国市场表现 - 中国2024年工业机器人新装机量逆势增长5%至29万台,全球份额占比从51%升至54% [1] - 结构性变化显著:通用工业领域装机量占比从38%跃升至53%,电子行业份额从45%骤降至28% [1] - 中国连续12年保持全球最大工业机器人市场,2024年销量达30.2万套 [2] - 中国机器人专利申请量占全球总量的2/3 [2] - 中国工业机器人产量从2015年3.3万套增长至2024年55.6万套,服务机器人产量1051.9万套(同比增长34.3%) [2] 其他区域市场对比 - 日本工业机器人装机量下滑7%至4.3万台,仅汽车行业同比增长11% [4] - 美国市场萎缩9%,汽车业贡献近40%装机量 [4] - 欧洲下降6%至8.6万台(历史第二高位),塑料化工和食品行业为新增点,德国装机量下降5%至2.7万台但机械与电子领域展现韧性 [4] 自动化程度与行业趋势 - 机器人密度排名:韩国(1012台/万人)、新加坡(770台/万人)、中国(470台/万人首超日德) [4] - 亚洲2025年一季度订单呈个位数增长,电子业温和复苏,中国将持续引领全球需求 [4] - 行业技术趋势:AI融合、数字孪生突破训练瓶颈、视觉语言模型提升交互能力、AI编程重构生产流程 [4] - 人形机器人商业化关键在安全性与场景适配,物流与物料搬运或成早期落地领域,建筑业、实验室自动化、仓储物流加速渗透 [4]
性能暴涨30%!港中文ReAL-AD:类人推理的端到端算法 (ICCV'25)
自动驾驶之心· 2025-08-04 07:32
核心观点 - 上海科技大学与香港中文大学联合提出的ReAL-AD框架通过模拟人类"策略-战术-操作"三层级联推理机制,显著提升端到端自动驾驶的决策能力 [3] - 该框架引入视觉-语言模型(VLM)作为"副驾驶",将环境感知转化为结构化推理指令,实现从语义策略到可执行轨迹的分层解码 [3][5] - 在nuScenes和Bench2Drive数据集测试中,ReAL-AD的L2误差和碰撞率比基线模型降低超30%,驾驶评分提升11% [36][37][39] 技术架构 策略推理注入器 - 采用VLM生成驾驶策略文本(如"看到足球→可能有小孩→需减速避让"),通过预训练语言编码器映射至语义空间 [7][11] - 设计轻量级adaptor模块弥合语义空间与视觉特征的差距,使用余弦相似度损失确保策略语义与规划动态一致 [12] 战术推理整合器 - 将抽象策略转化为结构化指令,包括方向、紧急、车道、速度四类可执行命令 [15][17] - 通过正则表达式解析VLM输出,并采用类别特定编码器生成反应层(方向/紧急)与监管层(车道/速度)指令 [16][19] 分层轨迹解码器 - 第一层解码器基于反应级指令生成粗略运动模式(潜码z^ε),第二层融合监管级指令输出精细轨迹 [22][25] - 采用双潜变量流处理时间维度,粗粒度流预测宏观运动模式,细粒度流生成精确航点序列 [27] 性能表现 开环评估 - 在nuScenes数据集实现0.48米平均L2误差(行业基线0.72米)和0.15%碰撞率(基线0.22%) [36][38] - Bench2Drive数据集上达到0.84米L2误差,较VAD基线提升10.6% [39] 闭环评估 - 驾驶评分提升至41.17(基线39.42),成功率提高1.36个百分点 [39] - 使用Qwen-VL模型时保持0.87米L2误差,验证框架兼容性 [39] 技术创新 - 首创策略-战术双阶段指令生成机制,使VLM输出可直接指导轨迹规划 [14][19] - 分层变分解码器实现人类式"先直觉反应后精细调整"的决策过程,较传统MLP解码器降低7%轨迹误差 [25][41] - 复合损失函数整合策略语义对齐、轨迹编码监督和分层KL散度约束,优化端到端训练效果 [29][31][33]
自驾一边是大量岗位,一遍是招不到人,太魔幻了......
自动驾驶之心· 2025-07-26 10:39
自动驾驶行业现状 - 自动驾驶行业进入理性发展阶段,资本更加谨慎,公司首要目标是"活下去"和"跑通商业模式"[2] - 行业预计在未来1-3年将经历深度调整和洗牌[2] - 技术栈虽完备但距离大规模商业化落地仍有差距,实验室效果与真实路况表现存在工程鸿沟[3] 人才供需矛盾 - 行业出现"岗位虚位以待但人才难觅"现象,企业对顶尖人才和高度适配人才需求达到前所未有的高度[2][4] - 3-5年经验岗位薪资可达百万级别[2] - 求职者需具备过硬技术能力且适配前沿研究和量产方向[3] 技术社区发展 - 自动驾驶之心知识星球已成为国内最大自驾技术社区,拥有4000名成员和100+行业专家[7][9] - 社区提供30+自动驾驶技术学习路线,覆盖感知、定位、规划控制等几乎所有子方向[9][69] - 与数十家自动驾驶公司建立内推渠道,简历可直接送达[10][67] 前沿技术方向 - 视觉大语言模型(VLM)成为研究热点,涉及预训练、迁移学习、知识蒸馏等多个技术领域[15][16][17] - 世界模型在自动驾驶中的应用日益广泛,如HERMES、DriveWorld等模型实现3D场景理解和生成[34][36] - 扩散模型在自动驾驶视频生成、数据增强等方面发挥重要作用[37][43] - 端到端自动驾驶成为重要研究方向,涉及感知、预测、规划等多个环节[31][49][52] 技术应用与数据集 - 自动驾驶数据集涵盖2D/3D目标检测、语义分割、目标跟踪等多个任务[25] - 语言增强的自动驾驶系统数据集快速发展,支持自然语言导航和空间推理等高级功能[26] - 智能交通领域应用包括车辆检索、视觉问答等实际场景[27] - 自动驾驶感知技术应用于行人检测、3D目标检测等具体任务[28] 行业挑战与解决方案 - 远距离Occupancy检测效果不佳,可能由激光雷达稀疏和监督真值空洞导致[100][101] - 地下车库自动泊车通过视觉传感器和建图技术实现定位[96] - 3D目标检测研究趋于成熟,建议从BEV感知入手学习前沿算法[96]
ICCV‘25 | 华科提出HERMES:首个统一驾驶世界模型!
自动驾驶之心· 2025-07-25 18:47
核心观点 - 提出首个统一驾驶世界模型HERMES,实现3D场景理解与未来场景生成的协同优化 [1][3] - 通过BEV表示整合多视图空间信息,引入"世界查询"机制桥接理解与生成任务 [3][8] - 在nuScenes和OmniDrive-nuScenes数据集上,生成任务误差降低32.4%,理解任务CIDEr指标提升8.0% [4] 技术框架 核心创新 - BEV-based世界分词器:将多视图图像压缩为统一BEV特征,突破LLM的token长度限制并保留空间关系 [5] - 世界查询机制:从BEV特征初始化查询,通过LLM增强后与未来生成模块交互,实现知识注入 [8][15] - 统一模块设计:共享BEV特征与渲染器,通过"当前到未来链接"模块实现理解与生成的深度协同 [15] 关键组件 - **世界分词器**:CLIP图像编码器+BEVFormer处理多视图图像,输出压缩BEV特征 [14] - **渲染器**:基于隐式SDF场的可微分体渲染,通过三线性插值预测射线深度 [11][14] - **LLM处理**:BEV特征投影至语言空间,自回归完成场景描述/VQA等理解任务 [15] 性能表现 定量结果 - 生成任务:3秒内Chamfer距离显著低于4D-Occ和ViDAR [17] - 理解任务:CIDEr指标超过OmniDrive等方法8.0% [17] - 消融实验:世界查询使3秒点云预测误差降低10% [20] 参数优化 - BEV特征尺寸:50×50较25×25在CIDEr和0秒生成任务上分别提升7.3%和10% [23] - 查询初始化:BEV特征最大池化初始化的查询表现最优 [21] 应用场景 - 复杂场景中准确生成未来点云演化(如车辆运动跟踪) [24] - 精准理解场景语义(如识别商业标志物) [24] - 当前局限:复杂转向、遮挡及夜间场景仍有挑战 [24] 行业资源 - 覆盖30+自动驾驶技术栈学习路线(BEV感知、Occupancy、多传感器融合等) [25] - 提供端到端自动驾驶、大模型、仿真测试等专业课程 [28]
从“想得好”到“做得好”有多远?具身大小脑协同之路解密
具身智能之心· 2025-07-23 16:45
具身智能系统架构 - 具身智能系统由"大脑"、"小脑"和"身体"三部分组成,分别对应认知决策、运动控制和物理执行功能 [2] - "大脑"采用大语言模型和视觉语言模型,具备感知、理解、推理和规划能力,是系统的智慧核心 [2] - "小脑"运用运动控制算法和反馈控制系统,实现精准流畅的动作控制,被称为"动作艺术家" [2] - "身体"作为物理载体,负责将认知决策和运动指令转化为实际动作,完成"知行合一" [2] 当前技术挑战 - "大脑"需提升自主推理能力,实现无指令、无地图环境下的实时在线思考与路径规划 [3] - "小脑"需增强适应性,在复杂物理环境中实现类人类的直觉反应和精细操作 [3] - 系统需解决"大脑"与"小脑"的协同问题,目前存在信息传递延迟和动作响应滞后 [3] - 数据采集面临成本高、质量差等挑战,需构建真实多样且可迁移的训练数据集 [3] 行业技术进展 - 北京智源人工智能研究院和智元机器人正在开展具身智能相关研究 [3] - RoboBrain 2.0和RoboOS 2.0等系统展示了最新技术成果 [5] - 对抗性数据收集方法(Human-Collaborative Perturbations)可提升模仿学习效率与鲁棒性 [5] - 相关研究成果已在ArXiv等平台公开发表,涉及机器人操作系统和脑机协同等领域 [7] 未来发展方向 - 行业聚焦于提升具身智能系统的认知能力、运动控制精度和系统协同效率 [4] - 需建立更高效的数据获取与处理体系,解决数据质量与成本问题 [3] - 技术突破将推动具身智能向通用人工智能(AGI)方向发展 [3]
小米提出DriveMRP:合成难例数据+视觉提示事故识别率飙至88%!
自动驾驶之心· 2025-07-22 20:46
自动驾驶技术研究 核心观点 - 提出DriveMRP框架,通过合成高风险运动数据(DriveMRP-10K)和视觉提示方案,显著提升视觉语言模型(VLM)在自动驾驶场景中的风险预测能力,事故识别准确率从27%提升至88% [1][7][8] - 创新性地将运动路点投影为视觉表示,结合BEV全局上下文和链条推理机制,解决传统VLM在模态差距和可解释性上的局限 [6][13] 现有方法局限 - 规则基方法依赖外部世界模型和预定义规则,对感知误差敏感且泛化性差 [2] - VLM基方法直接输入轨迹坐标文本,因模态差距导致空间关系理解不足 [4] 创新方案 数据集构建 - DriveMRP-10K包含10,000个高风险场景,通过多项式模拟生成三类风险轨迹(ego车辆行为/车辆交互/环境约束),结合GPT-4o生成多模态标注数据 [5] - 采用四阶段流程:高风险轨迹合成→自动标注→人工质检→文本生成,确保数据质量 [5] 模型架构 - DriveMRP-Agent以BEV布局、场景图像和运动路点为输入,通过LoRA微调Qwen2.5VL-7B模型 [6] - 关键组件:视觉提示方案(解决模态差距)、链条推理机制(场景理解→运动分析→风险预测)、CoT训练策略 [6] 性能表现 基准测试 - 在DriveMRP-10K上,ROUGE-1-F1达69.08,风险预测准确率88.03%(基线27.13%),F1分数89.12 [7][8] - 真实世界数据零样本评估中,准确率从29.42%提升至68.50% [9] 数据集有效性 - 微调后Llava-1.5-7B的F1分数从0.85提升至29.99,Qwen2.5-VL-7B的F1达89.12 [11] 组件分析 - 完整模型(视觉提示+链条推理+BEV)性能最优,F1分数89.12;移除BEV后降至83.47 [13] 技术应用 - 方案可增强现有VLM的"即插即用"能力,适用于端到端自动驾驶、BEV感知、轨迹预测等技术方向 [15][17]