视觉语言模型(VLM)
搜索文档
宾夕法尼亚大学!MAESTRO:基于VLM的零样本通用机器人框架
具身智能之心· 2025-11-05 08:02
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Junyao Shi等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 MAESTRO 是一种以视觉语言模型(VLM)为核心的模块化机器人框架,通过动态组合感知、规划、控制等专用模块,在无需大规模机器人训练数据的情况 下,实现了超越现有视觉语言动作(VLA)模型的零样本操作性能,同时具备可扩展性、可调试性等优势。 论文链接:https://arxiv.org/pdf/2511.00917 核心架构与关键设计 1. 整体框架 MAESTRO 以VLM编码代理为核心,接收语言指令和场景图像后,动态编写代码组合工具模块,形成程序化策略。框架采用闭环交互机制,在执行过程中持续 监控环境反馈,实时调整代码和动作,构成"感知-动作-学习"的自适应循环。 利用VLM已有的强大通用能力,避免对机器人专属数据的依赖; 通过模块化设计整合机器人领域成熟的专用工具,弥补VLM在低级别操作上的不足; 突破传统模 ...
跨行转入自动驾驶大厂的经验分享
自动驾驶之心· 2025-11-04 08:03
文章核心观点 - 文章通过分享苹果姐的职业发展案例,强调在自动驾驶行业成功需要抓住机会并持续学习转型 [1] - 自动驾驶之心知识星球是一个综合性技术社区,提供超过40个技术方向的学习资源和行业交流平台 [4][7][10] - 社区目前拥有超过4000名成员,目标在未来2年内达到近万人规模 [4] 社区资源与内容 - 社区汇总了近40+技术路线,涵盖BEV感知、端到端自动驾驶、多传感器融合等核心领域 [7][10][17] - 提供近60+自动驾驶数据集、行业主流仿真平台和各种技术学习路线 [16] - 社区内部梳理了自动驾驶100问系列,包括TensorRT模型部署、毫米波雷达融合等实用问题 [10] - 拥有超过100场专业技术直播,邀请学术界和工业界大佬分享最新研究成果 [91] 学习与课程体系 - 社区提供七大福利视频教程,涵盖世界模型、自动驾驶大模型、3D目标检测等热门方向 [89] - 原创直播课程包括感知融合、多传感器标定、SLAM与高精地图等8大系列 [11] - 为入门者提供全栈方向学习课程,适合0基础小白系统学习 [10][11] 行业连接与就业支持 - 社区成员来自上海交大、北京大学、CMU等知名高校和蔚小理、华为、英伟达等头部企业 [16] - 与多家自动驾驶公司建立内推机制,提供大模型-端到端算法工程师等热门岗位推荐 [12] - 社区定期分享行业机会挖掘、投资与项目对接信息 [21] 技术领域覆盖 - 重点技术方向包括:VLA学习路线、多模态大模型、Occupancy Network、3DGS与NeRF等 [17][38][41][48] - 详细梳理了端到端自动驾驶的一段式/二段式方案、量产方案和VLA相关算法 [38][48] - 覆盖BEV感知、3D目标检测、轨迹预测、规划控制等自动驾驶核心技术栈 [17][50][54][56]
世界模型==VQA?机器人不用想象画面,预测语义就够了
机器之心· 2025-10-28 08:41
文章核心观点 - 研究提出了一种新型的语义世界模型,该模型不再专注于预测未来的精确像素画面,而是通过回答关于未来结果的语义问题来支持决策规划 [1][8][9] - 该方法将世界建模问题重新定义为一个关于未来结果的视觉问答问题,利用视觉语言模型的强大能力,实现了更灵活、可扩展的机器人控制 [8][9][18] 模型原理与架构 - 语义世界模型以动作条件的视觉语言模型形式存在,输入包括当前观测图像、拟执行的动作序列以及一个关于未来的自然语言问题,输出为相应的文本回答 [11][20][24] - 模型基于开源的30亿参数视觉语言模型PaliGemma构建,包含Transformer自回归语言模型、SigLIP图像编码器和投影矩阵等核心组件 [24] - 通过引入新的投影矩阵将单个动作映射到语言模型的潜空间,使模型能够以动作为条件回答问题 [24][25] - 模型通过优化标准交叉熵损失进行端到端微调,在语言空间中捕捉环境动态,无需显式生成像素级表征 [26][27] 训练方法与数据 - SWM可在对通用序列数据质量要求极低的情况下训练,训练数据可从任何专家或非专家数据语料库中获取,格式为当前观测结果、行动、关于未来的问题及预期答案 [15] - 训练使用状态-动作-问题-答案数据集,混入次优数据比仅使用专家数据进行训练能提高准确率,结合使用专家和次优数据时在LangTable和OGBench上的准确率分别达到92.92%和96.86% [22][35][36] 实验性能与效果 - 在LangTable和OGBench仿真环境上的评估表明,SWM能够准确回答关于未来结果的问题,并能泛化到新场景中 [17] - 基于SWM的规划方法在LangTable上相比基础策略的平均性能从14.4%提升至81.6%;在OGBench上从45.33%提升至76%,在所有任务上均优于AVD和IDQL基线 [31] - 在处理多步长程任务时,SWM的平均策略改进幅度达52.0%,优于AVD基线 [33][34] - 模型展现出组合泛化能力,在引入新物体或修改颜色-形状组合的条件下,与基础策略相比平均性能提高20.0% [39][40] 模型优势与特性 - SWM继承了基础VLM的泛化能力,能够正确关注图像中与任务相关的位置,即使从未在涉及两个以上物体的问题上微调,也能正确关注三个物体 [41] - 该方法与零阶基于采样的方法以及一阶梯度规划方法都兼容,规划方法在计算上可行,相比常规动作选择方法能在测试时带来显著改进 [16][29][31]
做了几期线上交流,我发现大家还是太迷茫
自动驾驶之心· 2025-10-24 08:04
社区概况与规模 - 社区名称为“自动驾驶之心知识星球”,是一个专注于自动驾驶领域的综合类技术社区 [1][3] - 社区集视频、图文、学习路线、问答、求职交流为一体,已运营三年之久 [1][3] - 目前社区成员数量已超过4000人,公司目标是在未来2年内将规模扩张至近万人 [1][3] 社区服务与资源 - 社区联合了众多学术界和工业界专家,为成员提供技术分享和交流渠道 [1][3] - 内部梳理了超过40种自动驾驶技术路线,帮助成员缩短信息检索时间 [5][6] - 提供近40个开源项目、近60个自动驾驶相关数据集以及行业主流仿真平台的汇总资料 [14] - 建立了与多家自动驾驶公司的岗位内推机制,可帮助成员简历直达心仪公司 [10] 技术内容覆盖范围 - 社区内容全面覆盖自动驾驶感知、规划控制、仿真、端到端学习等核心领域 [14][15] - 具体技术方向包括BEV感知、多传感器融合、3D目标检测、VLA、世界模型、扩散模型等近40个细分领域 [8][14][15][20] - 提供“自动驾驶100问”系列实战内容,涵盖TensorRT模型部署、毫米波雷达融合、车道线检测等工程化主题 [8] 学习与交流活动 - 定期举办线上交流活动,单场活动参与人数超过100人 [1] - 社区内部经常解答各类实用技术问题,例如端到端入门、VLA学习路线等 [5][18] - 不定期邀请一线学术界和工业界大佬进行直播分享,目前直播场次已超过一百场 [84] - 成员可在社区内自由提问,获得关于工作选择、研究方向等问题的解答 [87]
执行力是当下自动驾驶的第一生命力
自动驾驶之心· 2025-10-18 00:04
行业竞争格局演变 - 智能驾驶行业经历近两年洗牌后,牌桌已更换一批新玩家,但工业界对自动驾驶的投入持续加大,自动驾驶被视为AI核心技术及未来重点布局方向[1] - 行业在2022年之前处于蓬勃发展期,公司只要具备单一长板(如双目技术、硬件能力或AI能力)即可获得发展机会,但此后进入收缩期或平稳期,生存和发展的关键转变为补足短板[1] - 当前在赛道中活跃且表现良好的公司或主机厂,均在系统性地提升硬件、软件、AI能力及工程落地等综合实力,行业实践表明,只有成为“六边形战士”才能在未来竞争中存活并发展得更好[1] 2025年行业展望与人才需求 - 2025年行业将进入冷静期而非收敛期,L3、L4及Robotaxi等新赛道仍存在未解决的技术问题,这为所有参与者保留了机会[2] - 行业变革对个人而言是挑战更是机遇,能够留在行业内担当主力的均为技术栈丰富的综合型人才,抱有“捞一波”心态者将被淘汰,持续积累和构建壁垒是长期受用的策略[2] 自动驾驶之心知识星球社区概况 - 社区旨在解决初学者试错成本高、缺乏完整学习体系的问题,是一个集视频、图文、学习路线、问答、求职交流于一体的综合类自驾社区,目前成员已超过4000人,目标在未来2年内达到近万人规模[4] - 社区联合了众多学术界与工业界专家,内部梳理了超过40种技术路线,并邀请数十位活跃在一线的领域嘉宾答疑解惑,内容涵盖端到端入门、VLA学习路线、数据闭环工程实践等实用主题[4][6] - 社区成员背景多元,来自上海交大、北京大学、CMU、清华大学等国内外知名高校,以及蔚小理、地平线、华为、大疆等头部公司,形成了前沿技术聚集地[17] 社区资源与技术覆盖范围 - 社区汇总了近40个开源项目、近60个自动驾驶相关数据集及主流仿真平台,技术学习路线全面覆盖感知、规划控制、仿真、端到端、VLA等核心方向[18][35][37] - 针对热点技术领域如3DGS与NeRF、世界模型、视觉语言模型(VLM)、自动驾驶VLA、扩散模型、BEV感知等,社区均进行了详细的技术梳理和内容汇总[42][44][47][49][53][55] - 社区提供原创直播课程与系列视频教程,内容涵盖感知融合、多传感器标定、SLAM、决策规划、数据工程、端到端与大模型技术等,并建立了与多家自动驾驶公司的岗位内推机制[12][13] 社区互动与专业交流 - 社区内部定期与学术界、工业界专家畅聊技术趋势与量产痛点,并举办超过一百场专业直播分享,内容涉及VLA模型、V2X、3D检测、轨迹生成等前沿话题[7][92] - 成员可自由提问并获得解答,问题范围包括研究方向选择、就业前景分析、技术路线图求取以及企业内部推荐机会,形成了良好的学习交流与求职对接环境[6][21][94]
突然发现,新势力在集中IPO......
自动驾驶之心· 2025-10-06 12:05
行业动态与资源整合 - 国庆期间观察到多家新势力公司启动IPO进程,国内外行业正进行新一轮资源整合[1] - 9月22日国家市场监管总局公示中国第一汽车股份有限公司收购深圳市卓驭科技有限公司股权案,同日英国自动驾驶初创公司Wayve与英伟达签署意向书计划在下一轮融资中投资5亿美元(约合人民币36亿元)[1] - 9月27日魔视智能科技(上海)股份有限公司向港交所提交上市申请书,9月30日博泰车联网科技(上海)股份有限公司在港交所上市敲钟,同日北京四维图新科技股份有限公司宣布完成对鉴智机器人母公司PhiGent Robotics Limited的战略投资,10月2日岚图汽车向港交所递交招股书[1] - 自动驾驶领域技术栈趋于收敛,量产方案趋同,行业出现VLA/WA路线之争[1] 社区资源与服务体系 - 自动驾驶之心知识星球社区已运营三年,集视频、图文、学习路线、问答、求职交流为一体,目前成员超过4000人,目标未来2年内达到近万人规模[3] - 社区联合学术界和工业界专家,梳理近40+技术路线,涵盖VLA benchmark、综述和学习入门路线[4] - 社区提供40+自动驾驶技术方向资源,包括国内外高校著名自动驾驶团队整理、算法进阶、规划控制等分类内容[10] - 社区内部提供全栈方向学习课程,包括自动驾驶数据工程系列、2D/3D目标跟踪系列、多传感器标定系列等9大视频教程体系[12] - 社区与近300家机构与自动驾驶公司建立联系,提供岗位内推机制,成员来自上海交大、北京大学、CMU、清华大学及蔚小理、地平线、华为等头部企业[19] 技术领域覆盖范围 - 社区技术资源覆盖自动驾驶感知学习路线、仿真学习路线、规划控制学习路线三大方向[19] - 具体技术板块包括端到端学习路线、3DGS算法原理、VLA学习路线、多模态大模型、占用网络、BEV感知、扩散模型、世界模型等40多个细分领域[19] - 专业分类包含3D目标感知最新综述、激光点云方法汇总、单目3D检测方法汇总、多模态3D检测方法汇总等28个技术模块[28] - 重点技术方向包括自动驾驶世界模型、视觉语言模型(VLM)、自动驾驶VLA、扩散模型、BEV感知、3D目标检测等核心领域[44][46][49][53][55] 行业交流与知识共享 - 社区不定期邀请行业大佬开展直播分享,目前已超过一百场专业技术直播,内容涵盖Impomptu VLA、LangCoop、Diffusion planner等前沿技术[89] - 星球内部会员独享七大福利视频教程,涵盖世界模型、自动驾驶大模型、Transformer、3D目标检测、毫米波感知等领域[87] - 社区提供国内外自动驾驶与机器人高校汇总、自动驾驶公司汇总、开源项目汇总、自动驾驶开源数据集等产业资源[29][31][35][37] - 日常讨论话题包括端到端自动驾驶入门、VLA学习路线、多传感器融合就业前景、3DGS与闭环仿真结合等实践性问题[20]
有人在自驾里面盲目内卷,而有的人在搭建真正的壁垒...
自动驾驶之心· 2025-09-30 07:33
行业变革与人才流动 - 车企正经历新一轮组织架构调整 9月有48位高管发生变动 [1] - 头部公司积极调整技术团队架构 理想汽车将智驾团队拆分为11个二级部门 [1] - 人才竞争加剧 比亚迪从斑马智行挖来CTO负责智能座舱业务 [1] - 技术高管身兼多职 蔚来汽车任少卿同时负责公司自动驾驶业务并在中科大搭建实验室 [1] 技术演进趋势 - 自动驾驶算法快速迭代 三年前主流是BEV 两年前转向无图方案 一年前兴起端到端 当前聚焦VLA和世界模型 [1] - 前沿研究方向集中在VLA/VLM 端到端自动驾驶 世界模型 闭环仿真3DGS 强化学习等领域 [3] - 算法工程师面临持续学习压力 需要不断更新认知并跳出舒适圈 [1] 行业信息壁垒 - 学术界与工业界存在明显信息差距 在校学生和中小厂算法工程师对业内实际进展了解有限 [3] - 不同公司之间技术交流不畅 形成信息壁垒 [3] 自动驾驶社区生态 - 自动驾驶之心知识星球已运营三年 形成视频+图文+学习路线+问答+求职交流的综合社区 [5] - 社区规模超过4000人 目标两年内达到近万人规模 [5] - 社区汇集学术界和工业界资源 成员来自上海交大 北京大学 CMU 清华大学等知名高校以及蔚小理 地平线 华为等头部企业 [20][21] 技术资源体系 - 社区梳理40+技术方向学习路线 涵盖感知 仿真 规划控制等核心领域 [10][21] - 汇总近40个开源项目 近60个自动驾驶数据集 以及主流仿真平台 [21] - 提供七大福利视频教程 涵盖世界模型 自动驾驶大模型 Transformer等热门话题 [88] - 举办超过100场专业技术直播 邀请行业专家分享最新研究成果 [90] 职业发展支持 - 建立内推机制 与多家自动驾驶公司合作提供岗位内推服务 [13] - 社区内部交流活跃 成员可咨询行业应用 技术路线 求职跳槽等实际问题 [11][24] - 针对不同基础的学习者提供全栈方向课程 包括0基础入门和进阶提升内容 [12][21]
具身智能,为何成为智驾公司的下一个战场?
雷峰网· 2025-09-26 12:17
行业趋势与市场前景 - 具身智能已成为智能驾驶创业者的新战场 多家前智能驾驶高管转入具身智能领域创业[2] - 2025年中国具身智能市场规模预计达52.95亿元 占全球市场约27%[3] - 人形机器人市场规模预计达82.39亿元 占全球约50% 多家企业宣布2024年量产千台人形机器人[3] - 行业保持40%以上年增长率 为智能驾驶公司提供新增长渠道[21] 技术融合与转型基础 - 智能驾驶与具身智能共享"具身认知"理论框架 均需通过物理实体与环境互动实现智能[6] - 技术架构高度一致 包含感知层(多传感器融合)、决策层(路径规划)、控制层(运动控制)、仿真层(虚拟测试)四大层级[7] - 感知技术通用性构成第一支柱 SLAM技术同时应用于机器人导航和自动驾驶高精度定位[8][9] - 决策算法迁移性构成第二支柱 基于深度强化学习的端到端决策系统可双向迁移[10] - 控制系统适应性构成第三支柱 运动控制的动力学建模和实时控制原理高度一致[11] 企业布局与产品进展 - 地平线机器人、知行科技等通过投资并购和设立子公司布局具身智能[4] - 知行科技2024年12月启动具身智能调研 通过收购小工匠机器人获得关节及机械臂开发能力[10][13] - 推出首款大小脑一体化主控制器iRC100 集成128 TOPS算力 支持BEV Transformer和VLA算法部署[14][17][19] - 采用单SoC架构解决多芯片协同痛点 支持各类传感器和执行器接入[16][18] 商业模式与战略价值 - 形成"人形机器人+专用机器人"双线发展格局 智能驾驶公司可根据技术优势选择切入点[22] - 专业服务机器人毛利率达50%以上 显著高于自动驾驶套件15-25%的水平[23] - 具身智能产品具更强差异化和更低边际成本 核心模块开发后场景适配成本近乎为零[25] - 技术界限逐渐模糊 特斯拉将自动驾驶汽车视为"轮式机器人"并共享AI芯片架构[26]
机器人指数ETF(560770)逆市翻红,当前科技行情进展到哪里了?
21世纪经济报道· 2025-09-02 14:17
市场表现 - A股市场震荡回调 三大指数下跌 机器人概念午后走高 机器人指数ETF(560770)上涨0.40% 秦川机床和华东数控等多股涨停 丰立智能和拓斯达等涨超5% [1] - 两市成交额快速突破2万亿元 较昨日此时放量超900亿元 连续第15个交易日突破2万亿元 [1] - TMT成交额占全部成交额比例约40% 较年初Deepseek驱动和2023年GPT驱动时的成交额占比新高仍有空间 [1] 机构观点 - 科技板块调整更多是情绪扰动 前期涨幅较大赛道短期内或将存在波动 [2] - 赚钱效应极致聚焦于算力产业链 抱团现象强化 [3] - 若后续资金出现高切低或增量资金有新开仓意愿 6月以来涨跌幅相对落后但近一月盈利未明显下调且后续具备潜在催化的细分科技方向值得关注 包括机器人、半导体设备、电池等行业 [6] 产业发展 - 机器人产业加速推进 技术侧AI大语言模型与视觉语言模型融合迭代提升理解能力 多模态传感器融合提升感知能力 [3] - 产业侧智元机器人和宇树科技获得中国移动1.24亿元订单 为国内人形机器人领域最大单笔订单 标志行业从技术验证进入规模化量产阶段 [3] - 优必选Walker S系列进入部分车企参与质检流程 工业场景渗透加速 [3] - 中国信通院预测2045年后我国在用人形机器人数量将超过1亿台 覆盖工业制造、家庭服务、医疗辅助、特种作业等多个场景 整机市场规模可达约10万亿元级别 [7] 产品信息 - 机器人指数ETF(560770)追踪中证机器人指数 覆盖机器人产业链各个领域 [6] - 标的指数前十大成份股包括汇川技术(权重9.65%)、科大讯飞(9.00%)、石头科技(5.76%)、大华股份(4.98%)、中控技术(4.26%)、大族激光(4.08%)、双环传动(3.27%)、机器人(3.26%)、云天励飞(3.22%)、科沃斯(2.89%) [7] - 该ETF基金还配置场外联接基金(A:020481 C:020482) [8]
还在卷端到端模型?Embodied-R1另辟蹊径:用“指向”+强化学习实现SOTA性能!
具身智能之心· 2025-09-02 08:03
文章核心观点 - 通用具身智能发展的核心难题是“视觉到行动的鸿沟”,源于数据稀缺和形态异构两大挑战 [2] - 研究团队提出以“指点”作为通用中间表示来弥合这一鸿沟,将复杂的操作指令转化为图像上的点或点序列 [3] - Embodied-R1模型通过引入强化微调范式和定义四种核心指向能力,在多项基准测试中实现了卓越的零样本泛化能力 [8][10][12] 技术框架与核心贡献 - 首创“指向”作为与机器人形态无关的统一中间表示,定义了四种核心具身指向能力:指代表达理解、空间区域指点、功能部位指点、视觉轨迹生成 [12][15] - 构建了大规模专用数据集Embodied-Points-200K,包含约20万个高质量样本用于训练 [15] - 引入强化微调训练范式,通过两阶段课程和多任务奖励函数有效解决了指向任务中的“多解困境” [15][17][18] 模型性能与实验结果 - 模型参数量为30亿,在11项空间推理与指点任务中取得领先成绩 [10] - 在SIMPLEREnv仿真环境中零样本成功率达到56.2%,在8个完全OOD真实任务中成功率高达87.5% [10][27] - 在针对四种核心指向能力的专项测试中,在REG、RRG、OFG和VTG等多个基准上均达到SOTA水平 [24][29] - 在面对光照、背景变化等视觉干扰时表现出强大的环境适应能力和鲁棒性 [31] 训练方法与创新点 - 采用两阶段训练课程:第一阶段训练空间推理能力,第二阶段训练具身指向能力 [15][16] - 设计了一套覆盖全面的奖励函数库,包括格式奖励、精准度奖励、距离奖励、轨迹奖励和环境奖励 [18][22] - 实验证明,强化微调训练方法性能稳定优于监督微调,在处理具有多解困境的指向任务上更有效 [17][23] 行业意义与应用前景 - 这项工作为开发更强大、更通用的具身人工智能指明了新方向,证明小参数量模型通过正确设计也能实现强大的零样本泛化 [32] - “感知-推理-决策”的点式范式为解决机器人领域长期存在的“视觉到行动的鸿沟”问题提供了有效路径 [32] - 该方法不局限于具身数据,可利用通用视觉数据,且独立于机器人形态学,具有广泛的应用潜力 [3]