端到端VLA

搜索文档
机器人跨越“三重门”——具身智能创新者亲历的现实与趋势丨议事厅
新华网· 2025-09-15 11:44
行业现状与趋势 - 人形机器人赛道呈现"冰与火之歌"态势 一边是机器人进厂打工、酒店送餐、赛场踢球等火热应用场景 一边是融资超百亿但订单不过百台的商业落地困境 [1] - 投资机构从观望转向竞逐 行业格局从"人形机器人第一股"一枝独秀发展到超20家产业链企业走向IPO [1] - 具身智能面临技术路径与商业落地的十字路口 未来3年能否击穿场景将成为企业生存的关键分水岭 [1][15] 技术突破与路径 - 银河通用通过10亿级合成大数据训练端到端VLA大模型 实现机器人自主执行能力 其机器人Galbot已实现无需遥控自主干活 [5][10] - 数据质量成为具身智能发展核心瓶颈 99%能力可通过高质量合成数据实现 仅需1%真实数据辅助 但高质量数据需具备多元性和泛化性特征 [12][13] - 自变量机器人开发通用具身大模型WALL-A 采用"一脑多用"端到端技术 实现零样本泛化能力 能处理拉链变形等动态异常情况 [20][26][27] - 加速进化通过足球赛事训练机器人全自主运动能力 其"感知-决策-控制"智能系统可在0.1秒内完成判断 支撑奔跑、急停、射门等复杂动作 [39] 商业化应用进展 - 银河通用已在工业场景实现流水线搬运、分拣等环节规模化应用 在零售场景落地10多家智慧药房 并计划年内扩展至100家 [8] - 全球首个城市级人形机器人示范区落地北京 银河通用推出由机器人经营的"银河太空舱"无人超市 标志具身智能进入日常生活 [5] - 加速进化通过机器人足球赛事获得商业突破 帮助中国队首夺RoboCup成人组冠军 打破欧美国家28年垄断 [36] 技术路线分歧 - 行业分化出"运动展示派"与"实干派"两大方向 宇树科技代表运动能力展示路线 银河通用代表实际场景干活路线 [8] - 端到端模型与分层模型存在技术路线竞争 端到端模型可实现实时感知决策闭环 而分层模型存在误差累积和延迟问题 [25][26] - 自动驾驶模型无法直接迁移至机器人领域 因机器人核心难点在于复杂操作而非导航运动 [32] 成本与规模化挑战 - 人形机器人单台成本超10万元 加上维修成本更高 而工人年薪仅5-8万元 成本效益比尚未达到商业规模化要求 [42] - 头部厂商量产规模仅千台级别 未达万台规模 制约数据采集和模型迭代速度 [12] - 工业场景存在技术匹配度问题 现有专机设备已实现高度自动化 人形机器人入厂可能造成"瑞士军刀切菜"的错配现象 [43] 未来发展路径 - 未来1年实现千台到万台批量交付将成为行业价值验证关键节点 [15] - 操作系统生态构建被视为核心护城河 通过开发者生态推动软硬件快速迭代 [40] - 家庭场景被定位为终极目标 因其数据是"活"的 而工业场景数据相对固定且迁移价值有限 [43]
师兄自己发了篇端到端VLA,申博去TOP2了。。。
自动驾驶之心· 2025-08-21 19:24
文章核心观点 - 该公众号文章推广第二期VLA论文指导班 旨在通过系统化培训帮助学员在视觉-语言-行动模型领域发表高水平论文 课程提供从理论到实践的全流程支持 包括论文选题 代码实现 实验设计和写作投稿 [2][4][36] - 课程针对自动驾驶感知方向的研究生和学者 特别是资源有限但希望发表顶会论文的群体 通过提供idea 数据集和baseline代码降低研究门槛 [2][4][16] - 采用"2+1"多师制教学团队 包括主导师和科研班主任 提供14周结构化课程和后续论文维护支持 确保学员产出论文初稿 [15][23][25] 课程结构与内容 - 课程为期14周 每周1-1.5小时直播课 涵盖传统端到端自动驾驶 VLA端到端自动驾驶 模块化模型 统一模型和推理增强模型等核心主题 [10][12][32] - 具体课程安排包括:先导课和课题概览(Week1-2) 选题讨论(Week3) 传统端到端自动驾驶介绍(Week4-5) VLA端到端自动驾驶介绍(Week6-7) 模块化VLA模型(Week8-9) 统一端到端模型(Week10-11) 推理增强模型(Week12) 论文写作和投稿指导(Week13-14) [10][12][32] - 提供公开数据集如nuScenes Waymo和Argoverse 以及多个开源baseline代码库包括VAD UniAD DiffusionDrive OccNet OpenDriveVLA SimLingo和Senna [27][28][29] 招生与要求 - 每期限招6人 最多8人 目标学员包括VLA与自动驾驶方向的本硕博学生 申硕申博申请者 以及自动驾驶与AI领域从业者 [13][16] - 学员需具备深度学习基础 熟悉Python和PyTorch 最好有8张4090显卡或以上算力设备 最低要求4张4090 也可租赁云服务器 [17][19][22] - 要求每周课前阅读资料并完成作业 全勤参与讨论 晚交作业或请假需提前1日通知 并保持学术诚信 [20][24] 课程产出与价值 - 学员将获得经典和前沿论文分析方法 理解算法原理和优劣势 激发研究idea思考 即使没有自选idea 导师会为每位学员提供一个研究idea [21][36] - 提升编码能力 在提供的baseline代码和数据集上高效开展实验 掌握论文写作 自查 修改的方法论和投稿建议 [21][36] - 最终产出包括论文初稿 项目结业证书 以及根据优秀程度提供的推荐信 [25][35] 教学支持与资源 - 采用"2+1"师资团队:主导师由名校教授 研究员或行业导师担任 科研班主任全程跟踪进度 解决非学术问题 [23][25][33] - 提供全学习周期服务 包括前期基础测试和学术准备 中期个性化教学和评估跟踪 后期知识复习和报告指导 [25] - 课程有效期3.5-4个月 答疑周期6个月 通过腾讯会议直播和小鹅通回放授课 [33][35]