Workflow
VLA路线
icon
搜索文档
2025智驾“大逃杀”,谁能解决“长尾问题”?
虎嗅· 2025-09-05 15:25
VLA技术商业化进展 - 理想汽车借纯电旗舰i8上市向全量用户推送VLA司机大模型[2] - 元戎启行发布自研VLA大模型DeepRoute IO 2.0 覆盖5款车型约20万台车[2] - 小鹏汽车新一代VLA架构实现时延<100 ms 规划帧率20 Hz[3] VLA技术优势 - 通过语言文字中间环节将路况图像抽象化 提升泛化能力[8] - 具备思维链能力可分解驾驶决策为逻辑连贯步骤[9] - 模拟人类"观察→判断→动作"认知过程 构建视觉-语言-动作闭环系统[10][12] 技术实施门槛 - 训练需吞吐22T token级多模态数据 单次训练规模相当于DeepSeek-V3的1.5倍[13] - 90%训练数据来自29.3亿公里实车日志 长尾场景需5-10倍数据密度[13] - 理想和小鹏分别动用13 EFLOPS与8 EFLOPS云端算力集群[14] 行业竞争格局 - 2025年城市NOA规模化交付与Robotaxi商业化存在空档期 先完成VLA量产者占优[6] - 华为与Momenta已占据2025年智驾市场90%份额[45] - 英伟达Thor-U芯片40万片产能中32万片已被理想/蔚来/小鹏提前锁定[27] 中小车企困境 - 哪吒乌兰察布集群180 PFLOPS算力无法在30天内完成7B参数模型训练[15] - 租用公有云单次训练成本达1.2-1.5亿元 相当于哪吒2024年研发预算40%[15] - 需交付10万辆级量产车才具备搭建VLA架构的基本数据基础[17] 替代技术路线 - 华为World Action Model通过扩散生成模型批量制造Corner case案例[33] - 蔚来NIO World Model将激光雷达+视觉压缩成3D token推演多帧场景[35] - WA路线被视为"理想主义的未来豪赌" VLA则是"实用主义的当下生存"[36] 头部企业战略布局 - 理想汽车通过VLA重新定义产品 应对单车毛利率从21.5%下滑至19.8%的压力[42] - 小鹏72B云端基座模型采用VLA混合架构 同时服务汽车与机器人业务[43] - 华为智驾优势建立在数据+软硬一体+车厂绑定三位一体的护城河上[45] 行业影响展望 - VLA量产是千卡训练云+千TOPS车端+千亿级数据三线并进的极限工程[16] - 技术路线分化将导致市场份额重组 头部企业差距可能缩小[46][50] - 2025年可能成为华为/特斯拉的巅峰时刻或理想/小鹏的逆袭元年[51]
智元机器人首席科学家罗剑岚老师专访!具身智能的数采、仿真、场景与工程化
具身智能之心· 2025-07-30 08:02
具身智能数据讨论 - 公司与多家传感器供应商合作,聚焦视觉触觉与高密度传感器联合研发,并构建跨平台数据采集API实现任务语义统一映射[2] - 机器人应用需达到95%成功率才能满足家庭场景需求,当前性能优化是主要门槛[2] - 仿真数据用于高效迭代但存在扩展性瓶颈,多模态大模型训练100%使用真机真实数据[2][3] - 合成数据仅用于工程迭代与模型调试,大模型训练阶段完全依赖真实数据[3][4] - 真实数据成本核心在于缺乏标准化采集机制,公司正尝试远程遥操、自动部署机器人等方式建立自动化数据工厂[6] 自动驾驶与机器人数据对比 - 自动驾驶要求99.99%安全水平,机器人开放环境操作同样需要高成功率,当前面临数据稀缺与工程伦理双重挑战[7] 具身大模型评估 - 行业缺乏通用benchmark,公司计划搭建统一真机测试场推动标准化评估[8][9] - 评估维度聚焦技术路线与性能表现,从Demo炫技转向全栈一体化产业闭环[9] - 世界模型基于统一平台实现视频生成、模型评测与策略训练,复杂场景处理能力突出[10] 技术路线争议 - VLA路线非最终方案,需结合大模型与优化策略提升成功率至远超ChatGPT的50%-60%水平[11] - 中美差异:美国重算法开源,中国强在工程集成与产业化速度[12] 遥操作与自主决策 - 自主决策需突破多模态信息融合、任务泛化与高成功率执行三大门槛[13][14] - 当前"失控"问题源于软件设计缺陷而非意识觉醒,通过安全兜底机制保障运行[14] - 通用能力需从垂直场景积累数据逐步演化,无法直接实现[15] 应用场景落地 - 部署流程分任务建模、场景迁移、适配与安全验证四步,软硬件协同是关键[17][18] - 工业场景因结构化程度高更易落地,需满足100%性能与节拍一致性[20][21] - 工商业将先于家庭实现规模化落地,长期家庭市场潜力更大[21] 技术路线选择 - 关节驱动与感知能力依赖模块化标准,行业需共建可插拔生态[22] - 家庭环境复杂性需通过垂直场景数据积累逐步攻克[22] - 执行速度慢源于过度依赖模仿学习,需引入专门优化训练提升[23] 未来发展方向 - 追求DeepSeek moment:接近100%成功率+高速执行+泛化能力,超越ChatGPT moment[24] - 数据驱动成为科学正名,通过统计显著性验证建立结论[25] - Transformer架构主流但效率待提升,类脑架构或更适合具身智能[26] 软硬件协同生态 - 构建平台化操作系统(机器人Android)统一硬件接口,与软件厂商开放合作[28][29] - 操作系统是基础设施,真正突破依赖算法与模型创新[30]
融资5亿,90后清华博导做机器人,「外界对我们有不少误解」
36氪· 2025-07-07 19:02
公司概况 - 星动纪元成立于2023年8月,由清华大学交叉信息研究院助理教授陈建宇创办,专注于通用人形机器人研发 [3] - 2025年7月完成近5亿元A轮融资,由鼎晖CGV资本和海尔资本联合领投,厚雪资本、华映资本等跟投 [3] - 已推出三款成熟产品:五指灵巧手XHand 1、轮式服务人形机器人Q5、全尺寸人形机器人STAR 1 [9] - 2025年累计交付超200台产品,客户包括全球市值TOP 10科技巨头中的9家及海尔智家、联想等企业 [10][48] 技术体系 - 采用"软硬一体"通用架构:软件层面发布融合世界模型的VLA模型ERA-42,硬件层面开发模块化机器人组件如关节模组、控制单元等 [8] - 首创融合生成式世界模型的具身大模型算法VPP,获ICML Spotlight论文收录 [6][20] - 提出全球首个结合语言模型与人形机器人的DWL算法框架,解决规划与执行对齐问题 [15][69] - 硬件采用乐高式模块化设计,关节模组、电机等核心部件均为自研,可灵活组合成双足/轮式等形态 [43][57] 商业化策略 - 实施"沿途下蛋"策略:优先出售灵巧手等组件实现现金流,逐步降低硬件边际成本并积累数据反哺研发 [10][30] - 聚焦高价值场景:工业领域主打运动能力与灵巧操作,服务领域侧重拟人化交互,当前重点落地物流与制造场景 [49][53] - 产品分两级推进:demo级产品已实现打螺钉、扫码等操作,产品级方案在物流分拣等场景达到商用标准 [52] 行业认知 - 人形机器人是手段而非目的,通过人类行为数据训练通用基础能力后可降维适配其他形态 [29] - 当前VLA模型存在语言部分过重问题,正在探索语言/视觉/动作同步预训练的新路径 [35][36] - 机器人行业将呈现多形态并存格局,硬件迭代特性使市场容许多玩家共存,不会出现大模型领域的垄断局面 [68] 研发突破 - 2024年9月发布HiRT框架,首次在VLM中增加高频动作处理模块,被英伟达等头部机构跟进 [16][69] - 2025年1月提出UP-VLA模型,实现理解/预测/策略学习三合一,可同步预测画面与控制关节动作 [22][70] - 数据获取采用"视频预训练+遥操微调"组合模式,显著降低对真机数据的依赖量 [26]