Workflow
Moz1 机器人
icon
搜索文档
对话千寻高阳:端到端是具身未来,分层模型只是短期过渡
晚点LatePost· 2025-07-10 20:30
具身智能行业趋势 - 具身智能技术已从学术研究阶段进入产业化阶段,突破将发生在市场而非实验室[2][13] - 行业正处于Scaling Law时刻,预计需要4-5年沉淀才能达到类似GPT-4的突破[2][29] - 技术路径已从500个研究方向收敛至100个左右,进入工程优化阶段[12][13] 技术路径选择 - 端到端VLA(vision-language-action)是行业终极方向,已在自动驾驶领域验证[19][20] - 短期分层方案(规划-感知-执行)更易工程实现,但长期将被端到端替代[22] - VLA模型通过统一处理视觉、语言和动作模块,实现任务理解和执行一体化[20] 数据训练方法 - 训练数据来源包括:互联网视频数据(1%可用率)、遥操作数据和强化学习数据[24][26] - 发现Scaling Law规律:数据量每增加10倍,模型精度小数点后多一个9[27][28] - 达到ChatGPT级别效果需100亿条有效互联网数据+1亿遥操数据+数千万强化学习数据[31] 机器人形态发展 - 人形设计因适应人类环境成为主流,但非必需形态[33][34] - L4阶段前轮式底盘+双臂可覆盖80%场景需求,双足非必须[33][37] - 双足平衡技术已实现高难度动作(如燕式平衡),工业级稳定仍需优化[37][38] 产业链分工 - 硬件本体价值有限,核心突破在于"大脑"(AI系统)[39] - 未来产业链将类似汽车行业,形成专业化分工(灵巧手、芯片等)[41] - 纯软件方案不可行,需针对具体硬件进行训练优化[40] 中美发展差异 - 中国优势在于硬件制造和维修效率(美国维修周期长达数周)[6][7] - 美国在快慢系统等核心技术方面暂时领先[6]