分层模型

搜索文档
对话千寻高阳:端到端是具身未来,分层模型只是短期过渡
晚点LatePost· 2025-07-10 20:30
具身智能行业趋势 - 具身智能技术已从学术研究阶段进入产业化阶段,突破将发生在市场而非实验室[2][13] - 行业正处于Scaling Law时刻,预计需要4-5年沉淀才能达到类似GPT-4的突破[2][29] - 技术路径已从500个研究方向收敛至100个左右,进入工程优化阶段[12][13] 技术路径选择 - 端到端VLA(vision-language-action)是行业终极方向,已在自动驾驶领域验证[19][20] - 短期分层方案(规划-感知-执行)更易工程实现,但长期将被端到端替代[22] - VLA模型通过统一处理视觉、语言和动作模块,实现任务理解和执行一体化[20] 数据训练方法 - 训练数据来源包括:互联网视频数据(1%可用率)、遥操作数据和强化学习数据[24][26] - 发现Scaling Law规律:数据量每增加10倍,模型精度小数点后多一个9[27][28] - 达到ChatGPT级别效果需100亿条有效互联网数据+1亿遥操数据+数千万强化学习数据[31] 机器人形态发展 - 人形设计因适应人类环境成为主流,但非必需形态[33][34] - L4阶段前轮式底盘+双臂可覆盖80%场景需求,双足非必须[33][37] - 双足平衡技术已实现高难度动作(如燕式平衡),工业级稳定仍需优化[37][38] 产业链分工 - 硬件本体价值有限,核心突破在于"大脑"(AI系统)[39] - 未来产业链将类似汽车行业,形成专业化分工(灵巧手、芯片等)[41] - 纯软件方案不可行,需针对具体硬件进行训练优化[40] 中美发展差异 - 中国优势在于硬件制造和维修效率(美国维修周期长达数周)[6][7] - 美国在快慢系统等核心技术方面暂时领先[6]
从扭秧歌到跑半马:机器人离「iPhone时刻」还有多远?
机器之心· 2025-06-17 12:50
具身智能行业发展现状 - 具身智能技术从想象进入现实阶段,但行业仍面临技术瓶颈、落地场景选择、用户真实需求定义等核心问题[2] - 国内外平台型企业争相布局具身智能计算开发平台,英伟达推出Jetson Thor,高通、英特尔跟进,国内地平线推出RDK S100[3] - RDK S100已覆盖20+头部具身智能客户合作,50+合作伙伴正在测评,成为英伟达之外的主要选择[4] 技术路径与解决方案 - 行业存在一体化端到端和分层模型两条技术路径,前者通用性强但资源消耗大,后者可控性高但泛化性弱[7][8] - 分层决策大小脑模型是当前更可行的方案,大脑负责感知决策(CPU+BPU),小脑负责运动控制(MCU)[8][9] - RDK S100采用CPU+BPU+MCU超级异构架构,实现单SoC上的"算控一体",算力达80 TOPS[4][9] - BPU基于车端验证的Nash架构,支持160+ONNX标准算子,优化视觉/点云检测、LLM/VLM模型性能[10][11] 产品定位与场景适配 - 未来三年量产突破场景可能是四足/轮足机器人、机械臂或物流车,而非人形机器人[13] - RDK S100针对近2-3年落地场景精准卡位,提供百TOPS级匹配算力[13][14] - 通过共享内存核间通信机制和SDK封装,降低开发者使用复杂度[12] 开发者生态建设 - 提供ModelZoo算法仓含110+感知/决策/行动模型及性能指标[19] - 配套工具链支持算法量化、模型调优和快速部署[20] - 端云一体数据闭环工具链+Sim2Real仿真方案解决高质量数据缺失问题[20] - "地心引力计划"已汇聚200+初创公司,提供硬件优惠、技术支持、产业链对接等服务[28] 商业化落地案例 - 在宇树G1人形机器人实现高效运动控制,BPU推理占用率仅2%,CPU占用降低250%[22] - 在宇树Go2四足机器人复现多种仿生步态,适应复杂地形[23] - 在HuggingFace双臂方案实现零卡顿自主叠衣,整套成本低于5000元[24] - 20+头部客户中部分已进入量产开发阶段,覆盖人形/四足/智能化方案商[26] 行业发展趋势 - 技术路径有望收敛,计算平台将呈现"算控一体"中等算力方案和端到端大算力方案双线并行[28] - 公司目标建立类似英伟达CUDA的生态体系,通过基础设施支撑行业创新[28]