人工专门智能(ASI)

搜索文档
万字长文聊具身智能“成长史”:具身智能跨越了哪些山海,又将奔向哪里
自动驾驶之心· 2025-08-10 11:31
具身智能行业核心观点 - 具身智能正通过构建独特计算大脑将AI能力转化为物理能力 解决AI系统在物理世界中的交互难题 [8] - 行业面临性能与通用性的关键权衡 ASI(人工专门智能)与AGI(人工通用智能)路径并行发展 [24][27][65] - 机器人基础模型(如RT-2/VLA模型)展现跨具身泛化能力 预训练模型比专用模型性能提升50% [47][48] - 物理世界对性能要求严苛 工业应用需99%以上成功率 远超其他AI领域90%的标准 [12][13] - 数据获取是核心挑战 真实物理数据仅占PI-0 5训练集的3% 但推动模型理解物理交互的关键 [57][74] 技术演进与突破 基础模型发展 - RT-2作为第一代VLA模型 将控制问题转化为问答任务 基于PaLI-X视觉语言模型构建 [46] - 第二代VLA模型(如PI-Zero)增加专用动作专家模块 采用流匹配技术处理连续动作 支持50个时间步动作块生成 [49][50] - PI-0 5实现高级推理能力 可分解"清理卧室"等复杂指令为子步骤 在未见场景完成任务 [54][55] - 跨具身数据集RTX包含34个实验室/22类机器人数据 验证通用模型性能优于专用模型50% [47][48] 关键技术融合 - 多速率系统成为硬件关键 力扭矩传感器需1kHz采样率 10Hz控制会丢失99%数据 [42][43] - 强化学习(SERL系统)与基础模型互补 专用策略可实现PCB插接等复杂操作 成功率超99% [90][92] - 视觉语言模型支持草图/照片交互 自动生成代码并插入ML技能 实现工作流程智能化 [81] 商业化路径选择 应用场景聚焦 - 工业领域优先选择结构化/半结构化环境 因非结构化环境商业可行性低且回报周期长 [14] - 汽车等行业要求TRL 8-9级成熟度 拒绝浅蓝色阶段原型 对性能有严格标准 [10] - ASI路径通过专用模型实现 支持本地部署/实时控制 适合气隙计算等工业需求 [28][32] 数据飞轮构建 - 人工专门智能工作单元成为数据主要来源 需结合安全/多机器人协调等传统机器人技术 [71] - 真实物理数据占比虽小(3%)但至关重要 模拟数据无法替代物理系统交互 [57][74] - 未来数据瓶颈将从收集转向筛选 需从数万亿轨迹中识别最有价值样本 [76] 前沿研究方向 技术突破点 - 持续学习成为关键挑战 需解决大规模模型在线更新而不破坏系统的问题 [106] - 反馈学习机制待优化 强化学习效率提升是重要方向 [107] - 物理常识理解是根本挑战 需建立导航/移动/操作的统一表征框架 [104] 学术产业协同 - 产业界需将实际问题反馈给学术界 共同缩小"演示即终结"的研究应用差距 [97][98] - 选择对失败容忍度高的应用领域(如垃圾分类) 逐步提升性能而非追求完美初始表现 [99] - 操作被视为最具挑战领域 需融合复杂环境理解与精细物理交互能力 [101][102]
万字长文聊具身智能“成长史”:具身智能跨越了哪些山海,又将奔向哪里
具身智能之心· 2025-08-08 08:08
具身智能发展现状 - 机器人技术进入闭环系统时代,融合感知、行动及软件与物理世界的紧密连接,强调物理定律的重要性[5] - 技术就绪水平(TRL)成为工业应用关键指标,汽车等行业要求达到8-9级成熟度才能获得信任[6] - 过去5-10年机器学习带来显著进步,但物理世界要求99%以上成功率,远高于其他AI领域标准[8] - 行业更倾向从结构化和半结构化环境切入,非结构化环境商业化难度大[9] 技术路线之争 - AGI(人工通用智能)强调端到端学习和泛化能力,但距离实际应用仍有距离[19] - ASI(人工专门智能)专注于特定领域高性能小模型,适合工业实时控制需求[23][24] - 专门模型优势:支持多速率系统、高效实时、易调试、可本地运行[27] - 通用模型优势:开发时强大、适合语义规划和人机交互,但难以满足机器人实时需求[27] 关键技术突破 - 视觉-语言-动作(VLA)模型展现潜力,RT-2X实现跨具身任务执行[39][40] - RT-2成为首个机器人基础模型,基于PaLI-X视觉语言模型改造[41] - RTX跨具身数据集包含34个实验室22种机器人数据,通用模型性能优于专用模型50%[42][43] - 第二代VLA模型采用连续动作分布,如PI-Zero增加动作专家模块处理高频率控制[45][46] 数据与训练方法 - 物理机器人产生的真实数据被视为关键,模拟数据作用有限[69][70][71] - PI-0.5模型仅3%数据来自移动操作器,却能在全新场景执行长期任务[54] - 强化学习(SERL)与基础模型结合,专用策略可生成训练数据提升通用性[87][91] - 未来需解决从数十亿轨迹中筛选最有价值数据的问题[73] 行业应用方向 - 工业领域倾向高混合低产量模式,需要快速适应能力[33] - 操作被视为最具挑战领域,需融合复杂环境理解与精细物理交互[99] - 持续学习、从反馈中学习、自主数据收集将成为未来重点[103][104][105] - 学术界与产业界需协同,选择对失败更宽容的应用场景加速技术落地[95][96] 前沿趋势展望 - 物理AGI实现路径存在分歧:性能优先或能力优先[62][63] - 需构建共享的物理世界常识理解框架,统一导航、移动与操作的方法论[101] - 年轻研究人员应关注根本性问题,超越短期实用性考虑[107] - 行业需要复合型人才,掌握物理、AI、机器学习和大数据科学[106]