类人认知行为 - 财报，业绩电话会，研报，新闻

类人认知行为

搜索文档

具身智能之心· 2025-06-17 20:53

具身AGI的定义 - 具身AGI被定义为能够以人类水平的熟练度完成多样化、开放式现实世界任务的具身AI系统，强调其人类交互能力和任务执行能力 [3] 通用具身智能路线 - 论文提出从L1到L5的五级路线图，衡量和指导具身AGI的发展，每个级别基于四个核心维度：模态、类人认知能力、实时响应能力和泛化能力 [4] - L1（单一任务完成）：机器人能够可靠地完成单一、明确定义的任务，但功能局限于特定任务领域 [7] - L2（组合任务完成）：机器人能够处理组合任务，通过将高级人类指令分解为简单动作序列来执行，但能力仍限于预定义任务和技能库 [7] - L3（有条件的一般任务完成）：机器人能够处理多种任务类别，表现出对任务、环境和人类指令的有条件泛化能力，但对全新或开放式任务的可靠性不足 [7] - L4（高度通用机器人）：机器人展现出对广泛未见任务的稳健泛化能力，具备强大的多模态理解和推理能力 [7] - L5（全功能机器人）：机器人能够满足人类日常生活的广泛需求，展现出类似人类的认知行为 [7] 现状和挑战 - 当前具身AI的能力处于L1和L2之间 [7] - 现有的具身AI模型大多仅支持视觉和语言输入，并且输出仅限于动作空间 [8] - 现有的机器人主要专注于任务特定的操作，缺乏高级的推理和社交互动能力 [11] - 大多数现有的具身AI系统以半双工方式运行，即在完全接收和处理指令后才开始行动，这使得它们在动态环境中表现不佳 [14] - 具身AI需要在推理和对话智能方面表现出色，类似于复杂的聊天机器人，并展示与人类偏好和伦理价值观的一致性 [17] L3∼L5核心能力组件 - 全模态能力：L3+机器人需处理超越视觉和文本的多模态输入（如听觉、触觉、热感等），并生成多模态响应（动作、语音、推理等） [18] - 类人认知行为：包括自我意识、社会关联理解、程序性记忆和记忆重组 [18] - 实时交互：现有模型因参数量限制难以支持全模态实时响应，且计算复杂度随序列长度平方增长 [19] - 开放任务泛化：当前模型依赖任务特定数据，缺乏物理规律的内化 [19] L3+机器人大脑框架 - 模型结构设计原则包括全模态流式处理和动态响应 [19] - 训练范式包括全模态从头训练、终身学习集成和物理导向训练 [20] 总结与未来挑战 - 具身AGI的发展路线图具有长期相关性 [20] - 未来挑战包括技术障碍以及伦理、安全和社会影响等方面的挑战 [20]