端到端自主决策 - 财报，业绩电话会，研报，新闻

端到端自主决策

搜索文档

锦秋集· 2025-09-01 23:29

具身智能与大模型融合综述文章核心观点 - 具身智能被视为实现通用人工智能（AGI）的关键路径，通过"感知-决策-行动"闭环在真实世界中学习并执行复杂任务 [1] - 大模型（如LLM、LVM、LVLM、MLM、VLA）在多模态推理与生成能力上的突破，显著推动了具身智能的演进 [1][7][25] - 世界模型为智能体提供内部环境模拟能力，支持在虚拟空间中演练与优化策略 [1][2][116] - 分层决策与端到端决策成为自主决策的两大核心范式，分别适用于结构化环境与开放动态环境 [6][55][74] Embodied AI系统构成与运行流程 - 系统由物理实体（如人形机器人、智能车辆）和智能体（认知核心）构成，物理实体负责执行动作并接收反馈 [4] - 运行流程包括：从语言指令解读人类意图→主动探索环境→感知多模态元素→执行动作，模仿人类学习范式 [4] - 智能体通过模仿学习从人类演示或视频数据获取技能，通过强化学习整合外部反馈优化策略 [4] 具身智能核心：决策与学习 - 自主决策通过分层范式（分离感知、规划、执行模块）或端到端范式（统一框架集成功能）实现 [6] - 具身学习通过模仿学习（从演示获取技能）和强化学习（迭代优化提升技能）实现持续改进 [6] - 世界模型通过模拟真实世界推理空间，为智能体提供试验和经验积累机会 [6][116] 主流大型模型概览 - Large Language Model (LLM)：包括BERT（2018年）、GPT系列（GPT-3参数量达1750亿）、PaLM等，突破zero-shot/few-shot学习能力 [9][10] - Large Vision Model (LVM)：ViT将Transformer应用于计算机视觉，DINOv2通过自监督学习提升图像表示质量，SAM支持1100万图像预训练的分割任务 [11] - Large Vision Language Model (LVLM)：CLIP通过图文对比学习对齐特征，BLIP-2引入QFormer实现跨模态融合，GPT-4V具备强大多模态推理能力 [12][13] - Multimodal Large Model (MLM)：Gemini高效处理文本/图像/音频，DALL·E3通过增强文本编码器改善图像-提示对齐，Sora可生成60秒高质量视频 [14][15] - Vision-Language-Action Model (VLA)：RT-2将动作空间离散化为256区间，开源模型（如Octo、TinyVLA）提升计算效率与泛化能力 [16][71] 大型模型通用能力增强技术 - In-Context Learning (ICL)：通过精心设计提示实现zero-shot泛化，无需额外训练 [19] - X of Thoughts (XoT)：CoT融入中间推理步骤，ToT探索多推理路径，GoT采用图结构实现非线性推理 [20] - Retrieval Augmented Generation (RAG)：从外部知识库检索信息，确保响应准确性 [21] - Reinforcement Learning from Human Feedback (RLHF)：整合人类偏好优化模型输出 [23] - Model Context Protocol (MCP)：提供标准化接口增强模型与外部系统互操作性 [24] 分层自主决策 - 高层规划分为三类：基于结构化语言（LLM生成PDDL或直接作为规划器）、基于自然语言（LLM分解计划）、基于编程语言（指令转可执行代码） [31][33][38] - 底层执行通过传统控制算法（PID、MPC）、LLM驱动学习控制（模仿学习+强化学习）、模块化控制（调用预训练模型如CLIP/SAM）实现 [42][43][45] - 反馈机制包括：大模型自我反思（Re-Prompting重新生成计划）、人类反馈（交互式纠正）、环境反馈（多模态输入转化为语言调整计划） [49][52][54] 端到端自主决策 - VLA模型集成感知、语言理解、规划、动作执行与反馈优化，包含token化与表示、多模态信息融合、动作去token化三个组件 [58][60][62] - RT-2利用ViT进行视觉处理，PaLM集成多模态信息，动作空间离散化为8维度（含256区间） [63] - VLA增强方向：感知能力增强（BYO-VLA滤除视觉噪声）、轨迹动作优化（Octo结合扩散模型）、训练成本降低（π0利用流匹配提升实时性能） [65][70][71] 分层与端到端决策对比 - 分层架构优势：高可解释性、易集成领域知识、模块化设计；劣势：模块协调可能导致次优解、适应性受限 [74] - 端到端架构优势：最小化误差累积、强泛化能力、高效复杂任务处理；劣势：黑箱性质、高计算成本、依赖训练数据 [75] Embodied Learning方法 - 模仿学习：通过最小化专家动作负对数似然学习策略，依赖高质量演示数据 [83][84] - 强化学习：最大化长期累积奖励，PPO/SAC等算法提升稳定性，但需海量探索 [87][89] - 迁移学习：通过KL散度约束迁移源任务策略至目标任务，加速学习但需避免负迁移 [90][91] - 元学习：MAML框架通过少量样本快速适应新任务，但需多样任务预训练数据 [93][94] 大模型赋能的模仿学习 - Diffusion models增强策略：Diffusion Policy通过U-Net生成动作序列，3D-Diffusion利用3D输入提升空间感知 [100][101] - Transformer架构策略：RT-1结合大规模数据集提升泛化，ALOHA实现低成本硬件精确操作，RoboCat实现跨任务快速泛化 [102][103] 大模型赋能的强化学习 - 奖励函数设计：Text2Reward生成可解释Python代码，Eureka利用GPT-4实现全自动优化 [109] - 策略网络构建：Diffusion-QL增强多模态动作分布，Decision Transformer将问题重构为序列建模，LLM（如GLAM）直接生成动作序列 [113][114][115] 世界模型设计与应用 - 设计类型：隐空间世界模型（RSSM）、基于Transformer（IRIS/Genie）、基于扩散（Sora/UniPi）、联合嵌入预测架构（JEPA） [119][122][125][128] - 决策应用：模拟验证（NeBula构建概率信念空间）、知识增强（WKM提供全局先验知识） [133][134] - 具身学习应用：基于模型的强化学习通过模拟状态转换和生成数据提升学习效率 [135]