Workflow
Large Language Model (LLM)
icon
搜索文档
通往AGI的快车道?大模型驱动的具身智能革命 | Jinqiu Select
锦秋集· 2025-09-01 23:29
具身智能与大模型融合综述 文章核心观点 - 具身智能被视为实现通用人工智能(AGI)的关键路径,通过"感知-决策-行动"闭环在真实世界中学习并执行复杂任务 [1] - 大模型(如LLM、LVM、LVLM、MLM、VLA)在多模态推理与生成能力上的突破,显著推动了具身智能的演进 [1][7][25] - 世界模型为智能体提供内部环境模拟能力,支持在虚拟空间中演练与优化策略 [1][2][116] - 分层决策与端到端决策成为自主决策的两大核心范式,分别适用于结构化环境与开放动态环境 [6][55][74] Embodied AI系统构成与运行流程 - 系统由物理实体(如人形机器人、智能车辆)和智能体(认知核心)构成,物理实体负责执行动作并接收反馈 [4] - 运行流程包括:从语言指令解读人类意图→主动探索环境→感知多模态元素→执行动作,模仿人类学习范式 [4] - 智能体通过模仿学习从人类演示或视频数据获取技能,通过强化学习整合外部反馈优化策略 [4] 具身智能核心:决策与学习 - 自主决策通过分层范式(分离感知、规划、执行模块)或端到端范式(统一框架集成功能)实现 [6] - 具身学习通过模仿学习(从演示获取技能)和强化学习(迭代优化提升技能)实现持续改进 [6] - 世界模型通过模拟真实世界推理空间,为智能体提供试验和经验积累机会 [6][116] 主流大型模型概览 - Large Language Model (LLM):包括BERT(2018年)、GPT系列(GPT-3参数量达1750亿)、PaLM等,突破zero-shot/few-shot学习能力 [9][10] - Large Vision Model (LVM):ViT将Transformer应用于计算机视觉,DINOv2通过自监督学习提升图像表示质量,SAM支持1100万图像预训练的分割任务 [11] - Large Vision Language Model (LVLM):CLIP通过图文对比学习对齐特征,BLIP-2引入QFormer实现跨模态融合,GPT-4V具备强大多模态推理能力 [12][13] - Multimodal Large Model (MLM):Gemini高效处理文本/图像/音频,DALL·E3通过增强文本编码器改善图像-提示对齐,Sora可生成60秒高质量视频 [14][15] - Vision-Language-Action Model (VLA):RT-2将动作空间离散化为256区间,开源模型(如Octo、TinyVLA)提升计算效率与泛化能力 [16][71] 大型模型通用能力增强技术 - In-Context Learning (ICL):通过精心设计提示实现zero-shot泛化,无需额外训练 [19] - X of Thoughts (XoT):CoT融入中间推理步骤,ToT探索多推理路径,GoT采用图结构实现非线性推理 [20] - Retrieval Augmented Generation (RAG):从外部知识库检索信息,确保响应准确性 [21] - Reinforcement Learning from Human Feedback (RLHF):整合人类偏好优化模型输出 [23] - Model Context Protocol (MCP):提供标准化接口增强模型与外部系统互操作性 [24] 分层自主决策 - 高层规划分为三类:基于结构化语言(LLM生成PDDL或直接作为规划器)、基于自然语言(LLM分解计划)、基于编程语言(指令转可执行代码) [31][33][38] - 底层执行通过传统控制算法(PID、MPC)、LLM驱动学习控制(模仿学习+强化学习)、模块化控制(调用预训练模型如CLIP/SAM)实现 [42][43][45] - 反馈机制包括:大模型自我反思(Re-Prompting重新生成计划)、人类反馈(交互式纠正)、环境反馈(多模态输入转化为语言调整计划) [49][52][54] 端到端自主决策 - VLA模型集成感知、语言理解、规划、动作执行与反馈优化,包含token化与表示、多模态信息融合、动作去token化三个组件 [58][60][62] - RT-2利用ViT进行视觉处理,PaLM集成多模态信息,动作空间离散化为8维度(含256区间) [63] - VLA增强方向:感知能力增强(BYO-VLA滤除视觉噪声)、轨迹动作优化(Octo结合扩散模型)、训练成本降低(π0利用流匹配提升实时性能) [65][70][71] 分层与端到端决策对比 - 分层架构优势:高可解释性、易集成领域知识、模块化设计;劣势:模块协调可能导致次优解、适应性受限 [74] - 端到端架构优势:最小化误差累积、强泛化能力、高效复杂任务处理;劣势:黑箱性质、高计算成本、依赖训练数据 [75] Embodied Learning方法 - 模仿学习:通过最小化专家动作负对数似然学习策略,依赖高质量演示数据 [83][84] - 强化学习:最大化长期累积奖励,PPO/SAC等算法提升稳定性,但需海量探索 [87][89] - 迁移学习:通过KL散度约束迁移源任务策略至目标任务,加速学习但需避免负迁移 [90][91] - 元学习:MAML框架通过少量样本快速适应新任务,但需多样任务预训练数据 [93][94] 大模型赋能的模仿学习 - Diffusion models增强策略:Diffusion Policy通过U-Net生成动作序列,3D-Diffusion利用3D输入提升空间感知 [100][101] - Transformer架构策略:RT-1结合大规模数据集提升泛化,ALOHA实现低成本硬件精确操作,RoboCat实现跨任务快速泛化 [102][103] 大模型赋能的强化学习 - 奖励函数设计:Text2Reward生成可解释Python代码,Eureka利用GPT-4实现全自动优化 [109] - 策略网络构建:Diffusion-QL增强多模态动作分布,Decision Transformer将问题重构为序列建模,LLM(如GLAM)直接生成动作序列 [113][114][115] 世界模型设计与应用 - 设计类型:隐空间世界模型(RSSM)、基于Transformer(IRIS/Genie)、基于扩散(Sora/UniPi)、联合嵌入预测架构(JEPA) [119][122][125][128] - 决策应用:模拟验证(NeBula构建概率信念空间)、知识增强(WKM提供全局先验知识) [133][134] - 具身学习应用:基于模型的强化学习通过模拟状态转换和生成数据提升学习效率 [135]
Orangekloud Signs MOU for Development of Specialized LLM for Software Engineering and Application Development
Globenewswire· 2025-06-30 20:30
文章核心观点 - 新加坡科技公司Orangekloud与Evvo Labs签署谅解备忘录,合作开发适用于软件工程和应用开发的大语言模型,预计2026年第一季度进入试点测试 [1][4] 合作信息 - 2025年6月18日Orangekloud与Evvo Labs签署谅解备忘录,合作开发适用于软件工程和应用开发的大语言模型 [1] - 大语言模型将集成到Orangekloud的eMOBIQ平台及其他解决方案中,提供智能建议、代码生成等支持,还能通过自动化文档等增强ERP实施和软件开发周期 [2] - 项目预计2026年第一季度进入试点测试 [4] 公司背景 - Orangekloud是新加坡科技公司,提供eMOBIQ无代码平台,专为中小企业和企业开发移动应用,涵盖仓储、销售等多个领域 [5] - Evvo Labs是新加坡屡获殊荣的以网络为中心的ITMS科技公司,专注于数字化转型和技术开发集成,自2010年以来多次获得新加坡政府网络安全和数字媒体批量招标奖 [6] 公司观点 - Orangekloud首席执行官Alex Goh认为企业软件的未来在于智能自动化,通过与合作伙伴开发大语言模型,可实现更快、更智能、更易访问的软件和应用开发 [4]