Workflow
神经符号处理
icon
搜索文档
字节跳动李航博士新作:AI智能体的通用框架
机器之心· 2026-01-28 21:08
AI智能体通用框架 - 字节跳动李航博士在JCST期刊上提出了一个涵盖软件和硬件智能体的通用框架[3] - 该框架的核心特点是:智能体以完成任务为目标,以文本或多模态数据作为输入和输出,依赖大语言模型进行推理,通过强化学习构建,并能使用各类工具与长期记忆系统[3] - 业界常见的智能体及字节跳动Seed团队近期研发的智能体均可纳入此通用框架[3] 框架核心构成 - 智能体由多模态大语言模型、工具、记忆、多模态编码器、多模态解码器及动作解码器组成[11] - 大语言模型是智能体的核心,承担“思考”功能,其能力决定智能体的水平[8] - 智能体可以调用工具,并从长期记忆或工作记忆中读写信息和知识[11] - 硬件智能体需要两类模型:用于高层任务规划的多模态大语言模型,以及用于低层动作规划的多模态-语言-动作模型[12] 智能体实例与特点 - AutoGPT、LangChain、ReAct、Gemini Robotics 1.5及字节跳动Seed团队的AGILE、Delta Prover等智能体框架均为该通用框架的特例[14] - 智能体是“合理行动的机器”,能在环境中互动以完成任务[6] - 智能体根据应用需要可具有高自主性或低自主性[15] 与人脑信息处理机制的关联 - 智能体框架与人脑信息处理机制在功能层面存在对应关系,均具有两层结构:上层串行处理,下层并行处理[19] - 两者在处理信息时,均通过符号表征与神经表征两种形式进行,即均采用了神经符号处理[19] 软件与硬件智能体的异同 - 软件智能体与硬件智能体在信息处理框架上一致,主要区别在于输入输出形式[21] - 软件智能体通常以文本及多模态数据输入,输出符号形式结果;硬件智能体需处理更多样输入,并输出物理动作[21] - 硬件智能体借助更丰富的输入与动作空间,可能发展出更通用、更具适应性的智能[21] 大语言模型在智能体中的角色与局限 - 大语言模型是智能体的核心,其智能水平主要依赖大语言模型的能力[22] - 经过强化学习微调的大语言模型本身就是一种强大的智能体[22] - 大语言模型的不足包括:只有短期记忆、不具备搜索和计算等能力、不能直接处理多模态数据[22] 神经符号处理 - 智能体应具备神经符号处理能力,这是其与多模态大语言模型之间的主要区别[27] - 严谨的逻辑推理和数学计算应通过相应工具实现,而非仅依赖大语言模型[27] - 长期记忆中的世界知识可以更自然地以符号形式呈现,智能体的记忆中可以维护一个通过符号处理构建的语义网络[27] 未来研究方向 - 扩大数据规模是当前智能体开发的最大瓶颈,需在通用或垂直领域收集足够大规模的训练数据[31] - 未来的智能体应能够在与环境的互动过程中进行自主学习和持续学习[32] - 智能体的安全性和可控性是最重要的问题之一,高自主性智能体可能带来更大风险[34] - 强化学习的奖励函数若超出完成任务的范围,可能带来极大风险,需设置研发红线[34]