Workflow
Agent AI
icon
搜索文档
李飞飞的答案:大模型之后,Agent向何处去?
虎嗅APP· 2025-09-07 10:51
Agent AI核心框架 - 提出由环境与感知、认知、行动、学习、记忆五大模块构成的智能体认知闭环架构 这代表对未来通用人工智能发展路径的前瞻性思考[10][12][17] - 感知模块具备多模态信息接收能力和任务规划与技能观察功能 使智能体能主动从物理或虚拟世界获取信息[12] - 认知模块作为处理中枢 由大语言模型和视觉语言模型提供世界知识、逻辑推理和上下文理解能力[14] - 行动模块通过控制器生成物理世界交互指令或虚拟世界API调用[15] - 学习模块支持预训练、零样本/少样本学习、强化学习和模仿学习等机制 实现持续自我进化[16] - 记忆模块采用持久化结构化系统存储知识、逻辑和推理结果 支持长期经验积累[17] 大模型驱动机制 - 大型基础模型特别是LLM和VLM的成熟是Agent AI框架的根本驱动力 为智能体提供零样本规划能力[20] - 大模型存在的"幻觉"问题可通过环境交互机制解决 环境反馈能迫使模型内部知识与外部现实对齐[21] - 基础模型存在社会偏见风险 需通过多元化数据训练和偏见检测机制确保包容性[22] - 个人数据隐私保护需建立明确法规框架 通过提示工程和人类监督层确保安全可控[22] 游戏领域应用 - 彻底改变传统NPC由固定脚本驱动的模式 实现基于记忆、目标和情感的动态行为调整[25] - 支持玩家用自然语言与游戏世界互动 为开放世界游戏带来前所未有的沉浸感和自由度[25] - 可作为创作者副驾驶 根据指令自动生成游戏关卡、道具和完整3D场景 大幅提升开发效率[25] 机器人领域应用 - 用户可用日常语言下达指令 机器人自主规划执行复杂物理操作 如GPT-4V可将人类演示视频转化为可执行任务序列[27] - 通过领域随机化技术在模拟训练中引入变化 增强对真实世界差异的鲁棒性[27] - 融合视觉、语言、触觉等多模态信息理解环境 实现更精准的物理交互[27] 医疗健康应用 - 作为医疗聊天机器人进行初步问诊和病史收集 基于医学知识库提供诊断建议 提升初级诊疗覆盖率[29] - 连接实时更新的医学数据库 在生成诊断时同步进行事实核查和来源引用 抑制模型幻觉[29] - 处理分流患者信息并监控慢性病患者生命体征 实现高效个性化健康管理[31] 发展挑战与方向 - 需解决视觉、语言、听觉、动作等多模态深度融合问题 而非浅层拼接[32] - 需训练能跨游戏、机器人和医疗等不同领域工作的通用智能体 而非定制化模型[32] - 建立科学评测体系至关重要 研究团队已提出CuisineWorld多智能体协作基准和VideoAnalytica视频理解基准[32]
李飞飞的答案:大模型之后,Agent向何处去?
虎嗅· 2025-09-05 08:34
论文核心观点 - 李飞飞领衔的14位专家团队发布80页Agent AI综述 提出统一的多模态智能体认知框架 为行业提供前瞻性发展蓝图 [1][2][3][5][6][61] 技术架构 - 建立感知-决策-行动加记忆与学习的五模块认知闭环架构 形成动态迭代的智能交互系统 [9][10][26] - 感知模块支持多模态信息输入 包含视觉听觉文本传感器数据 并具备任务规划与技能观察能力 [12][13][14] - 认知模块由大语言模型和视觉语言模型驱动 负责多步推理与策略制定 [16][17] - 行动模块生成物理世界或虚拟世界的操作指令 通过控制器改变环境状态 [18][19] - 学习模块支持预训练/零样本/强化学习/模仿学习等多种机制 通过环境反馈持续优化 [20][21][22] - 记忆模块实现持久化结构化存储 保留知识逻辑推理路径 支持经验复用 [23][24][25] 基础模型作用 - 大语言模型和视觉语言模型为智能体提供世界知识库与零样本规划能力 显著降低任务规则编写成本 [28][29][31] - 模型存在幻觉问题 Agent通过环境交互获得物理规律反馈 倒逼模型与现实世界对齐 [32][33][34][35] - 基础模型可能继承社会偏见 需通过多元化训练数据和偏见检测机制确保包容性 [36][37] - 在医疗等敏感领域需建立数据隐私保护框架 通过提示工程和人类监督层确保安全可控 [38][39] 应用场景 - 游戏领域可创建具备记忆情感的NPC 支持自然语言交互与动态行为调整 显著提升开放世界沉浸感 [41][42][43][44] - 作为AI副驾驶自动生成游戏关卡道具及3D场景 大幅提高开发效率 [45] - 机器人领域实现自然语言指令解析 自主规划复杂物理操作序列 [47][48] - 通过GPT-4V理解人类演示视频并转化为可执行任务 简化编程流程 [49] - 采用领域随机化技术增强模拟到现实的迁移能力 提升环境适应性 [50] - 融合视觉语言触觉等多模态信息实现精细环境交互 如根据"易碎"指令调整抓取力度 [51] - 医疗领域作为聊天机器人进行初步问诊病史收集 提升初级诊疗覆盖率 [54] - 连接实时医学数据库实现事实核查与来源引用 抑制模型幻觉保障诊断准确性 [55] - 处理分流患者信息并监控慢性病体征数据 实现高效个性化健康管理 [57] 发展挑战 - 需突破视觉语言听觉动作等多模态深度融合技术 而非简单拼接 [59] - 需开发跨游戏机器人医疗等不同领域的通用智能体 而非定制化模型 [60] - 建立科学评测体系如CuisineWorld多智能体协作基准和VideoAnalytica视频理解基准 [61]
李飞飞的答案:大模型之后,Agent 向何处去?
36氪· 2025-09-04 16:28
3、大模型是驱动 Agent 的核心引擎,但环境交互是解决幻觉和偏见的关键锚点。论文强调,LLM/VLM 提供认知能力,但必须通过真实或模 拟环境的反馈来校准现实,减少幻觉,并引入伦理与安全机制。 划重点: 1、李飞飞最新论文,为当下火热的 Agent 划定了边界、确立了范式。谷歌、OpenAI 和微软等巨头的最新布局,几乎都遵循了论文给出的能力 栈。 2、论文提出了一套完整的认知闭环架构——从感知、认知、行动,到学习与记忆,构成动态迭代的智能体体系。这不仅是技术的整合,更是 对未来 AGI 路径的系统性构想。 4、应用潜力横跨游戏、机器人和医疗三大前沿领域——游戏中的沉浸式 NPC、机器人中的自主规划与物理操作、医疗中的智能问诊与健康管 理,展现了 Agent 从理论走向实践的清晰路径。 2025年,被普遍认为是 Agent 的元年,与之相关的概念从年初至今热度持续走高,包括智能体、AI Agent、Agentic AI 等等。 而就在最近,一篇由李飞飞领衔的 Agent 重磅论文在业内引发了广泛讨论,热度居高不下。网友们如此评价:"几乎是跪着看完的"、"太清晰,硬控了我3 个小时"。 这篇长达80页的综述 ...