ChatGPT Agent 团队专访:基模公司做通用 Agent,和 Manus 有什么不一样?
Founder Park·2025-07-23 21:23
ChatGPT Agent技术架构 - 结合深度研究和Operator两大方向,创造具备文本浏览器、图形界面浏览器及终端权限的多工具集成Agent,实现工具间状态共享[6][7] - 通过强化学习在数千个虚拟机训练,模型自主探索工具使用策略而非预设编程模式,完成需1小时执行的复杂任务[10][11][18] - 技术突破包括突破上下文长度限制的扩展能力,以及实时观察/干预的虚拟计算机界面设计[19][21] 核心功能与应用场景 - 典型任务覆盖深度研究报告生成、商业操作(预订/采购)、幻灯片/表格制作及数据分析,支持B2C/B2B混合的"专业消费者"场景[13][16] - 演示案例包括自动搜集OpenAI财务数据生成估值模型幻灯片(耗时28分钟),以及古代DNA研究资料整合[16][15] - 代码处理能力表现为交互式函数建议而非全量重写,与Codex形成互补[24][25] 训练方法与工程挑战 - 训练数据采用小规模高质量数据集,强化学习数据效率比预训练高数个量级[29][32] - 关键难点在于维持数千虚拟机同时联网训练的稳定性,以及"比特世界2"项目鼠标路径识别等历史难题的算力突破(计算量增长约10万倍)[22][29] - 安全机制包含多层监控体系,针对金融操作/生物危害等风险进行专项红队演练[36][39] 未来发展方向 - 目标构建通用型Agent框架,覆盖人类计算机操作全任务集,通过迭代提升准确率[23][33] - 探索个性化/记忆功能、主动任务触发等新型人机交互范式[26][34] - 技术路线倾向于单一底层模型支持多技能迁移,而非垂直领域子Agent分化[27]