Reinforcement Learning
搜索文档
喝点VC|红杉对谈OpenAI Agent团队:将Deep Research与Operator整合成主动为你做事的最强Agent
Z Potentials· 2025-08-14 11:33
核心观点 - OpenAI通过合并Deep Research和Operator项目,开发出能执行长达一小时复杂任务的AI Agent,具备文本浏览、GUI操作、终端访问及API调用等综合能力 [5][6][11] - 该Agent采用"强化学习+共享工具集"训练方法,所有工具共享状态,支持多轮交互和任务中断/纠正,开启"下达任务后离开"的新范式 [6][22][24] - 团队认为未来属于单一全能型Agent而非功能割裂的工具集合,因不同技能间存在显著正向迁移效应 [7][44] Deep Research与Operator的融合 - Deep Research擅长文本浏览与信息综合但缺乏GUI交互能力,Operator精于可视化操作但文本处理较弱,两者互补形成"1+1>3"效果 [9][10] - 合并后新增终端工具、图片生成、API调用等功能,可创建电子表格/幻灯片等产出物 [11][12][13] - 典型用例包括学术研究整合、购物决策辅助、财务模型构建等,最长任务耗时1小时 [16][18][20] 技术实现与训练方法 - 采用强化学习在虚拟机环境训练,模型自主掌握工具使用逻辑而非人工编程规则 [24] - 训练规模较早期项目提升约10万倍,数据效率极高,小规模高质量数据集即可实现复杂能力 [45] - 突破性在于工具状态共享和上下文长度限制突破,支持跨工具无缝切换 [6][21] 产品特性与交互设计 - 设计为开放式模糊命名,鼓励用户探索未预设的用例(如代码搜索等意外场景) [14] - 支持实时观察任务进度、中途干预、后续修改等"旁观接管"式交互 [23] - 当前专注"专业消费者"场景,兼顾个人消费与工作需求 [15] 未来发展路径 - 短期聚焦提升基础操作准确性(如表单填写等)和任务多样性覆盖能力 [46][47] - 长期探索Agent自主决策、个性化记忆及多模态交互界面 [42][49] - 技术瓶颈在于真实世界交互的稳定性(网站宕机等)和安全风险控制 [26][27] 团队协作模式 - 由原Deep Research(3-4人)和Operator(6-8人)团队合并,研究与应用团队深度协同 [30][34] - 采用"用例反推"开发模式,产品需求直接驱动模型训练 [34] - 跨部门协作涉及安全/法律/工程等多团队联合红队测试 [28][29]
市场铁律被 AI 攻破,NBER研究揭示:交易算法竟能完美合谋,自动组建卡特尔
36氪· 2025-08-05 16:54
研究核心发现 - 人工智能驱动的交易算法能够在金融市场中独立发展出类似卡特尔的行为 这种合谋行为完全通过机器学习自我演化而来 无需任何形式的沟通或预设协同程序 [1][4] 研究背景与方法 - 研究由宾夕法尼亚大学沃顿商学院和香港科技大学学者共同领导 基于标准金融市场模型进行模拟实验 [5] - 模拟市场包含多个人工智能驱动的投机者、短期交易周期、被动市场参与者及做市商 [5] - 人工智能投机者利用强化学习技术自主决策 通过试错学习最大化累积奖励 [5] 合谋策略机制 - 在低波动市场环境中 人工智能通过价格行为相互发出警告信号 对激进交易行为实施集体惩罚以维持默契 [8][9][10] - 在高波动高噪声市场中 人工智能因负面学习经验趋同于保守策略 形成系统性学习偏差(称为"人工愚蠢") [11][12] - 两种策略均使人工智能交易员获得完全竞争市场中不可能实现的超额收益 [13] 市场影响 - 人工智能合谋行为导致市场效率下降 市场价格无法准确反映资产真实价值 [14] - 整体交易量显著下降 市场定价错误增加 [14][15] 监管挑战 - 现行反垄断法律核心是禁止明确共谋协议 但人工智能协同无需沟通或协议 使现有法律框架无力监管 [16][17][18] - 算法协同是数学和学习过程的自然结果 难以识别、证明和惩罚 [19][20] - 随着人工智能在金融市场的角色加重 此类"无声合谋"可能更普遍 需建立新监管规则和监测工具 [21][22][23]
OpenAI’s GPT-5 Shines in Coding Tasks — The Information
2025-08-05 11:19
行业与公司 - 行业:人工智能(AI)与大型语言模型(LLM)[1][3] - 公司:OpenAI及其竞争对手Anthropic[4][9] 核心观点与论据 1. **GPT-5的性能提升** - 在编码任务中表现突出,尤其在软件工程领域,优于前几代模型[7][8] - 在硬科学、浏览器任务完成和创意写作方面也有改进[7] - 在头对头测试中,表现优于Anthropic的Claude Sonnet 4[10] 2. **OpenAI的战略目标** - 计划将传统GPT模型与推理模型("o"系列)整合为一个模型或聊天界面[5] - 自动化编码任务被视为实现通用人工智能(AGI)的关键组成部分[11] 3. **市场竞争与商业影响** - Anthropic凭借Claude模型在应用开发者客户中保持领先[9] - Cursor等编码助手每年向Anthropic支付数亿美元使用Claude模型[10] - GPT-5的成功可能影响OpenAI及其竞争对手的商业前景[10][12] 4. **技术改进的来源** - 改进可能主要来自推理模型而非传统LLM,涉及后训练阶段的人类专家干预[15] - 强化学习(RL)和合成数据被认为是未来改进AI模型的关键[17] 5. **潜在挑战与不确定性** - GPT-5可能是一个路由模型,而非全新开发的单一模型[13] - 预训练阶段的改进可能放缓,后训练阶段将成为重点[16] - OpenAI曾将早期LLM降级为GPT-4.5,因性能不足[14] 其他重要内容 - **行业影响**:GPT-5的强劲表现对英伟达(Nvidia)、数据中心建设公司以及AI领域的股权或债务投资者是利好消息[12] - **未来展望**:OpenAI高管向投资者表示,公司有望利用现有结构开发出"GPT-8"[17] 数据与百分比变化 - 无具体数字数据或百分比变化提及 被忽略的内容 - 特斯拉Optimus机器人计划、电池公司Lyten的现金危机等与AI无关的内容[18] - 活动预告和新闻订阅信息[19][20][21][22]
Inside OpenAI’s Rocky Path to GPT-5 — The Information
2025-08-05 11:19
行业与公司 - 行业:人工智能(AI)特别是大型语言模型(LLM)领域 - 公司:OpenAI及其竞争对手(如Anthropic、Google、xAI、Meta Platforms)[2][3][6][22] 核心观点与论据 GPT-5的开发与性能 - GPT-5将展现实际改进但性能提升幅度不及早期GPT模型(如GPT-3到GPT-4的飞跃)[6][10] - 改进包括编程任务自动化(如代码美观性和功能性增强)及复杂指令处理(如客服退款规则)[7][8][9] - 性能提升受限原因:预训练阶段高质量数据减少、模型规模扩大后调整失效[25][26] 技术挑战与突破 - 强化学习(RL)和推理模型(如o3)成为关键突破点但转化为聊天版本时性能显著下降[5][34][35] - 通用验证器(universal verifier)自动化答案质量检查提升GPT-5在编程和创意写作等领域的表现[41][43] - 计算资源优化:GPT-5能动态分配算力任务比前代更高效[13][14] 商业与竞争动态 - OpenAI商业价值依赖现有模型(如ChatGPT)增量改进即可推动客户需求[11] - 竞争对手Anthropic在自动化编码模型领先迫使OpenAI优先该领域[15] - Meta Platforms高薪挖角OpenAI研究人员涉及关键技术[19] 内部管理与合作 - 与微软关系紧张:部分研究人员抵触技术转让微软虽后者拥有2030年前知识产权独家权[16][17] - 重组谈判中微软可能获OpenAI营利部门33%股权[18] - 高层内部分歧:研究副总裁Jerry Tworek公开抱怨团队调整[20] 其他重要内容 失败项目与教训 - Orion项目(原定GPT-5)因预训练限制失败后降级为GPT-4.5并失去影响力[23][24] - o3推理模型虽在科学领域(如核聚变)有应用但聊天版本性能退化[38] 行业趋势 - 全行业(xAI、Google等)押注强化学习作为AI进步关键路径[44] - OpenAI CEO Altman公开宣称GPT-5“几乎在所有方面比人类更聪明”引发市场高预期[45][46] 数据与资源 - OpenAI计划未来3.5年投入450亿美元用于服务器租赁[11] - o3父模型性能提升依赖更多NVIDIA芯片和网络/代码库检索能力[30] 可能被忽略的细节 - 微软测试显示GPT-5答案质量提升但未显著增加算力消耗[13] - 早期模型o1和o3基于同一底层模型(GPT-4o)但o3父模型在科学领域理解力显著更强[29] - 模型命名混乱:o系列因混淆用户被弃用回归GPT品牌[39]
ChatGPT Agent 团队专访:基模公司做通用 Agent,和 Manus 有什么不一样?
Founder Park· 2025-07-23 21:23
ChatGPT Agent技术架构 - 结合深度研究和Operator两大方向,创造具备文本浏览器、图形界面浏览器及终端权限的多工具集成Agent,实现工具间状态共享[6][7] - 通过强化学习在数千个虚拟机训练,模型自主探索工具使用策略而非预设编程模式,完成需1小时执行的复杂任务[10][11][18] - 技术突破包括突破上下文长度限制的扩展能力,以及实时观察/干预的虚拟计算机界面设计[19][21] 核心功能与应用场景 - 典型任务覆盖深度研究报告生成、商业操作(预订/采购)、幻灯片/表格制作及数据分析,支持B2C/B2B混合的"专业消费者"场景[13][16] - 演示案例包括自动搜集OpenAI财务数据生成估值模型幻灯片(耗时28分钟),以及古代DNA研究资料整合[16][15] - 代码处理能力表现为交互式函数建议而非全量重写,与Codex形成互补[24][25] 训练方法与工程挑战 - 训练数据采用小规模高质量数据集,强化学习数据效率比预训练高数个量级[29][32] - 关键难点在于维持数千虚拟机同时联网训练的稳定性,以及"比特世界2"项目鼠标路径识别等历史难题的算力突破(计算量增长约10万倍)[22][29] - 安全机制包含多层监控体系,针对金融操作/生物危害等风险进行专项红队演练[36][39] 未来发展方向 - 目标构建通用型Agent框架,覆盖人类计算机操作全任务集,通过迭代提升准确率[23][33] - 探索个性化/记忆功能、主动任务触发等新型人机交互范式[26][34] - 技术路线倾向于单一底层模型支持多技能迁移,而非垂直领域子Agent分化[27]
自动驾驶论文速递 | 世界模型、端到端、VLM/VLA、强化学习等~
自动驾驶之心· 2025-07-21 12:14
Orbis模型技术突破 - 弗莱堡大学提出基于流匹配的连续自回归世界模型Orbis,在仅使用280小时单目视频数据和4.69亿参数条件下实现长时程预测性能突破 [1] - 在nuPlan数据集上FVD指标降至132.25(6秒预测),转弯场景轨迹精度(Frechet Precision)提升至0.47 [1] - 设计混合离散-连续tokenizer实现两种建模方法的公平对比,发现连续建模在长视野预测中显著优于离散建模 [2] - 模型在复杂驾驶场景(如转弯、城市交通)中表现突出,超越Cosmos、Vista等基线模型 [6][8] LaViPlan框架创新 - ETRI团队提出基于可验证奖励强化学习(RLVR)的语言引导视觉路径规划框架 [12] - 在ROADWork数据集上将轨迹预测ADE降低19.91%(Easy场景)和14.67%(Hard场景) [12] - RLVR使模型输出从语言忠实性转向功能准确的轨迹,揭示语义相似性与任务特定推理间的权衡 [14] - 相比监督微调需显著更少的训练样本,在强化阶段纳入硬案例能实现更好的泛化能力 [15] 世界模型驱动的场景生成 - 澳门大学团队提出世界模型驱动的驾驶场景生成框架与增强动态图卷积网络 [23] - 在DAD数据集上实现83.2% AP(提升7.0%)和3.99秒mTTA(提升9.1%) [23] - 发布包含4800样本的AoTA数据集,环境因素分布比DAD数据集更平衡 [32] - 利用视觉语言模型提取事故相关领域特征,生成保留原始特征分布的合成场景 [28] ReAL-AD类人推理框架 - 上海科大与港中文提出通过视觉语言模型驱动三层人类认知决策的端到端自动驾驶框架 [33] - 在nuScenes和Bench2Drive数据集上将规划精度(L2误差)提升33%、碰撞率降低32% [33] - 驾驶安全分数提升至41.17,战略推理注入器构建高层驾驶策略,战术推理整合器细化战术选择 [39][42] - 分层轨迹解码器将战术决策转化为精确控制动作,验证了各组件的有效性 [39]
突破高分辨率图像推理瓶颈,复旦联合南洋理工提出基于视觉Grounding的多轮强化学习框架MGPO
机器之心· 2025-07-21 12:04
核心观点 - 提出基于视觉 Grounding 的多轮强化学习方法 MGPO,使多模态大模型(LMMs)能在多轮交互中自动预测关键区域坐标,裁剪子图像并整合历史上下文,实现高分辨率图像的精准推理 [1][8] - MGPO 无需额外 Grounding 标注,仅通过最终答案正确性的反馈即可让模型涌现出鲁棒的视觉 Grounding 能力 [2][8] - 相比监督微调(SFT)和 GRPO,MGPO 在高分辨率图像 Benchmark 上表现显著提升,在 MME-Realworld 和 V* Bench 分别提升 5.4% 和 5.2% [18] 方法创新 - 自上而下的可解释视觉推理:赋予 LMMs 问题驱动的视觉搜索机制,提供可解释的视觉 Grounding 输出 [2] - 突破最大像素限制:即使高分辨率图像缩放后模糊,模型仍能准确识别相关区域坐标并从原始图像中裁剪出清晰子图像 [2] - 固定两回合对话模板:解决模型冷启动问题,第一轮要求输出区域坐标,第二轮回答问题 [13] 实验结果 - 在 V* Bench 上,MGPO 达到 76.4 分,超过 GRPO 的 71.2 分和 SFT 的 71.7 分 [18] - 基于 7B 模型和 2.1 万样本训练的 MGPO 模型超过 OpenAI 的 o1(69.7 分)和 GPT-4o(73.9 分)[18] - RL 训练过程中,MGPO 生成的有效 Grounding 坐标比例显著上升,证明其自主涌现视觉 Grounding 能力 [19] 技术原理 - 模拟人类多步视觉推理:先预测关键区域坐标并裁剪子图像,再结合上下文进行推理 [10] - 坐标归一化与子图像裁剪:从原始高分辨率图像中裁剪清晰子图,避免缩放导致的细节丢失 [15] - 仅需标准 VQA 数据即可训练,无需昂贵 Grounding 标注 [8][19]
L4产业链跟踪系列第三期-头部Robotaxi公司近况跟踪(技术方向)
2025-07-16 14:13
纪要涉及的行业和公司 - 行业:自动驾驶(Robotech)行业 - 公司:小马、百度、文远、滴滴、Otto X、Vimo 纪要提到的核心观点和论据 技术架构与算法框架 - 最初自动驾驶底层算法框架是模块化做法,包含感知、预测、规控、规划和控制,如今强化学习和世界模式加入,但原框架未完全拿掉 [2] - 产业链车企经历从CNN架构到transformer的转变,小马逐步将规则方案替换为模型输出,出发晚的车企替换更容易,小马因原有方案基线高,替换需更长时间 [3][4] - 感知和预测模块很早就用模型做,规控模块虽有模型应用但未完全大模型化,业界多是一段式端到端化,大语言模型未上车,模型训练已使用transformer底层架构 [5][6][7] 数据处理 - 小马内部有模块化和端到端两种方案,模块化方案目前大部分用真实数据,端到端和规控模型化会增加仿真数据使用,因规控数据不足,仿真数据可解决corner case问题 [8][9] 学习方法应用 - 模仿学习较早用于规则处理不好的场景,强化学习用于e2e模型和部分小模块,使用比例不大 [11] 车辆投放 - 目前有安全冗余或测试车辆约小几百(300)辆,主要投放于北京和广州(北京在益州,广州在南沙区),深圳(前海)和上海较少 [14] - 今年计划扩大投放,主要城市为北京、广州和深圳,若上海拿到牌照也会增加投入 [21] 车辆成本与配置 - 车辆成本十几万,加装成本为主,包括9个激光雷达、13 - 14个相机、4个Orin X车载芯片及定位、线控等模块,成本在几万块以内,之前对内称整套成本可控制在20万以内 [15] 算力分配与融合方案 - 算力架构采用前融合和后融合并存,有冗余性,4个Orin X芯片中3个开启,1个备用。第一个芯片运行大部分感知模型,第二个芯片运行部分无雷达输入或对实时性要求稍低的模型,第三个芯片部分模型可能移至第二个芯片 [17][18] - 目前算力吃紧,2024年部分精力用于削减个体量化,暂无换CPU计划 [19] 运营经济账 - 每辆车每天接单约30单,每单平均价格约29元,可据此估算营收。成本主要是电费、车辆折旧费,还有人工充电、车辆维修等成本,1000多辆车可实现盈亏平衡 [24][25] - 后台安全员人车比去年为1:3 - 1:6,现在部分情况可达1:20 [25] 商业化落地排序 - 全球来看,Vimo在美国落地较多,走在前面;国内参与者中,小马、百度的阿波罗、文远较靠前,滴滴靠后,Otto X、袁隆等已停止相关业务 [27][28] - 小马拿商业牌照速度比百度快,内部端到端模型在某些情况下输出结果优于模块化模型,未来有望切换到端到端方案 [28][29] 其他重要但是可能被忽略的内容 - 公司计划在2027年底或2028年底实现公司层面盈亏平衡,可能需要万辆以上甚至十万辆车 [26] - 后续会议将关注无人物流等行业头部公司进展 [30]
最强人才接连被挖,创业大佬离开 OpenAI 后说了实话:7 周硬扛出 Codex,无统一路线、全靠小团队猛冲
AI前线· 2025-07-16 13:08
核心人才流动 - OpenAI研究员Jason Wei和Hyung Won Chung将加盟Meta超级智能实验室 两人在OpenAI的Slack账户已停用 [1] - Jason Wei曾参与OpenAI的o3模型开发 是强化学习领域的专家 此前在谷歌专注于思维链研究 [1] - 人才流动引发外界对OpenAI团队文化的好奇 前员工Calvin French-Owen分享内部观察 [2][3] 公司文化特征 - OpenAI采用自下而上的研究模式 没有统一路线图 研究方向由研究员兴趣驱动 [10][11] - 沟通高度依赖Slack 任职期间仅收到10封邮件 信息管理依赖个人组织能力 [10] - 决策迅速 能根据新信息快速转向 体量庞大仍保持敏捷性 [12] - 推崇任人唯贤 领导晋升取决于提出好问题和实践能力 而非会议说服力或政治手腕 [11] 研发与项目运作 - Codex项目仅用7周完成 由8名工程师 4名研究员等组成的小团队推动 [26][28] - 采用"迷你主管"模式 研究人员自主探索问题 结果导向决定资源投入 [12] - 存在多个并行原型项目 如Codex发布前内部有3-4个不同原型在推进 [11] - 使用单体monorepo代码库 主要语言为Python 服务运行在Azure Kubernetes上 [20][22] 业务与竞争格局 - 最大成本为GPU算力 Codex某项功能的GPU成本相当于Segment整个基础设施 [17] - 同时竞争数十个领域 包括API产品 深度研究 硬件 图像生成等 [18] - 面临Meta 谷歌 Anthropic三足鼎立的AGI竞争格局 [33] - 高度关注Twitter舆论 有专人跟进热门帖文 被戏称"靠网络舆论运转" [18] 产品与技术特点 - ChatGPT Connectors采用异步方案 用户可像对待同事一样与编程智能体交互 [28] - Codex擅长处理大型代码库 能同时启动多任务比较输出 发布53天生成63万条PR [30] - 模型训练经历从小规模实验验证到大规模运行的工程化过程 [24] - 安全团队规模庞大 优先处理实际风险如仇恨言论 生物武器制造等 [16] 组织扩张与挑战 - 员工数量从1000人快速扩张至3000人 任职一年的员工资历排名前30% [10] - 不同团队文化差异显著 有的全力冲刺 有的稳定推进 有的专注临门一脚 [10] - 工程工具跟不上团队扩张速度 主服务器CI频繁中断 测试运行需半小时 [22] - 保留技术理想主义 以实现AGI为目标 允许试错并快速修正 [4][15]
倒计时2天,即将开课啦!从0基础到强化学习,再到sim2real
具身智能之心· 2025-07-12 21:59
具身智能技术发展 - 具身智能技术正在快速成为现实 全球顶尖科技公司如Tesla、Boston Dynamics、OpenAI、Google等都在布局这一领域 该技术将彻底改变制造业、服务业、医疗健康、太空探索等行业 [1] - 具身智能的核心在于让AI系统不仅拥有"大脑" 还要拥有能够感知和改变物理世界的"身体" 使其能够理解物理定律、掌握运动技能、适应复杂环境 [1] - 该技术的应用场景包括工厂精密装配、医院手术协助、家庭贴心服务、危险环境救援等 潜在影响力是革命性的 [1] MuJoCo技术优势 - MuJoCo是连接虚拟世界与现实世界的重要桥梁 为机器人学习提供高保真、高效率的训练环境 [3] - 相比传统方法 MuJoCo可使仿真速度比现实时间快数百倍 支持高度并行化计算 可同时运行成千上万个仿真实例 [5] - MuJoCo采用先进接触动力学算法 精确模拟机器人与环境的复杂交互 提供视觉、触觉、力觉等多种感知模态 具有出色稳定性和数值精度 [5] 行业应用与认可 - MuJoCo已成为学术界和工业界标准工具 大量前沿研究基于MuJoCo进行 Google、OpenAI、DeepMind等科技巨头都在使用该技术 [7] - 掌握MuJoCo意味着站在具身智能技术最前沿 拥有参与技术革命的入场券 [7] 课程内容设计 - 课程采用项目驱动学习方式 包含六个递进式实战项目 从机械臂控制到人形机器人行走、灵巧手抓取、多智能体协作等前沿应用 [9][15] - 项目一:智能机械臂控制系统 涉及MuJoCo建模、物理仿真、基础控制等技术 构建六自由度机械臂模型 [17][18] - 项目二:视觉引导的抓取系统 添加视觉感知能力 实现物体检测和抓取 理解感知与控制的关系 [19] - 项目三:强化学习驱动的运动技能 训练智能体学会复杂运动技能 如机械臂抛接球、四足机器人奔跑等 [20] - 项目四:自适应控制与轨迹优化 实现模型预测控制算法 进行实时轨迹优化 [21] - 项目五:多机器人协作系统 设计多机器人协调配合 共同完成复杂任务 [22] - 项目六:Sim-to-Real迁移验证 通过域随机化技术提高鲁棒性 在真实机器人上进行验证 [23] 技术能力培养 - 课程将培养学员掌握MuJoCo各项功能 构建复杂机器人仿真环境 实现高保真物理交互 [25] - 深入理解强化学习核心算法 掌握机器人控制理论基础和实践技巧 实现精确运动控制和轨迹跟踪 [25] - 掌握Sim-to-Real迁移技术 将仿真成果成功应用到真实世界 [25] - 培养完整项目开发经验 熟悉现代AI开发工具链 包括Python生态、深度学习框架等 [25] - 通过六个递进式项目实践 培养独立解决复杂问题的能力 成为具身智能领域复合型人才 [26] 课程安排 - 课程采用六周渐进式学习设计 每周有明确学习目标和实践项目 [14] - 每周内容:MuJoCo基础入门、高级建模与传感器集成、强化学习与智能决策、机器人控制理论、多智能体系统、Sim-to-Real迁移 [17] - 开课时间为2025年7月15日 采用离线视频教学 vip群内答疑方式 [27] 目标人群 - 机器人/强化学习方向研究生、本科生 期望快速补齐实战能力 [29] - 具身与机器人从业者 已有编程或算法基础 想进军该领域 [29] - 从传统CV、自动驾驶、机械臂转向具身机器人研究或工程的转行者 [29] - 对前沿技术感兴趣的爱好者 [29]