Workflow
元认知
icon
搜索文档
破解「长程智能体」RL训练难题,腾讯提出RLVMR框架,让7B模型「思考」比肩GPT-4o
机器之心· 2025-08-14 09:26
腾讯混元AI数字人团队RLVMR框架研究 核心观点 - 提出RLVMR框架解决长程智能体存在的低效探索和泛化脆弱难题,通过奖励"思考过程"而非仅结果,实现端到端强化学习[4][6][26] - 7B模型在ALFWorld和ScienceWorld的L2任务中成功率高达83.6%,超越GPT-40等SOTA模型[11][12] - 智能体动作效率提升28.1%,训练收敛速度更快[13][14] 技术突破 - **元推理状态机制**:要求智能体行动前标记认知阶段(规划/探索/反思),使思考过程可追踪[7][15] - **可验证过程奖励**:轻量级验证规则实时评估思考质量,杜绝"瞎蒙"行为[8][15] - **双阶段训练**:冷启动SFT学习基础推理概念+强化学习RL内化能力,形成成长曲线[22][23][25] 实验数据 - **成功率对比**: - ALFWorld L2:RLVMR 83.6% vs GPT-40 68.8% vs DeepSeek-V3 53.9% [12] - ScienceWorld L2:RLVMR 32.2% vs GPT-40 41.0% vs GiGPO 25.8% [12] - **效率提升**: - ALFWorld L2动作数从28.9降至15.4(降幅46.7%)[14] - ScienceWorld L1动作数从27.9降至18.8(降幅32.6%)[14] 认知科学应用 - **反思机制**:使智能体主动识别问题而非盲目重试,重复动作率显著降低[18][19] - **元问题解决框架**:建立跨任务的通用思维方法论(规划-探索-反思),L2任务表现提升56.3%[20][21] - **过程奖励必要性**:移除元推理奖励(AMC)导致ALFWorld L2性能下降45.3%→12.5%[23] 行业意义 - 实现从结果导向到过程导向的范式革新,推动AGI向可解释、鲁棒性方向发展[26][27] - 验证"思维模式强化"路径的有效性,为构建具备真正推理能力的智能体提供方法论[21][26]
吵架,如何更高级和有效?
虎嗅· 2025-08-06 17:08
从这个剧里,我学到了如何和他人建立更深的 connection ,如何更高级地表达爱、很高级地去赞美、更 高级地去展示愤怒。 第一季第一集,Chuck 作为联邦检察官准备起诉对冲基金大佬 Axe 的基金,而老婆 Wendy 正在这家基 金工作可能有利益冲突,于是夫妻俩 Wendy 和 Chuck 为了她是否应该离开基金开始争吵。在六个来回 凶猛的吵架对话之后,冷静了一秒钟,立马转变成自己脆弱的表达和对对方的赞美。 Wendy: Let's take this down a notch. (温蒂:我们都冷静点)——停止攻击和发泄情绪。 我看美剧是要记笔记的。 看《国土安全》让我对如何审讯一个人有了新的洞见,原来瓦解一个人,不一定靠的是暴力和折磨,可 以是展示脆弱和建立 deep connection。 看《扪心问诊》时我把以前看书学到的精神分析和行为分析的方法又复习了一遍。 《老友记》教会了我如何用美式思维方式调侃。 看《CSI》我研究着 FBI 团队每次如何分工、如何做罪犯侧写、如何分析 signature 和 MO 的区别。 甚至看《权力的游戏》我都能记点领导学的笔记。 而最近几年对我影响最深的美剧就是《亿 ...
6小时复刻AI IMO金牌成果,蚂蚁多智能体新进展已开源
量子位· 2025-08-02 16:33
核心观点 - 多智能体协同系统在IMO 2025竞赛中展现出超越单模型的解题能力,通过「解题者+验证者」双角色对话机制实现复杂数学问题的求解[6][10][19] - AWorld框架在6小时内复现DeepMind的5/6道IMO解题结果,并开源可运行的多智能体系统[2][15] - 多智能体协同通过动态构建高质量输入信息、实施元认知功能和降低信息熵,解锁基础模型的深层潜力[8][11][14] 技术突破 - 多智能体系统首次工程验证:群体智力上限超越依赖的单个模型(Gemini 2.5 Pro等)[6][10] - 实现"元认知"功能:通过角色扮演执行自我监控、评估和修正,避免单模型思维定式[12][13] - 事件驱动架构超越LangChain框架,支持智能体间异步通信与复杂实时交互[16][17] 系统架构 - 双智能体机制:做题家生成数学证明,验证者进行严格验证,通过多轮迭代优化解答[19] - 模型即插即用设计:30秒内可切换OpenAI/Gemini/Claude等主流大模型[20] - 全链路可观测性:提供决策追踪、工具调用监控和完整日志记录[18] 性能表现 - 在GAIA Test榜单达到77.08分,开源工作中排名第一[15] - 单模型连续10次推理失败的第3题,多智能体系统在第5轮迭代即完成解答[10] - 当前系统数学能力超越99%人类选手(测试集有限)[23] 行业影响 - 证明AI智能上限取决于组织方式而非单纯模型规模,开辟群体智能新路径[24] - 开放训练接口形成"数据-训练-部署"闭环,支持智能体持续自我进化[26] - 下一步将探索「多智能体+形式化验证」组合,目标直指Lean4形式化证明[25]
ChatGPT大更新推出学习模式!“一夜之间1000个套壳应用又死了”
量子位· 2025-07-30 08:24
ChatGPT学习模式推出 - 公司正式推出学习模式,旨在引导用户逐步思考而非直接提供答案[1] - 该功能已向免费版、Plus、Pro和Team用户开放,Edu用户将在未来几周内获得[2] - 学习模式不仅可用于问题辅导,还能帮助用户准备考试[3] 教育应用与影响 - 数据显示约三分之一的大学生使用ChatGPT辅助学业,但存在直接抄答案的担忧[4] - MIT研究发现使用ChatGPT写作文的人大脑活动较低,显示批判性思维可能受损[5] - 公司表示不会立即推出锁定学生模式的工具,但未来可能探索此功能[10] 学习模式设计原理 - 学习模式通过引导性问题促使用户自主思考,而非直接给出答案[12][13] - 该模式是与教师、科学家及教学法专家深度合作的成果,基于学习科学研究[15] - 采用定制系统指令驱动,融合主动参与、认知负荷管理等教育原理[15] 核心功能特点 - 交互式提问:结合苏格拉底式提问和自我反思提示引导学习[16] - 支架式响应:信息被组织成易于理解的部分,突出关键联系[16] - 知识点检查:通过测验和开放式问题提供个性化反馈[17] - 个性化教学:根据用户技能水平和对话记忆提供定制内容[18] - 灵活切换:用户可随时开启或关闭学习模式[19] 实际应用案例 - 学习"博弈论"时,系统会制定多阶段学习路线图[20] - 教学过程穿插引导性示例、思想实验和检验性问题[21] 未来发展计划 - 当前功能通过自定义系统提示词实现,未来将直接训练到主要模型中[24] - 改进方向包括更清晰的可视化展示、进度跟踪和深度个性化[24] - 公司与多个合作伙伴开展研究,包括斯坦福大学SCALE计划[24] - 承诺发布模型设计与认知联系的深入分析[25] 战略意图 - CEO对传统教育持怀疑态度,认为18年后教育将截然不同[26][27] - 公司可能从根本上重塑未来教育模式[28]
虚假相关性:很多看似相关的事情之间根本无关
36氪· 2025-07-25 15:14
虚假相关性现象 - 虚假相关性指人们倾向于高估两个变量之间的关系即使这种关系并不存在最初由洛伦·查普曼和简·查普曼提出[1] - 69%的外科护士认为满月会导致住院人数增加体现了医疗领域中的虚假关联现象[1] - 急诊等高压环境容易滋生虚假相关性因为人们需要解释环境的不确定性[2] 形成机制 - 心理捷径(可获得性启发式)使人们优先使用易获取的信息建立本不存在的关联[2] - 虚假相关性容易被合理化例如将面试失败归因于周五或将比赛胜利归因于特定球鞋[2][5] - 列联表分析显示人们主要关注"结果与潜在原因同时存在"的情况而忽略其他组合[7] 识别与应对 - 列联表工具可帮助识别虚假相关性分为四种情况组合重点关注A类(结果与原因同时存在)[3][7] - 挑战假设需要元认知练习尤其在压力状态下需额外投入脑力验证关联真实性[8] - 建议对自我归因进行反思例如思考"Y是否由其他原因导致"或"Y是否自然发生"[7]