Workflow
AI下半场
icon
搜索文档
姚顺雨腾讯首篇论文:给AI下半场指路“上下文学习”
搜狐财经· 2026-02-04 18:20
文章核心观点 - 当前最先进的大型语言模型在真实世界的复杂任务中表现不佳,其核心缺陷在于严重依赖预训练获得的静态“参数化知识”,而缺乏从给定上下文中实时学习并应用新知识的能力,这阻碍了AI从“做题家”向实用工具的转变 [4][6][27] - 腾讯混元与复旦大学团队推出的CL-bench基准测试量化了这一差距,测试显示即便最强的GPT-5.1 (High)模型,在必须从上下文中学习新知识才能解决的任务上,总体解决率也仅为23.7% [4][19][23] - 该研究呼应了“AI下半场”的判断,即行业重点应从盲目扩大模型规模转向提升模型在真实任务和系统中的评估与实用能力 [2][27] AI模型能力评估与瓶颈 - **整体表现堪忧**:在CL-bench的500个复杂上下文、1899个任务上,评估的十个前沿语言模型平均仅解决了17.2%的任务,表现最好的GPT-5.1 (High)解决率为23.7%,最差的DeepSeek V3.2 Thinking解决率为13.2% [19][23] - **跨场景能力不均**:模型在四类上下文学习场景中表现存在差异,在“经验发现与模拟”这类需要归纳推理的任务上表现最差,GPT-5.1 (High)在此类任务上的解决率仅为18.1%,而多数模型在此类任务上的解决率通常低于10% [8][23][25] - **错误根源分析**:模型失败的主要原因是忽略或误用上下文,而非信息缺失。例如,GPT-5.1 (High)有55.3%的错误源于忽略上下文,65.4%的错误源于误用上下文。模型倾向于依赖预训练的静态知识,而非学习上下文中的新规则 [23][24] - **推理强度作用有限**:增加模型的推理强度对提升上下文学习能力效果有限。例如,GPT-5.1在部分任务上提升约6%,但其他模型提升有限甚至可能下降,表明仅靠更多推理步骤并不足够 [29] CL-bench基准测试设计 - **测试目标明确**:基准旨在量化模型从上下文中学习预训练中不存在的新知识并加以应用的能力,其设计原则是解决任务必须依赖上下文学习 [6] - **内容构建严谨**:基准包含500个由领域专家精心制作的复杂上下文、1899个任务和31607个验证标准。为确保无数据泄露,内容采用完全虚构、修改现实或整合极小众资料的方式构建,每个上下文平均耗时约20小时标注 [6][19] - **覆盖场景广泛**:测试涵盖四种现实世界场景:1) 领域知识推理(如新法律、金融工具);2) 规则系统应用(如新游戏机制、编程语法);3) 程序性任务执行(如工作流手册);4) 经验发现与模拟(从数据中归纳规律) [8] - **有效性验证**:在不提供上下文的情况下,GPT-5.1 (High)仅能解决不到1%的任务,有力证明了任务设计有效,模型几乎无法凭记忆解决 [19] 行业发展趋势与公司动向 - **研究方向转变**:行业研究重点正从“训练大于评估”的上半场,转向“评估大于训练”的下半场,更关注模型在真实任务中的检验而非单纯堆叠规模 [2][27] - **腾讯的布局**:提出“AI下半场”判断的姚顺雨已正式加盟腾讯,担任总办首席AI科学家,并向总裁刘炽平汇报,同时兼任AI Infra部、大语言模型部负责人,此项CL-bench研究由其提供建议并由腾讯混元与复旦大学团队合作完成 [27] - **未来目标明确**:研究团队指出,当前明确的目标是让上下文学习能力真正走向现实,这将是推动AI实用化的关键一步 [27]
姚顺雨腾讯首篇论文:给AI下半场指路“上下文学习”
量子位· 2026-02-04 09:01
文章核心观点 - 腾讯首席AI科学家姚顺雨参与的首个研究成果CL-bench发布,该基准旨在测试大模型“从上下文中学习”的能力,揭示了当前最先进的大语言模型在此核心能力上存在严重短板,即便提供全部所需信息,模型在绝大多数真实世界任务上仍会失败 [1][2][4] - 研究指出,当前AI发展已进入“下半场”,重点应从大规模训练转向对模型在真实任务和系统中表现的严格评估,模型需从依赖预训练静态知识的“参数推理者”转变为能实时吸收“当下”环境信息的学习者 [4][5][14] - 评测结果显示,十个前沿大模型在CL-bench上的整体任务解决率平均仅为17.2%,表现最佳的GPT-5.1 (High)也仅达到23.7%,表明模型普遍缺乏从复杂上下文中学习并应用新知识的能力 [7][28][29] CL-bench基准测试的设计与目的 - **设计目标**:量化模型从上下文中学习新知识的能力差距,要求模型必须从提供的上下文中学习预训练数据中不存在的新知识并正确应用 [15] - **测试规模**:基准包含由领域专家精心制作的500个复杂上下文、1899个任务和31607个验证标准 [15] - **内容设计**:采用无污染设计,使用完全虚构、修改现实或小众长尾的内容,确保测试的是真正的学习能力而非数据记忆。在不提供上下文时,GPT-5.1 (High)的任务解决率低于1% [25] - **任务场景**:涵盖四大类现实世界场景:领域知识推理、规则系统应用、程序性任务执行、经验发现与模拟 [19] - **任务案例**:包括基于2.3万字新法律判案、根据新编程语言规范写程序、在新框架中执行代码、模拟全球关键金属供应等 [22] - **投入成本**:领域专家平均花费约20小时标注每个上下文,以保证任务质量 [26] 前沿大模型评测结果 - **整体表现低迷**:在CL-bench上评估的十个最先进语言模型平均仅解决了17.2%的任务 [29] - **领先模型表现**:表现最好的GPT-5.1 (High)整体任务解决率为23.7%,在四大类任务中的解决率分别为:领域知识推理25.3%、规则系统应用23.7%、程序性任务执行23.8%、经验发现与模拟18.1% [29][30] - **其他模型表现**:Claude Opus 4.5 Thinking以21.1%位列第二,GPT 5.2 (High)为18.1%,o3 (High)为17.8%,Kimi K2 Thinking为17.6%,混元HunYuan 2.0 Thinking为17.2%,其余模型如Gemini 3 Pro、Qwen 3 Max、Doubao 1.6、DeepSeek V3.2的解决率在13.2%至15.8%之间 [29][30] - **归纳推理是短板**:模型在需要从数据中归纳规律的经验发现与模拟类任务上表现最差,解决率通常低于10%,且结果波动大 [32] 模型失败原因分析 - **主要错误类型**:忽略或误用上下文是失败主因,而非信息缺失。例如,GPT-5.1 (High)有55.3%的错误源于忽略上下文,61.5%源于误用上下文 [31] - **依赖静态知识**:模型倾向于调用预训练中学到的静态知识来解决问题,即使上下文明确定义了新的规则或概念,模型也不会学习和利用 [31] - **推理强度作用有限**:提高推理强度对提升上下文学习能力的效果有限。例如,GPT-5.1在某些任务上提升约6%,但其他模型提升有限甚至可能下降 [33] - **核心结论**:即使通过上下文工程为模型提供了所需信息,如果模型不能真正从中学习,依然会失败。这解释了语言模型在真实场景中经常出错的原因 [36] 研究背景与行业意义 - **研究理念**:此项研究是姚顺雨关于“AI下半场”判断的具体实践,即AI发展重点应从训练转向评估,让模型在真实任务中经得起检验 [4][37][38] - **团队构成**:研究由腾讯混元与复旦大学团队合作完成,姚顺雨在加盟腾讯后提供了鼓励和宝贵建议,其审阅和反馈提升了工作质量 [39] - **行业启示**:与其继续盲目追求模型规模或刷榜,行业应更清晰地诊断模型在核心能力上的缺陷,推动上下文学习能力走向现实 [37][40]
千问会是阿里的豆包时刻吗?
36氪· 2026-01-15 19:32
阿里千问产品发布会核心观点 - 阿里巴巴通过新版千问App,将AI定位为直接承载并执行用户需求的服务中枢,而非仅提供信息或建议,其核心验证方式是通过现场演示完成从意图理解到交易执行的端到端闭环,例如现场下单40杯奶茶[1] - 公司此次产品更新的实质是将其庞大的自有商业生态(如淘宝、支付宝、高德、飞猪等)整合并重排,通过AI交互模式打造一个可调度多业务、执行复杂任务的“超级App”或“应用级操作系统”,这被视为阿里在AI应用下半场的关键布局[3][13][15] 产品功能与场景覆盖 - **生活消费场景**:千问App最大特征是减少人工操作、打通执行链路,用户可通过语音或文字指令直接完成点外卖等消费,全程无需跳转至淘宝或支付宝页面,实现了交易体验在端内的闭环[3] 系统支持复杂任务处理,如多人点单时可自动生成个性化口味与品牌组合方案[3] - **旅行规划场景**:对于“春节带家人去三亚旅游”这类复合型任务,千问能联动飞猪、高德等能力,自动生成涵盖机票、酒店、导航、打车与餐饮的一体化解决方案,并提供多个可按价格或偏好调整的路径方案,逻辑从“提供商品”转向“生成方案”[6] - **生活办事场景**:千问接入了支付宝生活服务体系,目前已覆盖50项常见民生事务,如签证办理、户口迁移、公积金与医保查询等[9] 用户输入模糊意图(如“杭州户口如何办护照”),系统能自动给出办理路径、材料清单并引导至政务服务页,试图建立能接住模糊意图的自动引导平台[10] - **办公与教育场景**:在办公场景,千问能处理如将100张电子发票整理成Excel台账的结构化信息拆解与重构任务[12] 在教育场景,产品定位为“助教”,覆盖智能出题、作业批改、错题分析等20多项教学功能,旨在增强教师效率而非取代[12] 技术演示与体验升级 - 发布会现场演示了AI语音通话能力,千问可致电餐厅订座,其生成的声音自然逼真,未被餐厅老板识别为AI[4] - 在购物决策场景,系统能分析用户意图、调取淘宝商品与评论数据,并结合天气等外部条件生成个性化推荐清单(如为“去东北四姑娘山徒步”推荐装备)[6] 行业竞争与战略路径 - AI应用已进入下半场,评估重点从模型能力指标转向用户体验、任务稳定性和低延迟,模型的“聪明程度”与产品的“用户数”之间不一定正相关[14] - 腾讯与阿里采用不同策略:腾讯的元宝以“AI能力嵌入”现有功能(如微信搜索、文档)为主,不重塑界面;阿里的千问则激进地以AI为主导,重塑交互结构,将旗下独立服务接口重组为统一的Agent操作系统[15] - 阿里千问的产品形态得益于公司2025年的组织结构调整,即重组消费业务,强化淘宝作为大消费平台的定位,为AI整合奠定了基础[15] 上线不到两个月,千问C端月活跃用户已突破1亿[15] - 对比海外进度,谷歌虽与沃尔玛等零售商推进AI购物合作并发布“通用商业协议”(UCP),但尚未上线;阿里凭借其自有生态的集成度,在生活与工作闭环的跑通上已领先一步[2] 市场定位与影响 - 与字节跳动的豆包手机(以硬件形态封装AI能力)不同,千问作为App形态的AI执行中枢,通过软件调度阿里系业务,实现了类似豆包手机的多数实用功能[3] - 此次千问App上线了400多项新功能,主要覆盖超级生活管家、超级工作搭档、超级家教三大场景[2]
27岁掌舵腾讯大模型,非典型天才定义AI下半场
搜狐财经· 2025-12-24 01:06
公司核心人事动态 - 姚顺雨于2025年出任腾讯首席AI科学家 同时兼任AI Infra部及大语言模型部负责人 掌舵公司AI基础设施与大模型研发的核心业务[1] - 姚顺雨于2024年加入OpenAI 担任研究科学家 专注于将大型语言模型从理论研究推向实际应用 主导开发了OpenAI首个发布的智能体模型及产品 同时参与了Deep Research项目[1][10] - 姚顺雨的加入与腾讯近期优化人工智能战略布局相契合 公司新成立了AI Infra部、AI Data部、数据计算平台部 以全面强化其大模型的研发体系与核心能力[11] 行业技术趋势与个人研究重点 - 姚顺雨认为AI的下半场已经来临 评价会比训练更重要 研究者应将重心从“解决问题”转向“定义问题” 像产品经理那样思考[12] - 其研究核心关键词为“智能体” 认为语言是实现通用智能体的“先天圣体” 因为语言天然携带推理基因 能够跨环境迁移[7] - 在技术路径上 其早期认为计算机视觉难实现通用智能 转而专攻语言方向 并选择GPT而非当时主流的BERT作为研究基础 因其更符合开放行为空间决策的需求[4][8] - 其提出的ReAct方法已成为世界范围内构建语言智能体的最主流方法 该方法核心理念是让大语言模型在行动前先进行可解释的内在推理 继而基于推理结论去决策与操作[9] - 其研究追求“简单且通用”的方法 希望找到能泛化到多任务的简单解法 并认为有必要将多模态能力纳入语言智能体框架中[10] 个人背景与职业轨迹 - 姚顺雨于2015年以安徽省理科第三名成绩考入清华大学交叉信息研究院“姚班” 2019年赴美国普林斯顿大学深造 专攻自然语言处理与强化学习[1] - 其在普林斯顿大学与副教授卡提克·纳拉辛汉合作 后者是GPT-1论文的第二作者 他们共同探索利用GPT-2等强大模型进行复杂语言游戏训练 以研究智能体的新可能性[4][5] - 其曾以最年轻入选者身份跻身《麻省理工科技评论》“35岁以下科技创新35人”中国区名单[3]
腾讯AI,大消息!
证券时报· 2025-12-18 12:50
腾讯AI战略与组织架构升级 - 腾讯升级大模型研发架构,新成立AI Infra部、AI Data部、数据计算平台部,全面强化大模型研发体系与核心能力 [1] - 前OpenAI研究员、顶尖AI人才姚顺雨加入腾讯,出任首席AI科学家,同时兼任AI Infra部、大语言模型部负责人 [1] 关键人才姚顺雨及其行业观点 - 姚顺雨是AI领域顶尖新锐人才,27岁入选《麻省理工科技评论》TR35,曾为OpenAI核心成员,参与2025年首批智能体产品研发 [3] - 姚顺雨提出“AI下半场”理论,认为行业竞争重心将从拼模型训练、比参数规模转向真实场景的价值定义、交互体验优化和评估体系构建,核心逻辑是“评估比训练更重要” [3] - 姚顺雨认为AI下半场将从“解决问题”转向“定义问题”,取得成功需要调整思维模式和技能组合,更接近产品经理的能力模型 [4] - 姚顺雨的研究聚焦于让AI通过语言和推理能力成为解决广泛现实问题的工具 [4] 腾讯AI技术进展与产品落地 - 过去一年,腾讯混元大模型发布超过30个新模型 [7] - 混元2.0显著改进了预训练数据和强化学习策略,在复杂推理与文本生成场景表现国内领先 [7] - 混元3D模型保持全球领先水准,开源社区下载量超过300万 [7] - 腾讯元宝AI应用用户规模稳居国内前三,AI能力已融入微信、QQ、音乐、会议等国民级产品 [7] - 腾讯混元大模型已在公司内部超过900款应用和场景中落地 [7] - 腾讯内部超90%的工程师使用腾讯云代码助手CodeBuddy,50%新增代码由AI辅助生成,代码评审环节AI参与度达94% [7] 架构升级的战略意义 - 分析认为,此次大模型研发架构升级是腾讯AI战略的关键一跃 [6] - AI Infra部将负责大模型训练和推理平台技术能力建设,聚焦分布式训练、高性能推理等核心技术 [6] - AI Data部将负责大模型数据及评测体系建设,数据计算平台部将负责大数据和机器学习的数据智能融合平台建设 [6] - 此次升级旨在强化腾讯工程化优势,提升AI大模型研究能力,聚焦公司AI战略布局,提升研发效率 [6]
出自“清华姚班”的姚顺雨带队,腾讯升级大模型研发架构
南方都市报· 2025-12-17 20:09
公司组织架构与人事调整 - 腾讯升级大模型研发架构,新成立AI Infra部、AI Data部、数据计算平台部,全面强化大模型研发体系与核心能力 [2] - OpenAI著名研究者姚顺雨加入腾讯,出任“CEO/总裁办公室”首席AI科学家,同时兼任AI Infra部、大语言模型部负责人 [2][3] - 姚顺雨毕业于清华姚班与普林斯顿大学,曾入选MIT TR35,此前在OpenAI担任研究科学家,专注于AI Agent开发 [3] - 王迪继续担任大语言模型部副总经理,向姚顺雨汇报;刘煜宏担任AI Data部负责人、陈鹏担任数据计算平台部负责人,均向公司副总裁蒋杰汇报 [6] 公司战略与技术发展 - 此次架构升级旨在提升AI大模型研究能力,聚焦公司AI战略布局,提升研发效率 [6] - AI Infra部将负责大模型训练和推理平台技术能力建设,构建大模型AI Infra核心竞争力 [6] - AI Data部负责大模型数据及评测体系建设,数据计算平台部负责大数据和机器学习的数据智能融合平台建设 [6] - 腾讯混元大模型发布超过30个新模型,混元2.0在复杂推理与文本生成场景表现国内领先,混元3D模型开源社区下载量超过300万 [4][5] - 腾讯内部正推进全面AI化效率变革,混元大模型已在内部超过900款应用和场景中落地 [7] 人才与研发投入 - 姚顺雨的加入被视为腾讯加强AI实力的信号,其提出的“AI下半场”概念引发业界共鸣 [4] - 腾讯公司副总裁蒋杰表示,AI时代会大量启用年轻人,让年轻人快速上位 [4] - 近期混元团队的重组与高密度人才引进,旨在支撑高强度的技术攻坚 [5] - 在腾讯公司内部,有超90%的腾讯工程师在使用腾讯云代码助手CodeBuddy,50%新增代码由AI辅助生成,代码评审环节AI参与度达94% [7]
腾讯调整大模型组织架构:姚顺雨加盟,向总裁刘炽平汇报
量子位· 2025-12-17 18:00
腾讯AI组织架构与人才引进 - 腾讯内部官宣大模型研发组织架构调整,新成立AI Infra部、AI Data部、数据计算平台部,以全面强化大模型研发体系与核心能力 [6] - 姚顺雨加盟腾讯,出任“CEO/总裁办公室”首席AI科学家,向总裁刘炽平汇报,同时兼任AI Infra部、大语言模型部负责人,向技术工程事业群总裁卢山汇报 [4][7] - AI Infra部将负责大模型训练和推理平台技术能力建设,聚焦分布式训练、高性能推理等核心技术 [8] - AI Data部负责大模型数据及评测体系建设,数据计算平台部负责大数据和机器学习的数据智能融合平台建设 [8] - 此次架构升级旨在强化工程化优势,提升AI大模型研究能力,聚焦公司AI战略布局,提升研发效率 [8] 姚顺雨背景与成就 - 姚顺雨是前OpenAI研究员,拥有清华大学姚班背景和普林斯顿大学计算机博士学位,是NOI奥赛银牌得主和安徽省高考探花 [2][16] - 他是Tree of Thoughts(思维树)、ReAct等知名研究的作者,也是SWE-bench、SWE-agent等一系列研究的核心贡献者 [3][27] - 博士期间师从GPT-1第二作者Karthik Narasimhan,从事智能体方向研究,毕业后加入OpenAI [18] - 其研究工作贯穿Agent研究关键节点,包括提出CALM、WebShop等 [19] 姚顺雨的AI发展观点 - 姚顺雨在2024年8月发表博文《The Second Half》,提出AI正处在“中场休息”阶段 [21] - 他认为AI上半场以模型和方法为中心,核心是“把模型训出来”;下半场重心将转向任务定义、系统构建与评估体系 [22] - 关键问题从“能否训练模型解决XX”转向“什么问题值得被解决”以及“如何判断AI是否真的进步”,评估成为决定方向的前置条件 [23] - 真正重要的不是继续堆模型规模,而是让模型在真实任务和系统中经得起检验 [24] - 他认为Agent的本质不是“会用工具”,而是“能推理并泛化” [26] - 创业公司的最大机会不在模型,而在交互方式 [28] 腾讯AI产品与业务进展 - 过去一年,腾讯混元大模型发布了超过30个新模型 [9] - 2024年12月5日发布的混元2.0显著改进了预训练数据和强化学习策略,在复杂推理与文本生成场景表现国内领先 [9] - 混元3D模型保持全球领先水准,开源社区下载量超过300万 [9] - 腾讯元宝AI应用用户规模稳居国内前三,成为最受新中产欢迎的AI原生应用,上线初期保持每天一个版本的迭代频率 [10] - 腾讯将元宝的AI能力融入微信、QQ、音乐、会议等国民级产品中 [10] - 腾讯混元大模型已在内部超过900款应用和场景中落地,包括腾讯会议、微信、广告、游戏等 [10] - 公司内部超90%的工程师使用腾讯云代码助手CodeBuddy,50%新增代码由AI辅助生成,代码评审环节AI参与度达94% [10] 腾讯AI战略与行业地位 - 腾讯被认为拥有完备的AI要素:丰富场景、海量数据、生态资源,以及谋定后动的战略风格 [14] - 公司通过组织变阵、人才引进、产品(如元宝)和开源(如混元3D)等多方面举措,明显开启了AI进程上的提速 [12][13] - 引进姚顺雨这样的顶尖人才,被视为腾讯开启AI攻坚的证明 [11]
阿里吴泳铭为什么现在站出来造词?
虎嗅· 2025-09-25 07:25
公司战略与观点 - 公司CEO提出从通用人工智能AGI到超级人工智能ASI是终极目标[2] - 公司提出大模型是下一代操作系统,通义千问开源300多款模型,旨在成为AI时代的Android[11] - 公司提出AI云是下一代计算机[12] - 公司采用免费开源模型“跑马圈地”构建生态,再通过云服务实现商业化的模式,复刻谷歌Android商业模式[13] 财务与市场表现 - 公司港股股价在消息发布当日收盘涨幅达9%,创下4年历史新高[5] - 公司云业务2025年第二季度收入为333.98亿元,同比增长26%,增速创三年新高[8] - 公司云业务中AI相关收入占外部商业化收入比例已超过20%[8] 行业背景与竞争格局 - AI在中国的商业发展已进入下半场,各种商业机会涌现[6] - AI下半场的特点是评估比训练更重要,通过将智能转化为产品可打造巨大商业价值[6] - 参与下半场的创业公司是各大云平台的潜在客户,云平台竞争加剧[6] 未来投资与资源投入 - 公司计划未来3年投入3800亿元用于AI与云计算硬件基础建设[13] - 该投资计划意味着平均每月投入超过100亿元[13]
高阶程序,让AI从技术可行到商业可信的最后一公里
机器之心· 2025-09-16 19:57
AI发展阶段的转折 - 行业进入从模型竞赛转向工程竞赛的AI下半场 核心命题从AI能做什么转变为如何让AI做得对做得好不出错 [4] - 当前大模型在常见任务中可靠性仅达70%-85% 与金融医疗等领域99%以上的及格线存在巨大鸿沟 [14] - 实现AI广泛应用需要可靠性保障 涉及准确度速度确定性及幻觉问题等多个细分指标 [4] 数据与可靠性的核心地位 - 数据决定AI应用能力上限 但数据本身不会自动创造价值需要可靠加工引擎 [3] - 幻觉是当前AI范式下的固有系统性问题 源于训练评估程序奖励猜测而非承认不确定性 [8] - 行业需要将不确定的智能与确定的工程逻辑深度融合的新范式 [14] 现有技术方案的局限性 - RAG能降低幻觉但带来向量库集中化权限与陈旧数据风险 在合规敏感场景需谨慎设计 [9] - 智能体编排方便灵活但缺乏内部细粒度核验会导致错误放大 [9] - 神经-符号方法提升可解释性与判定性 但各方案对输出不确定性缺乏强约束 [4][9] 高阶程序(HOP)的工程化解决方案 - HOP是神经-符号主义思想的深度工程实践 为AI智力引擎构建可靠控制系统 [17][22] - 通过编程语言表达业务逻辑构建符号骨架 自然语言调用大模型处理神经任务 [23][25] - 核心机制HopLogic执行框架利用核验复杂性塌缩原理 实现99%以上可靠性 [28][29] - 建立完成率与正确率两大指标 使AI能力边界和可靠性可度量可管理 [34] HOP的实际应用效果 - 在金融风控建模中将可靠性从不足10%提升至99%以上 开发时长从数天缩短至1天以内 [42][43] - 通过内置精确业务规则确保每个关键节点行为受控 弥补传统AI框架短板 [46][47] - 提供比SFT更敏捷经济的迭代方式 通过优化程序逻辑等轻量级方法提升应用表现 [52] 行业标准化与生态发展 - 蚂蚁集团联合十余家机构起草大模型金融领域可信应用参考框架 核心思想与HOP一致 [48][50] - HOP开源推动开放生态建设 结合HopCorpus场景语料集构建提升能力上限 [64] - AI下半场始于数据成于工程 需要可靠框架与高质量数据双核心驱动 [55][64]
腾讯官方辟谣“前 OpenAI 研究员姚顺雨上亿薪资入职腾讯”
环球网· 2025-09-12 16:33
公司人事动态 - 腾讯官方澄清前OpenAI研究员姚顺雨以"上亿薪资"入职腾讯的报道为谣言 [1] 行业人才背景 - 姚顺雨本科毕业于清华大学姚班 获普林斯顿大学计算机科学博士学位 2024年加入OpenAI参与智能体产品operator与deep research开发 [3] - 姚顺雨博士期间提出思维树(Tree of Thoughts)框架改进决策模型 构建CoALA模块化认知架构 [3] - 主导ReAct方法首创语言智能体"推理—行动"交互范式 2025年主导Computer-Using Agent项目融入强化学习新范式 [3] 技术发展趋势 - 推动AI技术从训练导向转向评估导向 提出"AI下半场"概念 [3]