Workflow
强化学习
icon
搜索文档
进击新能源第一阵营 “增程豪华轿车新标杆”别克至境L7全国首秀
扬子晚报网· 2025-09-15 21:57
9月15日,备受关注的新能源智能豪华轿车——至境L7首次公开亮相。作为别克高端新能源子品牌"至境"的首款旗舰轿车,至境L7融汇别克百年积淀和百亿 资源投入,诞生于百万级"逍遥"超级融合架构,是目前行业最强的增程豪华轿车。至境L7采用顶级"真龙"增程技术,率先搭载"逍遥智行"辅助驾驶系统, 全球首发上车基于端到端"强化学习"的Momenta R6飞轮大模型,以及高通最新一代SA8775P芯片,带来行业第一梯队的智电体验。此外,至境L7还拥有 越级豪华底盘和豪华舒享座舱,以及对标百万级豪车的配置。目前,至境L7已到达全国别克经销商展厅,并开启早鸟计划:在9月28日前下订,即可享终 身免费保养(详询别克官网或别克授权经销商)。 别克至境L7已到达全国别克经销商展厅,并开启早鸟计划 增程发明者再次定义增程 "真龙"增程破解行业痛点 至境L7基于全新别克"逍遥"超级融合整车架构打造,汇集该架构下驱动、辅助驾驶、豪华舒适等领域的王牌技术于一身,可谓"出道即巅峰"。 全新别克"逍遥"超级融合整车架构 依托通用汽车在增程技术上的深厚积淀,并结合泛亚在新能源驱动领域强大的本土化研发实力,首发搭载行业顶级"真龙"增程系统,完美破 ...
张小珺对话OpenAI姚顺雨:生成新世界的系统
Founder Park· 2025-09-15 13:59
以下文章来源于语言即世界language is world ,作者张小珺 语言即世界language is world . 这是原「张小珺」公众号,是我新发起的内容工作室。和我们一起,从这里,探索新世界。 2025 年 4 月, OpenAI 研究员姚顺雨发布了一篇有名的博文《 The Second Half 》,宣告 AI 主线程的游戏已进入下半场。这之 后,我们与他进行了一场播客对谈。 姚顺雨毕业于清华和普林斯顿大学,博士期间意识到语言是人类发明的最重要的工具,也是最有可能构建通用系统的,于是转向 Language Agent 研究,至今已 6 年。 这场对谈有两位主持人,分别是我和李广密。姚顺雨表达了许多此前从未分享过的观点。比如: 我们的谈话从个体出发,共同探索由人、组织、AI 、人与机器的交互,所抵达的这个世界智能的边界以及人类与机器的全景。 此前, 我们关于 Manus 肖宏、 Youware 明超平、 Lovart 陈冕的访谈,记录了华人 Agent 创业者在应用上的探索。而姚顺雨的访 谈,描绘的则是另一面:他在硅谷最前沿的 AI 实验室做 Agent 研究,他如何看待这波浪潮、模型与应用的边界 ...
攻克强化学习「最慢一环」!交大字节联手,让大模型RL训练速度飙升2.6倍
量子位· 2025-09-13 16:06
强化学习训练效率瓶颈 - 强化学习训练效率低下 投入巨大但产出缓慢 成为AI基础设施的阿喀琉斯之踵 [1] - Rollout阶段占训练时间超过80% 受内存带宽限制和自回归特性制约 [1] RhymeRL技术创新 - 基于历史数据复用实现效率提升 训练吞吐量提升2.6倍 [2] - 发现相邻训练周期存在95%的历史Token可复用 序列相似性极高 [3] - 响应长度排序稳定 长度分布相似性显著 [4] - 采用HistoSpec技术将投机解码引入RL 以历史响应作为草稿模板 [9] - 通过树状草稿总结和批量验证 将逐字生成转为并行验证 [11][12] - 草稿接受率极高 打破内存带宽限制提升计算密度 [13] - HistoPipe实现跨步互补调度 奇数步由短到长处理 偶数步由长到短处理 [17] - 通过削峰填谷策略将GPU资源浪费降至最低 [19] 性能提升效果 - 在数学和代码任务上实现端到端训练吞吐量提升2.61倍 [21] - 适用于不同模型大小和响应长度场景 加速效果显著 [23] - 减少资源需求并缩短训练时间 加速AI技术迭代 [22] 行业意义 - 提出基于历史信息端到端加速强化学习的新范式 [23] - 充分发挥系统调度能力与硬件算力资源 适配现有训练算法 [23]
如何准备RL面试相关的问题?
自动驾驶之心· 2025-09-13 00:03
作者 | Abel chen 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1948681769332240910 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 本文只做学术分享,如有侵权,联系删文 1. GRPO是on policy还是off policy?为什么? 简短答案: GRPO 最初设计和常用实现是 on-policy(在线/近端策略式) ;但它可以被扩展为 off-policy,已有工作专门研究这种扩展及其优缺点。 为什么是 on-policy(解释) 为什么有人说可以 off-policy(扩展) 最近有工作把 GRPO 的思想推广到 off-policy 场景(比如用来自别的策略 / 旧批次的数据来估计优势并做修正),并且报告了在样本效率、稳定性等方面的潜在好 处与权衡。也就是说,虽然 GRPO 本质上是基于 on-policy 的 surrogate objective,但数学上和工程上可以设计重要性采样、批内归一化或裁剪等技巧把它改成 off- policy 版本。 实践建议(简要) ...
GPT-5 为啥不 “胡说” 了?OpenAI 新论文讲透了
腾讯研究院· 2025-09-12 16:58
以下文章来源于腾讯科技 ,作者博阳 腾讯科技 . 腾讯新闻旗下腾讯科技官方账号,在这里读懂科技! 博阳 腾讯新闻作者 GPT-5发布之后,虽然其性能并未能达成业界的"飞跃"期望, 但其中最亮眼的就是幻觉率的大幅下降。 OpenAI给出的数据显示,GPT-5出现事实错误的概率比 GPT-4o 低约 45%,比 OpenAI o3 低约 80%。 虽然OpenAI未完全公开所有技术细节,但结合这篇官方论文和已发布的技术文档,我们可以窥见其核心 思路。 | Adam Tauman Kalai* | Ofir Nachum | Santosh S. Vempalat | Edwin Zhar | | --- | --- | --- | --- | | OpenAI | OpenAI | Georgia Tech | OpenAI | 幻觉产生,在预训练阶段是不可避免的 幻觉是不可避免的,这个结论并不新鲜。但过往的研究基本上很少从语言模型本身的机制出发探讨,更 多是围绕着训练数据的问题。 OpenAI的新论文一开始就证明了: "幻觉"是一种在LLM统计学习本质下必然会产生的、可预测的副产 品。 但这一提升背后的原因却一 ...
一夜刷屏,27岁姚顺雨离职OpenAI,清华姚班天才转型做产品经理?
36氪· 2025-09-12 12:04
腾讯刚辟谣「姚顺雨入职」,但行业并未松口气: 顶尖智能体人才去哪儿,或将决定AI下半场的走向。27岁、清华姚班、普林斯顿博士、OpenAI智能体核心项目,引用过万……他提出「评测将比训练更 重要」,把研究拉向产品与可度量价值。 姚顺雨昨天被传加入腾讯,今早「第37手」和腾讯旗下的「鹅厂黑板报」正式辟谣! | 为什么姚顺雨能引起行业如此大的关注?为什么会传出来一亿人民币的天价薪酬传闻? | | --- | | 自然少不了Meta在硅谷的天价挖角:小扎给OpenAI核心研究员的报价就是1亿美元! | | 如此看来,一亿人民币绝对不算高;同理,如果他入职国内公司,谁给得起1亿美元的薪酬包? | | 他绝对值得Meta给出1亿美元的报价——他是Deep Research的核心贡献者。 | 要知道,作为OpenAI Deep Research的核心贡献者Hyung Won Chuang已经加入了Meta的超级智能实验室。 这是OpenAI迈向AGI Levele 3的关键一步,代表着OpenAI将大模型能力落地为可自主执行复杂多步任务的实用型产品,开启从「会聊天」到「会办事」 的关键跃迁。 这次辟谣只能说明姚顺雨没去腾 ...
外滩大会速递(1):萨顿提出AI发展新范式,强化学习与多智能体协作成关键
海通国际证券· 2025-09-12 10:47
行业投资评级 - 报告未明确给出具体的行业投资评级 [1][2][3][4][5][6] 核心观点 - 图灵奖得主理查德·萨顿提出AI发展正进入"经验时代",强调自主交互与环境反馈为核心,强化学习与多智能体协作是实现该愿景的关键路径 [1] - 当前机器学习多数局限于对人类已有知识的静态迁移,真正能创造新知识的系统需依靠智能体在与环境直接交互中持续生成数据 [1] - 社会对AI偏见、失业及生存风险的担忧被过度放大,应通过多智能体协作机制实现共赢 [1] - 萨顿提出"四条预测原则":价值观多元共存、人类将深入理解并创造智能、超级AI或人机增强系统终将超越人类智力、权力与资源将向最高效智能体集中且"替代"成为必然 [1] - 宇宙演进被划分为粒子、恒星、复制者与设计四个时代,人类核心使命在于推进"设计",AI是迈向"设计时代"不可或缺的动力 [1] 技术范式转变 - 数据定义从静态人类语料转变为动态智能体-环境交互轨迹,意味着学习目标与系统架构的根本重构:从被动拟合数据分布转向主动预测并控制自身观测输入的能力 [2] - AlphaGo自我博弈与AlphaProof生成式推理被视为"经验优先"方法论的有效验证 [2] - 产业落地需将模型从"信息消费"角色转变为可与环境实时交互、闭环试错并持续积累能力的"智能作用体" [2] - 企业需构建具备高频交互、在线评估与能力沉淀功能的智能体运营(Agent-Ops)体系,以实现新知识自动生成与跨任务迁移 [2] 技术瓶颈与研发重点 - 强化学习核心瓶颈并非模型参数规模,而在于时间维度与任务序列处理能力,具体表现为持续学习与元学习两大短板的制约 [3] - 持续学习需克服灾难性遗忘,实现动态表征与非平稳环境中的稳定收敛;元学习要求模型具备跨任务快速迁移与重组能力,训练评估单位需从"样本"升级为"任务" [3] - 这两项能力决定系统是否具备长期演进与泛化复用潜力:缺乏则仅适用于封闭短周期任务,突破则有望在开放环境中越用越强 [3] - 企业研发重心应从追求单点性能突破(SOTA)转向构建长周期评估体系、非平稳任务基准,以及推进记忆机制、规划架构与探索策略的工程化与系统集成 [3] 多智能体协作与治理 - "去中心化协作"不仅是技术架构选择,更是关乎系统治理机制的重要命题,需将机制设计理念引入AI系统工程实践 [4] - 多智能体协作类比市场与政府分工机制,其有效运作依赖明确激励、透明协议及可验证合约的支撑 [4] - 若"权力与资源向最高效智能体集中"成为趋势,需构建三方面基础制度:开放接口与可组合协议防范垄断、合作与对抗并存的博弈测试体系避免激励扭曲、可审计可追溯的责任认定工具量化协作外部性 [4] - 缺乏系统性治理设计,"去中心化"易流于概念,难以实现可持续可信赖的协作生态 [4] 人机协作与组织变革 - AI替代集中于任务层级而非完整岗位,企业应主动推进任务解构与流程重组,系统化布局人机协作体系 [5] - 具体路径包括:制定明确的人机分工框架形成"人类决策—AI探索—AI执行—人类审计"闭环机制、构建经验采集与策略回灌体系将交互数据沉淀为可复用策略资产、改革绩效管理机制以协同效率为导向的KPI替代单一产出指标 [5] - 该体系顺应AI替代带来的效率提升需求,为可持续人机协同提供制度化抓手,有助于企业在智能化转型中保持竞争力和控制力 [5]
外滩大会再证蚂蚁的底色:金融科技公司
每日商报· 2025-09-12 07:04
商报讯(记者 张玲丽 吕文鹃)昨天上午,以"重塑创新增长"为主题的2025 Inclusion·外滩大会在上海黄 浦世博园区开幕,来自16个国家和地区的550位嘉宾参会分享,包括新晋图灵奖得主理查德·萨顿 (Richard Sutton),阿里云创始人、之江实验室主任王坚,"人类简史系列"作者尤瓦尔·赫拉利(Yuval Noah Harari),宇树科技创始人兼首席执行官王兴兴等全球顶尖学者、产业界人士、青年创业者和科学 家,共同探索智能时代的创新路径与商业未来。 今年大会内容呈现国际化、多元化特色,聚焦"金融科技""人工智能与产业""创新创投生态""全球对话 与合作""负责任创新与普惠未来"五大内容主线,设置了1场开幕主论坛、44场见解论坛、科技展览和系 列科创活动。作为年度备受瞩目的金融科技盛会,外滩大会以其开放、多元、前瞻性吸引全球目光,被 誉为"亚洲三大金融科技盛会"之一。 图灵奖得主理查德·萨顿外滩大会分享 人工智能进入"经验时代" ,潜力远超以往 在昨天上午的开幕主论坛上,2024年图灵奖得主、"强化学习之父"理查德·萨顿(Richard Sutto n)发表 主旨演讲,他认为,人类数据红利正逼近 ...
腾讯研究院AI速递 20250912
腾讯研究院· 2025-09-12 00:01
估值120亿美元的Thinking Machines发布首篇研究博客 - 公司估值达120亿美元 创始团队多来自OpenAI 首款产品命名为Connection Machine [1] - 研究团队通过改进RMSNorm 矩阵乘法和注意力机制实现完全可复现的推理结果 性能损失可接受 [1] - 解决LLM推理中的非确定性问题 核心是批次不变性 [1] OpenAI ChatGPT支持MCP协议 - OpenAI宣布ChatGPT正式支持MCP Plus和Pro用户可一句Prompt实现自动化操作 [2] - MCP实现AI模型 工具和数据源的标准化交互 使不同模型能共享上下文 支持即插即用 [2] - 用户可通过开启开发人员模式连接第三方服务如Stripe 完成复杂任务 [2] 微信推出混元大模型智能回复功能 - 微信公众号推出由腾讯混元大模型支持的智能回复功能 解决运营者无法及时回复读者问题 [3] - 功能可自动学习公众号历史文章和回复风格 回复内容会标注该消息为智能回复 并可引用相关历史文章 [3] - 腾讯混元还将上线Roleplay模型和AI分身应用 提供沉浸式对话体验 [3] Kimi开源万亿参数模型中间件 - Kimi开源新中间件checkpoint-engine 能在20秒内完成万亿参数模型在数千GPU上的更新 [4] - 采用混合共置架构 通过分布式检查点引擎管理参数状态 实现参数广播和重载并行处理 [4] - 系统设计支持训练和推理引擎完全解耦 采用参数逐条更新的流水线方式 可抵御单点故障 [4] 英伟达发布文本驱动3D模型生成AI - NVIDIA发布新AI Blueprint 通过生成式AI技术让3D艺术家快速创建场景原型 [5] - 集成Microsoft TRELLIS NVIDIA NIM微服务 比原生应用快20% 支持所有配备16GB以上显存的RTX 50和40系列GPU [5] - 只需文本提示即可生成多达20个3D模型 工作流程自动化从创意到3D模型的转换 [5] 百度学术完成AI重构 - 百度学术推出AI学术搜索 AI文献总结 AI阅读 论文图谱等功能 打造行业首个一站式AI学术平台 [6][7] - 全面覆盖搜 读 创 编学术全链路 提供文献总结 全文翻译 选题推荐和专业排版等功能 [7] - 平台已收录6.9亿文献资源 覆盖104万学术站点 建立420万学者主页 [7] 腾讯会议推出AI托管功能 - 腾讯会议联合元宝推出AI托管功能 能替用户提前听会并实时记录 [8] - 用户只需在会议页面或列表点击AI托管 元宝将自动接入会议 生成智能AI纪要 [8] - 会后可直接向元宝提问会议内容 辅助决策推进 实现会议成果沉淀转化 [8] 宇树科技创始人谈AI与机器人发展 - 宇树科技创始人王兴兴表示最后悔2011年起专注机器人而错过AI发展 [9] - 公司已宣布IPO计划 预计2025年底提交申请 2024年营收突破10亿元且连续4年盈利 [9] - 修正此前关于数据的观点 承认机器人数据和模型都是核心问题 [9] 强化学习之父萨顿预言AI未来 - 萨顿认为AI进入经验时代 将从持续学习而非静态知识积累中获得智能 [10] - 指出对AI的恐惧被夸大 认为AI与人类繁荣源自去中心化协作 [10] - 提出四条预测原则 认为人类智能将被超越 权力将流向最聪明的智能体 [10]
预见AI:人类进入新“经验时代” 唯有人造太阳能喂饱AI
南方都市报· 2025-09-11 23:58
人工智能发展趋势 - 人工智能发展正从"数据时代"进入"经验时代" 训练大模型的数据几乎耗尽 智能体通过观察、行动和奖励信号与世界交互 [3] - 强化学习带领进入新经验时代 但需持续学习和元学习技术释放全部潜力 [3] - 人工智能替代不可避免 权力和资源将流向最聪明的智能体 [4] 开源与资源开放 - 开源成为AI竞争关键变量 从代码开源演进为资源开放 [5] - 开放数据和计算资源是推动AI发展的必需环节 [6] - 之江实验室将8B参数模型部署至太空星座 提出"计算卫星"新概念 [6] 机器人产业发展 - 具身智能发展面临高质量数据采集和模型算法挑战 多模态数据融合不理想 [7] - 机器人控制模态对齐存在技术难点 [7] - AI落地应用仍处于爆发性增长前夜 [7] 企业AI转型 - AI转型最大瓶颈在组织文化 必须由CEO主导且业务驱动 [8] - 需聚焦利润而非应用场景 打破组织壁垒和惯性 [8] - "本地对本地"模式成为全球现象 企业需建立分散化全球布局 [8] 中国企业全球化 - 中企海外收入占比仅8% 远低于韩国的65% [9] - 全球品牌百强中仅12家中国企业 美国有61家 [9] - 全球化3.0阶段需输出IP和专长 建设国际化团队 [10] 能源需求与核聚变 - AI用电量占全球1.5% 预计将增长至20%以上 [11] - 核聚变能量密度极高 1克燃料相当于8吨石油 [2][11] - 全球核聚变公司累计获投71亿美元 同比增长9亿美元 [12] - 89%企业看好2030年代末实现并网发电 [12] 技术突破路径 - 可控核聚变存在激光惯性约束和磁约束两大技术方向 [12] - 磁惯性约束混合路径可降低造价和建造时间 [12] - AI技术助力解决核聚变物理过程理解难题 [12]