强化学习
搜索文档
深度|清华姚班学霸、OpenAI姚顺雨:AI下半场从“算法竞赛”转向“效用定义”,重构评估框架,将技术能力转化为真实世界价值
Z Potentials· 2025-04-25 11:05
AI发展阶段划分 - 当前处于AI发展的中场阶段 上半场以模型创新和基准测试为核心 下半场将从"解决问题"转向"定义问题"[2][3] - 上半场的标志性成果包括DeepBlue AlphaGo GPT-4等 这些突破基于搜索 深度强化学习 模型规模化和推理等根本性创新[2] - 下半场的关键转变在于评估比训练更重要 需要重新思考如何定义问题和衡量进展 思维方式需向产品经理靠拢[3] AI上半场特征 - 上半场的赢家主要是训练方法和模型创新 如Transformer AlexNet GPT-3等 而非基准测试本身[4] - 方法比任务更具通用性 例如Transformer架构推动了计算机视觉 自然语言处理 强化学习等多个领域发展[7] - 上半场游戏规则是开发新方法提升基准测试 再创建更难的基准测试继续循环 这种方法持续几十年并催生重大突破[8] 强化学习突破 - 强化学习取得重大进展的关键在于获得泛化能力 通过语言预训练与强化学习融合形成通用解决方案[3][9] - 强化学习三要素中 先验知识的重要性超过算法和环境 语言预训练提供了关键的先验知识[14][15] - 将推理作为特殊"行动"加入强化学习环境 使模型能利用语言预训练的先验进行泛化[20] AI下半场趋势 - 下半场需要从根本上重新思考评估框架 创造新的评估方式以突破现有解决方案的限制[23][26] - 当前评估框架与现实世界存在差异 例如评估应自动进行和i.i.d.假设等问题需要被质疑和突破[27][29] - 下半场的重点是将智能转化为有用产品 可能创造价值数十亿或数万亿美元的公司[29][32] 技术突破路径 - 有效解决方案的关键成分包括:大规模语言预训练 规模化(数据和算力) 以及推理与行动的概念[9] - OpenAI早期尝试将数字世界变为强化学习环境 但未能解决跨领域迁移问题 直到GPT系列引入语言预训练先验[14][15] - 强化学习算法重要性下降 正确的先验知识和合适的环境配置成为关键突破点[21]
卓驭科技接入通义大模型,联合打造端到端世界模型
阿里云· 2025-04-24 17:13
公司动态 - 卓驭科技宣布接入通义大模型并基于阿里云打造端到端世界模型 [1] - 公司大数据等核心业务系统已接入阿里云 [1] - 卓驭科技总经理沈劭劼与阿里云智能集团副总裁李强共同推动合作 [2] 技术突破 - 端到端世界模型引入强化学习和思维链推理技术 [2] - 模型将城市领航辅助安全性提升一个层级 [2] - 支持千人千面驾驶风格和自然语言交互控制驾驶行为 [2] - 具备复杂场景慢推理的智能化体验 [2] 算力优化 - 采用预训练+后训练结合方式,以"天"为单位迭代 [2] - 基于阿里云PAI平台打造多种GPU融合的算力资源池 [2] - 数据流动和管理成本显著降低 [2] - 模型训练效率相比单GPU集群提升50%以上 [2] - GPU利用率提升至95%以上 [2] 业务进展 - 大数据系统和智能制造核心业务全面搬上阿里云 [2] - 研发领域接入通义灵码和通义千问加速开发 [2] - 代码采纳率达到29% [2]
AI 智能体老“崩”?DeepSeek 前员工联手李飞飞等大佬开源新框架,教会模型真正推理
AI前线· 2025-04-24 11:03
AI智能体发展现状 - 2025年被视为"AI智能体元年",但目前64.2%的企业AI智能体仍处于试点阶段,仅6.4%表现超出预期[1][2] - 行业普遍面临智能体从实验室到规模化应用的过渡难题,24.8%的企业反馈现有方案需高投入[2] RAGEN系统技术突破 - 由王子涵团队开发的RAGEN系统采用StarPO强化学习框架,通过"状态-思维-动作-奖励"策略优化实现多轮交互训练[5][7] - 系统创新性地引入两阶段训练:rollout阶段生成完整交互序列,update阶段基于归一化奖励更新参数[7] - 使用阿里巴巴Qwen系列开源模型作为基础,确保实验可复现性并支持符号任务对比[9] 训练稳定性解决方案 - 发现"回声陷阱"现象:模型在训练后期倾向于复制高奖励回答导致推理能力退化[12] - StarPO-S框架新增三项机制:基于不确定性的rollout筛选、移除KL惩罚项、非对称PPO剪裁,使训练崩溃率显著降低[19] - 在Bandit/Sokoban/Frozen Lake三个测试环境中验证,奖励水平平均提升30%以上[17][19] 企业应用挑战 - 任务多样性、交互粒度和rollout新鲜度被确认为影响训练效果的三大关键因素[22] - 当前奖励机制存在"重结果轻过程"缺陷,需优化奖励设计逻辑以维持长期推理能力[23][24] - 符号类任务到真实业务场景的迁移仍存挑战,如发票处理等场景需重新设计环境[24] 开源生态建设 - RAGEN系统及StarPO/StarPO-S框架已在GitHub开源,采用MIT协议[10][14] - 项目获得微软、斯坦福等机构支持,技术路线可能重塑大模型训练范式[2][9]
AI 智能体老“崩”?DeepSeek 前员工联手李飞飞等大佬开源新框架,教会模型真正推理
AI前线· 2025-04-24 11:03
AI智能体发展现状 - 2025年被普遍认为是"AI智能体元年",基于大语言模型(如OpenAI、Anthropic、Google、DeepSeek)的智能体系统将专注于特定任务[2] - 当前64.2%的企业AI智能体仍处于试点阶段("pilot purgatory"),仅4.6%接近规模化应用[3][4] - 行业面临核心挑战:强化学习训练易崩溃,模型易陷入重复输出相似内容的"回声陷阱"现象[18][19] RAGEN系统技术突破 - 由李飞飞团队联合西北大学、微软等机构开发,聚焦提升AI在企业应用中的稳定性和可靠性[5] - 采用StarPO强化学习框架,通过"状态-思维-动作-奖励"策略优化,强调完整决策路径训练而非单次回答优化[11] - 开源框架包含三项创新机制:优先选择模型"犹豫"的交互序列、移除KL惩罚项、非对称PPO剪裁,显著提升训练稳定性[27][28][29][30] - 实验基于阿里巴巴Qwen系列开源模型(1.5/2.5版本),确保结果可复现性[14] 测试环境与评估方法 - 设计三类符号化测试环境:Bandit(风险收益推理)、Sokoban(规划能力)、Frozen Lake(适应性思考)[23] - Bandit任务要求模型通过类比推理(如将"龙"关联力量、"凤凰"关联希望)预测奖励分布,而非依赖直接概率数据[25][26] - 测试环境剥离现实先验知识干扰,纯粹评估训练所得策略的有效性[24] 企业应用现实挑战 - 训练效果三大关键因素:情境多样性、交互粒度(支持多动作/轮)、rollout新鲜度(数据与当前策略同步)[33][34] - 当前奖励机制缺陷:过度关注结果正确性而忽视推理过程质量,导致多轮任务中推理能力退化[36][38] - 技术局限性:长任务场景仍可能崩溃,符号类问题解决方案向真实业务(如发票处理)迁移存在不确定性[40] 行业影响与开源生态 - RAGEN标志着向"具备自主推理能力智能体"迈进,重构大模型训练边界认知[41] - 项目采用MIT协议开源,GitHub已获1.4k星、102分支,主要代码为Python(88.7%)和Shell(11.3%)[16][17] - 核心开发者王子涵(前DeepSeek研究员)专注大语言模型自主性与长文本理解,曾参与DeepSeek-V2项目[6]
商汤绝影打造智能驾驶新路标——生成式智驾R-UniAD,让安全更有确定性,超越人类驾驶极限
观察者网· 2025-04-24 09:18
.强化学习+世界模型,绝影构建VLAR技术架构,突破端到端瓶颈 .R-UniAD创新链路:挖掘复杂场景、4D仿真复现、强化学习、泛化验证 .近实时在线交互的4D世界模型"绝影开悟2.0",生成式智驾R-UniAD的核心基石 .绝影辅助驾驶目前已合作4家车企,上车7款车型,基于地平线征程6、英伟达DIRVE AGX Thor平台打造的方案将在今年上车东风、奇瑞等车企伙伴 随着辅助驾驶普及的不断深入,公众越来越关注驾驶系统的安全性,期待辅助驾驶带来更安全也更流畅的智慧出行体验。只是许多辅助驾驶方案在遇到新场 景时难以妥善处理,事故时有发生,暴露出当前技术方案的诸多瓶颈。 想要提高安全性,端到端模型需要海量高质量数据训练,然而,即使是百万量产车回流的数据量,极端场景有效信息提取率不足1%。 不仅如此,因为端到端的范式是模仿学习,遇到没有见过的新场景,它的驾驶决策存在很大的不确定性,安全边界模糊,给驾驶安全带来风险,更难以超越 人类的驾驶能力。 因此,商汤绝影发布了生成式智驾R-UniAD技术方案,将强化学习引入到智能驾驶,让端到端智驾与世界交互的不断深入,通过生成的方式真实还原并深度 理解驾驶环境,从而主动预测并处 ...
Agent、DeepSeek、多模态热点炸场!60+重磅嘉宾共探AI未来,2025全球机器学习技术大会完美收官!
AI科技大本营· 2025-04-21 18:24
以下文章来源于CSDN ,作者CSDN CSDN . 成就一亿技术人 作者 | 《新程序员》编辑部 出品 | CSDN(ID:CSDNnews) 在万物向 "智 " 生长的 2025 年,AI 领域的热潮持续升温,正引领着技术革新与产业探索的新浪潮。 了新的破解思路?围绕这些关键问题,欢迎回看大会首日视频,看众多技术大咖如何从理论、算法到实际应用层面进行了深度剖析 ,以此 了解 AI 技术 的更多最新进展: 大模型技术创新驱动的 AI 生态和应用演进 李建忠 CSDN 高级副总裁、 Boolan 首席技术专家 4 月 18-19 日,由 CSDN 联合高端 IT 咨询与教育平台 Boolan 举办的 2025 全球机器学习技术大会(ML-Summit 2025),在上海虹桥西郊庄园丽笙 大酒店隆重拉开帷幕。本次大会围绕 AI 最前沿的发展趋势与落地实践,聚焦大语言模型技术演进、AI 智能体、具身智能、DeepSeek 技术解析与行业 实践等 12 大专题,邀请了超 60 位来自全球顶尖科技企业与学术机构的重磅嘉宾齐聚一堂,全面呈现 AI 领域的技术风向与应用前沿。 在生成式 AI 重构技术边界的浪潮下,产业实 ...
21支队伍参加人形机器人半马,每位选手最多三位人类“陪跑员”
第一财经· 2025-04-18 13:07
赛事概况 - 全球首个人形机器人半程马拉松将于4月18日上午7:30在北京亦庄南海子公园举行 共有21支机器人队伍参赛 分别来自国家队 民营企业和学校科研团队 [1] - 组委会预计首名机器人撞线时间为明日上午10:10左右 全程21.0975公里 [1][3] 参赛机器人技术特点 - 国家队代表天工Ultra身高1.8米 体重52公斤 实测平均时速10km/h 最高速度12km/h 具备斜坡 楼梯 草地等多种地形移动能力 [1] - 天工Ultra采用轻量化设计 配备人类同款跑鞋减震 带有视觉感知的泛化移动能力 [1] - 最矮机器人小巨人身高75厘米 脚踝配备180度运动关节电机 脚底贴橡胶鞋底应对不平路面 [1] 比赛规则与组织形式 - 机器人采用强化学习算法路线 比赛过程中大多采用遥控方式 每队由1个人形机器人和最多3名人类陪跑员组成 [2] - 机器人按Z形布阵排成两列 前后垂直间距3米 出发时间间隔1分钟 间距需保持1米以上 高速机器人需主动绕行低速机器人 [2] - 赛事设裁判长 主裁判和随行裁判 随行裁判全程跟随判罚 佩戴录音录像设备 更换机器人将面临罚时 [2] 注:文档4 5 6内容为乱码或无实质信息 故未纳入总结
谷歌高管入职两个月,字节AI开始扁平化?
阿尔法工场研究院· 2025-04-17 18:47
组织架构调整 - 字节AI Lab将全部并入Seed团队 由李航管理 自2024年开始向时任Seed负责人朱文佳汇报[5] - 2023年AI Lab下属NLP组及PixleDance团队被转入Seed 截至2023年底Seed已成为与抖音 TikTok 火山引擎等业务平级的组织[7] - 吴永辉于2024年2月入职成为Seed基础研究负责人 此后新建虚拟小组并缩短汇报流程 创建更扁平的管理体系[5][7] 团队发展历程 - AI Lab成立于2016年 最初由马维英负责并直接向张一鸣汇报 2018年团队规模达150人 为字节AI核心研究部门[5] - 2020年AI Lab从集团级前瞻性项目转为技术中台 马维英汇报对象变为抖音负责人张楠 同年年中马维英离职 由李航接任负责人[5][7] - 截至2024年底 字节AI研究者中超40%比例为近两年加入的新人 通过Top Seed计划为优秀博士候选人提供3-1职级及不低于百万元薪资[7] 技术贡献与研究方向 - AI Lab研究覆盖机器人 AI4S等人工智能前沿领域 重点开发为字节内容平台服务的创新技术[5] - 团队曾参与手势识别 短视频特效等功能开发 研究成果应用于今日头条和抖音 是支持抖音成为国民级应用的基石[5] - 吴永辉加入字节后已在强化学习方向署名三篇论文 显示团队持续聚焦前沿AI研究[7]
直击英伟达GTC
2025-04-15 22:30
行业与公司 * 行业涉及人工智能、高性能计算、数据中心基础设施、光通信、机器人及自动驾驶[1][2][10] * 公司为英伟达(NVIDIA),其发布了新一代AI芯片、交换机和AI模型及应用[1][2][9] 核心观点与论据 算力硬件升级 * 发布Blackwell Ultra NVLink 72(GB300)方案,带宽是前代GB200的两倍,计划于2024年下半年出货[2] * 发布Rubin架构芯片,其中VR Ruby(NVLink 144版本)计划于2026年下半年出货,性能是GB300 NVLink 72的3.3倍,推理速度比当前Blackwell芯片高一倍多,支持高达288GB快速内存[3] * 发布Rubin Ultra(NVLink 576版本),性能是GB300 NVLink 72的14倍,支持CX9网卡且带宽达115.2T,采用288张卡在一个机柜内的新架构[3][4] * 算力密度提升推动PCB(用量增长)、电源和液冷需求增长,因新架构在机柜内集成更多芯片[5] 互联技术突破 * 发布两款CPU交换机:Quantum X系列(IB架构)计划2024年下半年出货,Spectrum X系列(以太网版本)计划2026年下半年出货[6] * Quantum X交换机总带宽为115.2T,由4个ASIC、每个ASIC搭载6个光引擎小单元(每个含3个光引擎)、共72个硅光引擎组成,每个光引擎带宽1.6T(单通道200G,八通道)[6][7] * 光引擎通过Socket连接器与交换机芯片连接,实现可插拔设计,降低维护成本并可能促进下游CSV厂商采用[8] AI应用与模型 * 推出AI推理软件Dynamo,在运行DeepSeek R1模型时,每个GPU生成的token数提高超过30倍,通过动态调整GPU资源和优化数据卸载提升效率[9] * 推出通用机器人基础模型N1,采用双系统架构(快速思考动作模型和慢速思考决策模型),支持抓取、移动物体等动作[10] * 推出端到端自动驾驶全栈安全系统HALOS,结合汽车硬件、软件和AI研究以确保安全[10] * 强调推理需求将大幅提升,因模型引入强化学习导致token数量增加,看好算力产业链(包括海外和国内)[11] 其他重要内容 * 架构变化:NVLink 576版本机柜布局分为四个部分,每个部分类似NVLink 72结构,使用Compute Blade和Switch Blade,中间通过PCB互联(材料特殊且用量增长)[4][5] * 行业影响:可插拔光引擎设计略超预期,可能加速CPU交换机 adoption[8] * 未来计划:GTC将持续发布更新信息[11]
DeepSeek-R1与Grok-3:AI规模扩展的两条技术路线启示
Counterpoint Research· 2025-04-09 21:01
核心观点 - DeepSeek-R1 和 Grok-3 代表了AI发展的两种不同路径:前者通过算法创新和高效资源利用实现高性能,后者依赖大规模计算资源投入 [2][8] - 行业趋势正从“原始规模主导”转向“战略效率优先”,算法设计、混合专家模型(MoE)和强化学习成为关键杠杆 [8][10] - 未来AI发展将更注重投资回报率(ROI),平衡规模扩展与算法优化 [8][10] 模型性能与资源对比 - DeepSeek-R1 仅使用约2000块NVIDIA H800 GPU即达到全球前沿推理模型性能,展现高效训练能力 [2] - Grok-3 动用约20万块NVIDIA H100 GPU,性能略优于DeepSeek-R1、GPT-o1和Gemini 2,但资源消耗相差百倍 [2][8] - 两者性能相近,但资源投入差异显著,凸显算法创新可抗衡纯计算规模 [8] 发展路径差异 - Grok-3 采用“蛮力策略”,依赖数十亿美元GPU计算规模,边际性能提升显著但ROI递减 [8] - DeepSeek-R1 通过混合专家模型(MoE)、推理强化学习和高质量数据,以最小硬件代价实现顶尖性能 [8] - 行业可能从“规模法则”转向“算法突破+工程实用主义”的全局发展观 [10] 未来AI趋势 - 集中式训练项目(如Grok-3)成本过高,仅限少数巨头参与,中小机构需转向效率优化策略 [10] - 混合专家模型(MoE)、稀疏化、改进微调和强化学习将成为核心,降低资源消耗 [10] - 新数据训练与强基础模型结合(如RAG或定期微调),可避免持续大规模计算负担 [10]