Workflow
强化学习
icon
搜索文档
端到端落地中可以参考的七个Project
自动驾驶之心· 2025-12-19 08:05
行业技术趋势与人才需求 - 自动驾驶行业端到端技术路线已被头部玩家验证可行 其他车企正跟进投入人力和资源 [2] - 导航信息、强化学习、扩散模型、自回归、时空联合规划是当前端到端量产落地最重要的技术栈 [2] - 行业面临人才挑战 候选人往往只懂部分技术 在导航信息引入、强化学习调优、轨迹建模优化等具体量产经验上存在痛点 [2] 课程核心内容与结构 - 课程为期三个月 包含七个实战项目 聚焦量产应用 [2] - 课程核心算法涵盖一段式端到端、两段式端到端、导航信息量产应用、开闭环强化学习、扩散模型+强化学习、自回归+强化学习、时空联合规划等 [2] - 课程最终章节将分享从数据、模型、场景、规则等多视角的量产经验 [14] 技术模块详解 - **第一章:端到端任务概述** 介绍感知任务合并与规控算法learning化的主流趋势 讲解感知模型一体化架构和规控learning化方案 并介绍开源数据集与评测方式 [7] - **第二章:两段式端到端算法** 讲解两段式框架建模及感知与PNC信息传递方式 分析其优缺点 并通过PLUTO算法进行实战 [8] - **第三章:一段式端到端算法** 介绍一段式框架 其可实现信息无损传递 性能优于两段式 涵盖基于VLA和基于Diffusion等方法 并通过VAD系列进行深入学习 [9] - **第四章:导航信息量产应用** 讲解导航地图的格式与内容 及其在端到端模型中的编码与嵌入方式 以更有效发挥导航能力 [10] - **第五章:自动驾驶中的RL算法** 在模仿学习基础上引入强化学习以解决人类驾驶风格差异和corner-case场景数据稀缺问题 实现模型泛化 重点介绍强化学习算法及训练策略 [11] - **第六章:端到端轨迹输出优化** 进行nn planner项目实战 包括基于模仿学习的扩散模型与自回归算法 以及后续的强化学习算法 [12] - **第七章:时空联合规划兜底方案** 介绍量产中用于轨迹平滑优化的后处理兜底逻辑 包括多模态轨迹打分搜索算法和轨迹平滑算法 以保证输出轨迹稳定可靠 [13] 课程安排与学员要求 - 课程采用离线视频教学 配合VIP群答疑及三次线上答疑 答疑服务截止2026年11月30日 [15] - 课程从11月30日开始 按周或双周解锁新章节 至次年2月24日完成全部八章内容 [16][18] - 课程面向进阶学员 建议自备算力在4090及以上的GPU 并熟悉BEV感知、视觉Transformer、端到端算法、强化学习、扩散模型理论 具备Python、PyTorch及mmdet3d框架基础 [17]
开源首次追平GPT-5!DeepSeek-V3.2:推理与效率兼得
自动驾驶之心· 2025-12-18 17:35
文章核心观点 DeepSeek-V3.2通过三大核心技术突破,在多项关键性能上追平甚至超越了顶级闭源大语言模型,证明了开源模型通过架构创新、算力投入与数据工程的结合,完全有能力挑战闭源模型的主导地位,为开源模型的发展树立了新的里程碑 [2][43] 开源模型的痛点与破局方案 - **传统开源模型面临三大核心困境**:在架构层面,依赖标准注意力机制导致长序列计算复杂度高(O(L²)),推理速度慢 [7];在资源分配上,后训练阶段算力投入不足,导致数学推理、代码生成等硬核任务性能难以提升 [7];在智能体能力方面,在工具使用、场景泛化和指令遵循等关键指标上与闭源模型存在明显差距 [7] - **DeepSeek-V3.2的针对性破局方案**:通过创新注意力机制解决效率问题,通过加大后训练算力投入提升硬核性能,通过大规模智能体任务合成流水线强化工具使用与泛化能力 [8] 核心技术解析:DeepSeek稀疏注意力(DSA) - **核心创新与效率提升**:引入DeepSeek稀疏注意力(DSA)机制,通过“闪电索引器+细粒度token选择”的双组件设计,将核心注意力计算复杂度从O(L²)降至O(Lk)(k远小于序列长度L)[10][11] 对于128K长度的长序列,k值通常设置为2048,仅需处理传统计算量的1.6%(2048/128000),效率提升极为显著 [15] - **闪电索引器设计**:采用少量索引头(H¹)和FP8精度进行计算,相较于传统机制的FP16/FP32精度,计算量显著降低,同时通过特定计算逻辑生成索引得分,兼顾效率与准确性 [12][13] - **两阶段训练策略**:训练分为密集预热和稀疏训练两个关键阶段,确保DSA在长上下文任务中实现端到端显著提速,且在短文本任务上未出现性能退化 [17][19][20] 核心技术解析:可扩展强化学习框架 - **算力投入**:将后续训练的算力预算提升至预训练成本的10%以上,通过稳定的训练框架充分释放算力价值,实现了推理性能的跨越式提升 [21] - **高性能变体成果**:推出高性能变体DeepSeek-V3.2-Speciale,该变体在IMO 2025、IOI 2025、ICPC世界总决赛2025等顶级赛事中均斩获金牌,性能比肩Gemini-3.0-Pro,成为首个在国际顶级竞赛中达到金牌水平的开源模型 [23] 核心技术解析:大规模智能体任务合成 - **冷启动阶段**:采用DeepSeek-V3的方法论,通过提示工程引导和数据混合采样,将模型的推理能力与工具使用能力在训练初期进行对齐和融合,为后续强化学习提供高质量的初始策略 [25][29][35] - **大规模任务合成流水线**:构建自动化智能体任务合成流水线,生成大规模、多样化、高质量的智能体训练数据,具体包括通用智能体、搜索智能体、代码智能体和代码解释器智能体等类型 [30][32][36] - **策略成效**:系统性提升了模型在工具使用场景中的泛化能力与指令遵循性,在MCP-Universe、MCP-Mark等未见过的工具使用基准测试中表现出色,证明了其能将推理策略泛化到域外的智能体场景 [33][36] 模型实测表现 - **推理能力**:在MMLU-Pro(85.0)、GPQA Diamond(82.4)等通用基准上与GPT-5-High水平相当 [39][40] 在数学领域,AIME 2025通过率达93.1%,HMMT 2025二月赛通过率92.5%,均处于开源模型前列 [39][40] - **代码能力**:在LiveCodeBench的COT模式下通过率83.3%,Codeforces评级达2386分,在SWE-Verified(软件工程师验证基准)中解决率73.1%,显著优于其他开源模型 [39][40] - **工具使用能力**:在中文搜索基准BrowseCompZh中通过率达65.0%,在τ²-bench中通过率80.3%,在MCP-Universe中成功率45.9%,大幅缩小了与闭源模型的差距 [39][41] - **成本效率**:通过DSA机制,模型在H800 GPU上的推理成本显著低于前代产品,长序列解码时的成本优势尤为明显 [27][41]
67页深度 | 智能驾驶行业专题:Robo-X的产业趋势、市场空间和产业链拆解【国信汽车】
车中旭霞· 2025-12-18 09:09
文章核心观点 - 在政策支持、技术进步(强化学习+世界模型)和硬件成本下降的共同催化下,L4级自动驾驶(Robo-X)预计将在2026年迎来商业化元年时刻 [3][18] - Robo-X行业是长赛道、大空间,中国自主厂商正在崛起,预计到2030年全球L4市场空间将达上万亿元人民币 [4] - 文章通过系列深度报告和点评,重点分析了小马智行和文远知行等领先企业的商业化进展,并拆解了Robo-X各细分领域的产业趋势、市场空间及产业链 [1][2] 行业趋势与催化因素 - **政策催化**:全球主要国家和地区均在不断放开对自动驾驶的限制并明确监管框架,为商业化扫清障碍 [12] - **美国**:2024年12月,美国国家公路交通安全管理局(NHTSA)发布“自动驾驶汽车安全、透明与评估计划”,简化完全无人驾驶汽车豁免申请流程,并取消2500辆的上限 [13] - **中国**:2024年6月,工信部等四部门发布通知,确定首批9个进入智能网联汽车准入和上路通行试点的联合体 [14] - **欧盟**:2025年3月发布《汽车行业行动计划》,计划建立自动驾驶“单一市场”,并在2027年前共同投入约10亿欧元推动发展 [14] - **中东**:迪拜目标在2030年实现25%的交通出行由自动驾驶车辆完成,并于2023年7月向文远知行发放了中东首个国家级全域自动驾驶路跑牌照 [14] - **东南亚**:新加坡自2013年推出“新加坡自动车计划”,2017年修订道路交通法允许公共道路测试 [14] - **技术催化**:强化学习结合世界模型正构建L4级自动驾驶的技术底层,解决传统L2级模仿学习的能力边界固化、意图理解缺失和开环训练缺陷等问题 [11] - **世界模型**:作为“虚拟驾驶沙盒”和“生产车端模型的数字工厂”,其核心包括场景数据生成器、驾驶行为评估体系、高真实性仿真系统及数据挖掘工具,能生成合成数据以更合理地训练AI模型,提升系统稳定性和泛化能力 [9][11] - **强化学习优势**:通过与环境的交互学习最优策略,避免了模仿学习对专家行为的依赖以及数据稀缺、不平衡等问题,是实现L4级“泛化决策”的关键 [11] - **成本催化**:随着L2/L2+级自动驾驶汽车渗透率提升,相关零部件成本下降,而L4与L2/L2+的零部件存在共通性,进一步降低了L4级自动驾驶硬件的成本 [3][18] - **融资活跃**:2025年截至10月底,国内无人驾驶领域公开超49起“亿元级别”投融资事件,融资总额近218亿元人民币,热门赛道集中在无人配送、无人环卫和矿山无人驾驶等领域 [16][17] 市场空间测算 - **总体空间**:参考文远知行招股说明书,预计2030年全球L4市场空间上万亿元人民币 [4] - **Robotaxi(自动驾驶出租车)**: - **全球市场**:预计2030年市场规模达5450亿美元,2025-2030年复合年增长率(CAGR)为106% [24][25] - **中国市场**:预计2030年市场规模达2010亿美元,2025-2030年CAGR为111% [24][25] - **国内替代空间**:2025年国内出租车和网约车年化市场规模合计2360亿元,假设Robotaxi车队规模7000台,则其在共享出行中占比仅0.6%,潜在替代空间巨大 [4][27][30] - **Robovan(自动驾驶物流车)**: - 国内可替代的轻/微卡潜在市场空间为1645亿元,2025年Robovan在物流配送车中占比约2% [4] - **Robotruck(自动驾驶卡车)**: - 假设2024、2030年国内年销量分别为0.1万台和6万台,重卡售价150万元,则对应市场规模分别为15亿元和900亿元 [4] - **Robobus(自动驾驶巴士)**: - 国内公交年化市场规模150-350亿元,Robobus在其中占比在2%以内 [4] - **Robosweeper(自动驾驶环卫车)**: - 国内环卫车年化市场规模113-225亿元,2025年Robosweeper在其中占比约4.7% [4] 竞争格局与主要玩家 - **Robotaxi**:自动驾驶公司如文远知行、小马智行、萝卜快跑(百度)商业化落地加速 [4] - **Robovan**:代表性玩家包括九识智能、新石器、白犀牛、川行致远(大华股份子公司)、佑驾创新、驭势科技等 [4] - **Robotruck**:玩家包括希迪智驾、易控智驾、小马智行、主线科技、西井科技等 [4] - **Robobus**:玩家包括文远知行、轻舟智航等 [4] - **Robosweeper**:代表性玩家有仙途智能、深兰科技等 [4] 重点公司分析 - **小马智行**: - 作为全球无人驾驶领先企业,其Robotaxi商业化落地正在加速 [1] - 2025年单二季度收入同比增长76%,单三季度收入同比增长72%,规模化运营持续推进 [1] - **文远知行**: - 作为全球L4级自动驾驶产品及解决方案先行者,商业化落地加速推进 [1][2] - 2025年单三季度收入同比增长144% [2] - 与Uber达成战略合作,计划未来五年新增15座国际城市部署Robotaxi服务,并获得了东南亚出行平台Grab的数千万美元股权投资 [23] 商业模式与运营分析 - **商业模式**:目前常见的Robotaxi商业模式主要有三种 [37] - **模式一(主机厂+自动驾驶公司+出行服务商)**:综合各方实力加速市场化,分担成本并共享数据与乘客资源,例如吉利+文远知行+Uber、上汽+Momenta+享道出行 [37][38] - **模式二(主机厂+自动驾驶公司)**:自动驾驶公司自主组建车队并运营 [38] - **模式三(主机厂+出行服务商)**:出行服务商自研L4系统并基于自有平台运营 [38] - **成本效益**: - **购车成本**:Robotaxi造车成本约为传统网约车的3倍(例如30万元 vs 13万元) [28][29] - **运营成本**:无安全员的Robotaxi每公里运营成本仅0.81元,比传统燃油网约车低58%,比传统电动网约车低43% [28][29] - **盈亏平衡测算**:假设拥有1000台Robotaxi(单车成本25万元),每车每天20单(客单价20元),配备200名安全员(人均月薪7000元),在不计研发和保险等前期投入的情况下,单月收入1200万元,成本707万元,模型显示可实现盈亏平衡 [36][39] - **发展路径**:中国Robotaxi发展从测试、试运营(2022年底已允许无人化测试),到2025年实现初步规模化运营,预计2030年有望成为用户采纳率较高的常态化出行方式 [33][34] - **全球进展**:全球Robotaxi商业化发展分为三个梯队,中国、中东、欧洲市场处于全球领先地位(第一梯队),已成功进行无主驾安全员的小规模商业化应用 [35]
复旦&港大等团队!WholeBodyVLA:面向全身移动操作控制的VLA框架
具身智能之心· 2025-12-18 08:07
文章核心观点 - 由复旦、港大等团队提出的WholeBodyVLA框架,是首个实现大范围人形机器人端到端移动-操作的系统之一,通过统一潜在动作学习和面向移动-操作的强化学习策略,解决了现有方法在“操作感知型移动”方面的不足,在AgiBot X2机器人上的实验表明,其性能比现有基线方法提升21.3% [4][5][12] 现有方法的不足与核心挑战 - 现有模块化或端到端方法无法规划和执行能主动创造操作前提条件(如接近、调整姿态)的移动,而是将移动和操作视为独立阶段,限制了机器人的工作空间 [2][3] - 核心挑战在于“操作感知型移动”,以及两个根本问题:人形机器人遥操作数据稀缺,以及现有强化学习控制器的精度和稳定性有限 [4][6] WholeBodyVLA提出的解决方案 - **统一潜在动作学习**:设计了一个学习框架,使视觉语言动作系统能够从低成本、无动作标签的第一视角人类视频中学习移动-操作知识,以缓解数据稀缺问题 [4][6][8] - **面向移动-操作的强化学习策略**:提出采用简化离散指令接口的LMO策略,专门优化前进、转弯、下蹲等核心移动-操作动作的准确性和稳定性,以解决低层执行不可靠的问题 [4][10] - **高效数据采集**:设计了仅需单操作员和单目相机的低成本、高效人类第一视角数据采集流程,以扩充数据集 [4][19] WholeBodyVLA方法细节 - **分离的潜在动作模型**:由于移动和操作视频的视觉变化模式不同,分别训练了用于操作的LAM和用于移动的LAM,再联合监督VLA训练,以避免性能不佳 [17][18] - **VLA训练与执行**:VLA基于视觉和语言指令,通过交叉熵损失联合预测两种潜在动作,轻量级解码器将其映射为机器人特定的上肢关节角度和移动指令,再由LMO策略转换为下肢力矩执行 [19] - **LMO策略设计**:采用仅依赖本体感受状态的紧凑观测空间,以及明确启停语义的离散指令接口,并通过两阶段课程学习和参考塑形来优化精度与稳定性 [20][21][22][24] 实验验证与性能 - **任务设置**:在AgiBot X2机器人上评估了三个综合任务:装袋、装箱和推车,以评估双臂协同、下蹲精度、转弯准确性和重载稳定性 [26][27] - **性能对比**:在三个任务的平均得分上,WholeBodyVLA达到78.0%,显著高于模块化设计的64.0%、GR00T w/ LMO的42.0%和OpenVLA-OFT w/ LMO的56.7% [31] - **消融实验**:移除统一潜在学习会导致成功率下降38.7%;使用基于速度的RL控制器变体成功率低24%;分离LAM设计优于共享单一LAM [31][32][36] 技术贡献验证 - **无标签视频的贡献**:使用人类第一视角视频进行潜在预训练能显著提升性能并减少对遥操作数据的依赖,使用超过50%人类视频预训练的模型,仅用25条遥操作轨迹微调即可匹配使用较少视频但需200条轨迹微调的模型性能 [35] - **LMO的贡献**:LMO策略有效解决了基于速度控制器常见的绊倒、路径偏移等问题,在扩展任务(如不平坦地形、长多步序列)中表现出更高的可靠性 [36] - **泛化能力**:框架在更具挑战性的场景中(如不平坦地形遍历、长时程多步序列、日常移动-操作活动)均保持性能优势,展现出强大的泛化能力和可扩展性 [38]
突发,OpenAI大神姚顺雨,任腾讯首席AI科学家
36氪· 2025-12-17 18:21
公司人事任命与组织架构调整 - 腾讯正式任命前OpenAI科学家姚顺雨为首席AI科学家,并向总裁刘炽平汇报 [1][2] - 姚顺雨同时兼任新成立的AI Infra部和大语言模型部负责人,并向技术工程事业群总裁卢山汇报 [2] - 腾讯对内部大模型研发体系进行力度空前的架构升级,新成立AI Infra部、AI Data部、数据计算平台部,旨在全面夯实大模型的地基能力 [2] 新任首席AI科学家的背景与成就 - 姚顺雨本科毕业于清华大学姚班,主修计算机科学,曾担任姚班学生会主席 [2][5] - 2014年获全国信息学奥林匹克竞赛银牌,2015年以安徽省理科第三名成绩考入清华 [5] - 2019年本科毕业后,前往普林斯顿大学直接攻读博士学位,并于2024年博士毕业后加入OpenAI [5][7] - 其主要研究方向为“智能体”,在OpenAI研究用于数字自动化的语言智能体,代表性成果包括ReAct、思维树、Reflexion、SWE-agent等 [9] - 其代表作“ReAct”和“思维树”被引次数分别超过4587次和4180次,总引用数近15972次,h指数为25,i10指数为30 [9][11] 行业趋势与个人见解 - 姚顺雨提出AI已进入“下半场”,重心正从“解题”转向“命题” [22] - 他认为“评测将比训练更重要”是当前最值得关注的趋势,核心问题是弄清楚究竟要让AI做什么 [22][23] - 要在AI新时代胜出,需要更贴近产品经理的角色:定义问题、设定指标、组织迭代,让AI能力在真实世界中转化为可衡量的价值 [23] - OpenAI的最新研究也印证了其观点,即评测方法是影响模型幻觉的关键因素,优化评测手段可进一步释放大模型潜力 [25]
NeurIPS掀起AI人才争夺战,年薪百万美元起步
日经中文网· 2025-12-17 16:00
AI顶尖人才薪酬市场现状 - 在NeurIPS会议上 AI顶尖研究人员的薪酬水平已提高至与职业运动员不相上下[2] - 一位得克萨斯大学奥斯汀分校的强化学习方向在读博士生第一年的期望薪酬总额为200万美元 包括签约奖金和股票薪酬[4] - 在AI领域中 像强化学习这样供不应求的方向 年薪100万美元已成为企业招揽人才的起步价[5] NeurIPS会议的角色与参与者 - NeurIPS兼具学术会议与招聘会的双重功能 约150家赞助企业在会场设立展位 共同目标是为AI研发部门招募优秀人才[4] - 参与人才争夺的不仅是科技公司 美国大型对冲基金城堡投资 Citadel DE Shaw 投资公司海纳国际集团 Susquehanna International Group 等作为顶级赞助商占据了显要位置[5] - 汽车制造商方面 除了特斯拉 美国通用汽车 GM 也是近年来首次参会 中国企业如字节跳动和阿里巴巴集团也参加了会议[5] 企业招聘策略与人才流向 - 科技公司如Meta曾以高额薪酬从竞争对手挖来AI人才 在各家公司以巨额投资推进AI开发竞赛的背景下 顶尖研究人员的待遇极高[4] - 对冲基金城堡投资为了将大语言模型定制用于金融交易 正在招聘专业人才 其优势是相对于科技公司以股票报酬为主 可以提供100万美元现金[5] - 阿里巴巴旗下的蚂蚁集团和淘宝网参展主要是为了吸引在美国就读的中国研究人员回国人才[6] 研究人员心态与市场认知 - 一位博士生看到学长和朋友以约100万美元薪酬入职美国OpenAI等公司后改变了职业规划 认为高额薪酬或许只是当前泡沫现象 就业还是趁早为好[4] - 一位弗吉尼亚大学从事强化学习研究的研究人员表示 在其周围开出100万美元年薪的报价并不罕见[5] - 在美国大学就读的AI研究人员中也有很多来自中国 会场上到处都能听到中文[5]
最近收到了很多同学关于具身方向选择的咨询......
具身智能之心· 2025-12-17 08:05
行业研究方向与选择 - 具身智能领域当前的研究方向包括视觉语言导航、视觉语言操作、强化学习以及真实到仿真再到真实的闭环方法[1] - 对于从事同步定位与地图构建研究的从业者,视觉语言导航和视觉语言操作被视为较好的切入方向[1] - 拥有机械臂硬件的研究者适合展开视觉语言操作研究,而无硬件的研究者可利用仿真环境或低成本硬件平台进行实验[1] - 四足机器人和人形机器人更适合采用强化学习方法进行研究,而视觉语言操作的研究难度相对较高[1] 研究方法与资源 - 研究过程中,拥有优秀的创新想法至关重要,但新人研究者往往需要经历多次试错才能获得[1] - 行业存在多种低成本的科研平台可供选择,例如移动操作平台[1] - 仿真方法是解决预算有限问题的可行方案之一[1] 专业辅导服务内容 - 提供的论文辅导服务覆盖从CCF-A到CCF-C级别的会议,以及SCI一区到四区的期刊[2] - 服务范围包括EI、中文核心期刊论文、毕业论文以及博士申请辅导等[2] - 辅导团队由来自国内外名校的博士及头部企业研究员组成,具备在ICML、ICLR、CoRL、ICRA、NeurIPS、CVPR等顶级会议的投稿与审稿经验[2] - 辅导流程为全闭环服务,涵盖选题创新点挖掘、实验设计、代码调试、论文写作到投稿策略[2] - 辅导服务兼具工业界与学术界双重视角,不仅关注论文发表,也重视研究的落地价值[3] - 公司为前10名咨询者提供免费匹配专属导师的机会[5]
PPO-Clip的「盲点」被补齐了?快手提出熵比裁剪方法,从局部约束到全局稳定的关键一跃
机器之心· 2025-12-16 18:22
研究团队与背景 - 本研究由快手科技语言大模型团队完成,该团队聚焦于基础语言大模型研发、Agent RL等前沿技术创新,并已开源Klear-46B-A2.5B和Klear-Reasoner-8B等模型,其中Klear-Reasoner-8B在数学和代码基准测试上达到同参数级别模型的SOTA效果 [2] - 在大语言模型后训练阶段,强化学习是提升模型能力和对齐质量的核心范式,但广泛采用的off-policy训练范式存在分布漂移问题,会将策略推至信任域之外,导致训练不稳定 [2][4] - 主流方法PPO通过重要性采样裁剪缓解部分问题,但仅能约束已采样动作的概率变化,忽略了未采样动作的全局分布漂移 [2][6] 创新方法:熵比裁剪 - 快手研究团队提出创新的熵比裁剪方法,该方法通过约束策略熵的相对变化来稳定全局分布,为强化学习训练提供更可靠的控制手段 [2] - ERC机制受PPO-clip启发,当新旧策略间的熵变化超出允许范围时,直接对样本梯度进行截断,它并非取代PPO-Clip,而是对其形成补充 [7][8] - ERC引入了熵比指标,定义为新旧策略在同一token上熵的相对变化,该指标可以测量整个动作分布的变化,提供了对策略全局漂移的度量 [9] - 如果某个token的更新导致熵比超出预设范围,ERC会直接截断其对应的梯度,以防止全局分布和策略熵的剧烈波动,这种方法既能防止策略分布的突然崩溃,又保留了足够的探索能力 [12] 实验设计与结果 - 为验证ERC方法的稳定性和有效性,研究在多个数学推理基准上进行了系统实验,包括AIME24、AIME25、HMMT25、MATH500、AMC23和Olympiad,所有实验均基于DeepSeek-R1-Distill-Qwen模型进行 [14] - 在1.5B参数模型上,基础模型平均得分为46.3,使用GRPO后提升至50.3,使用DAPO后提升至53.4,而集成ERC的DAPO将平均得分进一步提升至55.1 [15] - 在7B参数模型上,基础模型平均得分为61.8,使用DAPO后提升至65.3,而集成ERC的DAPO将平均得分进一步提升至66.2 [15] - 集成ERC后,模型几乎在所有基准测试上的性能都得到了一致提升,在AIME25和HMMT25等更具挑战性的基准上性能增益更为显著,该方法在1.5B和7B两种参数规模上均取得了一致的改进 [15] 机制分析与优势 - 与传统裁剪方法相比,ERC引入了全局熵比约束,使得训练过程中的熵值轨迹和梯度范数更加稳定 [17] - ERC的裁剪机制有效地强化了信任域约束,被熵比边界裁剪的token主要位于信任域的边界附近,这表明ERC能够识别并限制可能导致策略偏离的更新,与PPO-Clip以互补的方式协同工作 [18] - ERC优先抑制那些过于确定性、信息增益有限的token的更新,而不会过度约束模型的探索动态,大多数被ERC裁剪的token集中在低熵区域,高熵token在优化过程中通常被保留 [20] - ERC引入的全局分布约束显著提高了裁剪比例,PPO-Clip下的裁剪比例通常保持在0.02%左右,而ERC将此数值提高了近三个数量级,达到约20% [22] - 尽管ERC的裁剪比例显著更高,但其在最终性能和训练稳定性上均持续超越PPO-Clip基线,主要移除了那些会使训练不稳定的噪声更新 [22] 对比与泛化能力 - 与KL正则化对比:ERC在AIME24和AIME25基准上均优于PPO-penalty,KL散度施加的是逐点约束,可能限制有效的策略探索,而ERC实现了分布层面的软约束,在维持稳定性的同时鼓励更高效的探索 [25] - 与熵正则化对比:ERC的表现显著优于在强化学习训练中直接加入熵惩罚项的方法,熵正则化只能缓解单向的不稳定性,而ERC的双向裁剪机制能有效应对策略演化中熵值波动的两个方向 [25] - 与序列级裁剪对比:在DeepSeek-R1-Distill-Qwen-7B上的实验表明,结合了PPO-Clip和ERC的token级裁剪方法相较于序列级裁剪方法仍具有明显优势,且ERC与序列级裁剪是正交的,可以同时使用 [25] - 更广泛的适用性:除了DAPO,将ERC集成到GPPO中同样能带来一致的性能提升,为ERC在不同RL算法中的普遍有效性提供了有力证据 [25]
许华哲,抓紧时间慢慢等具身的未来......
具身智能之心· 2025-12-16 08:02
文章核心观点 - 行业观察到具身智能领域在2025年存在发展速率与落地现实不协调的现象 具体表现为技术演示与真实世界应用之间存在差距 [6][7][8] - 行业认为中美在具身智能的发展路径上出现分野 中国公司侧重量产与商业化 美国公司侧重探索AI技术上限 行业担忧过度关注确定性量产可能错过最根本的AI技术突破 [9][10][11] - 行业主张具身智能应类比大模型 不应局限于简单、重复的落地场景 而应挑战需要强操作和高泛化能力的困难任务 以训练出高质量的通用模型 [12] - 行业指出具身智能面临数据瓶颈 其发展路径将是预训练与基于真实交互的持续学习螺旋上升 而非一次性完成数据训练 [15] 两个世界的机器梦 - 自2022年、2023年同步起步后 中美具身智能发展路径在2025年出现明显分野 [9] - 中国公司投入更多精力在量产和商业化上 而美国公司如1X Technologies(展示Gen0精细操作)、Figure(展示长程任务能力)、Sanctuary AI(展示持续工作能力)等则致力于展示AI技术上限 [9] - 行业认为机器人本质不同于汽车 AI能力是核心驱动力 需要由AI技术领跑 而非单纯追求量产 [9] - 行业呼吁在具身智能领域应建立原始创新的信心 而非仅采用跟随策略 需要容忍高失败率的探索性研发 [10] 落地简单场景还是挑战困难场景 - 行业观察发现 高价值、高重复性的场景往往已被传统自动化设备解决(例如解决90%的问题) 剩余未自动化场景通常因单价低或重复度低而不具经济性 [12] - 基于此 行业认为具身智能的定位应更接近大模型 不应将资源耗费在简单任务上 而应致力于挑战需要“强操作”和“高泛化”能力的困难场景 [12] - 挑战困难场景有助于训练出高质量的通用模型 从而更广泛地解决问题 尽管向具体场景的早期落地有其价值 可为未来积累迁移经验 [12][13] “预训练”配合“先验学习” - 具身智能面临天然的数据瓶颈 包括仿真数据不足和真机数据缺乏 这一问题将持续存在 [15] - 因此 行业发展不能遵循“先穷尽数据预训练,再探索模型”的线性路径 而需采用“预训练”与“真实世界交互学习”螺旋上升的模式 [15] - 行业认为 足够好的世界模型无法仅从人类采集的数据中训练获得 必须让机器人自主与世界交互才能构建其独有的世界模型 [15] - 行业对未来探索使用统一强化学习目标函数贯穿预训练与后训练的模式表示兴趣 [15]
我和辛顿一起发明了复杂神经网络,但它现在需要升级
36氪· 2025-12-15 07:26
AI发展历史与理论基石 - 现代深度学习的理论基石之一是玻尔兹曼机,其灵感源于将神经网络想象成一团气体,用统计物理学定义“学习”为寻找能量最低状态的过程[1] - 玻尔兹曼机学习算法通过一个简单的局部规则实现:比较网络在“看到数据时”和“没看数据时”两种平衡状态下神经元活动的差异,以此计算权重调整方向[10] - 辛顿与谢诺夫斯基的合作融合了计算机科学、心理学、物理学和神经科学,但后续路径出现分歧:辛顿转向更高效、可扩展的反向传播算法,而谢诺夫斯基专注于神经科学[17] - 反向传播算法虽在工程上高效且推动了AI发展,但其非局部性的误差信号传递机制与大脑基于局部感知的学习方式不同[17] - 玻尔兹曼机虽受生物学启发,但其分析和洞察源于物理学特别是统计力学,这使其成为辛顿获得2024年诺贝尔物理学奖的原因[19] 当前AI(如ChatGPT)的局限性 - ChatGPT等大型语言模型本质是一个巨大的、确定的数学方程,其所有细节(输入数据、神经元激活模式)均可被完全访问和拆解分析,这与复杂、不透明的人脑形成对比[21] - 当前AI模型缺乏类似大脑的多个关键结构与功能:它没有海马体、基底神经节,也没有“自主生成的思想”[3][4] - 模型在停止输入后即彻底沉默,不具备人类在无感官输入时仍能进行的自主思考、未来模拟、记忆重组和元认知等“内在的生命力”[33][34][35] - 模型缺乏真正的长期记忆和持续学习能力:对话无法自然接续,且训练结束后参数锁定,无法通过改变突触权重来适应新经验,这与人类大脑时刻学习的状态截然不同[38] - 模型仅模拟了大脑皮层的一小部分功能,缺失了绝大多数对生物生存至关重要的关键结构[4][41] 通往更高级智能的可能路径 - 实现通用人工智能可能需要融合两种学习系统:类似大脑皮层的“认知部分”(负责知识和推理)和类似基底神经节的“强化部分”(负责基于奖励的行为和直觉)[26] - 强化学习应贯穿AI发展的整个过程,而非仅在预训练后微调,这类似于人类认知与强化系统的同步发育和交织[27] - 需要借鉴大脑的神经调质系统(如多巴胺、催产素),它们能动态调制神经元整合信息的方式,而不仅仅是静态的加权求和,这对于处理奖励、惊讶和社会整合至关重要[28][29][30] - 建立类似人类的情感纽带或深层联系,可能有助于防止AI产生恶意偏见或伤害行为[31] - 需要为AI引入类似海马体的机制,以筛选重要新信息,并将其整合到已有知识库中,避免灾难性遗忘,这过程在人类中与睡眠紧密相关[39][40][41] 对智能本质与AGI的思考 - 对智能的真正理解可能需要几代人的耐心,技术进步可以很快,但深刻理解可能需要像物理学发展一样漫长的基础研究沉淀[6][22] - 当前出现了“神经AI”这一新领域,致力于创造更好AI的工程师与致力于理解大脑的科学家首次能够使用相同的数学语言和底层原理进行真正对话,形成双向启发[22] - 复刻人脑不一定是通往AGI的唯一目标,理解自然界中多样化的智能形式(如蝙蝠的回声定位、蚂蚁的群体智慧)对于建立关于知识和理解的统一理论至关重要[50][51] - “AGI”和“意识”等词如同历史上的“生命力”概念,可能随着对其背后复杂机制(如DNA之于生命)的数学和原理性理解而不再需要,未来AI可能拥有与人类截然不同的意识形式[45][46][47][48][49] - 当前关于大模型是否“理解”语言的辩论,暴露出我们对“理解”这一概念本身的定义存在问题,而非仅仅是模型的问题[49]