强化学习
搜索文档
马斯克抢先谷歌一步放大招,Grok 4.1登顶LMArena,创意写作直逼GPT-5.1
AI前线· 2025-11-18 13:34
产品发布与定位 - xAI于2025年11月17日发布新一代大语言模型Grok 4.1,包含标准版Grok 4.1和增强推理变体Grok 4.1 Thinking两个版本[10] - 两个版本基于同一底层模型,仅推理配置不同,Grok 4.1 Thinking通过使用"思考令牌"进行链式推理,特别适合处理复杂数学、编程或多步问题[10] - 新产品对所有人免费开放,提供官网、X平台以及iOS和安卓移动APP版本[2] 性能表现与基准测试 - 在LMArena大模型盲测平台,Grok 4.1 Thinking以1483 Elo分数排名第一,比第二名Gemini 2.5 Pro高出31分[4][6] - 标准版Grok 4.1以1465 Elo分数位列第二,超越其他厂商的推理模型,显示其底层能力稳定性[5][11] - 在EQ-Bench情商测试中,Grok 4.1获得1586 Elo高分,比上一代提升超过100点,在情绪理解和共情能力上表现突出[16] - 在Creative Writing v3创意写作测试中,Grok 4.1得分跃升至1722 Elo,较上一版提升近600分,叙事节奏和创造性有质感跃升[20] 技术升级与核心改进 - 引入大规模强化学习系统,并使用前沿推理模型作为奖励模型,带来更稳定的风格输出和更可靠的事实判断[12] - 幻觉率从12.09%显著下降至4.22%,降幅接近三倍,在事实准确性方面取得关键突破[13] - FActScore指标从9.89降至2.97,在涉及检索和引用外部事实的场景中能给出更基于证据的回答[15] - 上下文窗口扩展至256K tokens,Fast模式下可达200万,在长文档理解和持续协作中保持高连贯度[26] 用户体验与市场反馈 - 在为期两周的静默发布测试中,Grok 4.1的回答有64.78%的概率被用户选为"更好",显示真实用户偏好[26] - 响应速率明显提升,回答既精准又"有人味儿",在交互体验上有显著改进[2][24] - 在实测中展现出较强的推理能力,能成功找出复杂逻辑题的多组解[31] - 具备图像生成和根据图像一键生成视频的能力,扩展了应用场景[37][39]
Physical Intelligence团队正式发布π*0.6!VLA+强化学习训练达到实际可用的鲁棒性水平
具身智能之心· 2025-11-18 11:38
RECAP方法概述 - Physical Intelligence团队提出RECAP方法,使视觉语言动作模型能够通过强化学习在现实部署中实现自我改进[4] - RECAP方法通过优势条件机制实现VLA模型的强化学习训练,整合异构数据到自我改进过程,包括演示数据、在线收集数据以及专家远程干预数据[4][7] - 该方法首先通过离线强化学习预训练通用型VLA模型,随后通过机器人现场数据收集实现下游任务的专业化性能提升[4] 技术实现细节 - RECAP方法包含三个核心步骤:数据采集、价值函数训练和优势条件训练,通过重复执行这些步骤优化基础VLA模型[11] - 在数据采集阶段,系统运行VLA执行任务并为每个任务周期标注结果标签,可选择引入人工干预来为早期迭代中的错误提供修正范例[12] - 价值函数训练利用收集的全部数据训练大型多任务价值函数,该函数能检测故障并预估任务完成所需时间[13] - 优势条件训练在VLA前缀中加入基于价值函数推导优势值的最优性指标,提供从次优数据中基于价值函数提取更优策略的有效方法[13] 模型架构改进 - 基于VLA模型实例化RECAP,该模型是在基础上的升级版本,采用了更大型的主干网络和更多样化的条件机制[8] - 模型新增了基于二值化优势值的条件调控能力,使其能够通过价值函数来优化策略[8][14] - 基础视觉语言模型采用Gemma 3 4B模型,动作专家的规模增加到860M参数[19] - 价值函数采用670M参数视觉语言模型backbone,从Gemma 3初始化,并在少量多模态网络数据的混合集上联合训练以防止过拟合[20] 实验性能表现 - 在衣物折叠、咖啡制作和纸箱组装任务中,采用完整RECAP方法训练的模型实现任务吞吐量提升超过两倍[4][29] - 在高难度任务中,RECAP将任务失败率降低约50%,相当于故障率降低超过两倍[4][31] - 模型达到实际可用的鲁棒性水平:成功部署连续制作浓缩咖啡达13小时,在新环境中折叠陌生衣物持续运转超过两小时无中断[10] - 在工厂场景中组装实际包装所用纸箱的任务也展示了稳定的成功率表现[10][31] 训练流程优化 - 预训练阶段在多样化多任务多机器人数据集上进行离线强化学习,该数据集包含来自大量任务和不同机器人的数万小时示范数据[8][13] - 部署阶段采用迭代式离线更新模式,收集数据批次后重新训练模型并循环进行,而非实时更新策略与价值函数[23][37] - 价值函数和策略均从预训练检查点微调,而非上一轮迭代的模型,这有助于避免多轮迭代中的漂移[23] - 即使一轮迭代也能带来显著的结果改进,但随着RECAP方法迭代次数的增加,任务吞吐量实现持续提升[23][31]
做了一份端到端进阶路线图,面向落地求职......
自动驾驶之心· 2025-11-18 08:05
文章核心观点 - 市场对端到端和视觉语言动作模型技术人才需求旺盛,主机厂和供应商积极寻求相关专家,3-5年经验的专家岗位月薪高达70k [1] - 为满足行业学习需求,公司联合工业界和学术界专家推出两门实战课程,分别聚焦VLA大模型和端到端自动驾驶技术 [1][10] 课程内容与技术方向 - 自动驾驶VLA与大模型实战课程由学术界团队主导,课程体系覆盖从视觉语言模型作为解释器到模块化VLA、一体化VLA及推理增强VLA的全链路技术 [1] - 课程配套理论基础模块,包括Vision/Language/Action三大组件、强化学习、扩散模型等,并通过大作业指导学员从零搭建VLA模型及数据集 [1] - 端到端与VLA自动驾驶课程由工业界专家带队,重点讲解一段式/两段式端到端算法,核心技术点包括BEV感知、大语言模型、扩散模型和强化学习 [10] - 端到端课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于VLA的ORION算法,紧密结合工业界量产实践 [10] 师资力量与团队背景 - 课程讲师团队由清华大学硕士、QS30高校博士等顶尖学术背景人才组成,在ICCV、IROS、EMNLP、Nature Communications等顶级会议和期刊发表多篇论文 [6][9] - 工业界讲师具备C9本科和QS50博士学历,现任国内顶级主机厂算法专家,拥有端到端算法和大模型预研及量产交付经验,已发表多篇CCF-A/B类论文 [12] - 讲师团队长期维护GitHub开源项目,总Star数超过2k,具备扎实的多模态大模型研发能力和丰富的自动驾驶实战经验 [6] 目标学员与技术要求 - 课程面向具备一定自动驾驶领域基础的学习者,要求熟悉自动驾驶基本模块和transformer大模型、强化学习、BEV感知等技术概念 [14] - 学员需具备概率论、线性代数基础和常用的数学运算能力,同时要求掌握一定的Python和PyTorch编程语言基础 [14] - 硬件方面要求学员自备GPU,推荐算力在4090及以上级别以满足课程实战需求 [13]
招募自动驾驶产品经理/强化学习方向合伙人!
自动驾驶之心· 2025-11-15 11:03
公司战略与内容升级 - 公司正在进行内容升级从单篇文章解读过渡到更深入的技术梳理方案分析和观点讨论[2] - 公司将增加圆桌访谈实战工业级课程咨询等各类输出以应对自动驾驶技术深水区的行业难点和痛点[2] - 公司作为国内自动驾驶领域创作技术平台期望在行业激流中贡献力量成为能给行业带来价值的平台[2] 行业技术动态 - 近期特斯拉小鹏理想都有新的技术分享引起了广泛深入的行业讨论[2] - 自动驾驶已经进入技术深水区行业的难点和痛点需要更多有志之士参与突破[2] 人才招募与合作 - 公司需要更多优秀伙伴加入主要方向包括自动驾驶产品经理4D标注数据闭环世界模型VLA自动驾驶大模型强化学习端到端等多个方向[4] - 岗位主要面向自动驾驶培训合作B端面向企业和高校研究院所培训C端面向学生求职类人群以及课程开发和原创文章创作[5] - 待遇与合作方式可通过添加微信wenyirumo进行进一步沟通[6]
端到端自动驾驶算法工程师的一天
自动驾驶之心· 2025-11-15 11:03
端到端自动驾驶技术发展趋势 - 规控算法的学习化已成为绝对主流,基于规则的算法无法满足高阶智驾需求[4] - 衍生出一段式和两段式等多种算法,其中一段式是目前主流的端到端量产范式[4] - 端到端并非单一模型可解决所有问题,量产涉及模型、数据、场景等多方面经验[4] 主流技术框架与方案 - 两段式框架涉及感知与规划控制的信息传递建模,PLUTO算法是经典实战案例[8] - 一段式框架可实现信息无损传递,性能优于两段式,包括基于VLA和Diffusion等方法[9] - VAD系列是深入掌握一段式方法的关键学习内容[9] 关键算法与应用 - 强化学习可配合Diffusion和自回归模型使用,弥补纯模仿学习的不足[4][11] - 导航信息在自动驾驶中起引导、选路、选道作用,需学习其编码与嵌入方式[10] - 轨迹优化涉及模仿学习与强化学习结合,包括扩散模型和自回归算法实战[12] 量产落地与工程实践 - 时空联合规划作为兜底方案,通过轨迹平滑优化算法保证输出轨迹稳定可靠[13] - 量产经验需从数据、模型、场景、规则等多视角选用合适工具提升系统能力边界[14] - 拥堵加塞等场景需针对性优化强化学习奖励函数,并设计闭环训练方法[2]
Nature公开谷歌IMO金牌模型技术细节!核心团队仅10人,一年给AI编出8000万道数学题训练
创业邦· 2025-11-14 18:24
核心观点 - 谷歌DeepMind公开了其数学奥林匹克竞赛金牌模型AlphaProof的完整技术细节,该模型通过将数学证明构建为强化学习游戏并采用创新的训练方法,在2024年IMO中取得突破性成绩[2][4][5] 技术架构与训练方法 - 核心思路是将数学证明过程构建为可训练的强化学习游戏,基于Lean定理证明器创建环境,每个数学命题是一个游戏关卡[7] - 模型采用30亿参数的编码器-解码器transformer架构作为核心证明网络,同时输出策略建议和完成证明的步数估计[8] - 搜索算法受AlphaZero启发但做了关键改进,引入AND-OR树结构处理多个独立子目标,并加入渐进采样机制[9] - 预训练使用了约3000亿个token的代码和数学文本,微调使用了Mathlib库中约30万个人工编写的证明[9] - 通过基于Gemini 1.5 Pro开发的翻译系统,将约100万道自然语言数学题转换成约8000万道形式化问题,极大扩充了训练数据[10] - 主训练阶段消耗了约8万TPU天的计算资源,通过主强化学习循环和测试时强化学习循环协同工作[10][13] 团队与开发过程 - 团队规模较小,大部分时间约10人,临近IMO比赛时才有更多人加入[4] - 核心突破来自IMO金牌得主Miklós Horváth提出的方法,即创建问题变体作为初始状态进行训练[4] - 团队在一年中探索了多种研究思路,失败的经验与成功的经验最终都被整合进AlphaProof系统[5] IMO表现与测试时强化学习 - 在2024年IMO上成功解决了代数和数论的三道题,包括最难的P6题,该题609名参赛选手中仅5人完全解出[15] - 关键机制是测试时强化学习,针对每道难题生成约40万个相关变体,专门训练“专家”模型来攻克原题[13][15] - 每道题的TTRL过程需要2-3天计算时间,最终成绩达到金牌水平[15][16] 能力评估与行业应用前景 - 系统已向科学界开放,数学家试用反馈显示其特别擅长找出反例,能帮助快速调整和修正数学陈述[20] - 在处理Mathlib已有概念的数学子领域表现出色,但在面对充满“定制化定义”的全新概念时存在瓶颈[20] - 面临的行业挑战包括对持续演进的Lean定理证明器的依赖,以及数学题数据的有限性,未来需拓展问题自动生成能力[20] - 该方法展示了AI在封闭数学系统中共享知识并生成训练数据的潜力,预示其在数学领域可能超越人类[20]
聊AI,当然得来量子位MEET大会!首波嘉宾阵容曝光
量子位· 2025-11-14 16:22
大会概况 - 大会以"共生无界,智启未来"为主题,关注AI技术穿透产业、学科与场景边界,成为驱动社会演进的核心动能[3] - 大会聚焦强化学习、多模态、芯片算力、AI+行业、AI出海等年度热门话题[4] - 内容涵盖学术前沿与商业落地碰撞,以及Infra、模型、产品产业领先技术成果[5] 嘉宾阵容 - 清华大学智能产业研究院院长张亚勤院士是数字视频和AI领域世界级科学家,拥有31岁获IEEE Fellow最年轻科学家记录[12][13] - 清华大学人工智能研究院常务副院长孙茂松主持国家973项目、国家社科基金重大项目等20余项科研项目[17] - 北京智源人工智能研究院院长王仲远发表国际顶级学术论文100余篇,获得ICDE 2015最佳论文奖[21][22][23] - 浙江大学赵俊博研究员首创数据库大模型TableGPT,突破通用模型局限,参与PyTorch早期研发[27] - 昆仑万维董事长方汉拥有31年互联网从业经验,是中文Linux奠基人之一[30] - 潞晨科技创始人尤洋获福布斯30岁以下精英榜,曾是高性能计算领域谷歌学术引用最高博士毕业生[35][36] - 小米首席语音科学家Daniel Povey是Kaldi之父,谷歌学术引用近52000次,h-index 70[40] - 上海高级金融学院朱宁教授2021至2024年连续入选爱思唯尔"中国高被引学者"[44][45] - RockAI CEO刘凡平主导实现国内首个非Transformer架构大模型,拥有20余项AI专利[48][49] - 中关村科金总裁喻友平带领公司入选2025《财富》中国科技50强、2024胡润中国人工智能企业50强[53][54] - 太初元碁联合创始人乔梁获评2024年度"算力中国·青年先锋人物",参与国家核高基重大专项[57][58] 行业活动 - 大会将发布人工智能年度榜单,从公司、产品、人物三大维度评选五类奖项[60] - 年度AI趋势报告将提名十大AI趋势并进行深入分析,提名代表机构和最佳案例[64][65] - 大会每年吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光[72]
报名启动!快来和张亚勤孙茂松一起参与MEET2026智能未来大会
量子位· 2025-11-14 13:38
大会概况 - 大会以"共生无界,智启未来"为主题,关注AI穿透产业、学科与场景边界,成为社会演进核心动能[3] - 聚焦强化学习、多模态、芯片算力、AI+行业、AI出海等前沿技术与产业落地进展[4] - 包含学术前沿与商业落地碰撞,涵盖Infra、模型、产品产业领先技术成果[5] - 将发布人工智能年度榜单与年度AI趋势报告[6] - 预计吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光[72] 嘉宾阵容 - 张亚勤:清华大学智能产业研究院院长,中国工程院院士,数字视频和AI领域世界级科学家,曾任百度总裁、微软全球资深副总裁[12][13] - 孙茂松:清华大学人工智能研究院常务副院长,欧洲人文和自然科学院外籍院士,主持国家973项目等20余项科研项目[17] - 王仲远:北京智源人工智能研究院院长,发表论文100余篇,获得ICDE 2015最佳论文奖,拥有美国专利5项、中国专利50余项[21][22][23] - 赵俊博:浙江大学百人计划研究员,蚂蚁集团资深技术专家,首创数据库大模型TableGPT,参与PyTorch早期研发[27] - 方汉:昆仑万维董事长兼CEO,拥有31年互联网从业经验,中文Linux奠基人之一[30] - 尤洋:潞晨科技创始人,新加坡国立大学校长青年教授,高性能计算领域谷歌学术引用最高博士毕业生[34][35] - 朱宁:上海高级金融学院金融学教授,行为金融学专家,连续四年入选爱思唯尔"中国高被引学者"[39] - 刘凡平:RockAI CEO,主导实现国内首个非Transformer架构大模型,拥有20余项AI技术专利[43][44] - 喻友平:中关村科金总裁,前百度智能云副总裁,提出"平台+应用+服务"大模型落地三级引擎战略[47][48] - Daniel Povey:小米集团首席语音科学家,IEEE Fellow,Kaldi开源语音识别工具创始人,论文引用近52000次[52][53] - 乔梁:太初元碁联合创始人兼COO,清华大学计算机系博士,主导国产异构众核平台超大规模并行深度学习框架研发[57][58] 行业活动 - 人工智能年度榜单从公司、产品、人物三大维度评选五类奖项,申报截止2025年11月17日[60][61] - 年度AI趋势报告案例征集截至2025年11月20日,将提名十大AI趋势并分析代表机构[64][65][66] - 大会地点设在北京金茂万丽酒店,已开启观众报名通道[70]
港科大等团队提出WMPO:基于世界模型的VLA策略优化框架
具身智能之心· 2025-11-14 09:02
文章核心观点 - 香港科技大学与字节跳动Seed团队联合提出WMPO框架,通过像素级视频生成世界模型实现VLA模型的无真实环境交互on-policy强化学习 [1] - WMPO框架显著提升机器人操作的样本效率、任务性能、泛化能力与终身学习能力,并涌现出自修正等高级行为 [1] 研究背景与核心痛点 - VLA模型是通用机器人操作的关键范式,但主流模仿学习范式面对训练中未见过的分布外状态时易出错,且无法从失败中学习和自修正 [6] - 强化学习直接应用于真实机器人时样本效率极低,需数百万次交互,既不切实际也存在安全风险 [6] - 现有解决方案难以兼顾规模化与有效性:人类干预引导学习需持续监督,难以扩展;仿真器适配多样场景成本高;传统潜在空间世界模型与VLA的web-scale预训练视觉特征存在天然错位 [4] 核心框架设计 - WMPO核心逻辑是将VLA策略优化完全置于“想象”空间,基于高保真像素级世界模型生成轨迹替代真实环境交互,支持更强的on-policy强化学习 [5] - 整体流程遵循“想象轨迹生成→轨迹采样评估→策略更新”的迭代循环 [5] - 生成式世界模型核心作用是仿真机器人与环境的动态变化,生成与VLA预训练特征对齐的视觉轨迹 [8] - 轻量级奖励模型核心作用是自动判断想象轨迹的任务成败,提供稀疏奖励信号,避免复杂奖励塑造 [9] - 选择Group Relative Policy Optimization作为优化算法,适配稀疏奖励场景,兼顾稳定性与扩展性,采用无KL正则化设计以减少内存消耗并鼓励策略探索 [10] 核心技术创新 - 采用像素空间优先设计,摒弃传统潜在空间世界模型,直接在像素空间生成轨迹以完美匹配VLA的预训练视觉特征 [11] - 基于OpenSora的视频扩散骨干网络,将3D VAE替换为SDXL的2D VAE以更好保留细粒度运动细节,扩散过程在VAE潜在空间进行,优化时解码回像素空间 [12] - 通过策略自身收集的真实轨迹微调世界模型,解决专家演示与策略实际行为的分布错位问题 [12][18] - 引入噪声帧条件和帧级动作控制技术,实现数百帧无质量损失的轨迹生成,突破长horizon视频生成的瓶颈 [12][18] - 实现无真实交互的on-policy强化学习,依托世界模型进行大规模轨迹采样,规避真实环境的高成本 [18] 实验验证与性能结果 - 在仿真环境Mimicgen平台的4个精细操作任务中,WMPO表现均优于GRPO、DPO等基线方法 [13] - 当交互预算为128时,WMPO平均成功率达47.1%,超出最强基线9.8个百分点;预算提升至1280时,平均成功率达57.6%,优势扩大至15.2个百分点,样本效率突出 [14] - 在真实环境Cobot Mobile ALOHA平台的“方块插入杆子”任务中,WMPO成功率70%,显著高于基础策略的53%和DPO的60% [15] - 在空间扰动、背景替换、纹理替换三种分布外场景中,WMPO平均成功率29.6%,优于所有基线,证明其学习的是通用操作技能而非虚假视觉线索 [19][20] - 成功轨迹长度显著短于基线,动作更流畅,避免“卡壳”现象 [22] - 在终身学习测试中,迭代收集128条轨迹进行优化,性能持续稳定提升,而DPO训练不稳定且无法实现迭代改进 [23] 涌现行为与框架意义 - 框架涌现出自修正能力,面对碰撞等失败状态能自主调整动作,而基线策略会持续错误动作直至超时 [17] - WMPO构建了“世界模型+on-policy强化学习”的VLA优化新范式,解决了真实环境交互成本高、样本效率低的行业痛点 [25] - 该框架为通用机器人操作的规模化落地提供了可行路径,未来可扩展至流基策略以适配更多动作空间类型 [25]
谷歌DeepMind最新论文,刚刚登上了Nature,揭秘IMO最强数学模型
36氪· 2025-11-13 18:05
核心观点 - 谷歌DeepMind研发的AI系统AlphaProof在国际数学奥林匹克竞赛(IMO)中取得28分(满分42分),达到银牌水平,距离金牌线仅差1分,这是AI首次在此类顶级数学赛事中获得奖牌级成绩 [3][4][18] 技术方法 - AlphaProof结合了预训练大语言模型的直觉和AlphaZero强化学习算法的探索能力,其核心是将AI思维“硬化”成可被计算机逐行检验的形式化证明语言Lean [8][6][7] - 系统首先利用谷歌Gemini模型将近一百万道自然语言数学题翻译成Lean代码,构建了约8000万条形式化数学命题的题库供AI练习 [10] - 训练过程分为两步:先通过监督学习微调掌握基本证明技巧,再进入强化学习阶段,通过类似AlphaGo的自我对弈在数百万次问题证明中不断进步 [10] - 在解题搜索中采用类似蒙特卡罗树搜索的策略,智能拆解复杂问题为子目标,避免了暴力穷举 [11][16][17] 竞赛表现 - AlphaProof与专攻几何的AlphaGeometry 2联手,在2024年IMO的6道题中解出4道,获得28分,处于银牌段顶端 [18] - AlphaProof单独解决了3题(包括2道代数题和1道数论题),其中整场最难的第6题在600多名顶尖学生中仅5人满分解决 [18] - 剩余1道几何题由AlphaGeometry 2完成,而两道组合数学题因难以形式化和搜索爆炸等原因未能攻克 [18] 当前局限 - 解题效率较低:人类选手需在4.5小时内完成3题,而AlphaProof解决3题耗费了将近3天时间 [21] - 通用性不足:未能解决两道组合数学题,这类高度非结构化创新思维的问题仍对AI构成挑战 [21] - 无法自主读题:需要人工先将题目翻译成Lean形式化表达,不具备自然语言理解能力 [21] 未来方向 - 研发方向包括让AI直接阅读理解自然语言表述的数学题,并给出形式化证明 [23] - 针对不同类别数学问题(如组合数学或几何)引入更专业策略,如融合符号计算、知识库或分领域训练模型 [24] - 未来可能实现数学家与AI证明助手协同工作,AI负责快速验证猜想和尝试思路,人类专注于提出问题和宏观构想 [24] - 其形式化推理能力对AI安全和可靠性有启发意义,输出的每一步推理可追溯、验证,有助于减少大模型的荒诞臆测 [25]