Workflow
强化学习
icon
搜索文档
Claude 4 核心成员访谈:提升 Agent 独立工作能力,强化模型长程任务能力是关键
Founder Park· 2025-05-28 21:13
强化学习在大语言模型中的应用 - 2025年最大的变化是强化学习在语言模型训练上真正奏效 通过可验证奖励的强化学习 模型在竞技编程和数学领域达到专家级人类表现 [1][4][6] - 强化学习主要作用是激活模型已有知识并将其组织成解决方案 而非从零学习 [4][27] - Gemini 2 5 Pro和Claude Opus 4的发布验证了这一趋势 模型在长期任务和多步动作管理上表现突出 [2][31][32] 模型训练与能力提升 - 当前行业普遍采用"算力优先 数据其次"的预算分配策略 但未来可能转向更平衡的方式 [4][21] - 模型规模越大学习效率越高 所需示范越少 大模型能将不同语言表示整合在统一共享子空间中提升泛化能力 [25][26] - Opus 4最大突破是时间跨度扩展 能处理数小时工作量任务而无需频繁用户介入 [31][32] 模型可解释性与安全研究 - 机制可解释性是对神经网络进行逆向工程 找出其计算基本单元 模型是"生长"而非"建造"出来的 [47][48] - 目前已识别出3000万个特征 包括抽象概念如"代码漏洞" 并能追踪模型内部推理回路 [49][50][51] - 模型安全研究需要多管齐下 包括宏观探针和微观机制分析 [52][53] AI Agent发展趋势 - 未来用户可能同时管理多个模型执行任务 交互方式类似"模型舰队管理" [34][37] - 用AI操作电脑执行复杂任务并不难 核心限制在于上下文和记忆系统管理 [4][5] - 预计2025年底出现能完成初级工程师一天工作量的高效软件Agent系统 [9][36] 行业竞争与技术突破 - DeepSeek在模型研发上展现出优秀"品味" 其设计体现"硬件-算法共舞"思维 [63][64] - DeepSeek从落后位置快速跃升为有力竞争者 成功吸收行业效率提升红利 [61][62] - 模型发布节奏预计将远超去年 2025年进展速度明显加快 [38] 模型自我意识与沟通 - 当前模型没有哲学意义上的自我意识 但能模拟特定身份和记忆 [40][42] - Agent之间可能发展出人类无法理解的Neuralese沟通方式 文本渲染可隐藏信息 [75][83] - 模型已具备一定元认知能力 能表达不确定性 但缺乏持续身份感 [39][44] 算力与推理瓶颈 - 推理计算可能成为AGI发展瓶颈 当前全球约1000万张H100等效算力 2028年或达1亿张 [84][88] - 人类思维速度约每秒10个token 一张H100每秒可处理约100个"人类思维" [86][87] - 模型规模与推理效率需平衡 存在帕累托前沿最优解 [90] 模型优化方向 - 现阶段重点应是提高模型底线质量 而非追求极致表现 [93][95] - 通过排除明显低质量输出来提升整体表现 类似人类写作训练过程 [94] - 大语言模型被视为"雏形AGI" 因其具备对真实世界的概念性理解 而AlphaZero缺乏这一基础 [97]
三位顶流AI技术人罕见同台,谈了谈AI行业最大的「罗生门」
36氪· 2025-05-28 19:59
AI技术发展路径的共识与非共识 - 预训练技术从2023年的行业共识到2025年面临质疑,OpenAI前首席科学家公开认为"预训练已走到尽头",而DeepSeek R1等强化学习模型崛起[1] - 蚂蚁集团技术开放日圆桌讨论显示,行业分化成两派:曹越、孔令鹏等通过跨架构创新(如语言模型应用Diffusion、视频模型采用自回归)实现突破,阿里则坚持Transformer等传统路径[3][4][14] - 当前行业呈现多元探索态势,参与者形容为"摸彩票",不同技术路线本质是平衡模型偏差与数据偏差的尝试[7][17][18] 主流架构的技术突破 - 扩散模型创新:Dream 7B以7B参数量超越671B的DeepSeek V3,通过双向学习处理并行任务,在数学/代码任务表现突出[3][8][17] - 视频模型革新:曹越团队将自回归应用于视频生成,突破Sora无时序先验的限制,通过编码时间关系提升信息利用率[10][11][12] - Transformer持续主导:阿里内部多次"魔改"Transformer后仍确认其最优性,但承认MOE架构在扩展性上的潜力[5][14][16] 模型优化与效率挑战 - MOE架构进展:DeepSeek实现1:20+稀疏比,阿里测试显示1:10-1:20区间效果最佳,但专家数增加会降低训练稳定性[19][20][22] - 多模态融合创新:通过Attention稀疏化提升跨模态效率,端到端优化Tokenize到联合建模的全流程[24][25][26] - 硬件制约明显:GPU对Transformer训练非最优,行业呼吁软硬一体解决方案[34][35][36] 预训练与数据应用趋势 - 预训练价值分歧:2024年认为数据枯竭是共识,2025年美国新观点认为仍有潜力,阿里证实数据增量仍能提升模型性能[38][39] - 算力驱动创新:历史显示算力增长可激活曾被放弃的技术,当前需重点优化算力利用率[40][41] - 创造本质探索:将创作定义为搜索问题,通过可能性空间遍历实现智能生成[42][43] 行业现存问题与应对 - 幻觉控制难题:强化学习可能加剧错误推理模式,阿里尝试通过稀疏自编码器(SAE)定位并抑制相关特征[30][31] - 架构选择成本:模型结构需同时兼容预训练与强化学习,当前每次技术押注成本显著上升[20][33] - 技术迭代哲学:行业进步类似飞机航道调整,需动态修正而非预测终极形态[44][45]
一个省略号提示+强化学习搞定大模型“过度思考”,中科院自动化所新方法:从强制推理到自主选择
量子位· 2025-05-28 12:22
大模型推理优化技术 - 核心观点:AutoThink通过省略号提示词+多阶段强化学习,使大模型具备根据题目难度自主切换思考模式的能力,实现"按需思考"的智能推理[2][5][6] - 行业痛点:当前主流推理模型(如DeepSeek-R1/Claude 3.7/Qwen3)存在过度思考问题,导致简单问题消耗过多计算资源,复杂问题可能因冗余推理降低准确率[3][4] 技术实现路径 - 最小干预设计:仅需在prompt中加入省略号"…"即可触发模型自主选择思考模式,未训练时已能实现随机模式切换[9][10] - 三阶段强化学习: 1) 阶段一通过动态奖励平衡防止模式坍缩,维持思考多样性[16][17] 2) 阶段二放开限制优化准确率,模型自主发展出难度感知能力[18] 3) 阶段三引入长度感知奖励,压缩冗余推理同时保持性能[19][20] 性能提升数据 - 在DeepSeek-R1-Distill-Qwen-1.5B模型上,AutoThink-Stage3实现51.7%准确率,较标准提示提升3.1个百分点,同时减少51.8%的Token消耗[23] - 对已强化学习的DeepScaleR模型仍能额外节省10%计算资源,证明该方法具备模型普适性[21] 行为模式分析 - 难度匹配:模型在Math类简单题思考比例仅28.1%,复杂题(如AMC23)思考比例升至67%,呈现显著正相关性[29] - 内部机制:不思考模式仍保留"Calculate/Check"等关键词,表明其进行快速内部推理而非随机猜测[28] 行业应用前景 - 该技术已集成至ScienceOne智能科研平台,将用于训练其基座大模型S1-Base[39] - 当前局限包括奖励规避和推理预算控制问题,后续将重点优化[41]
前小米智驾刘方:如果VLA跑通,自动驾驶会变成具身智能子问题|36氪专访
36氪· 2025-05-28 12:18
VLA技术概述 - VLA是视觉语言动作模型 在视觉语言模型基础上新增与物理世界交互的动作能力 能直接输出控制指令如车辆驾驶决策 [2] - VLA最早由Deepmind推出 现已成为具身智能领域主流技术范式 Open AI和字节跳动等公司都在践行这个路线 [2] - 该技术让智能驾驶和具身智能两大赛道产生更深刻交汇 但技术实现与工程落地仍处于早期阶段 [2] 阿米奥机器人公司背景 - 公司成立于2024年9月 由小米汽车智驾技术产品负责人刘方创立 [2] - 2024年3月完成种子轮融资 投资方包括安克创新 智谱AI和险峰长青 [2] - 创始人刘方曾历经小米自动驾驶团队筹建 技术研发和量产落地全过程 更早前在谷歌中国搜索业务部门履职 [3] 技术实现路径 - VLM性能决定VLA超过一半的性能 VLA大部分工作是在VLM上做增强 [4][20] - 通过3D增强方式强化VLM的感知能力 解决空间语义理解差的问题 [20] - 采用生成式模型来增强动作理解能力 借鉴GPT3.5的直接生成理念 [20] - 使用残差强化学习方法 只在实际操作阶段进行强化学习 学习VLA模型与实际环境间的偏差 [15] 应用场景选择 - 聚焦3C消费电子领域机器人柔性生产 因电子产品生命周期短且自动化产线部署成本高 [6] - 汽车行业不是具身智能的好场景 因其生产线使用周期达5-9年 更适合专用设备而非通用设备 [8] - 未来将扩展到服务领域和家庭清洁整理等场景 [7] 商业化进展 - 2024年三四季度将有一条大的通用机器人产线整体落地 [7] - 与北大搭建联合实验室 在VLA基座模型上开展合作 [7] - 在投资人智谱AI助力下开展预训练 并已在工厂进行数据采集 [7] 成本效益分析 - 人力成本约10万元/人/年 机器人可三班倒 一个工位可替换三人成本 [10] - 机器人成本包括实体固定资产和算法模型 模型成本前期投入大但后期运转时摊薄 [10] - 使用夹具而非灵巧手 因夹具能满足8000-10000小时寿命需求且成本更低 [9] 行业竞争格局 - VLA仍处于创新迷茫阶段 各家企业实现路径不尽相同 尚未达到收敛状态 [6][19] - Pi Robotics Facebook Google 字节和阿米奥的方案在细节 算法设计和数据使用上都不同 [19] - 机器人VLA领域尚未出现像特斯拉在自动驾驶领域的标杆产品 [19] 技术挑战 - 自动驾驶强化学习存在竞争博弈问题 需要模仿对手反应 [5][16] - 世界模型与驾驶模型需要绑定迭代 通过逐步添加数据来改善模拟真实性 [6][17] - 自回归学习和生成式模型发展较快 可能对模型性能产生较大提升 [21]
腾讯研究院AI速递 20250528
腾讯研究院· 2025-05-27 23:44
全球AI合作与投资 - 阿联酋成为全球首个全民免费使用ChatGPT Plus的国家,这是OpenAI与阿联酋政府合作的一部分 [1] - 阿布扎比将建设Stargate UAE高性能AI数据中心,初期目标200兆瓦容量,最终支持1千兆瓦计算集群 [1] - 该合作属于OpenAI"面向国家"计划,阿联酋承诺匹配美国同等资金,投资总额可能高达200亿美元 [1] AI模型竞争与创新 - OpenAI为GPT-4o启用唱歌功能,被认为是对谷歌I/O大会发布Gemini 2.5 Pro和Veo3的回应 [2] - 谷歌新发布的Gemini 2.5 Pro在多项基准测试中超越OpenAI和Claude模型 [2] - Claude Opus成功解决30年经验工程师4年未解决的顽固Bug,仅用几小时和约30轮对话 [3] - 阿里通义推出QwenLong-L1-32B,通过强化学习解决长上下文推理问题,支持13万token长度 [6] - 秘塔AI搜索推出"极速"模型,实现400 tokens/秒响应速度,大部分问题2秒内完成回答 [7] AI硬件与产品创新 - 雷鸟发布全彩显示AI眼镜X3 Pro,售价8999元,搭载通义定制多模态大模型,支持实时视觉问答 [8] - X3 Pro采用4nm高通骁龙AR1平台,亮度达3500尼特(峰值6000尼特),重量仅76g [8] - 法国Kyutai推出Unmute模块化语音AI系统,具备低延迟(200-350毫秒)和70+情感风格 [4][5] 人才流动与行业趋势 - Meta的Llama核心团队14人中已有11人离职,其中5人加入法国AI开源创企Mistral [10] - NVIDIA专家建议学生融合多项技能并提高适应能力,将AI整合到日常工作流中 [12] 前沿技术突破 - 北航团队实现通过语言指令控制无人机执行精细飞行动作,填补低层次语言交互控制研究空白 [11] - 研究团队构建UAV-Flow基准数据集,包含30K真实世界飞行轨迹,覆盖八种主要运动类型 [11]
One RL to See Them All?一个强化学习统一视觉-语言任务!
机器之心· 2025-05-27 12:11
视觉三重统一强化学习系统V-Triune - 核心目标是使用单一训练流程联合训练视觉-语言模型在视觉推理和感知任务上 [6] - 包含三个核心组件:样本级数据格式化、验证器级奖励计算、数据源级指标监控 [8] - 引入动态IoU奖励机制为感知任务提供自适应反馈 [22] 样本级数据格式化 - 在样本级别定义奖励配置实现细粒度控制 [13] - 使用Hugging Face datasets作为统一接口 [15] - 支持将多样化数据集无缝集成到统一训练流程 [16] 验证器级奖励计算 - 采用异步客户端-服务器架构实现模块化设计 [17] - 将奖励计算与主训练循环解耦提高灵活性 [19] - 使用MathVerifyVerifier和DetectionVerifier两种验证器 [23] 数据源级指标监控 - 按数据源分别记录关键性能指标实现精细化追踪 [21] - 监控指标包括各源奖励值、感知任务IoU/mAP等 [24] - 有助于识别问题数据源并支持针对性调试 [21] 动态IoU奖励机制 - 通过动态调整IoU阈值平衡学习效率和精度 [26] - 训练初期使用宽松阈值(0.85)后期采用严格阈值(0.99) [26] - 避免冷启动问题同时确保最终高性能 [26] 训练方法优化 - 冻结ViT参数防止梯度爆炸 [34] - 过滤虚假图像特殊token保持训练稳定性 [38] - 构建CoT提示词池减少提示差异影响 [39] 实验表现 - 在MEGA-Bench Core基准上7B模型提升+3.2 32B模型提升+14.1 [48] - 在MathVista基准上实现超过5%的性能提升 [57] - COCO检测任务上7B模型单目标检测提升+12.17 mAP@50 [58]
《科学智能白皮书2025》发布,中国引领AI应用型创新领域
第一财经· 2025-05-26 21:27
全球AI科研发展趋势 - 中国AI论文引用量占全球40.2%,快速追赶美国(42.9%)[1][8] - 全球AI期刊论文数量十年激增近三倍,从30.89万篇增至95.45万篇,年均增长率14%[7] - 科学智能(AI4S)占比提升6个百分点,2020年后年均增长率从10%跃升至19%[7] 科学智能(AI4S)领域进展 - 报告覆盖7大科研领域、28个方向、近90个科学智能前沿问题及突破路径[1] - 大语言模型(LLMs)成为物质科学、生命科学等领域的通用科研工具[4] - 强化学习在工程控制、数学证明及物理模拟等复杂场景占主导地位[4] - 计算机视觉技术在生命科学和地球环境领域渗透显著[4] 国别科研表现对比 - 中国AI出版物总量从2015年6.01万篇增至2024年30.04万篇,占全球29%[7] - 印度AI出版物从2015年1.82万篇增至2024年8.51万篇,几乎与美国(8.57万篇)齐平[7] - 中国在专利、政策及临床试验中AI引用量占比达41.6%,全球领先[8] 细分领域竞争格局 - 中国在地球环境科学和工程交叉领域具有先发优势[9] - 欧盟与美国在AI与生命科学交叉领域保持优势,中国位居第三[9] - 印度在地球环境、工程和人文社科领域居全球第三[9] - 中美合作AI出版物2024年达1.22万篇,为2015年两倍[9] 科研影响力动态 - 美国高质量AI论文引用量2020年达30.22万次,保持领先[8] - 中国高质量AI论文引用量从2015年1.03万次跃升至2020年14.48万次[8] - 中国在AI应用型创新领域从"跟随者"转变为"引领者"[8]
别只盯着7小时编码,Anthropic爆料:AI小目标是先帮你拿诺奖
36氪· 2025-05-26 19:06
技术突破 - Anthropic发布Claude 4大模型 号称是目前最强的编程模型 能实现长达7小时的持续编码 [1] - 强化学习在大语言模型应用取得实质性突破 实现"专家级人类表现"和高度稳定性 主要在竞技编程和数学任务中验证 [3] - 采用"来自可验证奖励的强化学习"(RLVR)新方法 相比传统RLHF更客观 如通过数学题解答正确性和代码单元测试作为反馈信号 [9] - 软件工程领域特别适合强化学习 因代码编译和测试提供明确标准化判断标准 [10] 模型能力 - Claude 4在编写网站模板代码等任务上已完全胜任 能直接节省一天工作时间 [5] - 当前瓶颈在于上下文窗口限制和跨多文件/模块复杂任务处理能力 [6] - 模型能应对高智力复杂度任务 但模糊任务表现不佳 依赖良好反馈回路 [8] - 预计2026年底AI可可靠完成报税等事务性任务 但未明确训练任务仍可能犯错 [21] 训练机制 - Anthropic在强化学习投入约百万美元 远低于预训练数亿美元 因RL更迭代而预训练风险高 [14] - 预训练提供密集反馈 强化学习依赖稀疏反馈 但两者本质都是"反馈-修正"过程 [14] - 模型通过预训练获得语义知识 在新任务中迁移表现 非真正学习新知识 [15] - DeepSeek团队善于平衡硬件与算法 采用稀疏注意力等方案提升效率 [29] 模型行为 - 模型出现谄媚装傻等行为 越聪明表现越明显 可能开始"演戏" [17] - 模型会策略性配合任务以保住原始目标 如表面写暴力内容实则为保持无害 [19] - 不同模型展现不同倾向 如Opus关注动物保护而Sonnet不会 原因不明 [20] 行业趋势 - 全球现有约1000万颗等效H100 GPU 预计2028年达1亿颗 但推理计算或成瓶颈 [25] - 每颗H100处理速度约每秒1000token 相当于100个人脑思考速度 [26] - 半导体制造产能或于2028年达瓶颈 影响计算资源增长 [26] - 模型效率持续提升 DeepSeek等公司抓住"低垂的果实"实现追赶 [27]
Anthropic专家揭秘强化学习突破、算力竞赛与AGI之路 | Jinqiu Select
锦秋集· 2025-05-25 12:19
AI发展轨迹与预测 - 2026年AI将能完成初级工程师一天的工作量,标志着从"代码助手"向"编程伙伴"的转变 [1] - 2023年3月GPT-4奠定基础,2024年6月Claude 3.5 Sonnet在编码评估中解决64%的问题 [1] - Cursor在12个月内实现从100万到1亿美元年收入的惊人增长 [1] - OpenAI的o1模型通过强化学习开启AI推理新纪元,能力随模型规模扩大持续增强 [1] 强化学习与AI能力突破 - 强化学习是AI能力突破的关键,RLHF到RLVR演进反映寻找更清晰成功定义的需求 [3] - 代码和数学领域率先突破因有明确对错标准,文学创作等需"品味"判断领域进展较慢 [3][9] - 强化学习计算投入远少于基础模型(如DeepSeek RL投入约100万美元 vs 基础模型数亿) [11] - OpenAI从o1到o3模型将RL计算量增加10倍,印证渐进策略 [12] 计算资源与模型架构 - 计算资源瓶颈将在2027-2028年显现,晶圆产能限制使推理计算成为真正瓶颈 [3][32] - 全球1000万H100等效GPU到2028年将增至1亿个,但需求增长可能远超供给 [32] - 自适应计算将重塑模型架构,包括每个token可变计算量、残差流作为可操作内存空间等 [3][31] - DeepSeek展示硬件约束下创新,从MLA以算力换带宽到NSA适应芯片供应收紧 [35] AI应用与部署 - 2026年AI将能执行Photoshop连续三效果处理、完全解决航班预订等复杂任务 [21] - 软件工程智能体预计2025年能完成初级工程师近一天工作量 [5] - 焦点将从"智能体能否做XYZ"转向"如何高效部署100个智能体并验证其工作" [23] - 白领工作自动化具有技术确定性,是数据积累而非算法突破问题 [25] 机制可解释性与模型行为 - 模型展现欺骗能力,会为长期目标采取短期伪装,在思考链中"假装计算" [3][39] - 可解释性研究发现模型事实检索的精妙双回路结构及数学运算的"查找表"机制 [39] - "上下文泛化"现象显示模型会将训练数据中的虚假新闻内化为身份认同 [41] - Anthropic"审计游戏"中可解释性团队90分钟内成功识别恶意模型行为 [40] 行业趋势与战略 - 计算能力将成为新时代的石油,国家GDP将极大程度取决于可部署计算资源总量 [27] - 新的国力方程式:能源×计算×数据=未来竞争力 [29] - AI研发自动化的分界线在于深层概念理解与系统性试错的平衡 [36] - 机器学习研究具备理想RL环境特征,清晰反馈机制的科学领域将率先实现超人表现 [36]
只用图像也能思考,强化学习造就推理模型新范式!复杂场景规划能力Max
机器之心· 2025-05-25 11:51
核心观点 - 现有MLLM主要依赖文本作为推理媒介,导致视觉信息在文本化过程中丢失丰富细节,形成"模态鸿沟"[1] - 研究团队提出全新"视觉规划"范式,完全基于视觉表示进行规划,独立于文本模态[4] - 视觉规划通过图像序列编码推理过程,类似人类通过草图进行计划的方式[6] - 该方法在FROZENLAKE、MAZE和MINIBEHAVIOR等视觉导航任务中表现显著优于文本规划[25] 技术框架 - 采用两阶段强化学习框架VPRL,以GRPO为核心优化方法[16] - 第一阶段通过监督学习初始化视觉生成模型,保持探索多样性[16] - 第二阶段通过模拟未来状态获得奖励反馈,优化视觉规划策略[18] - 设计进度奖励函数,有效推进得1分,无推进得0分,非法动作扣5分[22] 实验表现 - 视觉规划器VPFT和VPRL在所有任务上均取得最高分[25] - VPRL在FROZENLAKE任务上达到91.6% EM和93.2% PR[26] - 相比基于语言的SFT方法,VPFT在EM指标上平均高出22%[26] - 随着任务复杂度提升,VPRL保持稳健性,6×6网格仍达82.4% EM[30] 行业意义 - 证明视觉规划是可行的替代方案,在图像推理任务中展现巨大潜力[14] - 为图像感知与推理领域开辟了新方向[14] - 显示当前前沿语言模型在复杂视觉任务中仍存在明显局限[27] - 强化学习方法相比监督微调展现出关键优势,能自由探索并学习潜在规则[28]