Workflow
机器之心
icon
搜索文档
通专融合,思维链还透明,上海AI Lab为新一代大模型打了个样
机器之心· 2025-05-24 12:07
AI发展新阶段 - AI下半场将聚焦问题定义与评估体系重构,行业需设计更有效的模型评测体系弥补AI能力与真实需求的差距[2] - 上海AI Lab构建"加速训练营"(InternBootcamp),通过评价建模与大模型交互提供反馈,使大模型持续进化获得解决复杂推理任务的能力[2] - 书生・思客(InternThinker)实现奥赛级数学、科学对象理解与推理、算法编程、棋类游戏、智力谜题等多专业任务同步学习演进,并在多任务混合强化学习中出现智能"涌现时刻"[2] 围棋领域突破 - InternThinker成为我国首个既具备围棋专业水平又能展示透明思维链的大模型,在实验室科研人员的布局中围棋成为科学探索的"试应手"[2] - InternThinker在围棋任务上打破思维"黑盒",运用自然语言就对弈过程进行讲解,用户可与之对弈并获取每一步棋背后的推理过程和决策依据[4] - InternThinker评价李世石"神之一手"为"相当刁钻",并给出应对策略,同时具备多样化语言风格如鼓励"以攻代守的好手"或毒舌锐评"不是棋的选择"[5][6] - 新生代世界围棋冠军王星昊九段评价InternThinker棋力在职业3-5段之间,分析能力优秀[8] 技术架构创新 - InternBootcamp包含超1000个验证环境覆盖复杂逻辑推理任务,能批量化规范化生成难度可控的推理任务并与大模型交互提供反馈[11] - InternThinker在包括数十个任务的测试集上平均能力超过o3-mini、DeepSeek-R1及Claude-3.7-Sonnet等国内外主流推理模型[14][15] - 研究人员观察到在多任务混合训练过程中出现强化学习的"涌现时刻",模型通过多个任务混合强化学习成功获得单一任务无法得到的奖励[18] - 上海AI Lab提出通专融合技术路线,通过基础模型层、融合协同层和探索进化层"三层"技术路径打造通用人工智能[22][23] 算法与框架突破 - 设计强化学习算法PRIME结合高密度监督信号,获取比现有方法高出7%的性能提升,在AIME、MATH等竞赛难度数学题上7B模型能力显著超越GPT-4o[24] - 推出多任务强化学习技术框架MoR实现多任务强化学习混合训练,构建基于结果奖励的强化学习新范式OREAL解决大模型三大困局[24] - 开发测试时强化学习(TTRL)框架探索AI自主进化路径,能在没有准确标签情况下进行奖励估计,减少人工标注依赖[24] - 构建分子逆合成新方法Retro-R1,仅使用1万条强化学习数据通过200步训练实现大模型在逆合成推理能力的升级[24]
40位数学家组成8队与o4-mini-medium比赛,6队败北
机器之心· 2025-05-24 11:13
AI与人类数学能力对比 - AI模型o4-mini-medium在FrontierMath基准测试中以6:2的比分击败了8支人类数学专家团队中的6支 [1] - o4-mini-medium在竞赛中得分22%,高于人类团队平均分19%,但低于所有团队综合得分35% [7] - Epoch AI预测AI很可能在年底前明确超越人类数学能力 [27] FrontierMath基准测试设计 - 测试包含300道题,难度从本科生水平到菲尔兹奖级别 [3] - 竞赛选取23道题(7道基础题+16道进阶题),涵盖拓扑学、代数几何等四个子类 [16] - 评分机制:进阶题每题2分,基础题1分,每个领域至少答对一题额外加1分 [16] - 题目难度分为3级,竞赛中普通题为1-2级,高级题均为3级 [24] 人类参赛者表现分析 - 40名参赛者(数学博士或竞赛获奖者)组成8个团队,每组4-5人 [11] - 人类团队解题正确率在13%-26%之间,平均19% [19] - 若考虑任何一支团队答对即算人类答对,人类正确率可提升至35% [21] - 参赛者在最喜欢的测试题上平均花费40分钟 [28] 测试结果解读 - 调整难度权重后,人类平均得分约30%,"多次尝试"方法下可达52% [24] - AI解题时间(5-20分钟/题)显著短于人类 [27] - 人类在长期扩展行为上优于AI,表现能持续提升 [29] - 当前测试可能低估人类能力,更多时间可能提升表现 [27] 测试局限性 - 参赛者不能完全代表前沿数学水平 [10] - 竞赛题目仅为FrontierMath的不具代表性子集 [8] - 人类基准定义模糊,估计值在30%-50%之间 [8][20] - 竞赛形式限制了人类表现,如时间压力等因素 [27]
60年前数学大师没解开的难题,被一位牛津博士生搞定了
机器之心· 2025-05-24 11:13
数学难题突破 - 牛津大学博士生Benjamin Bedert成功破解了困扰数学界60年的无和集猜想,证明了对于任意包含N个整数的集合,存在一个至少包含N/3 + log(log N)个元素的无和子集 [5][28] - 该结果首次严格证明了最大无和子集的大小会随N增长而超过N/3,解决了Paul Erdős在1965年提出的原始问题 [4][5][12] - 突破性进展体现在融合了Littlewood范数、傅里叶变换等跨领域数学工具,揭示了无和集的隐藏结构 [6][18][26] 研究历程 - Paul Erdős在1965年通过平均值原理证明任何N元素集合必然存在至少N/3规模的无和子集,但学界认为实际最大值应显著超过该下限 [12][13] - 1990年研究者首次将下限提升至(N+1)/3,1997年Jean Bourgain进一步改进至(N+2)/3并引入Littlewood范数作为关键工具,但未能完全攻克小范数集合的处理难题 [15][16][18] - Bedert的创新在于发现小Littlewood范数集合具有类等差数列特性,通过重新映射集合结构最终补全证明链条 [23][26][28] 理论价值 - 该成果不仅解决加法在集合中的作用机制问题,还为小Littlewood范数集合的结构研究提供了新范式 [7][29] - 研究开辟了偏差值增长速度的新研究方向,目前已知偏差介于log(log N)与N之间,存在巨大探索空间 [29] - 方法论上突破了传统思路,通过傅里叶分析工具改进1981年的证明技术,为其他数学场景提供借鉴 [26][28] 学术影响 - 问题被列为Bedert导师Ben Green官网列出的100个开放问题之首,长期被视为极难突破的领域 [21][13] - Bourgain未完成的Littlewood范数理论蓝图最终由Bedert实现,验证了数学界对该路径的长期假设 [19][26] - 成果推动了对等差数列组合特征的认知深化,相关学者已计划基于该突破展开后续研究 [29]
DeepSeek用的GRPO有那么特别吗?万字长文分析四篇精品论文
机器之心· 2025-05-24 11:13
核心观点 - 文章深入分析了Kimi k1.5、OpenReasonerZero、DAPO和Dr. GRPO四篇论文的创新点,重点探讨了GRPO及其改进算法在推理模型中的应用 [1][3][10] - 当前AI领域推理和强化学习成为热门,但GRPO并非特殊算法,与其他RL算法关系密切 [6][8][11] - 行业正从价值函数转向直接估计优势值,强化学习范式进化是主要推动力 [20] Kimi k1.5 - Kimi k1.5是Kimi团队最新多模态大语言模型,采用强化学习训练,论文长达25页但未开放模型权重 [17][19] - 模型采用简单有效的强化学习框架,无需依赖蒙特卡洛树搜索等复杂技术 [17] - 团队强调提示策划的重要性,采用基于模型的方法评估提示难度 [22] - 训练方案包含SFT预热、长思维链和拒绝采样,后期使用在线策略镜像下降变体 [24] - 研究发现较大模型在token效率方面表现更好,但小模型通过长思维链也能达到相当性能 [29][31] OpenReasonerZero - 这是首篇展示在基础模型上通过RL取得出色结果的研究 [34] - 使用Qwen-32B基座模型达到DeepSeek论文中提到的Qwen-32B RL模型性能 [38] - 研究发现GRPO对其不起作用,使用带GAE的PPO算法效果更好 [42] - 移除KL惩罚能实现最优训练稳定性和最终性能 [44][45] DAPO - DAPO是对GRPO的改进算法,包括分离裁剪超参数、动态采样等创新点 [54][55][56] - 改进包括:两个不同裁剪超参数、移除平坦奖励样本、使用token级损失、管理过长生成 [54][55][56][57] - 建议从GRPO中移除KL散度惩罚以帮助学习 [59] - 通过消融实验显示模型保持更高熵(探索/随机性) [62] Dr. GRPO - 论文提出修改GRPO以改善学习动态,使生成长度增加较少情况下实现更强性能 [76][79] - 核心修改涉及GRPO实现中的常见做法,调整token优势分配方式 [80] - 移除问题级难度偏置,避免对高方差问题的惩罚 [81] - 比较Qwen 2.5、Llama 3.1和DeepSeek基础模型在数学问题上的表现 [85][86] 行业趋势 - 当前所有RL算法在实现层面高度相似,GRPO虽流行但变革聚焦核心维度 [15][16] - 业界逐渐转向直接估计优势值而非价值函数建模 [20] - 数据分布对强化学习效果起关键作用,提示策划和难度评估成为重点 [22][41] - 模型大小与性能关系显示大模型token效率更高,但小模型通过优化也能达到相当效果 [29][31]
矩阵乘法新突破!XX^T原来可以更快!RL助力搜索,世界纪录又被提升了5%
机器之心· 2025-05-24 11:13
矩阵乘法优化突破 - 研究团队发现特殊矩阵乘法(XXᵀ)可进一步加速,新算法RXTX节省5%乘法运算量[1][8] - 该成果在国际学术界引发广泛关注,MIT、斯坦福、哈佛及Google DeepMind科学家参与讨论[3] - 矩阵乘法优化被视为计算机科学领域的"珠穆朗玛峰",自1969年Strassen算法后进展缓慢[5] 技术实现细节 - RXTX算法对4x4矩阵仅需34次乘法运算,较Strassen算法的38次减少10%[8] - 算法采用强化学习与组合优化技术,行动空间缩小一百万倍[17][21] - 通过构建两类组合问题(MILP-A/MILP-B)筛选最优乘积集[21] 实际应用价值 - XXᵀ操作每分钟全球执行数万亿次,5%优化可带来显著能耗节省[6][8] - 适用于5G芯片设计、自动驾驶、线性回归及大语言模型训练(Muon/SOAP)[7] - 当矩阵规模n≥256时,总运算量(乘法+加法)实现5%稳定提升[15] 算法性能对比 | 指标 | Strassen算法(S(n)) | RXTX算法(R(n)) | 改进幅度 | |------|-------------------|----------------|---------| | 递归表达式 | 4S(n/2)+2M(n/2) | 8R(n/4)+26M(n/4) | 结构优化[9] | | 渐进加速 | ~2M(n) | ~0.95M(n) | 5%[9] | | 4x4实例 | 38次 | 34次 | 10%[9] | 数学理论突破 - 提出新型复杂度公式:R(n)=(26/41)n^log₂7 + (15/41)n^1.5 [12] - 总运算量公式显示156/41系数优于Strassen的4倍系数[16] - 证明n→∞时保持5%优势,打破传统复杂度理论边界[15][16]
Meta CEO X 微软 CEO 对话解读:「蒸馏工厂」为何成为开源的魅力之源?
机器之心· 2025-05-23 23:30
AI 正在让文档、应用程序和网站之间的界限消失 - Meta CEO Mark Zuckerberg 和微软 CEO Satya Nadella 在 LlamaCon 2025 闭幕会议上探讨 AI 对技术平台和生产力提升的影响 [1] - Nadella 认为 AI 时代文档、应用和网站界限模糊化 传统计算机系统将人类连续需求割裂为独立功能 不符合人类认知 [2-2] - 微软 90 年代 OLE 技术尝试打破应用障碍 实现复合文档 允许 Word 嵌入 Excel 或 PowerPoint 并保留原功能 [5] - 现代 AI 作为通用转换器 能理解用户意图而非机械执行命令 可提供信息、组织文档甚至生成可执行代码 [6] - AI 推动从面向工具计算到面向意图计算的范式迁移 信息形态由使用场景动态决定 用户体验回归自然思维流程 [6] - Nadella 将 AI 浪潮定位为继客户端服务器、互联网和云计算后的重大技术平台变革 需重构整个技术栈 [7] - 微软内部 20%-30% 代码由 AI 生成 AI 应用扩展至代码补全、聊天功能、智能体工作流和代码审查等领域 [7] - Meta 预计到 2026 年一半开发工作将由 AI 完成 [8] 开源与闭源模型的战略价值 - 微软采取灵活策略 同时支持开源和闭源模型 开放权重模型在企业蒸馏和定制化有优势 闭源模型有特定场景 [9] - Azure 云平台同时支持两类模型 为开发者提供多样化选择 [10] - Meta 通过 Llama 系列开源模型实践 推动社区协作演进 [10] 蒸馏工厂概念及其对 AI 生态系统影响 - 两位 CEO 认为建立支持模型蒸馏的基础设施和工具链是未来关键发展方向 [10] - Nadella 强调多模型应用趋势 标准化协议对实现多智能体多模型协作至关重要 [10] - Zuckerberg 提出蒸馏工厂概念 认为微软在多模型协同基础设施有独特优势 [10] - Nadella 将蒸馏工厂描述为开源最大魅力之一 是开源模型能发挥巨大作用的领域 [11]
论坛报名已启动,速来锁定席位!解码具身智能模型革命
机器之心· 2025-05-23 14:49
具身智能行业趋势 - 具身智能(Embodied AI)正成为全球科技界焦点,涵盖机器人运动能力、视觉-语言大模型(VLM/VLA)等技术融合 [1] - 技术挑战聚焦于机器智能在物理世界的理解、规划与操作能力,涉及机器人学、计算机视觉、自然语言处理等多领域突破 [1] - 张江集团联合机器之心举办论坛,主题为「具身·无界:智能模型的范式创新与架构革命」,推动产业链协同发展 [1] 技术前沿与产业方向 - 论坛探讨具身AI技术演进趋势,包括世界模型、端到端与分层架构路线选择,以及Scaling Law在具身智能领域的应用 [3] - 重点分析具身AI模型对人形机器人行业的影响,解码产业发展风向标 [3] - 厂商与专家将分享视觉-语言大模型(VLM/VLA)等具身大模型技术的实际落地案例 [2][3] 核心专家与机构 - 清华大学赵明国团队在人形机器人足球比赛和类脑计算领域取得突破,成果发表于Nature封面 [5] - 拓元智慧王广润主导新一代AI架构、大物理模型研究,发表中科院一区/A类论文50余篇,获多项国际奖项 [6] - 联汇科技赵天成开创生成式AI智能体技术,领导全球首个多智能体平台DiaIPort项目 [7] - 智元机器人陈立梁研发首个机器人动作引导世界模型EVAC,并建立评测基准EWMBench [9] 企业动态与创新实践 - 维他动力赵哲伦曾主导理想汽车智驾产品定义,具备智能汽车与AI消费领域经验 [7] - 星际光年位德浩团队在灵巧手操作软硬件领域发表多篇顶会论文,包括ICRA和Nature系列 [8] - 智莱特邓振华参与国家重大专项,智能工厂项目获中国机械工业科学技术进步一等奖 [10] - 光轮智能甘宇飞开发全国最大自动标注平台,横跨自动驾驶与具身智能的合成数据应用 [11] - 灵御智能金戈孵化多家硬科技企业,如码隆科技、硕橙科技,操盘早期项目从0到2000万销售额增长 [12]
SIGIR 2025 | 解决扩展和迁移难题,华为新加坡提出InstructRAG,提升高达19%
机器之心· 2025-05-23 14:49
大语言模型任务规划技术 - 核心观点:InstructRAG框架通过多智能体协同的元强化学习架构,解决大模型任务规划中的可扩展性与可迁移性挑战,在跨领域复杂任务中性能提升19.2%且抗噪声能力突出[2][16][30] 技术架构 - **指令图(Instruction Graph)**:用有向图组织历史指令路径,通过近似最近邻搜索动态扩展节点,支持组合新指令解决未知问题[6] - **强化学习智能体(RL-Agent)**:将节点选择建模为马尔可夫决策过程,基于策略梯度优化路径检索,状态设计采用余弦相似度[7][8] - **元学习智能体(ML-Agent)**:通过两阶段训练(预训练QPA/QPM任务+微调)提升少样本迁移能力,采用共享自注意力编码器[9][10][11] 实验性能 - **跨任务表现**:在HotpotQA/ALFWorld/Webshop任务中,InstructRAG较最佳基线RAP分别提升19.2%/9.3%/6.1%,DeepSeek-V2 backbone下ALFWorld成功率达81.34%[22] - **抗噪声能力**:50%噪声干扰时性能仅衰减11.1%,显著优于RAP的27.2%衰减[25] - **消融实验**:移除任一组件(如指令图/RL-Agent/ML-Agent)均导致HotpotQA的F1下降2.3-4.3分[26][27] 应用场景 - 已验证多跳推理(HotpotQA)、具身决策(ALFWorld)、在线购物(Webshop)和科学问答(ScienceWorld)四类场景,跨数据集泛化时ScienceWorld任务得分提升1.8-2.6分[21][23] 开发团队 - 华为2012中央软件院新加坡团队主导,聚焦大模型基础软件技术,覆盖RAG/AI Agent/多模态等前沿领域[32]
CVPR 25 |全面提升视觉感知鲁棒性,生成模型快速赋能三维检测
机器之心· 2025-05-23 12:17
自动驾驶技术发展 - 新能源汽车产业持续发展推动智能驾驶辅助技术广泛应用,基于纯视觉的自动驾驶方案因成本低、效率高备受关注 [1] - 行业领先者Waymo近期召回1200辆自动驾驶车辆,因算法识别道路障碍物存在潜在风险,凸显系统鲁棒性挑战 [3][4] - 视觉感知模型泛化能力不足是行业痛点,分布偏移(如天气变化)导致性能显著下降,制约实际应用 [5][6] 技术难点与解决方案 - 自动驾驶面临数据分布不均衡问题,特殊天气(大雪、沙尘暴)数据采集成本高且稀缺 [6][7] - 无训练可控生成(Training-free Controllable Image Generation)成为新兴范式,通过文本指令快速生成新场景图像,成本低效率高 [8][10] - DriveGEN方法通过两阶段策略(自注意力物体原型提取+原型引导生成)实现三维信息保留,代码已开源 [14][16][17] DriveGEN技术突破 - 在KITTI-C数据集测试中,DriveGEN在6种增广场景(雪、雨、雾等)下平均性能达37.98%,显著优于传统增广方法(如Color Jitter仅26.45%)[24] - 多目三维检测实验中,仅用500个场景生成的3000张雪天图像即提升模型性能,验证方法在nuScenes-C等真实场景的有效性 [26][27] - 消融实验证实物体原型提取和浅层特征对齐对保留小物体信息至关重要,如行人框下采样后仍能准确保留 [28][29] 行业应用前景 - 该方法可快速生成恶劣天气等罕见场景数据,解决传统机器学习依赖理想训练数据的局限性 [6][8] - 实验表明DriveGEN能提升单目/多目三维检测模型在噪声、模糊、天气变化等域外场景的鲁棒性,推动自动驾驶落地 [24][26] - 可视化结果展示生成图像保留原始三维标注信息,为感知模型提供高质量训练数据 [30][31]
以加代乘?华为数学家出手,昇腾算子的高能设计与优化,性能提升30%!
机器之心· 2025-05-23 12:17
大模型推理优化技术 核心观点 - 大语言模型(LLM)面临推理成本高、性能冗余等难题,亟需提升速度与能效 [2] - 华为基于昇腾算力发布三项硬件亲和算子技术,实现推理速度与能效双重突破 [2][4][7][9] - 技术通过数学重构、硬件深度适配和多卡协同优化,推动行业向"数学创新+架构感知+硬件亲和"协同演进 [12] 技术全景 AMLA算子 - 通过二进制重解析将乘法转为加法运算,算力利用率最高达71%,优于FlashMLA的67% [4][5] - 基于存内计算减少数据搬运,Attention算子性能提升30%以上,平均算力利用率55% [4][5] - 未来将扩展至KV Cache量化和全量化场景 [12] 融合算子优化 - 三大设计原理:硬件单元并行优化、冗余数据搬运消除、数学等价重构计算流 [7] - 实现跨硬件单元算子融合,中间结果全程驻留高速缓存 [7] - 计划在更多模型架构上应用,推动昇腾硬件高效推理 [12] SMTurbo技术 - 支持384卡原生Load/Store语义,跨卡延迟低至亚微秒级 [9][10] - 通过并行读写设计提升访存吞吐20%以上,优化同步开销 [10] - 未来将结合业务流水设计,在大BatchSize场景实现收益 [12]