机器之心

搜索文档
为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维
机器之心· 2025-06-08 11:45
本文主要作者是吕昂和谢若冰。吕昂,中国人民大学博士生,研究方向为语言模型结构优化,导师为严睿教授;谢若冰,腾讯高级研究员,研究方向为大语言模 型、推荐系统。 最近的一篇论文中,来自人大和腾讯的研究者们的研究表明,语言模型对强化学习中的奖励噪音具有鲁棒性,即使翻转相当一部分的奖励(例如,正确答案得 0 分,错误答案得 1 分),也不会显著影响下游任务的表现。 研究者解释道,强化学习对下游任务的提升,关键不仅在于奖励的准确性,而更在于模型是否能够产生高质量的思考过程。仅通过奖励模型输出中关键思考词的 出现频率,而非基于答案正确性的奖励,语言模型依然能够在下游任务中取得非常高的峰值表现。这表明,强化学习对下游任务的提升,更多来源于让模型学会 采用恰当的思考路径接近正确答案。而相关的解题基础能力,模型已在预训练阶段获得。因此,预训练阶段的能力提升依然至关重要。 研究者还展示了基于思考模式的极简奖励如何有效校准奖励模型,从而在开放性 NLP 任务中增强语言模型的表现,并使较小的模型也能通过强化学习成功获得思 考能力。 论文地址:https://huggingface.co/papers/2505.22653 代码链接: ...
数学宇宙二维破壁成功!四人组230页证明阿贝尔曲面镜像通道,大一统要实现了?
机器之心· 2025-06-08 11:45
数学突破与朗兰兹纲领 - 1994年Andrew Wiles证明费马大定理,揭示椭圆曲线与模形式的一一对应关系,开创数学领域"传送门"概念[2][3][11] - 2024年四位数学家将对应关系从一维椭圆曲线拓展至二维阿贝尔曲面,推动朗兰兹纲领实现"大一统理论"目标[4][5][14] - 模块化定理成为连接数论与分析学的核心工具,允许通过模形式镜像研究椭圆曲线性质[12][26] 阿贝尔曲面研究突破 - 团队证明普通阿贝尔曲面必然存在对应模形式,论文长达230页,解决曾被视为"不可能任务"的难题[16][29][45] - 采用"时钟算术"方法(以3为周期)匹配阿贝尔曲面与模形式的数字标签,突破构建严格对应关系的障碍[36][38] - Lue Pan的模形式研究意外成为关键技术支持,团队通过Zoom协作和集中攻关最终完成证明[43][44] 学术影响与未来方向 - 突破直接助力解决贝赫和斯维讷通-戴尔猜想等悬而未决难题,并为阿贝尔曲面版猜想提供理论基础[23][46] - 团队计划将成果扩展至非普通阿贝尔曲面,预计十年内覆盖绝大多数类型[45] - 该研究催生新数学分支,类比Wiles证明后引发的学科革新,改变数论研究范式[20][27] 技术方法论 - 通过限制研究范围(普通阿贝尔曲面)和弱化匹配条件(时钟算术)降低证明复杂度[34][38] - 利用高维模形式的对称性优势处理阿贝尔曲面三维解的复杂性,复刻并升级Wiles的证明路径[28][33] - 跨学科协作(数论与模形式)和长期坚持(2016-2024年)是突破的关键因素[32][44]
挑战 next token prediction,Diffusion LLM 够格吗?
机器之心· 2025-06-08 10:11
挑战 next token prediction,Diffusion LLM 够格吗? - Gemini Diffusion 采用扩散架构进行文本生成,平均采样速度达1479 TPS,编码任务中可达2000 TPS,比Gemini 2.0 Flash-Lite快4-5倍 [4] - 扩散架构通过迭代去噪实现并行生成,与自回归架构不同,采用"从粗到细"的生成方法,具备并行处理能力 [6] - 扩散模型能并行优化整个序列,显著减少计算开销,有望在模拟硬件上运行从而降低能源成本 [6][7] - 此前已有Diffusion-LM、DiffuSeq、DiffusionBERT等探索,近期LLaDA系列在8B规模验证了Diffusion LLM的效果 [7][9] Diffusion LLM的潜在优势 - 并行生成机制可同时生成所有token,极大提升文本生成效率 [8] - 具备文本插值能力,可生成句子间衔接内容,提高流畅性和连贯性 [8] - 提供细粒度控制和高稳健性等优势 [8] - 本质上与自回归模型同为生成式模型,优良性质源于极大似然估计而非特定建模方式 [10] AI推理成本暴跌的影响 - AI模型训练成本与推理成本"剪刀差"将重塑行业竞争格局 [1] - 企业需平衡算力投入与商业化回报 [1] - 中国开源模型崛起对全球供应链有潜在影响 [1] - 人机协作时代需平衡劳动力结构转型与技能重塑 [1]
6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟惨败垫底
机器之心· 2025-06-08 06:35
大模型高考数学测试表现 - 字节豆包与腾讯元宝以68分并列第一,正确率93% [6][8] - 深度求索DeepSeek和阿里通义分别以63分、62分紧随其后,正确率86%和85% [8] - 百度文心X1 Turbo得分51分(正确率70%),OpenAI o3表现最差仅34分(正确率47%)[10][11] 题目类型分析 单选题(8题/40分) - 豆包、通义、元宝、文心均得35分,DeepSeek得30分,o3仅20分且错4题 [16][17] - o3在基础题出现逻辑混乱,如第2题未给出答案,第5题计算错误 [17] - DeepSeek因OCR识别问题导致第6题无法作答 [22][23] 多选题(3题/18分) - 豆包、DeepSeek、元宝全部满分,通义错1题得12分 [29][31] - 文心X1错2题(含1题未响应),o3未全对且存在单选式作答 [31][33] - 通义因步骤简略导致第11题误选AD,而正确答案为ABC [32] 填空题(3题/15分) - 豆包、DeepSeek、通义、元包均满分,文心X1因第13题取值错误得10分 [34][36] - o3第13题仅答-2、第14题以小数2.44替代分数61/25,共得10分 [36] 技术进展与现存问题 进步 - 国产模型均超及格线(43.8分),较去年显著提升,豆包/元宝正确率达93% [40] - 增加反思能力,如DeepSeek会验证步骤(耗时达15分钟/题) [40] - 推理步骤更完善,多数模型展示完整逻辑链路(除通义外) [41] 问题 - 计算细节错误频发,如符号误判、公式套用错误 [43] - 图形与几何直觉处理不足,如DeepSeek无法识别图表信息 [23][43] - 对题目条件敏感度低,多选题易漏选/误选 [43]
AI 推理成本暴跌,「互联网女皇」 Mary Meeker 从中看到了什么?
机器之心· 2025-06-07 15:00
Mary Meeker的新报告探讨了哪些重要趋势 - Mary Meeker是科技领域著名分析师,曾领导摩根士丹利TMT团队并准确预测多个重大趋势如在线广告超越印刷广告、移动互联网主导地位等 [4][5] - 其2025年发布的《人工智能趋势报告》全面汇总全球AI产业最新进展,剖析AI未来趋势及对全球格局的深远影响 [5] - AI技术重塑世界的速度远超历史任何技术革命,例如ChatGPT在17个月内用户达8亿,增速前所未有 [7] - 领先芯片制造商生态系统的开发者数量从2005年几乎为零激增至2025年约600万,呈现指数级增长 [7] - 美国六大科技公司(苹果、英伟达等)2025年AI相关资本开支超2000亿美元 [7] - 全球互联网普及为AI提供庞大用户基础和数据来源,例如SpaceX的Starlink项目推动AI技术全球普及 [8] - 新兴AI公司(如DeepSeek、Alibaba Qwen)与传统科技公司在创新、产品发布等方面竞争激烈 [8][9] - 中美在AI领域的技术研发、人才争夺和市场份额竞争推动全球AI技术快速发展 [9] AI模型训练成本狂飙,推理成本却暴跌 - 计算AI成本揭示技术发展中的经济压力和可持续性问题,推理成本变化影响行业竞争格局 [10] AI如何重塑物理世界 - AI与物理世界融合加速,已在医疗、教育、金融等领域重塑行业未来 [9] AI让全球互联网用户增长驶入超车道 - 互联网与AI相辅相成,AI技术普及推动用户行为变革,例如ChatGPT快速获客能力 [7][8] AI如何重塑人类生存法则 - AI产业面临双重压力,货币化进程带来新威胁,同时推动产业升级和创新发展 [9]
全球圈粉6000万,被国内粉丝催着上线,PixVerse「国内版」一手实测来了!
机器之心· 2025-06-07 11:59
产品发布与市场反响 - 爱诗科技推出国内版AI视频生成工具「拍我 AI」,该产品为全球热门应用PixVerse的本地化版本,已登陆各大应用商店并提供网页端深度体验[4] - 产品上线前已引发国内用户强烈期待,后台收到大量催上线私信,反映出市场对高质量AI视频工具的需求[2][12] - 海外版PixVerse已积累6000万全球用户,月活达1600万,曾位列美国应用总榜第四并登顶视频类应用榜首[13][14] 产品功能与技术特点 - 提供上百种模板支持一键生成同款视频,大幅降低创作门槛,适合新手用户快速上手[6] - 专业功能包括首尾帧控制、多主体合成、运镜设计、视频重绘等,支持短片及电影级创作[8][30][39][40] - 首创5秒内视频生成速度,实测各项指标拉满时生成时间仍不超过1分钟,显著优于行业水平[44] - 底层模型迭代迅速,从V2到V4.5平均每两月更新一版,国内外版本均搭载最新V4.5模型[45] 市场表现与行业地位 - PixVerse上线30天即实现百万访问量,2024年4月达成88天1000万次视频生成的里程碑[17] - 通过病毒式传播的创意模板实现破圈,典型案例包括科目三舞蹈、吉卜力风格等流行内容[18][24][27] - 在专业创作者群体中建立口碑,用户评价显示其渲染稳定性、动作逼真度及运镜功能显著优于竞品[15] 公司战略与竞争优势 - 采用「好玩+好用」双轨策略:降低普通用户参与门槛,同时满足专业创作者高阶需求[49][50] - 形成用户生态良性循环:普通用户模仿专业作品,专业创作者汲取大众创意灵感[51] - 作为成立仅两年的中国初创公司,在视频生成赛道已具备与OpenAI、谷歌等巨头竞争的实力[17] 行业影响 - 产品国内上线将加剧AI视频生成赛道竞争,为行业树立功能丰富度与生成速度的新标杆[47] - 已验证的全球市场成功模式(6000万用户基础)有望在国内复制,可能改变视频创作生态格局[52]
没想到,最Open的开源新模型,来自小红书
机器之心· 2025-06-07 11:59
机器之心报道 编辑:杨文 迄今为止行业最大的开源力度。 在大模型上向来低调的小红书,昨天开源了首个自研大模型。 该模型名为 dots.llm1,是小红书 hi lab(Humane Intelligence Lab,人文智能实验室)团队研发的文本大模 型。 它的参数不算最大,总参数量 142B,激活参数 14B,是一款中等规模的 MoE(Mixture of Experts)模型, 不过它仍在较小激活量下展现出了良好性能。 具体来说,在激活 14B 参数的情况下,dots.llm.inst 模型在中英文通用场景、数学、代码、对齐任务上的表 现亮眼,与 Qwen2.5-32B-Instruct、Qwen2.5-72B-Instruct 相比具备较强的竞争力。同时与 Qwen3-32B 相 比,在中英文、数学、对齐任务上表现接近。 | | Benchmark (Metric) | | Qwen-2.5 Qwen-2.5 Qwen-3 | | Qwen-3 | | DeepSeek DeepSeek gpt4o dots. 11m1 | | | | --- | --- | --- | --- | --- | --- ...
ACL 2025 | 大语言模型正在偷改你的代码?
机器之心· 2025-06-07 11:59
研究背景 - 大语言模型在代码推荐领域展现出巨大潜力,已成为开发者依赖的智能助手 [7] - 现有大语言模型在代码生成与修改中存在显著的「供应商偏见」问题,例如无明确指令时偏好部分供应商或静默替换用户代码中的目标服务 [7] - 这种偏见式输出违背用户意图,可能引发开发流程失控、技术生态失衡等多重风险 [7] 核心方法 - 构建自动化数据集:覆盖30个真实应用场景,包含145个子功能需求,以Python为主 [14] - 服务采集:为每个场景手动收集至少5个第三方服务/API,提取服务特征用于后续标注 [14] - 任务分类:构建6类代码任务,包括代码生成任务和5类代码修改任务 [14] - 利用GPT-4o生成初始代码并模拟真实开发中的代码缺陷,构建含错误代码的输入提示 [15] 模型评估与偏见量化 - 评估7个主流大语言模型(GPT-3.5-Turbo、GPT-4o等),花费约5亿个token,采集59万条有效响应 [16] - 使用基尼系数(GI)衡量代码生成任务中供应商偏好集中度,取值0-1,值越高表示越倾向特定供应商 [17] - 使用修改率(MR)计算代码修改任务中服务修改的比例,取值0-1,值越高表示越倾向修改代码使用的服务 [17] 实验结果与数据分析 - 代码生成任务中,大语言模型系统性偏向特定服务供应商,形成「默认选择霸权」,GI中位数为0.80 [19] - 不同模型偏好不同:例如在「邮件发送」场景中,GPT-4o的生成结果80.40%依赖SMTP服务,而Llama-3.1-405b只有19.70% [21] - 代码修改任务中,共识别出11,582个服务修改案例,Claude-3.5-Sonnet的MR最高 [23] - 大语言模型最容易将服务供应商替换为谷歌,原始供应商为微软的修改案例占比最大 [25] 风险与后果 - 市场层面:大语言模型的偏见可能被操纵以提高特定提供商的服务曝光度,加剧市场不公平竞争并催生数字垄断 [27] - 用户层面:静默替换代码中的服务损害用户自主决策权,增加项目开发成本,削弱用户对大语言模型的信任 [27] 局限性 - 数据集覆盖范围有限:30个场景不能完全覆盖现实多样场景,实验主要聚焦于Python代码 [28] - 无法访问大语言模型的预训练数据和训练流程,暂时无法对偏见的具体来源与形成原因进行深入分析 [32] 结论与展望 - 首次系统研究大语言模型代码推荐中的供应商偏见,发现其对特定供应商表现出显著偏好,甚至静默修改用户代码中的服务 [30] - 未来需拓展至更多编程语言和垂直领域,开发更丰富评估指标与基准以全面衡量供应商偏见与公平性 [31]
类R1训练不再只看结果对错!港中文推出SophiaVL-R1模型
机器之心· 2025-06-06 17:36
模型训练范式革新 - 传统R1训练范式仅通过结果对错进行奖励,导致模型可能通过捷径答题而非建立正确思考策略 [1][2] - SophiaVL-R1引入「思考奖励」机制,评估推理过程的合理性、连贯性和可靠性,提升模型泛化能力 [3][7] - 该机制通过构建思考评分数据集和训练评分模型,对推理过程进行多维度量化(如逻辑缜密性评分0.3 vs 0.9) [10][11] 技术突破与算法创新 - 采用Trust-GRPO算法解决奖励欺骗问题,通过对比正误答案的思维奖励可信度,动态调整奖励权重 [17][18] - 消融实验显示:去除Trust-GRPO或思考评分模块会导致性能下降(如MathVista得分从71.3降至70.2或68.4) [22][23] 性能表现与行业影响 - SophiaVL-R1-7B在MMMU(61.3)、MME(2403.8)、MathVista(71.3)等基准测试中超越参数量10倍的LLaVA-OneVision-72B(56.8/2261.0/68.4) [5][20][21] - 训练效率显著提升,思考奖励机制加速收敛且稳定训练过程 [23] - 模型及代码已开源,推动多模态推理领域技术共享 [8]