机器之心 - 财报，业绩电话会，研报，新闻

机器之心

搜索文档

机器之心· 2025-06-02 13:22

AI产品评估的重要性 - AI发展进入下半场，重点从解决问题转向定义问题，评估的重要性将超过训练，需要更接近产品经理的思维方式[1] - 评估是运用科学方法的持续实践，而非一劳永逸的工具，需要持续监测AI输出[7] - 评估驱动的开发（EDD）是推动AI产品进步的核心方法，类似于测试驱动的开发[12] 构建产品评估体系的科学方法 - 评估体系遵循观察数据、标注数据、提出假设、设计实验、测量结果的循环流程[8] - 需建立平衡且有代表性的数据集，正负样本比例应接近五五开，覆盖各类输入场景[8] - 实验结果必须量化，准确率提升、缺陷减少等可衡量的改进才是有效改进[9] 评估驱动的开发（EDD）实践 - EDD要求在开发AI功能前先定义成功标准，确保有明确目标和可衡量指标[12] - 通过"写评估-做改动-跑评估-整合改进"的循环实现可衡量的进步[12] - 评估提供即时客观反馈，帮助判断提示词调整、系统更新等改进是否有效[12] 自动化评估工具与人工监督 - 自动化评估工具（LLM-as-judge）需要人工监督校准，不能完全取代人工[14] - 需持续采样输出并标注质量缺陷，用高质量标注数据校准自动评估工具[14] - 理想产品设计应能通过用户交互获取隐式反馈，同时结合显式反馈[14]

AI下半场

评估驱动的开发（EDD）

Artificial Intelligence

AI产品

AI下半场

评估驱动的开发（EDD）

Artificial Intelligence

AI产品

LSTM之父22年前构想将成真？一周内AI「自我进化」论文集中发布，新趋势涌现？

机器之心· 2025-06-02 13:22

AI自我进化研究进展 - 核心观点：AI模型的自我进化能力正在加速提升，从理论构想到实际应用取得突破性进展 [1][3] - 研究趋势从单纯训练模型转向让模型学会自我学习和自我进化，谷歌AlphaEvolve等代表作品涌现 [1] - 近期arXiv上集中出现多篇相关论文，包括受哥德尔机启发的达尔文哥德尔机等创新成果 [1] 达尔文哥德尔机(DGM) - 通过重写自身Python代码实现持续自我改进，在sw-bench上性能从20%提升至50% [4][8][10] - 采用开放式算法探索AI设计空间，构建不断扩增的智能体库 [6][12] - 在Polyglot测试中表现从14.2%跃升至30.7%，超越手工设计智能体Aider [10] - 突破传统哥德尔机需数学证明的限制，通过实证检验寻找性能改进方法 [6] 自我奖励训练(SRT) - 通过模型自身判断信号进行自我监督训练，无需外部标签 [14][17] - 早期训练阶段性能媲美基于真实标签的强化学习方法 [18] - 存在训练崩溃问题，模型会输出一致但错误的答案来最大化自我奖励 [21] - 提出早停、离线生成标签、课程学习等缓解策略 [22][24][26] 多模态自我改进框架(MM-UPT) - 在完全无监督场景下通过GRPO框架实现持续改进 [30][32] - 采用多数投票生成伪标签驱动自我优化，MathVista准确率从66.3%提升至72.9% [39] - 创新性提出上下文引导生成和直接生成两种数据合成策略 [37][38] - 在四个数学推理基准测试中超越现有无监督方法，媲美有监督训练 [36] GUI智能体自改进框架(UI-Genie) - 解决GUI智能体轨迹验证难和数据获取难两大挑战 [45][47] - 开发图文交错架构的奖励模型UI-Genie-RM，统一动作和任务级别奖励 [47] - 构建首个GUI智能体专用奖励数据集UI-Genie-RM-517k [50][51] - 通过三代迭代在多个基准测试达到业界领先水平 [52]

微软等提出「模型链」新范式，与Transformer性能相当，扩展性灵活性更好

机器之心· 2025-06-02 13:22

大语言模型扩展挑战与解决方案 - 大语言模型(LLM)参数规模呈指数级增长，从数十亿级扩展到数万亿级，但训练成本高昂且难以适应不同推理场景[1] - 现有扩展策略无法保留已有知识规模，需从头训练导致效率低下，且缺乏动态适应问题解决的机制[11] - 密集模型或MoE架构始终激活固定规模参数，限制了灵活性[11] 表征链(CoR)创新理论 - 提出表征链概念，将表征视为隐藏维度上多个子表征的组合，每个子表征对应一条链[4] - 通过激活不同数量前导链，可编码不同尺度知识，单一表示最多支持n个尺度(n=1时等同于原始表示)[12] - 关键挑战在于建立跨尺度特征转换机制，确保输出符合CoR标准[12] 模型链(CoM)学习范式 - 引入链式层(CoL)构建因果依赖关系，每个尺度仅能使用前序尺度信息[8] - CoL具备三大特性：普遍性、因果性、组合性，堆叠多层仍能保留特性[13][14] - 任何模型在链数为1时均为CoM特例，可通过新增链实现扩展[15] 语言模型链(CoLM)实现 - 将CoL应用于Transformer各层重构架构，形成CoLM模型[9] - 引入键值共享机制(CoLM-Air)，所有键值在首链计算，提升可扩展性和灵活性[9] - 实验显示CoLM在常识推理任务中性能与基线相当，参数量1.11B时HellaSwag准确率达40.25[23][24] 扩展与优化效果 - 基于LLaMA变体扩展实验显示，TinyLLaMA-v1.1平均准确率提升0.92，LLaMA-3.21B提升0.14[25] - CoLM-Air在相近参数量下预填充速度优于LLaMA，序列越长优势越显著[27] - 链式调优方法可冻结42%参数，降低调优成本并缓解灾难性遗忘[29]

微软(US:MSFT)

表征链（Chain-of-Representation

表征链（Chain-of-Representation

陶哲轩：感谢Lean，我又重写了20年前经典教材！

机器之心· 2025-06-01 11:30

陶哲轩实分析教材形式化项目核心观点 - 陶哲轩为《Analysis I》教材创建Lean配套项目将教材中的定义、定理和练习转换为Lean可交互形式为学生提供新型学习工具[1][2] - 项目采用渐进式策略前期独立构建数学结构后期逐步迁移至标准数学库Mathlib 兼具教材辅助和工具入门双重功能[5] - 形式化内容严格遵循原书结构但刻意避免直接引用原文定位为注解式辅助资料而非替代品[4] 项目技术细节 - 使用Lean依赖类型理论特别利用其出色的商类型支持与教材采用的朴素类型理论高度兼容[2] - 当前已完成部分章节形式化采用"先独立后迁移"模式例如第2章先自定义自然数体系再建立与Mathlib标准体系的同构关系[5] - 习题部分以"sorry"占位符呈现不提供官方解答鼓励用户自行完成并创建项目副本[2][4] 教育应用价值 - 为数学系学生提供即时反馈机制错误证明无法通过编译显著提升学习效率[10] - 架设教材与Mathlib工具间的桥梁降低形式化验证的学习门槛[9] - 开源项目允许自由协作陶哲轩本人将持续收集用户反馈以优化项目[7] 社区反响 - 数学爱好者高度认可该项目价值认为其首次实现编程式严谨构建数学体系的教学目标[9] - 教育工作者期待未来结合LLM技术使Lean编译器能提供类似Rust的指导性错误修正建议[10]

SFT在帮倒忙？新研究：直接进行强化学习，模型多模态推理上限更高

机器之心· 2025-06-01 11:30

核心观点 - 研究发现监督微调（SFT）在多模态推理中可能阻碍学习，导致伪推理路径，而强化学习（RL）则促进真正的多模态推理 [3][9] - 传统两阶段训练范式（SFT+RL）在视觉语言模型（LVLM）中可能导致性能下降，7B模型相对性能下降47% [11][13] - 纯RL训练方案更具优势，VLAA-Thinker-Qwen2.5VL-3B模型在Open LMM推理榜单4B量级模型中位列第一，以1.8%优势刷新纪录 [15] 数据集构建 - 研究者构建了首个支持SFT与RL的全方位高质量图文推理数据集VLAA-Thinking，包含203,182条原始数据和144,895条处理后的数据 [4][5] - 数据集包含基于R1模型"先思考后回答"范式生成的完整推理链条，SFT分支包含多模态思维链样本，RL分支筛选更具挑战性的样本 [5] - 数据处理流程分为六阶段：元数据收集→图像描述生成→基于R1的知识蒸馏→答案重写→人工验证→数据划分 [6] SFT与RL对比研究 - SFT提高了模型在标准任务中的性能，但在增强复杂推理方面能力欠缺，可能诱发"伪推理路径"和"伪aha moment" [9] - 对已对齐模型使用SFT+GRPO会导致平均12.7%的性能下降，且模型规模差异影响甚微 [13] - SFT虽可帮助未对齐模型遵循指令，但其模仿式推理会限制RL阶段的探索空间 [15] GRPO训练优势 - 强化学习在增强推理能力方面表现出色，GRPO在文本数学推理任务中比其他方法更有效、更高效 [17] - 研究者提出了混合奖励框架，包含五种可验证的奖励类型，涵盖视觉感知和视觉推理任务 [19] - 直接使用GRPO训练的模型在视觉语言推理任务中显著优于其基础模型 [31] SFT对GRPO的影响 - SFT与多模态推理中的GRPO不兼容，在GRPO训练前进行SFT的模型性能比仅使用GRPO训练的模型更差，平均下降8.9% [21] - SFT对指令模型的性能损害比对没有指令跟随能力的基础模型更大，Qwen2VL-Inst性能比Qwen2VL-Base下降7.7% [21] - 较小的SFT数据集仍然会影响GRPO的性能 [23] 模型性能分析 - 响应长度、奖励分数与性能表现无显著相关性，SFT模型虽能获得更高初始奖励和更长响应，但实际表现逊于纯RL训练模型 [15][24] - SFT仅提供了RL训练的一个更高的"下限"，但可能会降低"上限"，限制了模型的探索路径 [26] - 经过更好指令调优的模型在GRPO训练后表现更佳，说明高质量的指令调优能够增强模型在强化学习后的推理能力 [31]

VLAA-Thinker-Qwen2.5VL-3B模型

VLAA-Thinker-Qwen2.5VL-3B模型

极低成本，复现GPT-4o图像风格化一致性！NUS推出OmniConsistency

机器之心· 2025-06-01 11:30

本文由 NUS ShowLab 主导完成。第一作者宋亦仁为新加坡国立大学 ShowLab@NUS 在读博士生，研究方向是视觉生成和多模态，在 CVPR、SIGGRAPH、 NeurIPS 等国际顶级会议上发表多篇研究成果。共同一作刘成为 NUS 重庆研究院四年级本科生，研究方向是视觉生成。项目负责作者为该校校长青年教授寿政。不久前，GPT-4o 的最新图像风格化与编辑能力横空出世，用吉卜力等风格生成的效果令人惊艳，也让我们清晰看到了开源社区与商业 API 在图像风格化一致性上的巨大差距。目前，开源扩散模型在 image-to-image 风格迁移中普遍面临一个跷跷板困境：要想增强风格化效果，往往会牺牲细节、结构和语义一致性；而要保持一致性，风格表达则明显退化。为了解决这一难题，我们提出 OmniConsistency ，利用配对数据复现 GPT-4o 的出色风格化一致性，为开源生态注入接近商业级的能力。论文标题：OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data 我们的解决方案：Omni ...

图像风格化一致性

风格 - 一致性解耦学习方法

Artificial Intelligence

Artificial Intelligence

OmniConsistency

GPT-4o

CVPR 2025 Highlight | 提升自回归模型样例学习能力，Few-shot图像编辑新范式开源

机器之心· 2025-06-01 11:30

核心观点 - 提出自回归模型InstaManip解决few-shot图像编辑难题通过分组自注意力机制将学习过程分解为学习阶段和应用阶段显著提升性能 [1][3][26] - 创新引入关系正则化策略有效减少示例图片噪声干扰提高模型鲁棒性 [17][26] - 在in-distribution和out-of-distribution设定下 CLIP-Dir指标分别达19.81和18.27 超越此前最优方法2.68和2.86个点 [20][26] 技术方法模型架构 - 采用分组自注意力机制将输入序列分为学习组（文字指令+示例图片+manipulation tokens）和应用组（manipulation tokens+输入图片）分别对应神经科学中的知识抽象和应用阶段 [16][11] - 通过manipulation tokens存储图像变换特征实现跨样本知识迁移公式化为$\mathbb{P}(\mathbb{Z}|\mathbb{T},\mathbb{X}^{\prime},\mathbb{Y})\cdot\mathbb{P}(\mathbb{Y}|\mathbb{X},\mathbb{Z})$ [10][13] 训练优化 - 关系正则化强制变换特征相似性与文字指令相似性一致使用MSE损失函数降低无关视觉特征干扰 [17] - 消融实验显示分组自注意力使CLIP-Vis指标提升3.12个点结合正则化后总提升达3.43个点 [22] 性能表现基准测试 - 在in-distribution设定下 CLIP-Vis指标达32.39 较次优PromptDiffusion提升4.7个点在out-of-distribution设定下保持28.23 [20] - 可视化对比显示模型能准确实现"汽车变兰博基尼"等复杂编辑保留输入图片结构同时注入新特征 [19][23] 扩展性分析 - 示例图片数量从1组增至5组时 CLIP-Dir指标提升15% 多样性增加可使指标额外提升8% [24][25] - 单独使用文字指令或视觉示例时性能下降明显 CLIP-Vis指标分别降低4.37和9.43个点 [23]

Artificial Intelligence

Artificial Intelligence

InstaManip

低成本下的高性能模型，是悖论还是可能？

机器之心· 2025-06-01 01:15

低成本下的高性能模型 - 用户感知的模型性能下降现象普遍存在，表现为逻辑减弱、错误响应增多等问题，引发对AI公司有意降低模型性能以节省成本的质疑[2] - DeepSeek-R1满血版需要四台8卡一体机支持，硬件成本高达六七百万元，部分厂商采用蒸馏版或量化至4比特参数以降低成本，导致推理能力下降[3][4] - 满血版DeepSeek-R1参数达6710亿，FP8精度需8卡A100一体机运行，但量化至4比特后性能显著降低，用户质疑服务真实性[4] - 行业测算显示，满血版DeepSeek-R1服务每月机器成本4.5亿元，按现行收费标准亏损4亿元，采用AMD芯片方案仍亏损超2亿元[4] - 市场竞争加剧促使大厂采用低价免费策略，MaaS模式普遍亏损，厂商被迫通过模型蒸馏、量化等技术手段降低成本[5][6] 模型降本技术路径 - 行业普遍采用模型量化（如16位转8位）、剪枝和知识蒸馏等技术降低计算复杂度与内存占用，但可能引入误差导致输出精度下降[6] - 低成本方案中高端用户难以获取真正满血版模型，免费或低价服务多采用简化版或蒸馏版模型以平衡成本[6] - 量化通过降低权重数值精度减少硬件需求，但精度损失与性能下降形成核心矛盾[6] 行业竞争与成本压力 - 互联网大厂宣称接入相同满血版模型，但实际服务体验存在显著差异，反映成本控制策略分化[2] - 潞晨科技指出DeepSeek模型高昂成本使服务商利润空间趋零，部分厂商通过降低精度实现扭亏为盈[4] - 低价竞争环境下，厂商需持续探索非精度换性能的替代方案以维持运营[5]

Artificial Intelligence

Artificial Intelligence

DeepSeek-R1

OpenAI未公开的o3「用图思考」技术，被小红书、西安交大尝试实现了

机器之心· 2025-05-31 14:30

多模态推理模型技术突破 - OpenAI推出的o3推理模型首次实现将图像直接融入推理过程，具备"用图思考"能力，在V* Bench基准测试中准确率达95.7%[1] - o3模型可自动聚焦图像关键区域（如物理试卷公式区、建筑图纸承重结构），结合知识库进行深度推理[1] - 小红书团队联合西安交通大学开发DeepEyes模型，通过端到端强化学习实现类似o3的"图像思考"能力，并开源技术细节[1] 多模态推理方法对比 - 传统"先看后想"方法存在局限：推理阶段无法回看图像补充细节，易导致理解偏差[4] - 更有效的"边看边想"方法允许动态调用图像信息，实现视觉与语言交替交互，提升多模态理解能力[4] - DeepEyes展示完整的三步推理流程：全局视觉分析→智能工具调用→细节推理识别，无需依赖外部OCR工具[7][8][9][10] DeepEyes模型架构与训练 - 引入"自驱动视觉聚焦"机制：根据文本推理需求动态裁剪关键图像区域进行深入分析[14] - 采用端到端强化学习策略，不依赖监督微调(SFT)，通过outcome-based奖励函数激发原生能力[18][19] - 训练过程经历懵懂期（随机尝试）、探索期（频繁调用工具）、成熟期（精准预判关键区域）三阶段[21] 性能表现与优势 - 在V* Bench取得90.1准确率，HR-Bench超越现有工作流方法，7B版本视觉搜索表现优于Qwen-VL 32B[23] - 五大独特优势：训练更简洁（仅需问答对）、更强泛化能力、端到端联合优化、深度多模态融合、原生工具调用能力[26][27][28] - 数学推理能力显著提升，展示多模态模型跨任务潜力[24] 行业影响 - 开创多模态推理新范式：无需复杂工作流或大规模监督数据，通过强化学习实现视觉-文本深度融合[29] - 技术突破使"图像思考"不再是OpenAI专属，为开放世界多模态智能探索提供新路径[1][29] - 研究团队来自小红书和西安交通大学，成果已在实习期间完成并开源[31]

多模态模型

用图像思考

Artificial Intelligence

Artificial Intelligence

o3推理模型

DeepEyes

从性能到实战，怎样才算是靠谱的 Agent 产品？

机器之心· 2025-05-31 14:30

基准测试关注AI业务能力 - 红杉中国团队提出AI基准测试工具Xbench，强调不再单纯追求测评问题难度，而是重点量化AI系统在真实场景的效用价值[1] - Xbench项目于2022年启动，最初为内部工具，经历三次更新后于2025年5月公开[5] - 2023年首批题库针对LLM和智能体的简单问答和逻辑思考能力[5] - 2024年10月第二次更新，关注LLM的复杂问答、推理能力及简单工具调用[5] - 2025年3月第三次升级，开始思考模型能力与AI实际经济价值的关联[6] 双轨评估体系设计 - Xbench构建双轨评估体系：AGI Tracking评估技术能力上限，Profession Aligned量化真实场景效用价值[8] - AGI Tracking线包含科学问题解答测评集(xbench-ScienceQA)和中文互联网深度搜索测评集(xbench-DeepSearch)[9] - Profession Aligned线提出面向招聘和营销领域的垂类Agent评测框架[9] - 评估任务由领域专家设定业务需求，大学教授转化为评估指标，确保基准与生产力价值强相关[7] 首期测试结果分析 - OpenAI的o3模型在所有测试中排名第一，GPT-4o因回答较短得分最低[9] - 模型尺寸非决定性因素，谷歌DeepMind的Gemini-2.5-Pro和Gemini-2.5-Flash表现相当[9] - DeepSeek R1在数学和代码测试出色，但搜索中心任务适应性不足导致整体表现较低[9] 长青评估机制 - 长青评估机制为动态更新系统，避免静态评估集题目泄露导致过拟合[10] - Agent产品迭代速率快且外部环境动态变化，需定期测评主流产品[10] - 计划在人力资源、市场营销、金融等领域构建动态评估机制[10]