Workflow
机器之心
icon
搜索文档
姚顺雨提到的「AI下半场」,产品评估仍被误解
机器之心· 2025-06-02 13:22
AI产品评估的重要性 - AI发展进入下半场,重点从解决问题转向定义问题,评估的重要性将超过训练,需要更接近产品经理的思维方式[1] - 评估是运用科学方法的持续实践,而非一劳永逸的工具,需要持续监测AI输出[7] - 评估驱动的开发(EDD)是推动AI产品进步的核心方法,类似于测试驱动的开发[12] 构建产品评估体系的科学方法 - 评估体系遵循观察数据、标注数据、提出假设、设计实验、测量结果的循环流程[8] - 需建立平衡且有代表性的数据集,正负样本比例应接近五五开,覆盖各类输入场景[8] - 实验结果必须量化,准确率提升、缺陷减少等可衡量的改进才是有效改进[9] 评估驱动的开发(EDD)实践 - EDD要求在开发AI功能前先定义成功标准,确保有明确目标和可衡量指标[12] - 通过"写评估-做改动-跑评估-整合改进"的循环实现可衡量的进步[12] - 评估提供即时客观反馈,帮助判断提示词调整、系统更新等改进是否有效[12] 自动化评估工具与人工监督 - 自动化评估工具(LLM-as-judge)需要人工监督校准,不能完全取代人工[14] - 需持续采样输出并标注质量缺陷,用高质量标注数据校准自动评估工具[14] - 理想产品设计应能通过用户交互获取隐式反馈,同时结合显式反馈[14]
LSTM之父22年前构想将成真?一周内AI「自我进化」论文集中发布,新趋势涌现?
机器之心· 2025-06-02 13:22
AI自我进化研究进展 - 核心观点:AI模型的自我进化能力正在加速提升,从理论构想到实际应用取得突破性进展 [1][3] - 研究趋势从单纯训练模型转向让模型学会自我学习和自我进化,谷歌AlphaEvolve等代表作品涌现 [1] - 近期arXiv上集中出现多篇相关论文,包括受哥德尔机启发的达尔文哥德尔机等创新成果 [1] 达尔文哥德尔机(DGM) - 通过重写自身Python代码实现持续自我改进,在sw-bench上性能从20%提升至50% [4][8][10] - 采用开放式算法探索AI设计空间,构建不断扩增的智能体库 [6][12] - 在Polyglot测试中表现从14.2%跃升至30.7%,超越手工设计智能体Aider [10] - 突破传统哥德尔机需数学证明的限制,通过实证检验寻找性能改进方法 [6] 自我奖励训练(SRT) - 通过模型自身判断信号进行自我监督训练,无需外部标签 [14][17] - 早期训练阶段性能媲美基于真实标签的强化学习方法 [18] - 存在训练崩溃问题,模型会输出一致但错误的答案来最大化自我奖励 [21] - 提出早停、离线生成标签、课程学习等缓解策略 [22][24][26] 多模态自我改进框架(MM-UPT) - 在完全无监督场景下通过GRPO框架实现持续改进 [30][32] - 采用多数投票生成伪标签驱动自我优化,MathVista准确率从66.3%提升至72.9% [39] - 创新性提出上下文引导生成和直接生成两种数据合成策略 [37][38] - 在四个数学推理基准测试中超越现有无监督方法,媲美有监督训练 [36] GUI智能体自改进框架(UI-Genie) - 解决GUI智能体轨迹验证难和数据获取难两大挑战 [45][47] - 开发图文交错架构的奖励模型UI-Genie-RM,统一动作和任务级别奖励 [47] - 构建首个GUI智能体专用奖励数据集UI-Genie-RM-517k [50][51] - 通过三代迭代在多个基准测试达到业界领先水平 [52]
微软等提出「模型链」新范式,与Transformer性能相当,扩展性灵活性更好
机器之心· 2025-06-02 13:22
大语言模型扩展挑战与解决方案 - 大语言模型(LLM)参数规模呈指数级增长,从数十亿级扩展到数万亿级,但训练成本高昂且难以适应不同推理场景[1] - 现有扩展策略无法保留已有知识规模,需从头训练导致效率低下,且缺乏动态适应问题解决的机制[11] - 密集模型或MoE架构始终激活固定规模参数,限制了灵活性[11] 表征链(CoR)创新理论 - 提出表征链概念,将表征视为隐藏维度上多个子表征的组合,每个子表征对应一条链[4] - 通过激活不同数量前导链,可编码不同尺度知识,单一表示最多支持n个尺度(n=1时等同于原始表示)[12] - 关键挑战在于建立跨尺度特征转换机制,确保输出符合CoR标准[12] 模型链(CoM)学习范式 - 引入链式层(CoL)构建因果依赖关系,每个尺度仅能使用前序尺度信息[8] - CoL具备三大特性:普遍性、因果性、组合性,堆叠多层仍能保留特性[13][14] - 任何模型在链数为1时均为CoM特例,可通过新增链实现扩展[15] 语言模型链(CoLM)实现 - 将CoL应用于Transformer各层重构架构,形成CoLM模型[9] - 引入键值共享机制(CoLM-Air),所有键值在首链计算,提升可扩展性和灵活性[9] - 实验显示CoLM在常识推理任务中性能与基线相当,参数量1.11B时HellaSwag准确率达40.25[23][24] 扩展与优化效果 - 基于LLaMA变体扩展实验显示,TinyLLaMA-v1.1平均准确率提升0.92,LLaMA-3.21B提升0.14[25] - CoLM-Air在相近参数量下预填充速度优于LLaMA,序列越长优势越显著[27] - 链式调优方法可冻结42%参数,降低调优成本并缓解灾难性遗忘[29]
陶哲轩:感谢Lean,我又重写了20年前经典教材!
机器之心· 2025-06-01 11:30
陶哲轩实分析教材形式化项目 核心观点 - 陶哲轩为《Analysis I》教材创建Lean配套项目 将教材中的定义、定理和练习转换为Lean可交互形式 为学生提供新型学习工具[1][2] - 项目采用渐进式策略 前期独立构建数学结构 后期逐步迁移至标准数学库Mathlib 兼具教材辅助和工具入门双重功能[5] - 形式化内容严格遵循原书结构 但刻意避免直接引用原文 定位为注解式辅助资料而非替代品[4] 项目技术细节 - 使用Lean依赖类型理论 特别利用其出色的商类型支持 与教材采用的朴素类型理论高度兼容[2] - 当前已完成部分章节形式化 采用"先独立后迁移"模式 例如第2章先自定义自然数体系 再建立与Mathlib标准体系的同构关系[5] - 习题部分以"sorry"占位符呈现 不提供官方解答 鼓励用户自行完成并创建项目副本[2][4] 教育应用价值 - 为数学系学生提供即时反馈机制 错误证明无法通过编译 显著提升学习效率[10] - 架设教材与Mathlib工具间的桥梁 降低形式化验证的学习门槛[9] - 开源项目允许自由协作 陶哲轩本人将持续收集用户反馈以优化项目[7] 社区反响 - 数学爱好者高度认可该项目价值 认为其首次实现编程式严谨构建数学体系的教学目标[9] - 教育工作者期待未来结合LLM技术 使Lean编译器能提供类似Rust的指导性错误修正建议[10]
SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高
机器之心· 2025-06-01 11:30
核心观点 - 研究发现监督微调(SFT)在多模态推理中可能阻碍学习,导致伪推理路径,而强化学习(RL)则促进真正的多模态推理 [3][9] - 传统两阶段训练范式(SFT+RL)在视觉语言模型(LVLM)中可能导致性能下降,7B模型相对性能下降47% [11][13] - 纯RL训练方案更具优势,VLAA-Thinker-Qwen2.5VL-3B模型在Open LMM推理榜单4B量级模型中位列第一,以1.8%优势刷新纪录 [15] 数据集构建 - 研究者构建了首个支持SFT与RL的全方位高质量图文推理数据集VLAA-Thinking,包含203,182条原始数据和144,895条处理后的数据 [4][5] - 数据集包含基于R1模型"先思考后回答"范式生成的完整推理链条,SFT分支包含多模态思维链样本,RL分支筛选更具挑战性的样本 [5] - 数据处理流程分为六阶段:元数据收集→图像描述生成→基于R1的知识蒸馏→答案重写→人工验证→数据划分 [6] SFT与RL对比研究 - SFT提高了模型在标准任务中的性能,但在增强复杂推理方面能力欠缺,可能诱发"伪推理路径"和"伪aha moment" [9] - 对已对齐模型使用SFT+GRPO会导致平均12.7%的性能下降,且模型规模差异影响甚微 [13] - SFT虽可帮助未对齐模型遵循指令,但其模仿式推理会限制RL阶段的探索空间 [15] GRPO训练优势 - 强化学习在增强推理能力方面表现出色,GRPO在文本数学推理任务中比其他方法更有效、更高效 [17] - 研究者提出了混合奖励框架,包含五种可验证的奖励类型,涵盖视觉感知和视觉推理任务 [19] - 直接使用GRPO训练的模型在视觉语言推理任务中显著优于其基础模型 [31] SFT对GRPO的影响 - SFT与多模态推理中的GRPO不兼容,在GRPO训练前进行SFT的模型性能比仅使用GRPO训练的模型更差,平均下降8.9% [21] - SFT对指令模型的性能损害比对没有指令跟随能力的基础模型更大,Qwen2VL-Inst性能比Qwen2VL-Base下降7.7% [21] - 较小的SFT数据集仍然会影响GRPO的性能 [23] 模型性能分析 - 响应长度、奖励分数与性能表现无显著相关性,SFT模型虽能获得更高初始奖励和更长响应,但实际表现逊于纯RL训练模型 [15][24] - SFT仅提供了RL训练的一个更高的"下限",但可能会降低"上限",限制了模型的探索路径 [26] - 经过更好指令调优的模型在GRPO训练后表现更佳,说明高质量的指令调优能够增强模型在强化学习后的推理能力 [31]
极低成本,复现GPT-4o图像风格化一致性!NUS推出OmniConsistency
机器之心· 2025-06-01 11:30
本文由 NUS ShowLab 主导完成。第一作者宋亦仁为新加坡国立大学 ShowLab@NUS 在读博士生,研究方向是视觉生成和多模态,在 CVPR、SIGGRAPH、 NeurIPS 等国际顶级会议上发表多篇研究成果。共同一作刘成为 NUS 重庆研究院四年级本科生,研究方向是视觉生成。项目负责作者为该校校长青年教授寿政。 不久前,GPT-4o 的最新图像风格化与编辑能力横空出世,用吉卜力等风格生成的效果令人惊艳,也让我们清晰看到了开源社区与商业 API 在图像风格化一致性上 的巨大差距。 目前,开源扩散模型在 image-to-image 风格迁移中普遍面临一个跷跷板困境:要想增强风格化效果,往往会牺牲细节、结构和语义一致性;而要保持一致性,风格 表达则明显退化。 为了解决这一难题,我们提出 OmniConsistency ,利用配对数据复现 GPT-4o 的出色风格化一致性,为开源生态注入接近商业级的能力。 论文标题:OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data 我们的解决方案:Omni ...
CVPR 2025 Highlight | 提升自回归模型样例学习能力,Few-shot图像编辑新范式开源
机器之心· 2025-06-01 11:30
核心观点 - 提出自回归模型InstaManip解决few-shot图像编辑难题 通过分组自注意力机制将学习过程分解为学习阶段和应用阶段 显著提升性能 [1][3][26] - 创新引入关系正则化策略 有效减少示例图片噪声干扰 提高模型鲁棒性 [17][26] - 在in-distribution和out-of-distribution设定下 CLIP-Dir指标分别达19.81和18.27 超越此前最优方法2.68和2.86个点 [20][26] 技术方法 模型架构 - 采用分组自注意力机制 将输入序列分为学习组(文字指令+示例图片+manipulation tokens)和应用组(manipulation tokens+输入图片) 分别对应神经科学中的知识抽象和应用阶段 [16][11] - 通过manipulation tokens存储图像变换特征 实现跨样本知识迁移 公式化为$\mathbb{P}(\mathbb{Z}|\mathbb{T},\mathbb{X}^{\prime},\mathbb{Y})\cdot\mathbb{P}(\mathbb{Y}|\mathbb{X},\mathbb{Z})$ [10][13] 训练优化 - 关系正则化强制变换特征相似性与文字指令相似性一致 使用MSE损失函数 降低无关视觉特征干扰 [17] - 消融实验显示分组自注意力使CLIP-Vis指标提升3.12个点 结合正则化后总提升达3.43个点 [22] 性能表现 基准测试 - 在in-distribution设定下 CLIP-Vis指标达32.39 较次优PromptDiffusion提升4.7个点 在out-of-distribution设定下保持28.23 [20] - 可视化对比显示模型能准确实现"汽车变兰博基尼"等复杂编辑 保留输入图片结构同时注入新特征 [19][23] 扩展性分析 - 示例图片数量从1组增至5组时 CLIP-Dir指标提升15% 多样性增加可使指标额外提升8% [24][25] - 单独使用文字指令或视觉示例时性能下降明显 CLIP-Vis指标分别降低4.37和9.43个点 [23]
低成本下的高性能模型,是悖论还是可能?
机器之心· 2025-06-01 01:15
低成本下的高性能模型 - 用户感知的模型性能下降现象普遍存在,表现为逻辑减弱、错误响应增多等问题,引发对AI公司有意降低模型性能以节省成本的质疑[2] - DeepSeek-R1满血版需要四台8卡一体机支持,硬件成本高达六七百万元,部分厂商采用蒸馏版或量化至4比特参数以降低成本,导致推理能力下降[3][4] - 满血版DeepSeek-R1参数达6710亿,FP8精度需8卡A100一体机运行,但量化至4比特后性能显著降低,用户质疑服务真实性[4] - 行业测算显示,满血版DeepSeek-R1服务每月机器成本4.5亿元,按现行收费标准亏损4亿元,采用AMD芯片方案仍亏损超2亿元[4] - 市场竞争加剧促使大厂采用低价免费策略,MaaS模式普遍亏损,厂商被迫通过模型蒸馏、量化等技术手段降低成本[5][6] 模型降本技术路径 - 行业普遍采用模型量化(如16位转8位)、剪枝和知识蒸馏等技术降低计算复杂度与内存占用,但可能引入误差导致输出精度下降[6] - 低成本方案中高端用户难以获取真正满血版模型,免费或低价服务多采用简化版或蒸馏版模型以平衡成本[6] - 量化通过降低权重数值精度减少硬件需求,但精度损失与性能下降形成核心矛盾[6] 行业竞争与成本压力 - 互联网大厂宣称接入相同满血版模型,但实际服务体验存在显著差异,反映成本控制策略分化[2] - 潞晨科技指出DeepSeek模型高昂成本使服务商利润空间趋零,部分厂商通过降低精度实现扭亏为盈[4] - 低价竞争环境下,厂商需持续探索非精度换性能的替代方案以维持运营[5]
OpenAI未公开的o3「用图思考」技术,被小红书、西安交大尝试实现了
机器之心· 2025-05-31 14:30
多模态推理模型技术突破 - OpenAI推出的o3推理模型首次实现将图像直接融入推理过程,具备"用图思考"能力,在V* Bench基准测试中准确率达95.7%[1] - o3模型可自动聚焦图像关键区域(如物理试卷公式区、建筑图纸承重结构),结合知识库进行深度推理[1] - 小红书团队联合西安交通大学开发DeepEyes模型,通过端到端强化学习实现类似o3的"图像思考"能力,并开源技术细节[1] 多模态推理方法对比 - 传统"先看后想"方法存在局限:推理阶段无法回看图像补充细节,易导致理解偏差[4] - 更有效的"边看边想"方法允许动态调用图像信息,实现视觉与语言交替交互,提升多模态理解能力[4] - DeepEyes展示完整的三步推理流程:全局视觉分析→智能工具调用→细节推理识别,无需依赖外部OCR工具[7][8][9][10] DeepEyes模型架构与训练 - 引入"自驱动视觉聚焦"机制:根据文本推理需求动态裁剪关键图像区域进行深入分析[14] - 采用端到端强化学习策略,不依赖监督微调(SFT),通过outcome-based奖励函数激发原生能力[18][19] - 训练过程经历懵懂期(随机尝试)、探索期(频繁调用工具)、成熟期(精准预判关键区域)三阶段[21] 性能表现与优势 - 在V* Bench取得90.1准确率,HR-Bench超越现有工作流方法,7B版本视觉搜索表现优于Qwen-VL 32B[23] - 五大独特优势:训练更简洁(仅需问答对)、更强泛化能力、端到端联合优化、深度多模态融合、原生工具调用能力[26][27][28] - 数学推理能力显著提升,展示多模态模型跨任务潜力[24] 行业影响 - 开创多模态推理新范式:无需复杂工作流或大规模监督数据,通过强化学习实现视觉-文本深度融合[29] - 技术突破使"图像思考"不再是OpenAI专属,为开放世界多模态智能探索提供新路径[1][29] - 研究团队来自小红书和西安交通大学,成果已在实习期间完成并开源[31]
从性能到实战,怎样才算是靠谱的 Agent 产品?
机器之心· 2025-05-31 14:30
基准测试关注AI业务能力 - 红杉中国团队提出AI基准测试工具Xbench,强调不再单纯追求测评问题难度,而是重点量化AI系统在真实场景的效用价值[1] - Xbench项目于2022年启动,最初为内部工具,经历三次更新后于2025年5月公开[5] - 2023年首批题库针对LLM和智能体的简单问答和逻辑思考能力[5] - 2024年10月第二次更新,关注LLM的复杂问答、推理能力及简单工具调用[5] - 2025年3月第三次升级,开始思考模型能力与AI实际经济价值的关联[6] 双轨评估体系设计 - Xbench构建双轨评估体系:AGI Tracking评估技术能力上限,Profession Aligned量化真实场景效用价值[8] - AGI Tracking线包含科学问题解答测评集(xbench-ScienceQA)和中文互联网深度搜索测评集(xbench-DeepSearch)[9] - Profession Aligned线提出面向招聘和营销领域的垂类Agent评测框架[9] - 评估任务由领域专家设定业务需求,大学教授转化为评估指标,确保基准与生产力价值强相关[7] 首期测试结果分析 - OpenAI的o3模型在所有测试中排名第一,GPT-4o因回答较短得分最低[9] - 模型尺寸非决定性因素,谷歌DeepMind的Gemini-2.5-Pro和Gemini-2.5-Flash表现相当[9] - DeepSeek R1在数学和代码测试出色,但搜索中心任务适应性不足导致整体表现较低[9] 长青评估机制 - 长青评估机制为动态更新系统,避免静态评估集题目泄露导致过拟合[10] - Agent产品迭代速率快且外部环境动态变化,需定期测评主流产品[10] - 计划在人力资源、市场营销、金融等领域构建动态评估机制[10]