机器之心 - 财报，业绩电话会，研报，新闻

机器之心

搜索文档

ICCV 2025放榜！录取率24%，夏威夷门票你抢到了吗？

机器之心· 2025-06-26 14:10

ICCV 2025会议概况 - ICCV 2025将于10月19日至25日在美国夏威夷举行，是计算机视觉领域三大顶级会议之一，与CVPR和ECCV并列 [2][27] - 本届会议共收到11239份有效投稿，录用2699篇论文，录用率为24% [3] - 投稿量较2019年增长近三倍（2019年4323篇），反映计算机视觉领域研究活跃度显著提升 [4][8] 录用数据与历史对比 - 近年录用率保持稳定：2023年26.15%（8260投稿/2160录用），2021年26.20%（6152投稿/1612录用），2019年25%（4323投稿/1075录用） [5][8] - 新政策导致29篇关联审稿人的论文被拒，其中12篇原本符合录用标准 [6][7] 代表性录取论文 - 高保真3D几何生成：通过法线桥接技术从图像生成三维模型 [9] - 医学影像分割：发布十亿级MRI标注数据集UKBOB [15] - 自动驾驶安全：本体驱动的风险评估框架OD-RASE [23] - 生成式AI：通用扩散模型UniVG实现图像生成与编辑一体化 [24] 行业趋势与挑战 - 深度学习革命推动研究爆发：自2012年AlexNet突破后，LLM和生成式AI等技术进一步刺激论文产量 [30][32] - 顶级会议投稿量激增：NIPS 2025投稿或超30000篇，同行评审系统面临质量与公平性挑战 [35][36] - 改革建议：建立双向评审系统（作者评估审稿质量+审稿人奖励机制）以提升问责制 [38][40][42] 会议形式与特点 - 会议周期4-5天，包含专题教程、技术议程、海报展示及商业展览 [28] - 近年新增强化问责政策，直接处理不负责任审稿行为 [6]

5款大模型考「山东卷」，Gemini、豆包分别获文理第一名

机器之心· 2025-06-26 14:10

大模型高考表现 - 5款主流大模型参加2025年山东高考，文科最高分683分（豆包Seed 1.6-Thinking），理科最高分655分（Gemini 2.5 Pro）[3][4] - 文科成绩全线超620分，豆包683分达清华北大线，理科Gemini和豆包达985水平，Claude 4和o3未及600分[5] - 相比2024年高考测评，大模型文理科成绩一年内均提升100多分，从"踩一本线"跃升至"冲刺清北"[6][37] 技术测评方法论 - 测试采用全科闭卷形式，主科用全国Ⅰ卷，副科为山东自主命题，总分750分制[4] - 通过API测试，选择题机判+人工质检，开放题由重点高中教师匿名评估，全程未做prompting engineering[5] - 输入方式差异：DeepSeek R1仅用题目文本，其他模型使用文本+截图[5][31] 学科能力分析语文 - 豆包128分夺冠，Gemini 126分，o3因作文跑题仅95分[11] - 大模型在选择题/阅读理解得分率高，名句默写全员满分，但作文表现参差不齐（Gemini 52分 vs o3 20分）[13][14] - 写作问题包括缺乏深度思辨（DeepSeek）、格式不规范（豆包1800字超限，o3非标准格式）[15][16] 数学 - DeepSeek R1以145分领先，豆包141分，Gemini 140分，较2024年普遍不及格实现飞跃[17] - 主要失分点：图像混合题（新一卷第6题全员失分）、压轴题推导不严谨[20][22] - 解答过程存在随机性，相同题目不同模型得分差异明显[18] 英语 - 全员超140分，差距极小，主要扣分点在写作[23] - 作文分两档：豆包/Gemini/Claude 4达12分（结构清晰案例充实），o3/DeepSeek 11分（语言瑕疵或句式单一）[29] 文科综合 - 豆包文综270分断层领先，地理94分+历史92分双突破90[30] - 优势领域：地理空间关系理解、历史因果链把握，DeepSeek因模型故障历史仅67分[30][32] 理科综合 - Gemini理综248分第一，豆包235分，Claude 4落后37分[33] - 生物化学读图题受图片清晰度限制，豆包在图文交织输入下可提升30分至676分[34] - 物理题存在超纲解答现象，因未限制解题方法[35] 技术演进关键 - Gemini 2.5 Pro通过思维链提升数理推理，支持多模态复杂问题处理[38] - OpenAI o3整合图像思维链，实现原生图像处理与分步思考[38] - 豆包Seed 1.6采用三阶段训练（文本预训练/多模态混合/长上下文），结合256K上下文与视觉理解优化[39][40] - Seed1.6-Thinking通过RFT+RL迭代优化，融合VLM提升视觉理解能力[41] 行业趋势 - 大模型从"能否解题"转向"理解深层逻辑"，在文本生成、多模态、推理层面实现质变[43] - 标准化考试逐渐失去挑战性，未来或转向科研/艺术/编程等无标准答案领域[44] - 技术迭代速度超预期：一年内从"普通本科"水平跃升至"双一流"级别[43]

人民大学&字节Seed：利用μP实现Diffusion Transformers高效扩展

机器之心· 2025-06-26 14:10

核心观点 - 中国人民大学高瓴人工智能学院和字节跳动Seed团队合作，将大语言模型训练中的μP理论扩展到diffusion Transformers的训练中，实现了不同大小模型共享最优超参，显著减少超参搜索耗费 [1][2] - 在DiT、PixArt和MMDiT上的实验验证表明，小模型搜索的超参可直接用于大模型训练，计算量仅为人工手调的3%左右，且效果优于人工基线 [2][21][24] - μP理论通过调整网络不同模块的初始化和学习率，使得超参在不同规模diffusion Transformers间可迁移，解决了大规模模型训练中超参调优难题 [7][10] μP理论背景 - μP全称为最大更新参数化，是Tensor Program无穷宽网络理论系列的重要成果，已被证明适用于标准Transformer架构 [7] - μP算法实现简洁，只需调整隐藏层学习率和输出层权重系数及初始化，即可实现不同大小Transformer共享最优超参 [7] - μP已被成功应用于大语言模型预训练，带来稳定的超参迁移性质 [7] diffusion Transformers的挑战 - diffusion Transformers在架构上引入了额外模块处理文本信息，任务目标也与语言模型不同，导致已有μP形式不一定适用 [8] - 团队从理论和实践上系统研究了主流diffusion Transformers（DiT、U-ViT、PixArt-α、MMDiT）的μP形式 [9][10] 实验验证 DiT网络验证 - 在ImageNet数据集上验证：当网络宽度、批量大小和训练步数足够大时，超参可稳定迁移 [12] - 将最优超参迁移到DiT-XL-2训练，收敛速度达原论文的2.9倍（2.4M步即超过7M步效果） [15] PixArt-α验证 - 在0.04B代理模型搜索学习率后迁移到0.61B模型，搜索计算量仅为一次训练的5.5% [20] - μP版本在训练中稳定优于基线效果 [20] MMDiT大规模验证 - 在18B规模验证，0.18B模型搜索超参计算量仅为人工手调的3% [21][24] - 学习率影响最关键，warmup步数影响不大，迁移到18B模型后效果稳定优于人工基线 [21][24]

μP理论

超参迁移

人工智能

Diffusion Transformers

μP理论

超参迁移

人工智能

Diffusion Transformers

刚刚，OpenAI苏黎世办公室被Meta一锅端，三名ViT作者被挖走

机器之心· 2025-06-26 12:35

核心观点 - Meta近期从OpenAI苏黎世办公室挖走三名核心AI研究员（Lucas Beyer、Alexander Kolesnikov、Xiaohua Zhai），三人曾共同参与ViT等突破性研究 [3][4][5] - Meta通过高薪策略（最高1亿美元待遇）和CEO扎克伯格亲自招募（每日联系数百名顶尖人才）加速AI人才争夺，目标组建超级智能实验室 [6][7][8] - OpenAI CEO山姆·奥特曼公开淡化影响，称核心团队未流失，但公司已采取反制措施（增加研究资金与资源） [9] 人才流动 - 三名研究员均从谷歌DeepMind跳槽至OpenAI（2024年12月），仅半年后转投Meta [5][12][19][24] - 三人学术影响力显著： - Xiaohua Zhai（翟晓华）Google Scholar被引量超8万，h指数45，ViT论文被引65,568次 [15][16] - Lucas Beyer被引量超8万，ViT论文被引65,200次 [20][21] - Alexander Kolesnikov被引量超9万 [26] Meta的AI战略 - 近期动作： - 投资AI初创公司Scale AI 140亿美元并挖走其CEO [7] - 尝试招募OpenAI联合创始人Ilya Sutskever和John Schulman（未成功） [8] - 扎克伯格亲自参与招聘，通过邮件/WhatsApp直接联系候选人，部分offer包含股权等综合价值达1亿美元 [6] 行业竞争动态 - OpenAI回应称Meta的激进招聘是"疯狂行为"，强调核心团队稳定性，但承认需加强人才保留措施 [9] - 三方背景：三名研究员均曾在谷歌DeepMind主导多模态、ViT等前沿研究，后集体加入OpenAI建立苏黎世办公室 [5][12][18][24]

Meta Platforms(US:META)

Artificial Intelligence

ViT

Artificial Intelligence

ViT

具身世界模型新突破，地平线 & 极佳提出几何一致视频世界模型增强机器人策略学习

机器之心· 2025-06-26 12:35

近年来，随着人工智能从感知智能向决策智能演进，世界模型（World Models）逐渐成为机器人领域的重要研究方向。世界模型旨在让智能体对环境进行建模并预测未来状态，从而实现更高效的规划与决策。与此同时，具身数据也迎来了爆发式关注。因为目前具身算法高度依赖于大规模的真实机器人演示数据，而这些数据的采集过程往往成本高昂、耗时费力，严重限制了其可扩展性和泛化能力。尽管仿真平台提供了一种相对低成本的数据生成方式，但由于仿真环境与真实世界之间存在显著的视觉和动力学差异（即 sim-to- real gap），导致在仿真中训练的策略难以直接迁移到真实机器人上，从而限制了其实际应用效果。因此如何高效获取、生成和利用高质量的具身数据，已成为当前机器人学习领域的核心挑战之一。项目主页： https://horizonrobotics.github.io/robot_lab/robotransfer/ 模仿学习（Imitation Learning）已成为机器人操作领域的重要方法之一。通过让机器人 "模仿" 专家示教的行为，可以在复杂任务中快速构建有效的策略模型。然而，这类方法通常依赖大量高质量的真实机器 ...

首个面向科学任务、真实交互、自动评估的多模态智能体评测环境，ScienceBoard来了

机器之心· 2025-06-26 08:30

背景与动机 - AI在科学研究中的角色从"分析器"转变为具备执行能力的"新型合作者"，能够操作计算机完成真实科研任务[3] - 科研场景的复杂性（软件多样性、长周期任务、跨模态信息）使得AI完成科研任务比解答科学问题更困难[4] - 现有智能体系统在通用任务上有进展，但缺乏真实科研环境与评估基准来推动从"会说会写"到"会做"的转变[4] 科研任务挑战 - 现有评测集中在日常场景和通用软件，复杂性未触及真实科研工作[5] - 科学评测任务仍停留在QA和静态代码编写，未涉及非标准I/O流、复杂界面逻辑等真实挑战[5] - 需要可靠环境和多模态多领域评测基准来评估科学任务自动化程度[5] ScienceBoard基建 - 基于Ubuntu虚拟机搭建，集成6个科学领域开源软件，支持CLI/GUI双通道交互[13][16] - 定义通用动作空间，包括GUI操作、CLI命令执行、流程控制等，实现跨软件跨模态通用执行接口[15][17][18] - 配备自动初始化脚本和评估函数，确保评测可复现性和执行级评估[16] 评测集构建 - 收录169个真实科研任务，横跨6个领域（生物化学、天文模拟、地理信息系统等）[23] - 任务类型涵盖基础设置、科学模拟、图形绘制、数据查询、文档撰写、复合工作流等[23] - 任务划分为四类难度：Easy（54%）、Medium（28%）、Hard（17%）和Open Problems[28] 实验评估结果 - 商业大模型（GPT-4o、Claude 3.5）平均成功率仅15%，开源模型表现不稳定[27] - 专门设计的GUI Action Models在长任务和跨模态任务上明显受限[27] - 模块化设计（规划与执行解耦）显著提升成功率，尤其在复杂界面和长操作链任务中[32][33] 未来方向 - 智能体需要结合领域知识，通过Manual和Tutorial进行任务相关学习[34] - 构建"科研AI团队"，由planner、GUI模型、领域专家模型按需组合[34] - 为实验室层面智能化探索打下基础，推动AI科学家从数字概念走向现实[35] 研究意义 - 首个聚焦科学探索的多模态智能体评测框架，提供真实可交互环境和程序化评估机制[37] - 揭示当前模型在复杂科研工作流中成功率显著低于人类，为全自动化AI科学家提供起点[37]

何恺明新身份：谷歌DeepMind杰出科学家

机器之心· 2025-06-26 08:30

何恺明加入谷歌DeepMind - 何恺明以兼职形式加入谷歌DeepMind，职位为杰出科学家(Distinguished Scientist)[4] - 具体研究方向尚未公开，但近期团队发表了单步图像生成论文MeanFlow，性能提升达50%[6] - 在CVPR workshop上提出生成模型可能走向端到端训练的历史性思考[6] 学术成就与行业影响 - 论文总被引量超71万次，其中ResNet单篇被引28万次，为21世纪被引最多论文之一[12][15] - 三获CVPR最佳论文奖(2009/2016/2021候选)，并获ICCV 2017 Marr Prize[10][11][16] - ResNet建立的残差连接已成为Transformer、AlphaGo Zero等现代模型的核心组件[18][19] - 2021年提出的MAE模型(Masked Autoencoders)迅速成为计算机视觉领域热点[20] 职业轨迹与行业地位 - 职业经历覆盖微软亚研院(2011-2016)、Facebook AI Lab(2016-2024)、MIT(2024年起)[9] - 业界公认的科研标杆，每年仅产出少量一作论文但均为重量级成果[22] - 论文以简明易读著称，擅长用直观方式解释复杂概念[23] - 行业专家评价"使用卷积神经网络时50%概率涉及ResNet或其变种"[17]

8B模型可以超过GPT-4o！并行KV Cache压缩支持的128K长度外推方法ParallelComp

机器之心· 2025-06-25 14:50

大模型长文本推理的瓶颈与突破 - 大语言模型（LLMs）在训练阶段能高效处理4K-8K tokens级别的上下文，但在推理阶段遇到128K以上长度的长文本时，受到显存瓶颈和注意力下沉（attention sink）等问题限制 [2] - 主流LLM依赖旋转位置编码（RoPE）等机制，但超长文本外推时容易出现信息遗失，限制实际应用拓展 [2] - 业界处理长文本的高效推理主要面临两个瓶颈：位置编码的长度外推和内存瓶颈 [3] 现有解决方案与局限性 - 位置编码方案包括基于频率区分的NTK插值方法和分块（chunking）方法，但超长上下文(>128K)外推时优劣未知 [4] - 显存瓶颈普遍采用KV cache压缩方案，但自回归场景下注意力易集中在文本首尾（注意力下沉现象），并行注意力机制下的多峰"sink"现象缺乏系统解决 [5][7] ParallelComp创新方案 - 提出训练免调（Training-Free）长文本处理方案ParallelComp，包含并行Attention分块、KV缓存智能淘汰与注意力偏差校准三大技术 [8] - 并行分块注意力将输入长文本按最大处理长度切分为若干块，通过块位置编码重用机制实现128K级别序列长度外推 [12][13] - 双重淘汰机制（分块淘汰和KV缓存淘汰）将全流程推理显存压缩到64G，显著提升Batch inference和多GPU设置下的效率 [14][15] - 注意力偏差校准技术针对并行分块机制下的多峰、区域性异常，分层驱逐极端关注token使Attention分布趋于平滑 [18][19] 实验性能与行业影响 - 在A100-80GB单卡环境中实现8K至128K无缝外推，prefilling阶段加速高达23.5倍 [30] - 仅8B参数、8K上下文训练的小模型在超长文本任务中整体性能达GPT-4o的91.17%，特定任务超过GPT-4o、Claude-2和Kimi-Chat [30] - 该方法无需新训练，通过智能分块和淘汰机制提升处理长度和效率，适用于法律文档、医学文献等复杂产业应用 [32]

大语言模型长文本推理

位置编码长度外推

长度外推内存瓶颈

Artificial Intelligence

Artificial Intelligence

ParallelComp

GPT-4o

让多模态大模型「想明白再画」！港大等开源GoT-R1：强化学习解锁视觉生成推理新范式

机器之心· 2025-06-25 14:50

多模态大模型技术进展 - 当前多模态大模型在复杂文本提示生成高保真图像方面取得进展，但在处理精确空间关系、多对象属性及复杂组合指令时仍面临挑战[1] - 香港大学MMLab、香港中文大学MMLab和商汤科技团队推出GoT-R1框架，通过强化学习增强语义-空间推理能力，超越预定义模板限制[2][3] - GoT框架通过显式语言推理过程规划语义内容和空间布局，提升图像生成准确性和可控性，但依赖人工定义模板限制了自主推理潜力[4] GoT-R1技术创新 - GoT-R1创新性应用强化学习于视觉生成，赋予模型自主学习和优化推理路径能力[5] - 构建双阶段多维度奖励框架：推理过程评估奖励(RPR)、推理至图像对齐奖励(RRI)、语义对齐奖励(Rsem)、空间对齐奖励(Rspa)、文本提示至图像对齐奖励(RPI)[14][15][16][17] - 采用组相对策略优化(GRPO)强化学习算法，使模型主动探索更优质推理策略，突破训练数据固定模式限制[18] 性能评估与行业对比 - GoT-R1-7B在T2I-CompBench六个评估类别中五个(色彩、形状、纹理、非空间属性、复杂组合)取得最高分，确立新SOTA性能[22][23] - 相比监督微调基线模型(Janus-Pro-7B-GoT)，GoT-R1-7B指标提升达15%，纹理和形状保真度显著进步[24] - GPT-4o评估显示GoT-R1在空间关系理解类别以84:16压倒性优势胜出，证明其从根本上优化了模型推理能力[25] 技术实现细节 - GoT依赖840万图像生成样本和92万图像编辑样本构建的大规模推理链图文对数据集，结合Qwen2.5-VL等多模态大模型[10] - 独创语义-空间指导模块(SSGM)增强扩散模型遵循推理链能力[10] - 空间对齐奖励创新性将文本坐标转换为可视化布局供MLLM评估，显著提升空间关系判断准确性[16]

多模态大模型

强化学习

Artificial Intelligence

Artificial Intelligence

GoT框架

GoT-R1框架

Stable Diffusion

机器人顶会RSS 2025奖项公布！大牛Pieter Abbeel领衔研究获杰出Demo奖

机器之心· 2025-06-25 14:50

RSS 2024获奖论文概览杰出Demo论文奖 - 提出MuJoCo Playground开源机器人学习框架，支持单GPU分钟级策略训练，简化仿真环境搭建到现实迁移全流程[5] - 框架兼容四足机器人、人形机器人、灵巧手及机械臂等多平台，支持零样本迁移[6] - 技术栈集成物理引擎、批量渲染器与训练环境，由UC伯克利、Google DeepMind等机构联合开发[7][8] 杰出系统论文奖 - 开发SBA公式与XM优化引擎，通过凸半有限规划松弛实现三维重建全局最优解，速度显著提升[13] - XM引擎1小时内处理10,155帧数据达到全局最小值，重建质量优于现有SfM流程[15] - 哈佛大学团队成果，应用于运动结构重建领域[17] 杰出学生论文奖 - 提出Def-MARL算法解决多机器人系统协作安全问题，定义"零约束违反"标准[19][20] - 在8项模拟任务中性能最优，并通过四旋翼飞行器实体实验验证安全性[22] - MIT团队采用集中训练-分散执行架构，提升复杂任务协调能力[24] 杰出论文奖 - 开发FEAST进餐辅助系统，模块化设计支持进食、饮水、擦嘴功能切换[31] - 结合网页界面、头部姿势识别等多模态交互，适应残障用户个性化需求[31] - 康奈尔大学团队成果，参数化行为树架构支持LLM驱动的安全调整[29][32] 时间检验奖 - 2009年论文《Cooperative Manipulation with Aerial Robots》获奖，开创空中机器人协作运输研究[36] - 论文由宾夕法尼亚大学团队发表，奠定多无人机协同操作理论基础[39]