机器之心

搜索文档
ICCV 2025放榜!录取率24%,夏威夷门票你抢到了吗?
机器之心· 2025-06-26 14:10
ICCV 2025会议概况 - ICCV 2025将于10月19日至25日在美国夏威夷举行,是计算机视觉领域三大顶级会议之一,与CVPR和ECCV并列 [2][27] - 本届会议共收到11239份有效投稿,录用2699篇论文,录用率为24% [3] - 投稿量较2019年增长近三倍(2019年4323篇),反映计算机视觉领域研究活跃度显著提升 [4][8] 录用数据与历史对比 - 近年录用率保持稳定:2023年26.15%(8260投稿/2160录用),2021年26.20%(6152投稿/1612录用),2019年25%(4323投稿/1075录用) [5][8] - 新政策导致29篇关联审稿人的论文被拒,其中12篇原本符合录用标准 [6][7] 代表性录取论文 - 高保真3D几何生成:通过法线桥接技术从图像生成三维模型 [9] - 医学影像分割:发布十亿级MRI标注数据集UKBOB [15] - 自动驾驶安全:本体驱动的风险评估框架OD-RASE [23] - 生成式AI:通用扩散模型UniVG实现图像生成与编辑一体化 [24] 行业趋势与挑战 - 深度学习革命推动研究爆发:自2012年AlexNet突破后,LLM和生成式AI等技术进一步刺激论文产量 [30][32] - 顶级会议投稿量激增:NIPS 2025投稿或超30000篇,同行评审系统面临质量与公平性挑战 [35][36] - 改革建议:建立双向评审系统(作者评估审稿质量+审稿人奖励机制)以提升问责制 [38][40][42] 会议形式与特点 - 会议周期4-5天,包含专题教程、技术议程、海报展示及商业展览 [28] - 近年新增强化问责政策,直接处理不负责任审稿行为 [6]
5款大模型考「山东卷」,Gemini、豆包分别获文理第一名
机器之心· 2025-06-26 14:10
大模型高考表现 - 5款主流大模型参加2025年山东高考,文科最高分683分(豆包Seed 1.6-Thinking),理科最高分655分(Gemini 2.5 Pro)[3][4] - 文科成绩全线超620分,豆包683分达清华北大线,理科Gemini和豆包达985水平,Claude 4和o3未及600分[5] - 相比2024年高考测评,大模型文理科成绩一年内均提升100多分,从"踩一本线"跃升至"冲刺清北"[6][37] 技术测评方法论 - 测试采用全科闭卷形式,主科用全国Ⅰ卷,副科为山东自主命题,总分750分制[4] - 通过API测试,选择题机判+人工质检,开放题由重点高中教师匿名评估,全程未做prompting engineering[5] - 输入方式差异:DeepSeek R1仅用题目文本,其他模型使用文本+截图[5][31] 学科能力分析 语文 - 豆包128分夺冠,Gemini 126分,o3因作文跑题仅95分[11] - 大模型在选择题/阅读理解得分率高,名句默写全员满分,但作文表现参差不齐(Gemini 52分 vs o3 20分)[13][14] - 写作问题包括缺乏深度思辨(DeepSeek)、格式不规范(豆包1800字超限,o3非标准格式)[15][16] 数学 - DeepSeek R1以145分领先,豆包141分,Gemini 140分,较2024年普遍不及格实现飞跃[17] - 主要失分点:图像混合题(新一卷第6题全员失分)、压轴题推导不严谨[20][22] - 解答过程存在随机性,相同题目不同模型得分差异明显[18] 英语 - 全员超140分,差距极小,主要扣分点在写作[23] - 作文分两档:豆包/Gemini/Claude 4达12分(结构清晰案例充实),o3/DeepSeek 11分(语言瑕疵或句式单一)[29] 文科综合 - 豆包文综270分断层领先,地理94分+历史92分双突破90[30] - 优势领域:地理空间关系理解、历史因果链把握,DeepSeek因模型故障历史仅67分[30][32] 理科综合 - Gemini理综248分第一,豆包235分,Claude 4落后37分[33] - 生物化学读图题受图片清晰度限制,豆包在图文交织输入下可提升30分至676分[34] - 物理题存在超纲解答现象,因未限制解题方法[35] 技术演进关键 - Gemini 2.5 Pro通过思维链提升数理推理,支持多模态复杂问题处理[38] - OpenAI o3整合图像思维链,实现原生图像处理与分步思考[38] - 豆包Seed 1.6采用三阶段训练(文本预训练/多模态混合/长上下文),结合256K上下文与视觉理解优化[39][40] - Seed1.6-Thinking通过RFT+RL迭代优化,融合VLM提升视觉理解能力[41] 行业趋势 - 大模型从"能否解题"转向"理解深层逻辑",在文本生成、多模态、推理层面实现质变[43] - 标准化考试逐渐失去挑战性,未来或转向科研/艺术/编程等无标准答案领域[44] - 技术迭代速度超预期:一年内从"普通本科"水平跃升至"双一流"级别[43]
人民大学&字节Seed:利用μP实现Diffusion Transformers高效扩展
机器之心· 2025-06-26 14:10
核心观点 - 中国人民大学高瓴人工智能学院和字节跳动Seed团队合作,将大语言模型训练中的μP理论扩展到diffusion Transformers的训练中,实现了不同大小模型共享最优超参,显著减少超参搜索耗费 [1][2] - 在DiT、PixArt和MMDiT上的实验验证表明,小模型搜索的超参可直接用于大模型训练,计算量仅为人工手调的3%左右,且效果优于人工基线 [2][21][24] - μP理论通过调整网络不同模块的初始化和学习率,使得超参在不同规模diffusion Transformers间可迁移,解决了大规模模型训练中超参调优难题 [7][10] μP理论背景 - μP全称为最大更新参数化,是Tensor Program无穷宽网络理论系列的重要成果,已被证明适用于标准Transformer架构 [7] - μP算法实现简洁,只需调整隐藏层学习率和输出层权重系数及初始化,即可实现不同大小Transformer共享最优超参 [7] - μP已被成功应用于大语言模型预训练,带来稳定的超参迁移性质 [7] diffusion Transformers的挑战 - diffusion Transformers在架构上引入了额外模块处理文本信息,任务目标也与语言模型不同,导致已有μP形式不一定适用 [8] - 团队从理论和实践上系统研究了主流diffusion Transformers(DiT、U-ViT、PixArt-α、MMDiT)的μP形式 [9][10] 实验验证 DiT网络验证 - 在ImageNet数据集上验证:当网络宽度、批量大小和训练步数足够大时,超参可稳定迁移 [12] - 将最优超参迁移到DiT-XL-2训练,收敛速度达原论文的2.9倍(2.4M步即超过7M步效果) [15] PixArt-α验证 - 在0.04B代理模型搜索学习率后迁移到0.61B模型,搜索计算量仅为一次训练的5.5% [20] - μP版本在训练中稳定优于基线效果 [20] MMDiT大规模验证 - 在18B规模验证,0.18B模型搜索超参计算量仅为人工手调的3% [21][24] - 学习率影响最关键,warmup步数影响不大,迁移到18B模型后效果稳定优于人工基线 [21][24]
刚刚,OpenAI苏黎世办公室被Meta一锅端,三名ViT作者被挖走
机器之心· 2025-06-26 12:35
核心观点 - Meta近期从OpenAI苏黎世办公室挖走三名核心AI研究员(Lucas Beyer、Alexander Kolesnikov、Xiaohua Zhai),三人曾共同参与ViT等突破性研究 [3][4][5] - Meta通过高薪策略(最高1亿美元待遇)和CEO扎克伯格亲自招募(每日联系数百名顶尖人才)加速AI人才争夺,目标组建超级智能实验室 [6][7][8] - OpenAI CEO山姆·奥特曼公开淡化影响,称核心团队未流失,但公司已采取反制措施(增加研究资金与资源) [9] 人才流动 - 三名研究员均从谷歌DeepMind跳槽至OpenAI(2024年12月),仅半年后转投Meta [5][12][19][24] - 三人学术影响力显著: - Xiaohua Zhai(翟晓华)Google Scholar被引量超8万,h指数45,ViT论文被引65,568次 [15][16] - Lucas Beyer被引量超8万,ViT论文被引65,200次 [20][21] - Alexander Kolesnikov被引量超9万 [26] Meta的AI战略 - 近期动作: - 投资AI初创公司Scale AI 140亿美元并挖走其CEO [7] - 尝试招募OpenAI联合创始人Ilya Sutskever和John Schulman(未成功) [8] - 扎克伯格亲自参与招聘,通过邮件/WhatsApp直接联系候选人,部分offer包含股权等综合价值达1亿美元 [6] 行业竞争动态 - OpenAI回应称Meta的激进招聘是"疯狂行为",强调核心团队稳定性,但承认需加强人才保留措施 [9] - 三方背景:三名研究员均曾在谷歌DeepMind主导多模态、ViT等前沿研究,后集体加入OpenAI建立苏黎世办公室 [5][12][18][24]
具身世界模型新突破,地平线 & 极佳提出几何一致视频世界模型增强机器人策略学习
机器之心· 2025-06-26 12:35
近年来,随着人工智能从感知智能向决策智能演进, 世界模型 (World Models) 逐渐成为机器人领域的重要研究方向。世界模型旨在让智能体对环境进行建模并 预测未来状态,从而实现更高效的规划与决策。 与此同时,具身数据也迎来了爆发式关注。因为目前具身算法高度依赖于大规模的真实机器人演示数据,而这些数据的采集过程往往成本高昂、耗时费力,严重 限制了其可扩展性和泛化能力。尽管仿真平台提供了一种相对低成本的数据生成方式,但由于仿真环境与真实世界之间存在显著的视觉和动力学差异(即 sim-to- real gap),导致在仿真中训练的策略难以直接迁移到真实机器人上,从而限制了其实际应用效果。 因此如何高效获取、生成和利用高质量的具身数据,已成为当 前机器人学习领域的核心挑战之一 。 项目主页: https://horizonrobotics.github.io/robot_lab/robotransfer/ 模仿学习(Imitation Learning)已成为机器人操作领域的重要方法之一。通过让机器人 "模仿" 专家示教的行为,可以在复杂任务中快速构建有效的策略模型。然 而,这类方法通常依赖大量高质量的真实机器 ...
首个面向科学任务、真实交互、自动评估的多模态智能体评测环境,ScienceBoard来了
机器之心· 2025-06-26 08:30
背景与动机 - AI在科学研究中的角色从"分析器"转变为具备执行能力的"新型合作者",能够操作计算机完成真实科研任务[3] - 科研场景的复杂性(软件多样性、长周期任务、跨模态信息)使得AI完成科研任务比解答科学问题更困难[4] - 现有智能体系统在通用任务上有进展,但缺乏真实科研环境与评估基准来推动从"会说会写"到"会做"的转变[4] 科研任务挑战 - 现有评测集中在日常场景和通用软件,复杂性未触及真实科研工作[5] - 科学评测任务仍停留在QA和静态代码编写,未涉及非标准I/O流、复杂界面逻辑等真实挑战[5] - 需要可靠环境和多模态多领域评测基准来评估科学任务自动化程度[5] ScienceBoard基建 - 基于Ubuntu虚拟机搭建,集成6个科学领域开源软件,支持CLI/GUI双通道交互[13][16] - 定义通用动作空间,包括GUI操作、CLI命令执行、流程控制等,实现跨软件跨模态通用执行接口[15][17][18] - 配备自动初始化脚本和评估函数,确保评测可复现性和执行级评估[16] 评测集构建 - 收录169个真实科研任务,横跨6个领域(生物化学、天文模拟、地理信息系统等)[23] - 任务类型涵盖基础设置、科学模拟、图形绘制、数据查询、文档撰写、复合工作流等[23] - 任务划分为四类难度:Easy(54%)、Medium(28%)、Hard(17%)和Open Problems[28] 实验评估结果 - 商业大模型(GPT-4o、Claude 3.5)平均成功率仅15%,开源模型表现不稳定[27] - 专门设计的GUI Action Models在长任务和跨模态任务上明显受限[27] - 模块化设计(规划与执行解耦)显著提升成功率,尤其在复杂界面和长操作链任务中[32][33] 未来方向 - 智能体需要结合领域知识,通过Manual和Tutorial进行任务相关学习[34] - 构建"科研AI团队",由planner、GUI模型、领域专家模型按需组合[34] - 为实验室层面智能化探索打下基础,推动AI科学家从数字概念走向现实[35] 研究意义 - 首个聚焦科学探索的多模态智能体评测框架,提供真实可交互环境和程序化评估机制[37] - 揭示当前模型在复杂科研工作流中成功率显著低于人类,为全自动化AI科学家提供起点[37]
何恺明新身份:谷歌DeepMind杰出科学家
机器之心· 2025-06-26 08:30
何恺明加入谷歌DeepMind - 何恺明以兼职形式加入谷歌DeepMind,职位为杰出科学家(Distinguished Scientist)[4] - 具体研究方向尚未公开,但近期团队发表了单步图像生成论文MeanFlow,性能提升达50%[6] - 在CVPR workshop上提出生成模型可能走向端到端训练的历史性思考[6] 学术成就与行业影响 - 论文总被引量超71万次,其中ResNet单篇被引28万次,为21世纪被引最多论文之一[12][15] - 三获CVPR最佳论文奖(2009/2016/2021候选),并获ICCV 2017 Marr Prize[10][11][16] - ResNet建立的残差连接已成为Transformer、AlphaGo Zero等现代模型的核心组件[18][19] - 2021年提出的MAE模型(Masked Autoencoders)迅速成为计算机视觉领域热点[20] 职业轨迹与行业地位 - 职业经历覆盖微软亚研院(2011-2016)、Facebook AI Lab(2016-2024)、MIT(2024年起)[9] - 业界公认的科研标杆,每年仅产出少量一作论文但均为重量级成果[22] - 论文以简明易读著称,擅长用直观方式解释复杂概念[23] - 行业专家评价"使用卷积神经网络时50%概率涉及ResNet或其变种"[17]
8B模型可以超过GPT-4o!并行KV Cache压缩支持的128K长度外推方法ParallelComp
机器之心· 2025-06-25 14:50
大模型长文本推理的瓶颈与突破 - 大语言模型(LLMs)在训练阶段能高效处理4K-8K tokens级别的上下文,但在推理阶段遇到128K以上长度的长文本时,受到显存瓶颈和注意力下沉(attention sink)等问题限制 [2] - 主流LLM依赖旋转位置编码(RoPE)等机制,但超长文本外推时容易出现信息遗失,限制实际应用拓展 [2] - 业界处理长文本的高效推理主要面临两个瓶颈:位置编码的长度外推和内存瓶颈 [3] 现有解决方案与局限性 - 位置编码方案包括基于频率区分的NTK插值方法和分块(chunking)方法,但超长上下文(>128K)外推时优劣未知 [4] - 显存瓶颈普遍采用KV cache压缩方案,但自回归场景下注意力易集中在文本首尾(注意力下沉现象),并行注意力机制下的多峰"sink"现象缺乏系统解决 [5][7] ParallelComp创新方案 - 提出训练免调(Training-Free)长文本处理方案ParallelComp,包含并行Attention分块、KV缓存智能淘汰与注意力偏差校准三大技术 [8] - 并行分块注意力将输入长文本按最大处理长度切分为若干块,通过块位置编码重用机制实现128K级别序列长度外推 [12][13] - 双重淘汰机制(分块淘汰和KV缓存淘汰)将全流程推理显存压缩到64G,显著提升Batch inference和多GPU设置下的效率 [14][15] - 注意力偏差校准技术针对并行分块机制下的多峰、区域性异常,分层驱逐极端关注token使Attention分布趋于平滑 [18][19] 实验性能与行业影响 - 在A100-80GB单卡环境中实现8K至128K无缝外推,prefilling阶段加速高达23.5倍 [30] - 仅8B参数、8K上下文训练的小模型在超长文本任务中整体性能达GPT-4o的91.17%,特定任务超过GPT-4o、Claude-2和Kimi-Chat [30] - 该方法无需新训练,通过智能分块和淘汰机制提升处理长度和效率,适用于法律文档、医学文献等复杂产业应用 [32]
让多模态大模型「想明白再画」!港大等开源GoT-R1:强化学习解锁视觉生成推理新范式
机器之心· 2025-06-25 14:50
多模态大模型技术进展 - 当前多模态大模型在复杂文本提示生成高保真图像方面取得进展,但在处理精确空间关系、多对象属性及复杂组合指令时仍面临挑战[1] - 香港大学MMLab、香港中文大学MMLab和商汤科技团队推出GoT-R1框架,通过强化学习增强语义-空间推理能力,超越预定义模板限制[2][3] - GoT框架通过显式语言推理过程规划语义内容和空间布局,提升图像生成准确性和可控性,但依赖人工定义模板限制了自主推理潜力[4] GoT-R1技术创新 - GoT-R1创新性应用强化学习于视觉生成,赋予模型自主学习和优化推理路径能力[5] - 构建双阶段多维度奖励框架:推理过程评估奖励(RPR)、推理至图像对齐奖励(RRI)、语义对齐奖励(Rsem)、空间对齐奖励(Rspa)、文本提示至图像对齐奖励(RPI)[14][15][16][17] - 采用组相对策略优化(GRPO)强化学习算法,使模型主动探索更优质推理策略,突破训练数据固定模式限制[18] 性能评估与行业对比 - GoT-R1-7B在T2I-CompBench六个评估类别中五个(色彩、形状、纹理、非空间属性、复杂组合)取得最高分,确立新SOTA性能[22][23] - 相比监督微调基线模型(Janus-Pro-7B-GoT),GoT-R1-7B指标提升达15%,纹理和形状保真度显著进步[24] - GPT-4o评估显示GoT-R1在空间关系理解类别以84:16压倒性优势胜出,证明其从根本上优化了模型推理能力[25] 技术实现细节 - GoT依赖840万图像生成样本和92万图像编辑样本构建的大规模推理链图文对数据集,结合Qwen2.5-VL等多模态大模型[10] - 独创语义-空间指导模块(SSGM)增强扩散模型遵循推理链能力[10] - 空间对齐奖励创新性将文本坐标转换为可视化布局供MLLM评估,显著提升空间关系判断准确性[16]
机器人顶会RSS 2025奖项公布!大牛Pieter Abbeel领衔研究获杰出Demo奖
机器之心· 2025-06-25 14:50
RSS 2024获奖论文概览 杰出Demo论文奖 - 提出MuJoCo Playground开源机器人学习框架,支持单GPU分钟级策略训练,简化仿真环境搭建到现实迁移全流程[5] - 框架兼容四足机器人、人形机器人、灵巧手及机械臂等多平台,支持零样本迁移[6] - 技术栈集成物理引擎、批量渲染器与训练环境,由UC伯克利、Google DeepMind等机构联合开发[7][8] 杰出系统论文奖 - 开发SBA公式与XM优化引擎,通过凸半有限规划松弛实现三维重建全局最优解,速度显著提升[13] - XM引擎1小时内处理10,155帧数据达到全局最小值,重建质量优于现有SfM流程[15] - 哈佛大学团队成果,应用于运动结构重建领域[17] 杰出学生论文奖 - 提出Def-MARL算法解决多机器人系统协作安全问题,定义"零约束违反"标准[19][20] - 在8项模拟任务中性能最优,并通过四旋翼飞行器实体实验验证安全性[22] - MIT团队采用集中训练-分散执行架构,提升复杂任务协调能力[24] 杰出论文奖 - 开发FEAST进餐辅助系统,模块化设计支持进食、饮水、擦嘴功能切换[31] - 结合网页界面、头部姿势识别等多模态交互,适应残障用户个性化需求[31] - 康奈尔大学团队成果,参数化行为树架构支持LLM驱动的安全调整[29][32] 时间检验奖 - 2009年论文《Cooperative Manipulation with Aerial Robots》获奖,开创空中机器人协作运输研究[36] - 论文由宾夕法尼亚大学团队发表,奠定多无人机协同操作理论基础[39]