机器之心

搜索文档
ICCV 2025 | FDAM:告别模糊视界,源自电路理论的即插即用方法让视觉Transformer重获高清细节
机器之心· 2025-10-15 15:33
针对视觉 Transformer(ViT)因其固有 "低通滤波" 特性导致深度网络中细节信息丢失的问题,我们提出了一种即插即用、受电路理论启发的 频率动态注意力调制 (FDAM)模块。它通过巧妙地 "反转" 注意力以生成高频补偿,并对特征频谱进行动态缩放,最终在几乎不增加计算成本的情况下,大幅提升了模型在分割、检 测等密集预测任务上的性能,并取得了 SOTA 效果。 该工作来自北京理工大学、RIKEN AIP和东京大学的研究团队。 研究背景:为什么这是一个重要的问题? 论文全文: https://arxiv.org/abs/2507.12006 作者主页: https://linwei-chen.github.io 实验室主页: https://ying-fu.github.io 开源代码: https://github.com/Linwei-Chen/FDAM 正如上图所示,在标准的 ViT 中,高频信息随着层数加深迅速衰减至零。解决这一根本性缺陷,释放 ViT 在高清视觉任务上的全部潜力,是当前领域亟待突破的 关键瓶颈。 现有方法的局限性 此前,一些工作尝试缓解 ViT 的 "过平滑" 问题,例如通过正则 ...
报名|IROS 2025举杯时刻!与你Pick的圈内大神共饮一杯!
机器之心· 2025-10-15 15:33
当具身智能开始自主决策,当机器人学会在复杂环境中"思考",我们正站在一个新时代的门槛上。 2025 年 IEEE/RSJ 智能机器人与系统国际会议(IROS 2025)即将于下周在杭州启幕。作为全球最具影响力的机器人顶会之一,IROS 每年汇聚全球顶尖学者,覆盖 从理论研究到应用落地的全链条议题。 值此精英汇聚"重逢"之际,机器之心将于会议期间发起一场特别的闭门聚会—— TalentAI50 Meetup 。这场仅限 50 人的酒会, 专为那些正在定义机器人 乃 至 AI 行业未来 的年轻面孔而设。 叶 琦:浙江大学控制科学与工程学院百人计划研究员、博士生导师 张 强: 北京人形机器人创新中心首席研究员,学术委员会主任 某世界500强具身智能方向负责人 更多嘉宾仍在邀约中.... *以上排名不分先后 活动日程&报名 谁将出现在这场酒会上? 我们邀请到了多位活跃在一线的青年学者,在这里,他们是分享者、是倾听者、更是同样经历过改稿、投稿、熬夜调参的同行者: 李弘扬:香港大学助理教授 ,港大 OpenDriveLab 团队负责人 穆 尧:上海交通大学人工智能研究院长聘教轨助理教授 吴 翼:清华大学助理教授,ARea ...
Sutton判定「LLM是死胡同」后,新访谈揭示AI困境
机器之心· 2025-10-15 15:33
大语言模型的技术路径争议 - 强化学习之父Rich Sutton认为大语言模型是死胡同,不符合《苦涩的教训》精神,因其无法从持续实际互动中学习[1][3] - Sutton主张智能应来自强化学习与环境的持续交互,奖励函数包含内在动机如好奇心,学习应是默认持续过程而非一次性训练[3] - 当前大语言模型依赖大规模预训练和人为监督微调,Sutton指出监督微调在自然界不存在,预训练方法被人类偏见污染[3] 强化学习实现的根本挑战 - 纯粹强化学习极难实现,因无法定义通用奖励函数,实践常退回模仿学习[7] - 理想系统应像松鼠被置于新环境后自主学习,而当前系统无法在未见过的场景中学习新事物[8] - 强化学习应是利用与探索的结合,但当前模型设计走向极端,仅在有限经验基础上进行纯粹利用[11] 大语言模型的设计缺陷与数据问题 - 模型依赖写作数据而非思维模式数据,但写作时的思考方式与现实世界不同,导致数据采样分布偏差[12] - 自回归机制更像神经网络的顺序展开路径,而非可随时间微调的目标函数,限制真正理解能力[11] - 模型缺乏强制探索行动与结果关系的机制,难以构建良好世界模型,仅在明确行动空间如围棋中表现较好[20] 技术路径的可行性质疑 - Sutton指出大语言模型的极端主张缺乏非凡证据,仅通过观察人类行为样本难以涌现真正推理能力[23] - 大语言模型可能无法兑现宏伟愿景,若15年内未实现价值,考虑到数百上千亿美元投入,可能引发市场崩溃或泡沫破裂[23] - 模型过度依赖人类知识和互联网数据,存在可扩展性边界,终将陷入过度依赖专家微调的困境[24] 行业发展的路径依赖与重构需求 - 行业陷入修补式迭代恶性循环,工程师优先修复而非系统重构,导致系统日益脆弱和过拟合[28] - 当模型遇到瓶颈时,市场商业化浪潮绑架既定路径,直到集体意识必须重构新系统[28] - 大语言模型领域已显现转变,从单纯依赖算力扩展正转向更注重推理能力的方法链和强化学习环境探索[28] 模型实际能力与公众期望的错位 - 需要区分模型被认为能做的事和实际能做的事,公众推断可能误导,但模型现有能力本身具有难以置信的价值和用途[32][33] - 纯粹模仿已产生非凡特性和涌现能力,这是重要学术问题,尽管不会达到真正智能,仍能找到很好用途[34] - 公共讨论应聚焦已发生的奇迹,而非过度期待智能水平,类似互联网泡沫期某些公司的期望过头现象[33][34]
清华&巨人网络首创MoE多方言TTS框架,数据代码方法全开源
机器之心· 2025-10-15 12:08
无论是中文的粤语、闽南话、吴语,还是欧洲的荷兰比尔茨语方言、法国奥克语,亦或是非洲和南美的地方语言,方言都承载着独特的音系与文化记忆,是人类 语言多样性的重要组成部分。然而,许多方言正在快速消失,语音技术如果不能覆盖这些语言,势必加剧数字鸿沟与文化失声。 在当今 大模型引领的语音合成时代 ,通用 TTS 系统已展现出令人惊叹的能力,但方言 TTS 依然是相关从业者难以触及的「 灰色地带」。现有的工业级模型往往 依赖 巨量专有数据 ,这让 方言 TTS 从业者和研究者几乎无从下手 :缺乏统一的语料构建方法,更缺乏一个可实现多语言的端到端开源框架。 为此,来自巨人网络 AI Lab 与清华大学电子工程系 SATLab 的研究团队联合首创了 DiaMoe-TTS —— 一个在一定程度上媲美工业级方言 TTS 模型的开源全套解决 方案。他们基于语言学家的专业经验,构建了一个统一的 IPA 表达体系,并且在仅依赖开源方言 ASR 数据的前提下提出这一方案。 在推出中文方言版本之前,研究团队已在 英语、法语、德语、荷兰比尔茨语 等多语种场景中进行过验证,确保该方法具备全球范围内多语言的可扩展性与稳健 性。 最重要的是,D ...
AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了
机器之心· 2025-10-15 12:08
研究背景与目标 - 多模态大模型在真实世界应用的一个重要场景是自动解析旅行视频中的地理位置与时间顺序,以生成旅行计划[2] - 研究团队提出名为VIR-Bench的全新多模态大模型评估基准,旨在评测AI对旅行视频中地理位置与时间顺序的理解能力[4] 任务设计与数据集构建 - VIR-Bench的核心任务是行程还原,要求模型根据旅行vlog输出访问顺序图,包含访问地点及其顺序和包含关系的结构化表示[6] - 访问顺序图是一个有向图,节点分为Prefecture、City和POI三个层级,包含包含边和转移边两种关系[7] - 任务被拆解为节点预测和边缘预测两个子任务,分别评估模型的地理识别能力与时序推理能力[10][11][12] - 数据集包含200个在日本拍摄的旅行vlog,标注了3,689个POI,覆盖日本43个都道府县[13][17] 实验结果与洞察 - 开源模型整体性能落后于商用模型,尤其在POI节点识别和转移边预测子任务上差距明显[16] - 转移边预测是所有模型的最难关,部分模型结果接近随机水平[16] - 模型规模扩展对性能提升有显著作用,地理相关预训练是POI节点预测精度差异的关键因素[16] - 思维链推理在边缘预测中能带来显著改善,结合音频信息后效果提升尤为突出[16] - 增加输入帧数、更长的推理过程以及利用音频信息是模型性能提升的关键方向[18] - 当前模型整体性能远未达到可用水平,即使是得分最高的Gemini-2.5-Pro也存在大量错误[18] 模型性能数据 - 在节点预测任务中,表现最好的商用模型Gemini-2.5-Pro在Prefecture层级的F1分数为87.7,在City层级为68.6,在POI层级为52.8[19] - 在边缘预测任务中,Gemini-2.5-Pro在包含边预测的F1分数达到90.8,在转移边预测为66.8,综合F1为80.7[19] - 开源模型中表现最好的Qwen2.5-VL-72B在节点预测综合F1为38.1,在边缘预测综合F1为52.4[19] 应用前景与意义 - VIR-Bench为未来诸多应用打开窗口,其核心能力与机器人理解世界、规划路径以及自动驾驶系统的决策需求高度契合[19] - 该研究指明了多模态大模型的进化方向,包括更强的地理空间感知、更可靠的时间推理以及多模态信息的深度融合[20]
50万激励,腾讯青云奖学金启动申请
机器之心· 2025-10-15 12:08
腾讯青云奖学金项目概述 - 腾讯公司正式启动“腾讯青云奖学金”项目,旨在支持青年学者,特别是计算机科学、人工智能及交叉领域的硕士和博士生 [6][8] - 项目预计从申请者中评选出15位获奖者,评选结果将于12月公布 [9][10] - 每位获奖者将获得20万元人民币现金以及价值30万元人民币的腾讯云异构算力资源 [15] 学术界算力资源挑战 - 全球学术界普遍面临算力紧缺问题,与产业界及大型科技公司相比硬件资源捉襟见肘 [1][3] - 《自然》杂志文章及布朗大学arXiv论文均指出学术界算力受限现状,一项针对50名研究者的调查显示66%的受访者对自身算力资源满意度打3分或更低(满分5分) [1][3] - 算力困境导致研究者需排队等待硬件资源,将时间浪费在申请服务器、调试环境上,影响原创性探索 [5] 产业界对学术界的算力支持举措 - 国际科技公司如亚马逊云科技、谷歌和微软通过提供云积分等方式为研究人员提供算力支持 [5] - 国内高校如清华大学向本科、硕博生免费发放算力券以缓解算力焦虑 [5] - 腾讯青云奖学金将稀缺的算力资源纳入支持体系,切中青年学者核心痛点 [15] 腾讯青云奖学金资源价值与配置 - 价值30万元的云异构算力约可支持3个月前沿GPU实例24小时不间断使用或8卡前沿GPU算力2000小时不间断使用 [18] - 获奖者可灵活配置算力方案,自由选择10余种高性能GPU卡型,以适应大模型研究不同阶段的算力需求 [19] - 该算力资源预计能够覆盖大多数高校科研团队在大部分实验阶段的需求,除百亿及以上参数的超大规模模型 [20] 腾讯公司人工智能技术布局 - 公司已形成混元系列模型、应用产品、AI编程助手和智能体平台在内的全栈式人工智能体系 [23] - 开源文生图模型混元图像3.0在国际权威AI模型盲测榜单LMArena中登顶,击败谷歌Nano-Banana和字节Seedream 4.0 [23][24] - 公司广泛的业务矩阵为技术落地提供丰富场景和数据支撑,构筑在大模型时代的核心竞争壁垒 [24] 产学研结合与人才战略 - 奖学金项目是产业界与学术界保持紧密互动、搭建产学研闭环及储备人才的关键环节 [13][14] - 除资金和算力支持外,公司将为获奖者搭建产学研交流平台,提供企业导师指导与多元成长机会 [15] - 通过“青云计划”,获奖者及实力不俗的青年学者均有机会加入腾讯,将科研成果与产业实践相结合 [23]
大的来了:谷歌Gemini 3.0 Pro单次生成网页版操作系统,Win、Mac、Linux一网打尽
机器之心· 2025-10-15 12:08
Gemini 3 0模型能力展示 - 谷歌Gemini 3 0大模型已出现在AI studio的A/B测试中 供部分用户体验 在目前条件下 该模型无法经常触发和自由选择 测试均在One Shot条件下进行[8] - 模型能够通过一次尝试的提示词 在2分钟内生成功能复杂的Web操作系统演示 包括MacOS Windows和Linux风格的桌面环境[6][11][13] - 模型展现出对抽象描述的高理解能力 例如能根据“设计得像一位哲学教授的存在主义危机”等哲学风格提示词生成相应前端设计 并能包含符合场景的音乐音效[14][15] 生成内容的具体案例与分析 - 根据提示词生成的MacOS风格WebOS具备流畅动画 窗口管理以及工具栏 浏览器 画图 终端等基础应用[5] - 生成的操作系统演示为单HTML文件 可在Chrome浏览器中直接运行 作者已将代码公开在CodePen平台[13][18] - 对生成内容的分析指出 其终端功能仅通过少量case模拟常用功能 缺乏完整的指令体系和功能逻辑 本质是前端设计演示 而非真正的操作系统[16][17][19] 市场反响与技术定位 - 展示Gemini 3 0生成能力的推文在海外平台获得超过140万浏览 引发用户惊叹[3] - 行业观点认为 尽管模型在Web框架代码生成和前端设计方面远超现有模型 但其能力被部分讨论夸大 模型距离真正具备构建操作系统的能力尚远[16][19] - 行业评估是 Gemini 3 0在构建原型演示方面表现出越来越稳定和强大的能力 正在开启有创造力的大模型新篇章[16][19]
刚刚,UCLA周博磊也加入了一家机器人公司
机器之心· 2025-10-15 10:54
公司战略与实验室成立 - 加州大学洛杉矶分校副教授周博磊加入机器人初创公司Coco Robotics,并担任新成立的Physical AI Lab的首席AI科学家 [1] - Coco Robotics成立于2020年,专注于解决“最后一公里”配送的自动驾驶难题,其长期目标是实现完全自动驾驶以降低配送成本 [2] - 公司已积累真实世界数百万英里的运行数据,数据规模达到临界点,认为可以加速Physical AI的研究进展 [4] 技术基础与数据合作 - 公司早期依赖远程操作员协助机器人规避障碍,如今计划深入挖掘其机器人车队采集的大量运行数据以推进自动化研发 [2] - Coco Robotics与OpenAI有独立合作关系,允许Coco使用OpenAI的模型,同时OpenAI的研究实验室能访问Coco机器人采集的数据,但Physical AI Lab是独立于此合作的研究项目 [5] - 公司计划将实验室的研究成果用于提升自身自动化水平与运行效率,主要应用于其机器人所依赖的本地模型,暂无出售数据给同行的打算,但可能向运营城市分享研究成果以改善基础设施 [6] 核心人物背景与研究方向 - 周博磊本科毕业于上海交通大学,硕士毕业于香港中文大学,2018年在麻省理工学院计算机科学与人工智能实验室获得博士学位,现任UCLA计算机科学系副教授 [9] - 他的研究方向为机器感知和智能决策,重点是通过学习可解释、结构化的表征,使机器在复杂环境中感知、推理和行动 [11] - 他在人工智能顶级会议和期刊发表百余篇论文,总引用数超过6万次,h-index为78,其中一篇一作论文引用接近14000次 [12] 关键技术贡献与影响 - 周博磊提出的类别激活映射技术能有效可视化卷积神经网络在图像分类时关注的具体区域,对可解释性人工智能领域产生深远影响 [13] - 他进一步提出了网络剖析方法,能自动识别和量化神经网络中单个神经元所代表的语义概念,有助于理解整个模型内部知识的表征方式 [16] - 他领导创建了Places数据库,包含超过1000万张已标注场景照片,为场景识别任务训练强大的深度卷积神经网络树立了行业基准 [18]
北大彭一杰教授课题组提出RiskPO,用风险度量优化重塑大模型后训练
机器之心· 2025-10-15 10:54
AIME2024 上的学习表现 技术方案概述:用「风险度量」破局,MVaR + 捆绑策略双管齐下 为解决传统均值优化的缺陷, 北大团队提出 RiskPO ,核心突破在于 将风险规避(risk-averse)理念融入优化目标, 用「关注奖励分布左尾(难任务)」替代 「追求整体均值」,从根本上引导模型突破推理短板。 该项目由北京大学彭一杰教授课题组完成,第一作者为任韬,其他作者包括江金阳、杨晖等。 研究背景与挑战:大模型后训练陷入「均值陷阱」,推理能力难破界 当强化学习(RL)成为大模型后训练的核心工具,「带可验证奖励的强化学习(RLVR)」凭借客观的二元反馈(如解题对错),迅速成为提升推理能力的主流范 式。从数学解题到代码生成,RLVR 本应推动模型突破「已知答案采样」的局限,真正掌握深度推理逻辑 —— 但现实是, 以 GRPO 为代表的主流方法正陷入 「均值优化陷阱」。 这些基于均值的优化策略,过度聚焦高概率输出序列,却忽略了「低概率但高信息密度」的推理路径:模型训练早期就会出现熵坍缩,过早丧失探索能力;面对 全错的难题时,优势函数直接归零,模型在薄弱环节完全无法学习。最终结果是, 大模型看似在 Pass@1 ...
NeurIPS 2025 Spotlight | 条件表征学习:一步对齐表征与准则
机器之心· 2025-10-15 10:54
文章核心观点 - 传统图像表征学习方法仅能提取通用信息(如主体类别),忽略了图像中其他多维信息(如数量、环境等)[2] - 提出一种名为条件表征学习(CRL)的新方法,能够根据指定准则(如颜色、形状)生成更具表现力的条件表征[4][9] - CRL方法无需额外训练,通过将通用图像表征投影到由大语言模型生成的文本概念空间即可实现,是一种高效的即插即用模块[9][13] 方法 - 方法灵感来源于三维坐标系和颜色三原色理论,认为对于任意给定准则,存在对应的“概念空间”及其基向量[8] - 技术流程为:首先使用大语言模型(LLM)生成与指定准则相关的描述文本,然后将视觉语言模型(VLM)得到的通用图像表征投影到该文本基张成的空间中[9] - 该方法的核心操作是图像与文本表征的矩阵乘法,实现简单,复现难度低[13] 实验验证 - 在少样本分类任务上,CRL与现有模型结合后性能显著提升,例如CLIP+CRL在Clevr4-10k数据集的颜色准则上ACC达到88.05%,远超CLIP baseline的12.23%[18] - 在定制化聚类任务上,CRL模块展现出强大性能,BLIP2+CRL在Cards数据集的Suits准则上ACC达到76.07%,NMI达到60.86%[18] - 在相似度检索任务上,CLIP+CRL在Focus和Change任务上的平均召回率(Mean)达到26.8%,显著优于CLIPimage+text的19.9%[22] - 实验结果表明CRL可作为通用增强模块,与CLIP、ALIGN、MetaCLIP、BLIP2等多种多模态模型结合,均能提升其在特定准则下游任务中的性能[18][22][25]