Workflow
机器之心
icon
搜索文档
ICML Spotlight | MCU:全球首个生成式开放世界基准,革新通用AI评测范式
机器之心· 2025-05-13 15:08
核心观点 - 通用人工智能研究院与北京大学联合开发了Minecraft Universe (MCU)平台,旨在解决开放世界AI智能体评测的三大瓶颈:任务多样化不足、环境单一、评测效率低下 [1][3][6] - MCU通过3,452个原子任务的无限组合生成、GPT-4o驱动的全自动任务配置、多模态智能评测三大突破,构建了维度丰富的综合评测框架 [6][11][14] - 实验显示当前SOTA模型(GROOT/STEVE-I/VPT系列)在组合任务中的完成率较原子任务下降50%以上,创造性得分普遍低于0.3分(满分1分),揭示泛化能力存在显著缺陷 [17][18][21] 技术架构 任务生成系统 - 支持11大类41子类任务类型(挖矿/合成/战斗/建造等),每个任务可分解为原子级粒度测试控制/规划/推理能力 [13] - 基于GPT-4o实现一句话生成复杂世界场景(含天气/生物群系/初始道具),自动校验任务逻辑可行性(如避免"木镐挖钻石"类错误) [11][14] - 示例任务包括"沙漠建水上屋"、"熔岩坑边缘造瀑布"等,通过调整环境变量(昼夜/地形)生成不同难度版本 [7][20] 评测体系创新 - 引入VLM驱动的多模态评分系统,覆盖任务进度/材料利用率/执行效率等6大维度,评分准确率达91.5% [14] - 采用动态任务进度指标替代传统0/1完成率,可量化阶段性表现(如GROOT在"屋内睡觉"任务中误判率达83%) [21] - 评测效率较人工提升8.1倍,成本仅为1/5,支持单日处理超10万次任务验证 [14] 实验结果 模型性能短板 - 导航类任务:GROOT在熟悉场景平均得分0.72,但环境微调后(草地→屋内)得分骤降至0.33 [18][21] - 组合任务:VPT(RL)在采矿+建造的复合任务中成功率仅23%,较单一采矿任务下降41个百分点 [18] - 创造性缺陷:所有模型在建造类任务的创新得分均未超过0.38分(STEVE-I在"瀑布建造"中得分为0.05) [18][21] 行业启示 - 现有模型过度依赖预设环境(如VPT在陌生生物群系中错误识别率达65%),暴露语义理解不足 [17][22] - 长周期任务(持续数小时)的完成率普遍低于20%,反映长期规划能力缺失 [6][21] - 评测结果指明研发方向:需提升任务本质理解能力而非表面指令执行 [22]
首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o
机器之心· 2025-05-13 15:08
核心观点 - 流匹配模型在复杂场景和文本渲染任务中存在困难,在线强化学习在图像生成领域应用仍处于初步阶段 [1] - Flow-GRPO 是首个将在线强化学习引入流匹配模型的工作,显著提升模型性能 [2] - Flow-GRPO 通过 ODE-SDE 等价转换和去噪步数减负两项关键策略提升训练效率 [6][8] - Flow-GRPO 在 GenEval 基准测试中准确率从 63% 提升到 95%,超越 GPT-4o [14] - Flow-GRPO 为流匹配模型在可控性、组合性和推理能力方面开辟了新范式 [23] 核心思路与框架概览 - ODE-SDE 等价转换:将确定性 ODE 转换为随机 SDE,为 RL 提供探索空间 [8][9] - 去噪步数减负:训练时减少生成步数(40 步减到 10 步),推理时保持完整步数,提升训练效率 [8][12] 核心实验效果 - 复杂组合生成能力大幅提升:GenEval 基准上 SD3.5-M 准确率从 63% 提升至 95% [14] - 文字渲染精准无误:视觉文本渲染准确率从 59% 提升至 92% [19] - 人类偏好对齐任务取得显著进步,图像质量和多样性未受影响 [21] 总结与展望 - Flow-GRPO 揭示了利用在线强化学习持续提升流匹配模型性能的可行路径 [23] - 为图像、视频、3D 等多模态生成任务提供了新范式 [23]
NYU教授公布2025机器学习课程大纲:所有人都在追LLM,高校为何死磕基础理论?
机器之心· 2025-05-13 10:37
高校机器学习课程设计趋势 - 核心观点:全球顶尖高校研究生机器学习课程仍以基础理论和经典模型为核心,刻意避开大型语言模型(LLM)等热点内容,强调数学推导与优化思想[2][4][7] - 课程案例: - 纽约大学Kyunghyun Cho课程聚焦随机梯度下降(SGD)等基础算法,要求学生研读经典论文[2] - 斯坦福CS229涵盖线性回归/SVM/神经网络等基础模型,2025年仍保持传统教学框架[2] - MIT 6.7900从概率建模和统计推理角度构建理论基础[4] - 清华电子系设置《机器学习》《统计推断理论》等核心理论课程[6] 理论与实践平衡机制 - 教育界共识:基础教学能培养批判性思维,理解算法数学原理比套用最新模型更重要[7][17][23] - 实践补充方案: - 斯坦福CS329S《机器学习系统设计》教授模型部署与监控全流程[9] - CMU 10-718要求博士生完成从数据清洗到模型上线的完整项目[11] - 清华电子系引入企业合作课程如"大数据技术应用实践"[13] 基础教育的长期价值 - 抗变化性:扎实的优化/泛化理论能适应技术迭代,如CNN到Transformer的范式迁移[20] - 科研创新:Hinton案例显示数十年神经网络基础研究最终促成深度学习突破[23] - 能力培养:经典论文研读可追溯知识演进脉络,如Cho引用Sutton「苦涩教训」强调通用方法价值[7][29] 课程讲义核心内容 - 100页PDF覆盖六大模块: 1) 能量函数框架统一监督/无监督学习范式[26] 2) 分类算法与SGD优化方法[26] 3) 神经网络构建块(卷积/注意力机制等)[26] 4) 概率机器学习与VAE模型[26] 5) 无向生成模型(RBMs/EBGANs)[27] 6) 强化学习/元学习等高级主题[27] 经典论文引用 - 基础算法: - REINFORCE算法(策略梯度奠基)[29] - 反向传播优化技巧(LeCun等)[30] - 生成模型: - 对比散度算法(Hinton)[32] - 变分自编码器(Kingma等)[33] - 前沿方向: - 元学习MAML算法(Finn等)[34]
突破大模型推理瓶颈!首篇「Test-Time Scaling」全景综述,深入剖析AI深思之道
机器之心· 2025-05-13 10:37
本文由来自香港城市大学、麦吉尔大学(McGill)、蒙特利尔人工智能实验室(MILA)、人大高瓴人工智能学院、Salesforce AI Research、斯坦福大学、 UCSB、香港中文大学等机构的多位研究者共同完成。第一作者为来自香港城市大学的博士生张启源和来自蒙特利尔人工智能实验室(MILA)的博士生吕福源。 当训练成本飙升、数据枯竭,如何继续激发大模型潜能? 在追求通用人工智能(AGI)的道路上,大模型训练阶段的「暴力堆算力」已经逐渐触及天花板。随着大模型训练成本急剧攀升、优质数据逐渐枯竭,推理阶 段扩展(Test-Time Scaling, TTS) 迅速成为后预训练时代的关键突破口。与传统的「堆数据、堆参数」不同,TTS 通过在推理阶段动态分配算力,使同一模型变得 更高效、更智能 —— 这一技术路径在 OpenAI-o1 和 DeepSeek-R1 的实践中已初显威力。 图 1 :预训练扩展和推理阶段扩展的示意。 在数学、编程等硬核任务上,TTS 表现亮眼;而在开放问答、多模态理解乃至复杂规划等场景中,它同样展现出巨大潜力。目前,研究者已探索了多种 TTS 策 略,如 Chain-of-Thoug ...
生成视频好看还不够,还要能自由探索!昆仑万维开源Matrix-Game,单图打造游戏世界
机器之心· 2025-05-13 10:37
世界模型技术进展 - 开源世界模型Oasis首次实现实时可交互虚拟环境,包含画面及物理规则理解[1] - 微软开源MineWorld提升视觉效果和动作生成一致性[2][3] - 创业公司开源"多元宇宙"支持多玩家在同一世界模型游戏[4] - 英伟达提出"物理图灵测试"作为具身智能新标准[4] Matrix-Game技术突破 - 昆仑万维开源17B参数世界基础模型Matrix-Game,实现完整可交互游戏世界生成[6][10] - 模型特点包括细粒度交互控制(键盘指令准确率超90%)、高保真视觉物理一致性、多场景泛化能力[17][20][25][26] - 建立GameWorld Score评估体系,在视觉质量(0.72)、时间一致性(0.97)、交互可控性(0.95)、物理规则(0.76)四大维度超越竞品[30][31][35] 技术实现路径 - 采用两阶段训练策略:无标签数据预训练+标注数据可控训练[41] - 构建Matrix-Game-MC数据集,包含2700小时中质量+870小时高质量无标签数据及1000小时有标签数据[41][42] - 模型架构基于图像到世界建模,通过DiT生成潜在表示并由3D VAE解码为视频序列[44][45] 应用场景与行业影响 - 应用领域涵盖游戏开发、具身智能训练、影视与元宇宙内容生产[7][51] - 可与公司其他AI产品(天工大模型、Mureka、SkyReels)联动构建完整创作生态[51][52] - 代表空间智能发展方向,推动国内在交互式视频生成领域的技术突破[50][51] 行业趋势 - 三维世界AI研究加速发展,计算平台可能从处理token转向处理原子级单位[4] - 空间智能被视为生成式AI下一个发展方向,将推动更高级的智能实现[48][49] - 行业呈现技术全面兴起态势,类似大模型爆发的局面可能重演[4]
ICML 2025 | 长视频理解新SOTA!蚂蚁&人大开源ViLAMP-7B,单卡可处理3小时视频
机器之心· 2025-05-12 17:06
该工作第一作者为中国人民大学高瓴人工智能学院硕士生程传奇, 目前于蚂蚁技术研究院实习,其主要研究领域为多模态大模型,蚂蚁技术研究院副研究员关健 为共同第一作者。 在视觉语言模型(Vision-Language Models,VLMs)取得突破性进展的当下,长视频理解的挑战显得愈发重要。以标准 24 帧率的标清视频为例,仅需数分钟即可 产生逾百万的视觉 token,这已远超主流大语言模型 4K-128K 的上下文处理极限。当面对影视级的长视频内容时,传统解决方案的不足愈加凸显:粗放式的帧采样 策略往往造成关键帧信息遗漏,而特征融合方法虽能降低数据维度,却不可避免地导致语义完整性受损。 近日, 蚂蚁和人大 的研究团队带来了一个创新性的解决方案。他们提出视觉语言大模型 ViLAMP (Video-Language Model with Mixed Precision),实现了对超长 视频的高效处理。这个方法的核心在于其独特的 " 混合精度 " 策略:对视频中的关键内容保持高精度分析,而对次要内容进行强力压缩,就像人类在观看视频时会 重点关注关键场景,而对过渡时空信息只做快速扫描一样。 论文标题:Scaling Vi ...
连续思维机器来了!Transformer八子之一创企推出,让AI不再「一步到位」拍脑袋做决定
机器之心· 2025-05-12 17:06
研究表明,在各种任务中,机器人解决问题的能力和效率都有所提高。 机器之心报道 编辑:杜伟、蛋酱 开启「分步思考」新范式。 科学界的一个共识是:即使是最复杂的现代人工智能,也难以媲美人类大脑的表现和效率。 研究者经常从大自然中寻找灵感,了解如何在人工智能领域取得进步,例如利用进化来合并模型、为语言模型进化出更高效的记忆或探索人工生命的空间。虽然 人工神经网络近年来让人工智能取得了非凡的成就,但它们仍然是其生物对应物的简化表征。所以,能否通过结合生物大脑中的特征,将人工智能的能力和效率 提升到新的水平? 他们决定重新思考认知核心的一个重要特征:时间。 刚刚, Transformer 作者之一 Llion Jones 联合创立的的Sakana AI 发布了「连续思维机器」(Continuous Thought Machine,CTM),这是一种将神经元活动同步作 为其核心推理机制的人工智能模型,也可看作一种新型人工神经网络,它利用神经元动态之间的同步来完成任务。 与传统人工神经网络不同,CTM 在神经元层面使用定时信息,从而实现了更复杂的神经行为和决策过程。这一创新使该模型能够逐步「思考」问题,使其推理过 程具有可 ...
CMU朱俊彦等上新LEGOGPT,一句话就能搭乐高,网友:复杂零件行不行?
机器之心· 2025-05-12 12:31
机器之心报道 机器之心编辑部 AI 不允许有人不会搭乐高。 近日,CMU 助理教授朱俊彦团队带来了新研究 —— 基于文本生成 3D 乐高的大模型。 这款大模型有多强呢?比如输入文本「基本款沙发」,一眨眼的功夫,乐高沙发就拼好了。 如果你觉得乐高沙发太简单,可以继续上难度,让它生成一个复杂点的书架,只见不同大小的积木拼拼凑凑,乐高书架就完工了,整个流程像不像你在拼乐高: 不仅如此,生成的乐高还有纹理和颜色: 接下来,我们看文章主要内容。 为了证明 AI 搭乐高的设计过程在现实生活中可用,研究人员让机器臂组装了由 AI 创建的 LEGO 模型,结果很完美。 得益于生成模型和神经渲染技术,3D 生成模型已经取得了显著进展,并在虚拟现实、游戏、娱乐和科学计算等领域实现了各种应用。比如,一些研究探索了从文 本合成 3D 对象、为网格添加纹理以及操控现有 3D 对象和场景的形状和外观。 不过,应用现有方法创建现实世界中的对象仍然充满挑战。大多数方法侧重于生成具有高保真几何形状和外观的多样化 3D 对象,但受限于两个关键挑战,这些数 字设计往往无法在物理上实现。一是,这些对象可能难以使用标准组件来组装或制作。二是,即使可以 ...
CVPR2025|MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化
机器之心· 2025-05-12 12:31
本文由中国科学院计算技术研究所研究团队完成,第一作者为硕士生杨晗,通讯作者为副研究员安竹林,助理研究员杨传广。 论文标题:Multi-party Collaborative Attention Control for Image Customization 论文地址:https://arxiv.org/abs/2505.01428 论文代码:https://github.com/yanghan-yh/MCA-Ctrl 背景 近年来,生成式人工智能(Generative AI)技术的突破性进展,特别是文本到图像 T2I 生成模型的快速发展,已经使 AI 系统能够根据用户输入的文本提示 (prompt)生成高度逼真的图像。从早期的 DALL・E 到 Stable Diffusion、Midjourney 等模型,这一领域的技术迭代呈现出加速发展的态势。 在基础 T2I 模型能力不断提升的背景下,图像定制化(Image Customization)需求日益凸显。所谓图像定制化,是指在对参考图像中的主体(subject)保持身份特 征和本质属性的前提下,根据文本或视觉条件生成该主体的新表现形式。这一技术对于电子商务( ...
强迫模型自我争论,递归思考版CoT热度飙升!网友:这不就是大多数推理模型的套路吗?
机器之心· 2025-05-12 12:31
核心观点 - CoRT(Chain-of-Recursive-Thoughts)是一种在CoT(Chain-of-thought)基础上加入递归思考的新方法,旨在提升语言模型的推理能力 [2][3] - CoRT通过结构化自我批判和递归思考模式,让AI模型生成替代方案并选择最佳响应,类似于人类的反思性思维 [4][5][6] - 尽管CoRT在GitHub上两周内获得近2k星标,但部分观点认为其原理并非创新,类似方法已在2023年论文或现有模型(如Gemini 2 5 Pro、Qwen)中应用 [7][8][9] 技术原理 - CoRT工作流程包括自我评估、生成竞争性替代方案、迭代优化和动态思维深度四个步骤 [10] - 具体实现中,AI首先生成初始响应,决定思考轮次,每轮生成3个替代响应并评估选择最优解,最终输出最佳结果 [10] 实际效果 - 在Mistral 3 1 24B模型测试中,CoRT使编程任务表现从"一般般"提升至"极佳",例如井字棋游戏代码从CLI升级为OOP实现 [11][12] - 项目仍处早期开发阶段,需通过脚本或Shell配置运行,依赖项安装后即可使用 [11]