机器之心

搜索文档
刚刚,LeCun亲自出镜,Meta推出新世界模型!
机器之心· 2025-06-12 08:53
Meta的AI战略布局 - 公司组建"超级智能团队"以实现通用人工智能 并提供9位数薪酬吸引人才[3] - 推出基于视频训练的世界模型V-JEPA 2 旨在开发能像人类一样认知世界的AI系统[4][5] - 首席AI科学家Yann LeCun强调世界模型是物理世界的数字孪生 可帮助AI理解物理规律并进行任务规划[6] V-JEPA 2技术特性 - 模型架构包含12亿参数 基于联合嵌入预测架构(JEPA)构建[8] - 包含编码器和预测器两大组件 通过自监督学习无需人工标注[16][18][19] - 训练分两阶段:使用超100万小时视频和100万张图像进行预训练 再用62小时机器人数据微调[20][21][25] 模型性能表现 - 在抓取任务(Grasp)成功率从8%提升至45% 放置任务(Pick-and-place)从13%提升至73%[12] - 动作预测任务(Epic-Kitchens-100)准确率达39.7% 超越前最佳27.6%[12] - 在Hugging Face物理推理榜单排名第一 超越GPT-4o等模型[34] 应用场景拓展 - 适用于辅助技术、混合现实指导、个性化教育等场景[6] - 在机器人领域实现零样本规划 新环境物体操作成功率65%-80%[26] - 对自动驾驶和家庭服务机器人具有重大意义[7] 新发布的基准测试 - IntPhys 2测试物理合理性判断 人类准确率85%-95%而当前模型接近随机水平[28] - MVPBench通过最小变化对减少模型作弊 评估真实物理理解能力[29] - CausalVQA专注视频因果关系理解 揭示模型在反事实推理方面的不足[32][33] 未来研究方向 - 开发跨多时间尺度的分层JEPA模型 应对复杂任务分解需求[36] - 探索多模态JEPA模型 整合视觉、听觉和触觉等感官信息[36] - 持续优化在物理推理和因果理解方面与人类表现的差距[28][33]
10%训练数据超越100%表现,机器人学习领域迎来重要突破
机器之心· 2025-06-11 11:54
研究团队与背景 - 第一作者陈昌和是美国密歇根大学研究生,研究方向为基础模型、机器人学习与具身人工智能,专注于机器人操控、物理交互与控制优化[1] - 第二作者徐晓豪是密歇根大学机器人学院博士生,研究涵盖3D感知、视觉语言模型驱动的多模态异常检测及鲁棒三维重建[2] - 共同第一作者Quantao Yang是瑞典皇家理工学院博士后,研究聚焦于利用视觉语言模型与大型语言模型提升自主系统在动态环境中的感知与导航能力[3] ViSA-Flow框架创新 - 提出革命性的机器人技能学习方法ViSA-Flow,能够从大规模人类视频中提取语义动作流,显著提升数据稀缺情况下的学习效率[4] - 在CALVIN基准测试中表现卓越,仅使用10%训练数据就超越使用100%数据的现有最佳方法[4] - 引入语义动作流作为中间表示,捕捉操作器-物体交互的本质时空特征,不受表面视觉差异影响[10] - 包含三个关键组件:语义实体定位、手-物体交互跟踪、流条件特征编码[11][12][13] 技术实现与评估 - 采用两阶段学习框架:预训练阶段学习ViSA-Flow动态先验,微调阶段进行策略适应[16] - 在CALVIN基准测试中,ViSA-Flow仅使用10%数据(1,768个)就超越所有基线方法,包括使用100%数据的方法[18][19] - 在5个连续任务完成方面达到31.4%成功率,是使用10%数据的次佳方法GR-MG(16.2%)的近两倍,甚至超过使用100%数据训练的SuSIE(26.0%)[19] - 平均序列长度达到2.96,证明其在处理长时程操作任务方面的有效性[20] 技术优势与局限性 - 技术优势包括数据效率高、跨域泛化能力强、长时程稳定性好、语义一致性佳[40] - 当前局限性包括缺乏显式3D几何和接触动力学建模、依赖预训练VLM组件、在精细物理交互任务中可能存在限制[40] - 未来发展方向包括增强物理建模、减少对预训练组件的依赖、与强化学习算法结合、扩展到网络规模视频语料库进行预训练[40] 研究意义与展望 - 为机器人学习领域带来重要突破,证明从大规模人类视频中提取语义表示进行机器人技能学习的可行性[36] - 成功桥接人类演示视频观察与机器人执行之间的差距,为构建更智能、高效的机器人学习系统开辟新方向[37] - 有望在工业自动化、家庭服务机器人、医疗辅助等多个领域发挥重要作用,推动机器人技术向更加智能化和普适化方向发展[38]
「Next-Token」范式改变!刚刚,强化学习预训练来了
机器之心· 2025-06-11 11:54
核心观点 - 强化学习(RL)在AI模型预训练阶段展现出突破性潜力,微软研究提出的「强化预训练(RPT)」新范式将传统next-token预测任务重构为推理任务,通过可验证的内在奖励提升模型性能 [6][9][24] - RPT通过利用海量无标注文本数据实现通用强化学习,显著提升语言建模准确性和推理能力,同时规避reward hacking风险 [26][28][29][30] - 实验表明RPT-14B模型在next-token预测准确率、零样本性能及下游任务微调效果上均超越基线模型,甚至媲美更大规模模型 [40][42][43][49][50] 技术范式创新 - **任务重构**:将next-token预测转化为推理过程,模型通过比对语料真实token获得内在奖励,无需外部标注 [25][32] - **可扩展性**:直接利用现有预训练语料库,将其转化为强化学习训练资源,支持长思维链推理(如自我修正) [28][33][34] - **训练机制**:采用on-policy强化学习,生成多组思维轨迹并通过前缀匹配奖励验证,分配更多计算资源于推理步骤 [35][37][31] 实验性能表现 - **语言建模**:RPT-14B在Easy/Medium/Hard难度测试集上next-token准确率分别达45.11%/33.56%/23.75%,全面超越基线模型Qwen2.5-14B和R1-Distill-Qwen-14B [42] - **Scaling特性**:预测准确率随训练计算量增加持续提升,高R2值验证性能增长趋势稳定 [45] - **下游任务**:经RPT预训练的模型在RLVR微调后性能上限提升至58.3,显著高于基线模型的52.7 [47][48] - **零样本能力**:在SuperGLUE和MMLU-Pro基准测试中,RPT-14B分别以39.0和71.1的分数超越32B大模型 [50] 行业影响 - **突破限制**:解决传统RL依赖人类反馈数据(高成本)和RLVR数据稀缺的问题,实现通用预训练与强化学习的结合 [22][23][24] - **效率提升**:通过推理过程直接优化token预测准确性,模型在相同参数量下性能可比拟更大规模模型 [43][49] - **潜在应用**:特别适用于需复杂推理的领域(如数学解题),模型表现出结构化问题解决能力 [51][53]
Mistral的首个强推理模型:拥抱开源,推理速度快10倍
机器之心· 2025-06-11 11:54
模型发布 - 欧洲人工智能公司Mistral AI发布全新大语言模型系列Magistral,具备强大推理能力,可解决复杂任务[3][4] - 发布两个版本:专有模型Magistral Medium(企业客户)和开源模型Magistral Small(24B参数,Apache 2.0许可)[5] - 开源版本可自由商用,专有版本通过Le Chat界面和La Plateforme API访问[5] 性能表现 - Magistral Medium在AIME2024基准测试中得分73.6%(多数投票64%,最高90%),Small版本得分70.7%和83.3%[6] - 在GPQA Diamond(研究生级问答)和LiveCodeBench(编程挑战)等高要求测试中表现优异[7] - 编程能力突出,单次生成代码即可模拟重力、摩擦力等物理现象[10] - 支持多语言高保真推理(英语、法语、西班牙语、德语、意大利语、阿拉伯语、俄语、中文等)[11] 技术突破 - 采用自研可扩展强化学习流水线,完全依赖自有模型和基础设施[15] - 文本强化学习保持多模态理解能力,核心设计原则为"用户语言推理"[16] - 通过fastText分类器实现语言一致性奖励机制,减少混合语言输出[16][17] - 系统提示优化(如"尽可能随意/长")显著提升模型探索能力[18] - Flash Answers技术实现10倍于竞品的token吞吐量,支持实时推理[14] 商业化进展 - 专有模型定价为输入2美元/百万token、输出5美元/百万token,较前代Mistral Medium 3(输入0.4美元、输出2美元)大幅上涨[21] - 横向对比显示价格竞争力:输入成本低于OpenAI最新型号,与Gemini 2.5 Pro持平,输出成本显著低于竞品[22] - 即将登陆Amazon SageMaker、Azure AI、IBM WatsonX和Google Cloud Marketplace等主流云平台[20] 迭代计划 - 公司计划以Magistral为起点加速模型迭代[25]
刚刚,OpenAI正式发布o3-pro!奥特曼激动更新博客:温和的奇点
机器之心· 2025-06-11 08:24
OpenAI o3-pro发布 - 公司采用非传统发布形式,仅通过推文和CEO博客宣布o3-pro上线[4][5] - 新模型在专家评估中表现显著优于o3,科学、教育、编程等领域性能提升明显[7][9] - 采用严格"4/4可靠性"评估标准,四次尝试均需正确回答问题[11][13] - 在ARC-AGI半私有数据集表现与o3相近但成本更高[14] - 支持200k上下文窗口和100k输出token,知识截止2024年6月1日[18] 技术参数与定价 - API定价为输入token 20美元/百万、输出token 80美元/百万,较o1-pro便宜87%[22] - o3价格同步下调至输入2美元/百万、输出8美元/百万,为o3-pro的1/10[25] - 单次查询能耗约0.34瓦时,相当于烤箱工作1秒或节能灯泡数分钟[56] 用户实测反馈 - 编程效率显著提升,用户反馈比o1-pro更便宜快速且精确[29] - 成功解决外科医生注意力难题,响应速度从28秒提升至7秒[34] - 展示HTML/CSS/JS开发能力,仅用2个提示完成空间行走模拟器[36] - 生物医学领域可协助开发免疫系统2.0方案[31] 行业影响与未来展望 - CEO预测2025年出现认知工作智能体,2026年诞生自主见解系统,2027年实用机器人落地[46] - 科学家生产力已提升2-3倍,AI将加速科学突破和递归式自我改进[51][52] - 智能成本最终可能收敛至电力成本,数据中心自动化将改变供应链[54][55] - 2030年代智力与能源将异常丰富,推动社会根本性变革[50][59] - 强调需解决AI协同问题,确保技术广泛普及且安全可控[58][60]
时空压缩!剑桥大学提出注意力机制MTLA:推理加速5倍,显存减至1/8
机器之心· 2025-06-11 08:24
Transformer架构的核心地位 - Transformer的自注意力机制在推理时能灵活建模长距离上下文,使其成为大语言模型不可替代的核心组件,尽管存在计算复杂度为二次方的问题 [1] - 线性复杂度的替代方案(如RNN、Linear Attention、SSM等)难以真正取代Transformer的地位,尤其在decoder-only架构广泛采用后,自注意力机制的重要性进一步凸显 [1] - 自注意力机制带来的KV缓存问题成为推理效率的关键瓶颈,其显存和带宽开销随模型参数维度扩大而显著上升,限制了推理长度与batch size [1] KV缓存的优化挑战与现有方案 - 当前主流大模型采用Grouped-Query Attention(GQA)机制,通过减少Key/Value头数量来减小KV缓存规模,在效率与效果间取得平衡 [5] - Multi-Query Attention(MQA)是GQA的极端形式,显存占用大幅减少但性能显著下降,而GQA成为大语言模型中最常见的注意力变体 [5] - DeepSeek团队提出的Multi-head Latent Attention(MLA)通过在隐空间压缩KV特征维度提升推理效率,但隐空间压缩幅度受限,KV缓存存储开销仍是瓶颈 [7] MTLA的创新与核心技术 - MTLA首次将时序压缩与隐空间压缩结合,在KV缓存的两个维度同时施加时空压缩策略,显著降低显存与计算成本 [2] - MTLA通过超网络动态融合相邻时间步信息,并设计步幅感知因果掩码确保训练与推理一致性,保持甚至略优于传统注意力机制的性能 [2][14] - 时间压缩率s=2时,MTLA对KV缓存的压缩程度与MQA相当但性能更优,且具备进一步压缩空间 [12][21] MTLA的训练与灵活性 - MTLA引入步幅感知因果掩码解决训练与推理行为不一致问题,保留所有中间状态KV表达,通过矩阵乘法实现高效并行计算 [14][16] - 解耦的旋转位置编码(decoupled RoPE)进一步提升了效率,MTLA在注意力机制与线性模型之间架起桥梁,提供效率与性能的灵活权衡 [17][18] - 当时间压缩率s足够大时,MTLA几乎只保留一个KV缓存,退化为线性序列建模方法 [17] MTLA的性能表现与应用潜力 - MTLA在语音翻译、文本摘要生成等任务中保持与标准MHA相当的质量,同时实现超过5倍推理速度提升和8倍显存占用降低 [20] - MTLA具备大规模部署潜力,尤其适合参数规模扩大和生成序列增长的大语言模型场景,有望成为自注意力模块的重要替代方案 [23] - MTLA实现代码已开源,但工程落地需社区持续推动,改动复杂度高于GQA和MQA [24][25]
高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二
机器之心· 2025-06-11 01:56
大模型高考数学测评结果 核心观点 - 7家大模型参与2025年新课标Ⅰ卷数学测试(14道客观题73分+5道解答题77分),Gemini 2.5 Pro以总分145分排名第一,Doubao和DeepSeek R1以144分并列第二 [9] - 多模态大模型在图像题(第6题)上全军覆没,非图像类客观题表现接近(最高分差仅3分) [7][20] - 解答题成为主要失分区,仅Gemini 2.5 Pro获满分77分,其他模型因推理步骤不严谨、计算错误等共性问题扣分 [8][11] 客观题表现 - 除第6题外,Doubao、Qwen3、Gemini 2.5 Pro等6款模型均获68分(满分73分),o3因多选题漏选一项得65分 [20][21] - 第6题(图像题)测试中,所有多模态模型均失败,其中Doubao和o3识别了坐标但误判风速方向,Gemini 2.5 Pro连基本坐标都未识别 [24][25] - o3在第9题忽视"正三棱柱"关键条件导致坐标系建立错误,影响选项判断 [21] 解答题表现 - 第15题(概率)和第17题(立体几何)所有模型均满分,展现基础题型处理能力 [11] - 第16题(数列)仅Qwen3因答案冗余假设扣1分,其他模型满分 [12] - 第18题(椭圆几何)仅Gemini 2.5 Pro、Doubao、DeepSeek R1满分,Qwen3因多余约等于步骤扣1分,文心X1 Turbo因轨迹证明不全扣6分 [13][16] - 第19题(压轴题)仅Gemini 2.5 Pro全对,Doubao因震荡项相位论证不严谨扣1分,DeepSeek R1因未完整讨论解的分类扣1分 [17] 模型能力短板 - 多模态图像理解能力不足,所有参测模型均无法正确处理含图像的数学题 [27] - 复杂推理存在缺陷,如文心X1 Turbo在极值证明和比大小计算上连续出错 [18] - 严谨性待提升,Qwen3在正确答案中混入冗余内容导致扣分 [12]
扩散语言模型真的会比自回归好?理论分析结果可能恰恰相反
机器之心· 2025-06-10 16:41
扩散语言模型与自回归模型对比研究 - 扩散语言模型(MDMs)在理论上具备并行生成多个词元的潜力,可能提升文本生成效率 [1][3] - 实际测试显示MDMs在数学推理基准GSM8K上需要更多采样步骤才能达到与自回归模型Qwen2.5-7B相当的准确率,导致更高推理成本 [3][6] - 消除训练数据差异后,扩散模型仍未展现出相对于自回归模型的效率优势 [4] 评估指标对模型表现的影响 - 词元错误率(TER)衡量文本流畅度时,MDMs可在恒定采样步数内达到理想困惑度,不受序列长度影响 [10][11] - 序列错误率(SER)评估逻辑正确性时,MDMs所需采样步数与序列长度线性相关,失去效率优势 [11] - 在GSM8K数学推理任务中,SER指标导致MDMs表现不佳,因其需要完全正确的思维链 [11][12] 适用场景分析 - 当任务优先考虑文本流畅性和高吞吐量(如创意写作)时,MDMs更具效率优势 [15] - 当任务要求序列级准确性(如数学推理、代码生成)时,自回归模型仍是更好选择 [15] - 研究证实扩散模型优势不能简单平移至语言领域,需根据具体任务需求选择模型类型 [16]
一个md文件收获超400 star,这份综述分四大范式全面解析了3D场景生成
机器之心· 2025-06-10 16:41
3D场景生成技术综述 核心观点 - 南洋理工大学S-Lab系统梳理300+篇论文,将3D场景生成方法划分为四大技术范式:程序化生成、基于神经网络的3D表示生成、图像驱动生成、视频驱动生成 [2] - 领域自2021年起进入爆发期,主要驱动力为扩散模型、NeRF、3D Gaussians等新技术涌现 [4] - 当前技术面临生成能力不均衡、3D表征缺陷、数据瓶颈、评估标准缺失四大挑战 [16] - 未来发展方向聚焦高保真生成、物理约束引入、交互式场景、感知-生成一体化四大方向 [12][18] 技术路线分类 程序化生成 - 通过预定义规则/LLM先验自动构建复杂环境(如城市、地形),具备空间一致性优势 [8] - 细分方法包括基于规则生成(地形)、约束优化生成(室内)、LLM辅助生成(布局控制) [8] 神经网络3D表示生成 - 直接生成场景图/参数或3D表征(点云/NeRF/3D高斯),具备强三维理解能力 [8] 图像驱动生成 - 基于2D图像生成模型重建3D结构,包括整体生成(全景图)和迭代生成(图像序列) [9][14] 视频驱动生成 - 融合时空一致性,分为一阶段(端到端)和两阶段(时空分离控制)方法 [9][15] 性能评估维度 - 七大关键指标:真实感、多样性、视角一致性、语义一致性、效率、可控性、物理真实性 [7] - 不同方法在可控性/真实性/效率/一致性之间存在显著权衡关系 [7] 下游应用领域 - 覆盖3D场景编辑、人-场景交互、具身智能、机器人、自动驾驶等关键场景 [2] 未来技术突破方向 - 高保真生成需协调几何/纹理/光照/多视角一致性,提升材质建模与细节捕捉能力 [12] - 物理约束引入需结合可微分物理模拟器,保障物体移动/摆放符合真实规律 [18] - 交互式场景需实现动态响应能力,理解物体可用性/因果关系/多智能体逻辑 [18] - 感知-生成一体化需构建统一架构,双向增强场景理解与生成准确性 [18]
李飞飞团队新作:DiT不训练直接改架构,模型深度减半,质量还提高了
机器之心· 2025-06-10 16:41
模型架构设计 - 模型架构设计在机器学习中扮演核心角色,定义了模型函数、算子选择和配置设定等要素 [2] - 从头训练模型成本过高,研究新架构具有挑战性,尤其对生成模型而言 [3] 嫁接技术 - 提出「嫁接」技术,通过编辑预训练 Diffusion Transformers(DiTs)探索新架构设计,减少计算量 [1] - 嫁接过程分为两阶段:激活蒸馏实现算子功能迁移,轻量级调优减轻误差传播 [6][7] - 架构编辑策略包括添加、删除和替换算子 [8] 实验设计与结果 - 基于 DiT-XL/2 构建测试平台,开发混合设计:用门控卷积、局部注意力等取代 Softmax 注意力,用可变扩展率 MLP 取代原 MLP [12] - 混合设计使用不到 2% 的预训练计算资源,FID 达 2.38–2.64(基线为 2.27) [13] - 嫁接文本转图像模型 PixArt-Σ 实现 1.43 倍加速,GenEval 分数下降不到 2% [13] 自嫁接基准 - 自嫁接将现有算子替换为同类型随机初始化算子,保持计算图结构 [21] - 自嫁接作用:评估嫁接流程效果、提供性能基准、研究影响因素 [21] - 使用 10% 数据完全自嫁接可实现接近基线性能 [28] 激活行为与回归目标 - MHA 和 MLP 算子激活值差异较大,尤其在深层 [22] - 回归目标选择影响性能:MHA 最佳 FID 2.51(L1),MLP 最佳 FID 2.33(L2) [26] - 高质量初始化需要量身定制的激活感知策略 [27] 混合架构实验结果 - 交错替换策略下,SWA、Hyena-X/Y 和 Mamba-2 等替代方案 FID 与基线差距在 0.5 以内 [36] - 完全替换性能急剧恶化(FID > 75),表明仅部分层适合嫁接 [37] - 嫁接在较小计算预算下构建高效混合架构,交错设计尤其有效 [41] 文本到图像应用 - 嫁接模型实时计算速度提升 1.43 倍,GenEval 分数仅小幅下降(47.78 vs 49.75) [42] - 特定属性指标保持可比,但局部纹理区域存在失真 [42] - 嫁接技术成功应用于文生图 DiTs,实现显著加速且质量损失极小 [43]