Workflow
机器之心
icon
搜索文档
Meta为他豪掷2亿美元,上交校友庞若鸣,晒出在苹果的最新论文
机器之心· 2025-07-10 18:49
核心观点 - 苹果基础模型团队负责人庞若鸣即将加入Meta,Meta开出2亿美金天价邀请其加入[2] - 庞若鸣在离职前完成苹果基础模型AXLearn的研究,该系统具有高度模块化和异构硬件支持特性[4][6] - AXLearn在代码复杂度、训练性能和推理性能上均显著优于主流系统[7][24][33] 技术架构 - AXLearn由组合器和执行框架构成,支持JAX程序生成与分布式硬件调度[16][17][19] - 系统通过严格封装实现模块化,集成RoPE和MoE功能仅需10行代码,其他系统需数百行[14][24] - 支持GPU/TPU/Trainium等异构硬件,自动优化分片策略和XLA编译选项[12][18][27] 性能表现 - 代码复杂度恒定为O(1),其他系统达O(NM)线性增长,RoPE集成代码量对比:AXLearn(0行) vs Megatron-LM(400行)[24] - 训练性能:Llama2-7B在TPU-v5p-512上MFU达66.2%,超MaxText(61.6%);70B模型在TPU-v5p-1024上吞吐量360K tokens/s[29] - 推理性能:AXLearn在70B模型上TTFT延迟仅150.5ms,较vLLM(80213.6ms)提速500倍;吞吐量超vLLM 1.6倍[33][34] 应用规模 - 支持超10,000个并行实验,部署于数十种硬件集群,训练模型参数规模达万亿级[35][36] - 已应用于智能助手、多模态生成等十亿级用户产品[37]
告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜
机器之心· 2025-07-10 18:49
技术突破 - DreamPRM由加州大学圣地亚哥分校团队开发,在MathVista数学推理测评中排名第一,核心成员包括Qi Cao和Pengtao Xie等[1] - 采用双层优化框架动态调整数据域权重,抑制低质量数据影响,强化高信息密度数据域贡献,实现数据质量与覆盖率平衡[2] - 解决了多模态场景下分布偏移远超纯文本的问题,通过可学习参数优化数据域权重分布[4] 方法创新 - 构建可微分双层优化问题,下层在15个训练域上进行PRM参数训练,上层使用覆盖30学科183子领域的元数据集评估泛化能力[12][13] - 形成自适应正反馈循环:高质量推理数据域权重提升(如M3CoT达1.49),简单样本域权重下降(如AI2D小于0.8)[14][20] - 蒙特卡洛监督信号计算中间推理步骤质量概率估计,使用域加权MSE损失更新模型参数[13] 性能表现 - 在MathVista测试中DreamPRM+o4-mini(8 CoTs)准确率达85.2%,显著超越人类基准60.3%和其他模型[6][16] - 五项基准测试全面领先:MathVista(57.4)、WeMath(68.9)、MathVision(22.1)、MMVET(61.4)、MMSTAR(62.3)[16] - 使80亿参数InternVL模型超越GPT-4v和Gemini-1.5等大型闭源模型,小模型实现大模型性能[16] 应用优势 - 通用框架可与任何多模态大语言模型集成,在o4-mini模型上准确率从80.6%提升至85.2%[6][17] - 候选推理链数量增加带来持续性能提升,从k=1到k=8准确率增长3.6个百分点[17][19] - 细粒度过程监督机制超越自洽性校验等传统方法,验证逐步评分的关键作用[16] 研究成果 - 论文标题为《DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning》,已在arXiv发布[7] - 代码开源在GitHub平台,项目地址为github.com/coder-qicao/DreamPRM[7] - 方法平均提升基础模型性能4%,在高难度数学推理任务表现尤为突出[22]
我们用飞书开了个选题会,一下进入现代化办公,编辑部直呼:真香
机器之心· 2025-07-10 18:49
飞书未来无限大会核心发布 - 飞书发布业界首个AI应用成熟度模型 将AI应用分为四个等级 M3和M4分别对应成熟应用和完全成熟应用[7][9] - 飞书知识问答达到M3标准 可处理940万篇文档级别的企业知识库检索[9][10] - 飞书会议达到M4标准 具备声纹识别和实时会议纪要生成能力[23][25] - 多维表格升级为全球首个支持千万级数据量的同类产品 计算速度达毫秒级[40] - 飞书开发套件包含国内首款企业AI系统搭建工具"飞书妙搭"和飞书Aily agent开发平台[45] 飞书知识问答功能 - 支持从2417个知识点中深度检索 按时间倒序整理关键信息[14] - 具备联网搜索和文件上传功能 可整合内外部信息源[18] - 所有答案标注来源并支持图文展示 防止AI幻觉[15] - 采用加密技术保障数据隐私 仅用户可见[22] 飞书会议创新 - 智能纪要能精准提取待办事项和责任人 准确率经实测可靠[25][26] - 声纹识别技术解决线上会议说话人识别难题[24] - 会议速递功能生成个性化周报 包含高频讨论事项和待办汇总[35] - 飞书妙记支持视频自动转写和翻译 半小时视频可快速处理[36][37] 多维表格升级 - 单表容量提升至1000万行 百万级数据计算保持流畅[40] - 新增"应用模式" 通过拖拽即可构建销售/人力等业务系统[42] - 透视表支持跨表分析上亿行数据 集成切片器等可视化工具[42] - 月活用户近千万 将登陆钉钉和企业微信打破生态壁垒[44] AI工具集成 - AI字段捷径将AI能力嵌入每个单元格 支持公式式调用[46] - AI节点捷径实现语音转结构化数据 自动录入系统[46] - AI Agent节点可配置大模型和工具 完成复杂任务[46] - AI侧边栏预览版支持知识问答/数据检索等丰富能力[46]
编码器-解码器架构的复兴?谷歌一口气发布32个T5Gemma模型
机器之心· 2025-07-10 16:35
行业动态 - xAI发布Grok 4大模型,引发AI社区高度关注 [1] - 谷歌同期更新Gemma系列模型,包括MedGemma和T5Gemma [2][3][5] MedGemma模型 - 包含4B和27B两种参数规模的多模态模型,专注于医疗AI应用 [3] - 能够根据医疗图像和文本描述辅助诊断并提供建议 [4] T5Gemma模型架构 - 采用编码器-解码器架构,包含32个不同变体 [8][9] - 基于Gemma 2框架,参数规模包括2B和9B [8] - 支持不同大小的编码器与解码器组合,如9B编码器配2B解码器 [18] 技术特点 - 使用"适应"技术将预训练的仅解码器模型转换为编码器-解码器架构 [15] - 支持PrefixLM和UL2两种训练目标 [8] - 在GSM8K数学推理任务上延迟显著降低 [22][23] 性能表现 - T5Gemma 9B-9B在GSM8K得分比Gemma 2 9B高出9分 [28] - 在DROP阅读理解任务上得分高出4分 [28] - 平均性能优于仅解码器架构 [30] - 指令微调后MMLU得分提高12分,GSM8K从58%提升至70.7% [31] 应用优势 - 在摘要、翻译、问答等任务中表现优异 [7] - 可根据任务需求灵活配置编码器-解码器规模 [19] - 在质量-效率边界上占据主导地位 [21][29]
从「塑料人」到「有血有肉」:角色动画的物理革命,PhysRig实现更真实、更自然的动画角色变形效果
机器之心· 2025-07-10 16:35
核心观点 - PhysRig提出了一种结合刚性骨架与弹性软体的新型动画绑定框架,通过可微分物理模拟解决传统线性混合蒙皮(LBS)的体积丢失、旋转伪影等问题,显著提升角色动画的真实感 [3][9][30] - 框架基于Material Point Method(MPM)实现物理模拟,并引入驱动点系统和迭代优化策略,支持材质参数反推与动作迁移 [10][12][15][24] - 在包含17种角色、120组动画的数据集评测中,PhysRig在用户评分和Chamfer距离指标上全面优于传统方法 [18][21][22] 技术背景与问题 - 当前主流LBS技术存在结构性缺陷:手臂弯曲时体积丢失(如“瘪掉”现象)、关节处“糖果扭转”伪影、无法模拟柔软材质动态(如肚皮、动物尾巴)[2][6][11] - LBS的线性非物理特性限制了真实感表现,即使通过深度学习优化权重仍难以弥补根本缺陷 [6][7] PhysRig核心设计 - **物理模拟器**:基于MPM方法模拟应力应变、质量/动量守恒,实现受力下的自然形变 [12] - **驱动点系统**:通过虚拟关节控制区域弹性材质,初始化自Pinocchio等传统工具并优化细化 [13][19] - **优化策略**:交替迭代优化材料参数(时序一致性)与驱动点速度(逐帧局部性),提升稳定性 [15][16][17] 应用与评测 - **动作迁移**:将源动画骨骼角度序列迁移至不同物种(如人形→猛犸),生成物理真实的体积动画 [24][26] - **数据集**:覆盖人形(Michelle)、四足动物(豹子)、非常规生物(翼龙)等17类角色,PhysRig在所有类别表现最优 [18][21][22] - **工具化进展**:计划开源代码与数据集,并封装为Blender插件供动画师使用 [29] 行业意义 - 为游戏、影视、机器人仿真等领域提供物理真实的绑定方案,兼容深度学习端到端训练 [30] - 突破LBS线性限制,实现多材质对象的自然变形,推动角色动画技术革新 [9][30]
7月19日,相聚北京!一起聊聊ACL 2025爆点研究
机器之心· 2025-07-10 16:35
AI领域发展动态 - 2025年AI领域持续高速发展,技术更新节奏极快,每隔几周甚至几天就有新突破[1][3][4] - 行业呈现"跟不上就会掉队"的竞争态势,从业者需频繁跟踪arXiv、GitHub等平台的前沿研究[5] - ACL 2025总投稿数达8000多篇创历史新高,反映NLP领域研究热度持续攀升[6] ACL 2025会议亮点 - 会议设置Keynote、论文分享、圆桌对话、Poster交流及企业展位等丰富环节[6] - 上午Keynote由哈工大车万翔教授主讲ACL 2025趋势及展望,分析NLP研究重点与演化方向[9][15][17] - 下午Keynote由上海交大刘鹏飞副教授探讨大模型强化学习与复杂推理的突破与应用[11][19] - 圆桌对话聚焦"上下文工程"的价值探讨,吸引行业高度关注[11] 重要研究成果 - 清华大学邱寒团队研究LLMs内在自我修正机制的潜在问题[9] - 北京大学团队探索语言模型对齐抵抗现象的数据证据[9] - 南京大学程紫峰提出无需训练的Token Prepending方法提升句子嵌入质量[12] - 哈工大团队开发Token Recycling技术加速大模型推理[12] - 清华团队研发APB技术通过跨GPU传递压缩上下文块加速长上下文推理[12] 行业活动与合作 - 机器之心联合举办多场顶级学术会议活动,包括ICLR、CVPR、NeurIPS等[25] - 活动提供企业展台等合作形式,助力合作伙伴吸纳人才和品牌建设[26] - 会议通过机器之心视频号和黄大年茶思屋科技网站进行双平台直播[21][23]
刚刚,马斯克发布Grok 4!全榜第一,年费飚到2万+
机器之心· 2025-07-10 14:07
机器之心报道 机器之心编辑部 所有学科都是博士后水平。 酝酿良久的 xAI 下一代大模型——Grok 4 终于发布了!能力超乎我们想象。 北京时间今天中午 12 点左右,我们期待已久的 xAI 发布会终于开始,马斯克现身直播间,他上来就说:「这是世界上最好的 AI,让我们来展示一下。」 马斯克表示,Grok 4 每次都能在 SAT 考试(美国高考)中获得满分,无需事先查看题目,它也可以做到 GRE 任何学科接近满分,超过了全世界所有研究生的水 平。Grok 4 最强大的地方是其推理能力,它已经实现了超越人类的推理水平。 马斯克相信,Grok 4 可以在今年内实现科学新发现。 得益于计算能力的增强、强化学习的训练, Grok 4 的推理能力相较于前代提升了 10 倍 。从 Grok 2 到 Grok 4,采用的技术范式不同,分别为下一个 token 预测、 预训练计算、预训练 + RL、RL 计算。 其中,Grok 2 到 Grok 3 预训练阶段的计算量提升了 10 倍,Grok 3 reasoning 首次引入了 RL 微调,带来了深度推理能力。Grok 4 reasoning 的强化学习再度提升了 10 ...
人形机器人做汉堡火了! 伯克利等全新ViTacFormer让机器人操作稳如老手
机器之心· 2025-07-10 14:07
人形机器人技术突破 - 具备主动视觉、高精度触觉及高自由度灵巧手的人形机器人首次实现2.5分钟连续自主控制,完成从原材料到制作汉堡的全流程操作[1] - 灵巧操控是机器人实现类人交互的核心能力,尤其在多阶段细致接触任务中需极高控制精度与响应时机[2] - 当前单一视觉感知在遮挡或复杂接触环境下易失效,触觉感知提供直接交互反馈但缺乏多模态联合建模机制[2] ViTacFormer技术框架 - 由UC伯克利、北京大学等机构提出,融合视觉与触觉信息并引入未来触觉预测机制,提升灵巧操控的精度与稳定性[4][9] - 核心创新:通过跨模态注意力动态融合视觉与触觉信号,并采用自回归触觉预测分支预判未来接触状态[9][11] - 系统采用双臂机器人架构,配备17自由度灵巧手和320×240分辨率触觉传感器,同步采集双视角视觉数据[13][14] 实验性能验证 - 在插销、拧瓶盖等4项短程任务中,ViTacFormer成功率平均提升50%以上,显著优于仅用视觉或简单触觉融合的基线模型[18][22][24] - 在11阶段的汉堡制作长时任务中,模型实现80%成功率并稳定完成2.5分钟连续操作,展现多阶段连贯控制能力[25][27][28] - 专家示范采用机械外骨骼手套与VR头显联动,提升接触密集型任务的训练数据质量[16] 行业影响与认可 - 研究获Transformer作者Lukasz Kaiser等知名学者转发,技术方案开源在GitHub平台[7] - 团队核心成员包括UC伯克利Pieter Abbeel、Jitendra Malik及北大校友耿浩然[5]
奖励模型终于迎来预训练新时代!上海AI Lab、复旦POLAR,开启Scaling新范式
机器之心· 2025-07-10 12:26
大模型后训练阶段的奖励建模方法 - 强化学习是大模型后训练阶段提升能力、对齐人类偏好的核心方法,但奖励模型的设计与训练是关键瓶颈 [2] - 主流奖励建模方法包括"基于偏好的奖励建模"和"基于规则的验证",前者存在数据获取成本高、泛化能力有限问题,后者难以扩展到通用场景 [3] - 需要一种扩展方便、泛化性强、场景通用的奖励建模方案,类似大语言模型通过Next Token Prediction统一任务的思路 [4] POLAR奖励模型的核心创新 - POLAR采用策略判别学习(Policy Discriminative Learning)方法,通过衡量候选策略与最优策略之间的"距离"建立奖励信号,摆脱对绝对偏好的依赖 [8][9] - 利用对比学习建模策略分布差异,同一策略生成的轨迹作为正例,不同策略生成的轨迹作为负例 [10] - 预训练阶段完全使用自动化合成数据构建,POLAR-1.8B和POLAR-7B分别使用0.94T和3.6T Token数据 [14] POLAR的训练与应用效果 - 两阶段训练:预训练阶段使用Bradley-Terry Loss学习策略差异,微调阶段使用少量偏好数据对齐人类偏好 [14][15] - 在STEM任务中,POLAR-1.8B和POLAR-7B分别超越最佳基线24.9和26.2个百分点 [33] - 使用POLAR-7B微调的Llama-3.1-8B在所有基准测试中平均提升9.0%,相比WorldPM-72B-UltraFeedback优化结果提升6.7% [34] POLAR的技术优势与潜力 - 展现出与LLM类似的Scaling Laws,验证集损失随模型参数和计算量增加呈幂律关系下降 [35] - 1.8B参数的POLAR即可取得与15倍和40倍参数量的SOTA模型相当结果,显示强大潜力 [33] - 为通用RFT提供有效实践方案,有望打通RL链路扩展的最后一环 [37]
VLA统一架构新突破:自回归世界模型引领具身智能
机器之心· 2025-07-10 12:26
世界模型与多模态融合 - 世界模型正加速成为连接感知、理解与决策的关键基座,重塑多模态边界[4] - 现有方法多以语言模态为中心,忽视视觉信息的时序动态与因果结构[5] - UniVLA通过原生建模视觉、语言与动作信号,引入世界模型增强下游决策性能[5][14] UniVLA模型架构 - 采用全离散自回归机制,统一视觉、语言与动作信号的离散token表示[8][9] - 构建视觉-动作交错的多模态时序序列,支持原生统一建模[9] - 自回归训练范式高效稳定,具备大规模扩展潜力[9][24] 技术突破与性能表现 - 后训练阶段仅需海量视频数据,无需依赖大量动作标签即可提升决策性能[14] - 在CALVIN基准上平均成功率达95.5%,长程任务(LONG)成功率94.0%,显著超越TO-FAST的60.2%[19] - LIBERO基准整体成功率69.8%,较Robo VLMs提升32.3个百分点[20] - SimplerEnv任务中世界模型策略取得64.6%成功率,较基线提升64.6个百分点[16] 应用场景与未来方向 - 展现出真机操控和自动驾驶等现实场景的应用潜力[5] - 提出视频版VLA架构,有效捕捉时空动态特征[23] - 未来将探索与多模态强化学习深度融合,提升开放世界决策能力[24] 行业影响 - 刷新CALVIN、LIBERO、SimplerEnv等主流具身智能基准的SOTA纪录[5][17][18] - 为机器人从视频中学习真实世界知识提供新路径[15] - 开创区别于传统VLM拓展路径的全新技术路线[22]