Workflow
机器之心
icon
搜索文档
ICML 2025|趣丸研发新型人脸动画技术,声音+指令精准控制表情
机器之心· 2025-06-05 12:40
技术框架与核心创新 - 提出Playmate框架:基于3D隐式空间引导扩散模型的双阶段训练框架,通过解耦面部属性(表情、唇部动作、头部姿态)实现高可控肖像动画生成[3][13] - 创新运动解耦模块:采用自适应归一化策略分离表情与头部姿态参数,其中表情归一化使用全局统计量(μ_δ=Σδ_i,j/MN_i,σ_δ=√Σ(δ_i,j-μ_δ)²/MN_i),头部姿态归一化按身份独立计算(μ_ρ_i=Σρ_i,j/N_i)[18][19] - 引入情绪控制模块:通过Diffusion Transformer Blocks实现情感条件编码,支持权重调节(音频权重w_a=4,情绪权重w_e=6时最优)[22][24] 性能优势与实验结果 - 关键指标领先:在HDTF数据集上FID达19.138(竞品30.484-29.581),FVD为231.048(竞品288.385-306.683),身份一致性CSIM 0.848(竞品0.781-0.840)[28][29] - 唇同步优化:Sync-C分数8.580优于多数竞品(Hallo2为7.754),Sync-D距离6.985接近最优(Sonic为6.549)[28] - 多场景适用性:支持7种基础情绪(Angry/Happy/Surprised等)控制,可生成真实人脸、动画及艺术风格肖像[11][31] 应用场景与行业价值 - 技术应用:已实现音频驱动视频生成(如唱歌场景),支持影视、游戏、社交领域的虚拟角色创作[1][8] - 开源生态:项目代码即将开源,配套提供论文(ICML 2025收录)、GitHub仓库及演示网站[4] - 行业突破:解决现有技术三大痛点——唇同步不准(SyncNet置信度提升12%)、控制灵活性不足(解耦误差降低19%)、情感表达受限(支持7类情绪切换)[12][33] 实现路径与技术细节 - 双阶段训练:第一阶段构建运动序列生成器,第二阶段集成情绪控制器[16] - 特征处理流程:外观特征提取器(VGG19感知损失)+运动提取器(关键点/旋转矩阵)+变形模块+解码器[17] - 扩散模型架构:采用噪声预测损失L_diff=𝔼‖ε-ε̂_θ‖²,通过Wav2Vec2提取音频特征并自注意力对齐[20][23]
真实联网搜索Agent,7B媲美满血R1,华为盘古DeepDiver给出开域信息获取新解法
机器之心· 2025-06-05 12:40
机器之心发布 大型语言模型 (LLM) 的发展日新月异,但实时 「 内化 」 与时俱进的知识仍然是一项挑战。如何让模型在面对复杂的知识密集型问题时,能够自主决策获取外部 知识的策略? 机器之心编辑部 华为诺亚方舟实验室研究团队提出了 Pangu DeepDiver 模型,通过 Search Intensity Scaling 实现了 LLM 搜索引擎自主交互的全新范式,使得 Pangu 7B 模型在开域 信息获取能力上可以接近百倍参数的 DeepSeek-R1,并优于 DeepResearcher、R1-Searcher 等业界同期工作! 论文链接 :https://github.com/pangu-tech/pangu-ultra/blob/main/pangu-deepdiver-report.pdf arxiv 链接: https://arxiv.org/abs/2505.24332 该项研究的主要发现如下:(1)对于复杂信息获取任务,端到端 Agentic RL 训练相比直接蒸馏老师轨迹能更好地实现 Search Intensity Scaling,从而带来平均 10 PCT 效果提升;(2)基于真实 ...
OpenAI久违发了篇「正经」论文:线性布局实现高效张量计算
机器之心· 2025-06-05 10:00
OpenAI研究动态 - OpenAI近期公开发布的研究论文数量显著减少,可能反映其研究成果公开策略趋于谨慎[1][2] - 公司最新发布的研究论文提出了一种名为Linear Layouts的统一代数框架,用于高效张量映射[2] - 该研究解决了Triton等深度学习编译器中长期存在的张量布局难题[2] 张量布局技术背景 - 张量布局指逻辑张量与硬件资源(内存/线程/向量单元)之间的映射关系[4][5] - 现代深度学习对张量布局提出高效/灵活/可组合等要求,但当前系统难以充分满足[7] - 硬件架构快速迭代导致布局复杂度提升,如英伟达不同代GPU采用不同Tensor Core布局[7] - Triton编译器12%的Bug与布局问题相关,突显技术挑战[8] GPU架构特性 - 现代GPU采用分层执行模型,包含CTA/Warp/线程等多级硬件资源[10] - 专用计算单元(如Tensor Core)需要特定数据布局才能发挥最佳性能[10][11] - 实现峰值性能需要精心设计数据布局及转换流程[13] Triton编译器技术 - Triton是一种面向高性能深度学习原语的类Python领域专用语言[14] - 采用MLIR编译器后端,支持多层次抽象表达[14] - 遵循SPMD模型,开发者主要关注CTA级别并行性[14] - 传统布局系统存在构造复杂/转换易错等问题[21] Linear Layouts创新 - 基于二元线性代数(₂)构建统一张量布局框架[15][17] - 提供组合/积/左除/右逆等基础算子,支持灵活布局构建[29][31][32][34] - 可覆盖Blocked/MMA/Swizzled等全部传统布局类型[35] - 实现布局转换优化,部分场景可降级为无操作[42] 性能评估 - 在NVIDIA GH200平台实现0.92-1.57倍加速,平均超过1.0倍[41] - RTX4090平台加速范围1.00-1.51倍[43] - AMD MI250平台加速相对较低(0.98-1.18倍),因缺乏专用硬件原语[44] - int4_gemm/ops_gemm等算子加速效果显著[41]
ACL 2025 | 基于Token预算感知的大模型高效推理技术
机器之心· 2025-06-05 10:00
大型语言模型推理优化技术 - 研究团队提出TALE框架,通过引入Token预算约束机制,在保证推理准确率的同时显著压缩输出长度并降低计算开销 [1][2] - 当前主流模型如GPT-4o、Yi系列存在中间推理过程冗长问题,导致Token数量成倍增长并增加计算经济成本 [6] - 资源受限场景(教育/金融/代码理解)中需平衡准确率与资源效率,Token弹性现象显示简单压缩预算会导致成本反弹 [6][7] TALE技术实现路径 - TALE-EP采用零样本提示工程,模型自我估计合理Token预算并动态控制生成,平均节省60%推理开销且保持准确率 [12] - TALE-PT通过监督微调或偏好优化内化预算感知能力,降低40%以上Token使用量并优于传统思维链推理 [15] - 实验数据显示GSM8K数据集上TALE-PT-SFT准确率达78.57%同时输出Token降至139.63,较原始CoT的241.51显著优化 [13][16] 行业应用与影响 - Qwen3和Claude 3.7等最新大模型已引入类似预算控制机制优化推理效率 [17] - 该方法在数学推理数据集表现优异,GSM8K-Zero场景下TALE-PT-DPO保持78.41%准确率且Token用量压缩至113.41 [16] - 技术框架可拓展至多模态场景,推动大模型在边缘端部署的实用化落地 [17][19]
开启 AI 自主进化时代,普林斯顿Alita颠覆传统通用智能体,GAIA榜单引来终章
机器之心· 2025-06-04 17:22
核心观点 - Alita是一款基于「极简即是极致复杂」哲学的通用智能体,通过「最小化预定义」与「最大化自我进化」的设计范式实现自主思考、搜索和创造MCP工具[1][5][14] - Alita在GAIA基准测试中表现卓越,pass@1达75.15%,pass@3达87.27%,超越OpenAI Deep Research和Manus等竞争对手[3][22] - Alita的动态MCP工具创建能力使其在复杂任务中展现出超越预定义工具系统的灵活性与创造力[6][7][19] 技术架构 设计理念 - 最小化预定义:仅内置Manager Agent和Web Agent作为核心组件,避免人工预设工具库[13][14] - 最大化自进化:通过MCP协议动态生成、优化和复用工具,实现持续演化[14][16] 核心模块 - MCP Brainstorming模块:分析任务需求并生成能力缺口描述与工具构建建议[17] - 脚本生成模块:结合网页检索结果实时创建可执行的MCP工具代码[17] - 代码运行与验证模块:在虚拟环境测试工具并实现自我优化[17] 性能表现 GAIA基准 - Validation测试pass@1达75.15%,pass@3达87.27%,超越OpenAI Deep Research的67.36%[3][22] - Mathvista数学推理测试pass@1达74%,PathVQA医学图像识别达52%[22] 跨模型赋能 - 其生成的MCP工具可使Open Deep Research-smolagents准确率从27.88%提升至33.94%[30] - GPT-4o-mini模型复用MCP后准确率从21.82%提升至29.09%,Level 3任务提升3倍[30] 创新应用 动态工具创建案例 - 针对PPT页码提取任务,动态生成专用处理工具而非依赖预设文本转换工具[19] - 在视频理解任务中创建逐帧分析MCP,突破字幕抓取工具的局限性[19][20] MCP复用价值 - 实现智能体蒸馏新范式,降低传统蒸馏成本[27] - 通过工具复用使单次尝试(pass@1)达到近似多次尝试(pass@N)的效果[28]
看似无害的提问,也能偷走RAG系统的记忆——IKEA:隐蔽高效的数据提取攻击新范式
机器之心· 2025-06-04 17:22
研究背景 - 大语言模型(LLMs)面临无法直接访问最新或领域特定信息的问题,RAG系统通过接入外部知识库解决这一痛点[5] - RAG系统知识库常包含私有或敏感信息,传统攻击方式依赖明显的恶意输入(如提示注入/越狱攻击),易被防御系统识别[5] 攻击方法创新 - 提出隐式知识提取攻击(IKEA),通过自然常规查询高效引导系统暴露私有信息,无需依赖异常指令[1] - IKEA攻击流程具备高度自然性与隐蔽性,核心步骤包括构建锚点概念、生成自然语言问题、优化攻击路径[8] - 采用两项关键机制:经验反思采样(动态筛选有效锚点概念)和可信域有向变异(定向扩展未覆盖知识区域)[17] 技术实现细节 - 锚点概念数据库初始化采用语义相似度阈值筛选,公式为$D_{\rm march}=\{w\in{\rm Gen}_{\rm concept}(w_{\rm logic})|s(w,w_{\rm logic})\geq\theta_{\rm logic}\}$[11] - 经验反思采样通过历史记录评估无效锚点,惩罚得分函数包含域外样本和不相关样本判断标准[14][19] - 可信域有向变异(TRDM)在语义邻域内搜索新锚点词,定义变异停止函数$F_{\mathrm{stop}}$控制探索边界[21] 实验结果 - 在医疗/小说/百科三类数据集测试中,IKEA在无防御/输入检测/输出过滤场景下平均提取效率达91%,攻击成功率96%[23] - 双重防御下提取的知识使问答准确率提升至92-95%(医疗93%/小说94%/百科92%),显著优于基线方法[28] - 构建的替代RAG系统在Pokémon数据集上评估显示,IKEA提取知识在MCQ/QA任务表现接近原始知识库[28] 研究意义 - 揭示RAG系统在表面正常交互下的严重隐私风险,提出首个不依赖异常指令的黑盒攻击范式[1][29] - 攻击方法对现有防御机制具有强鲁棒性,为后续防御体系设计提供关键参考[29]
最新发现!每参数3.6比特,语言模型最多能记住这么多
机器之心· 2025-06-04 12:41
语言模型记忆与泛化研究 核心发现 - GPT系列模型的记忆容量约为每个参数3.6比特 达到此极限后模型停止记忆并转向泛化 [1][4] - 记忆与泛化的界限模糊 影响对模型能力和风险的评估 区分模型输出源于记忆训练数据还是理解潜在模式是关键挑战 [1] - 模型在数据量增加时持续记忆直至容量饱和 随后出现"顿悟"(grokking)现象 非预期记忆减少 泛化能力增强 [4] 研究方法 - 提出基于互信息(Mutual Information)的量化方法 通过信息论中的熵和条件熵定义记忆与泛化 [8][10] - 将记忆分为非预期记忆(特定数据集信息)和泛化(真实数据生成过程信息) 并给出数学定义 [5][7][12] - 采用Kolmogorov复杂度近似计算记忆量 通过压缩算法估计信息内容 [13][14] 实验设计 - 训练参数量50万至15亿不等的Transformer模型 建立模型容量、数据规模与成员推断关系的scaling law [6] - 使用合成序列测量容量 通过均匀采样标记构建数据集 精确计算香农信息 [20][21][23] - 测量显示模型容量与参数数量呈线性关系 每参数记忆量稳定在3.5-3.6比特 [27] 关键数据 - 800万参数模型在400万样本数据集上记忆量达2.95×10^6比特 800万样本数据集记忆量1.98×10^6比特 [28] - 训练精度从bfloat16提升至float32时 每参数记忆量从3.51比特增至3.83比特 但未达理论两倍增幅 [31][32] - 实验结果验证模型容量下限 梯度下降训练无法保证达到全局最优 [27]
重磅开源!首个全异步强化学习训练系统来了,SOTA推理大模型RL训练提速2.77倍
机器之心· 2025-06-04 12:41
核心观点 - 清华大学交叉信息院和蚂蚁技术研究院联合团队开源全异步强化学习训练系统AReaL-boba²,实现更高效、更易用的RL训练 [2] - AReaL-boba²通过算法系统协同设计实现完全异步RL训练,训练速度最高提升2.77倍,GPU利用率大幅优化 [8][14] - 基于Qwen3系列模型的8B/14B版本在LiveCodeBench、Codeforce等代码评测榜单上取得开源SOTA成绩 [4][5] - 系统原生支持多轮智能体强化学习训练,拥抱Agentic RL技术浪潮 [8][39] 技术升级 系统架构 - 采用全异步RL架构,生成模块与训练模块完全解耦,GPU空闲时间减少52% [14][19] - 系统通信开销控制在总训练时间5%以内,32B大模型仍保持良好扩展性 [15][18] - 核心组件包括可中断轨迹生成器、奖励服务、训练器和生成控制器 [22] 算法创新 - 提出数据陈旧度控制机制,通过max staleness参数保证训练稳定性 [24][27] - 开发解耦PPO目标函数,解决异步训练中的数据分布差异问题 [28] - 在staleness=8时仍能保持模型效果,AIME24任务得分达42.2分 [33][35] 性能表现 训练效率 - 1.5B模型在128卡训练时,异步RL每个训练步骤耗时198.5秒,比同步RL减少52% [19] - 32k输出长度下,分卡模式显存碎片更少,32B模型扩展性优于同步系统 [7][18] 模型效果 - AReaL-boba²-14B在LiveCodeBench达69.1分,Codeforce rating 2044,Codecontests 46.2分 [5] - 开源复现版AReaL-boba²-Open在8B/14B尺寸上同样超越现有基线 [6] - 数学任务上decoupled PPO算法在staleness=8时效果优于经典PPO 18.9分 [35] 开发者支持 - 提供详细教程和文档,涵盖安装、算法定制到问题排查全流程 [8][37] - 开源完整训练系统、数据集、脚本及SOTA模型权重 [8][36] - 新增多轮Agentic RL训练支持,提供数学推理任务示例 [39][40]
英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限
机器之心· 2025-06-04 12:41
强化学习对语言模型能力的影响 - 学界长期争论RL是否能真正提升语言模型的推理能力,还是仅优化已有知识的调用效率 [1] - 过去研究多持悲观态度,认为RL收益有限且可能导致模型同质化 [1] - NVIDIA研究指出问题根源在于基础模型训练数据中数学/编程任务过度呈现,以及RL训练步数不足 [1] ProRL框架的核心创新 - 将RL训练步数从传统几百步大幅提升至2000步以上,释放小模型潜力 [3] - 采用多样化可验证奖励任务,涵盖数学/编程/科学问答/逻辑谜题等多领域数据 [5] - 引入GRPO+DAPO算法组合,通过解耦裁剪和动态采样提升训练效率 [7] - 采用KL正则化+周期性策略重置机制,有效打破训练停滞 [8] ProRL的技术突破表现 - 在逻辑谜题任务中实现pass@k 100%的突破性表现 [6] - 创造力指标(Creativity Index)显著提升,模型能生成全新解题路径 [6] - 数学任务性能提升14.7%,代码生成领先同类1.5B模型6.5%,逻辑推理准确率提升54.8% [12] - 在基础模型表现较弱的任务上,RL展现出最强的"推理边界扩展"能力 [13] Nemotron-1.5B模型的性能优势 - 在AIME24/AIME25/AMC Math等数学测试中,1.5B模型性能接近7B大模型 [10] - 在apps/CC/cf等编程任务中表现优于同类1.5B模型 [10] - 在GPOA/IFEval/Reasoning等推理任务中大幅超越7B模型,部分指标提升超过50% [10] 研究结论与行业意义 - 长期稳定的RL训练能真正扩展模型能力边界,不仅是策略优化 [15] - 小模型通过ProRL可在复杂推理任务中超越大模型,不依赖更多数据或更大参数量 [16] - 该方法为开发高推理能力、低部署成本的小语言模型提供了新路径 [17]
Meta新突破!跨模态生成告别噪声:流匹配实现任意模态无缝流转
机器之心· 2025-06-04 09:59
核心观点 - CrossFlow框架通过流匹配技术实现跨模态生成,摆脱了对噪声分布的依赖,简化了生成流程[3][4] - 该方法在文本到图像、图像描述、深度估计等多任务上取得SOTA性能,且无需任务特定设计[7][28] - 相比传统扩散模型,训练资源需求大幅降低(630 A100 GPU天 vs 数千天),采样速度提升6.62倍[23] 技术创新 - **模态映射机制**:使用变分编码器将输入模态编码为与目标模态同维度的正则化潜在空间,实现平滑跨模态路径[8] - **条件生成优化**:通过二元指示符实现单模型内条件/非条件生成的灵活切换,替代传统无分类器引导机制[12] - **双向映射特性**:支持反向使用模型(如图像描述任务),在COCO数据集达到SOTA水平[23] 性能表现 - **文本到图像生成**:参数量0.95B时FID达10.13,优于标准流匹配基线(10.79)[15] - **跨模型对比**:FID-30K指标达8.95(Sin-Cos版本),接近3B参数Imagen(7.27)和6.5B参数DALL-E 2(10.39)[17] - **多任务适配**:同一框架在图像生成/描述/深度估计/超分辨率任务均取得SOTA[28] 应用扩展 - **语义算术操作**:支持潜在空间加减运算(如"戴帽子的狗+墨镜-帽子=戴墨镜的狗")[19] - **源分布定制**:可学习源分布到图像的映射,显著降低训练成本并提升生成速度[23] - **统一框架潜力**:推动生成式AI从噪声生成转向语义流转,提供更通用解决方案[30]