Workflow
机器之心
icon
搜索文档
EasyCache:无需训练的视频扩散模型推理加速——极简高效的视频生成提速方案
机器之心· 2025-07-12 12:50
研究背景与动机 - 扩散模型和扩散Transformer在视频生成领域广泛应用,显著提升了AI合成视频的质量和连贯性,如OpenAI Sora、HunyuanVideo、Wan2.1等模型已能生成结构清晰、细节丰富且高度连贯的长视频内容 [3] - 当前扩散模型存在推理慢、算力消耗高的问题,例如HunyuanVideo生成5秒720P视频在单张H20上需2小时,限制了实时互动和移动端应用 [4] - 核心瓶颈在于扩散模型需多次迭代去噪,每一步都需完整神经网络前向推理,导致大量冗余计算 [5] 方法创新:EasyCache设计与原理 - EasyCache是一种无需训练、无需模型结构改动的推理加速框架,通过动态检测模型输出的「稳定期」复用历史计算结果以减少冗余推理步骤 [7] - 研究发现扩散模型在去噪初期输出变化剧烈需完整推理,中后期「变换速率」趋于稳定,行为近似线性,可通过复用历史结果跳过冗余计算 [12][13] - 采用自适应缓存机制,通过变换速率度量(Kt)和累计误差阈值(Et)动态判断是否复用缓存,前R步为warm-up确保初期结构信息不丢失 [15][19] 实验结果与性能 - 在HunyuanVideo上实现2.2倍加速,PSNR提升36%至32.66,SSIM提升14%至0.9313,LPIPS大幅下降至0.0533,视频质量几乎无损 [17][20] - 在Wan2.1上取得2.54倍加速,PSNR达25.24,SSIM 0.8337,LPIPS 0.0952,优于Static cache和TeaCache等方法 [20] - 在图像生成任务(FLUX.1-dev)实现4.64倍加速,FID降至23.2,CLIP Score保持26.1 [21][22] - 与SVG等稀疏注意力技术叠加后平均加速达3.3倍,总体推理时长从2小时缩短至33分钟 [23][26] 技术优势与行业影响 - 可视化对比显示EasyCache生成的视频在细节、结构和清晰度上与原模型几乎一致,显著优于静态缓存和TeaCache等方法 [24][25] - 该技术为视频扩散模型提供了极简、高效、训练无关的推理加速新范式,为实际应用落地奠定基础 [27] - 未来有望通过持续优化进一步逼近「实时视频生成」目标,推动数字内容创作和多媒体娱乐行业变革 [27]
Meta扩张继续!挖走OpenAI 2名多模态AI研发人员,收购语音初创公司PlayAI
机器之心· 2025-07-12 12:50
Meta从OpenAI挖角AI人才 - Meta从OpenAI挖走2名知名AI研究人员Allan Jabri和Lu Liu 两人将加入Meta超级智能团队 [1] - Allan Jabri博士毕业于加州大学伯克利分校 专注自监督学习和无监督学习 曾任职DeepMind Google Brain等 [2] - Lu Liu是OpenAI研究科学家 4o图像生成基础研究员 曾就职character ai和Google Deepmind [5] - Meta可能以数千万美元高薪聘请这两位人才 [7] Meta收购AI初创公司PlayAI - Meta完成对语音技术公司PlayAI的收购 该公司专注LLM原生体验 2024年末完成2100万美元融资 [10][11] - PlayAI团队将加入Meta 向Johan Schalkwyk汇报 后者刚从Sesame AI跳槽至Meta [14] - 此次收购将为Meta的AI语音助手等产品带来新活力 [15] Meta的AI人才战略 - Meta近期高薪引进多位顶尖AI人才 包括Scale AI Alexandr Wang GitHub首席执行官Nat Friedman等 [16][17] - 公司超级智能实验室已汇聚大量AI领导者 显示其在超大模型和智能助手领域的布局野心 [17][18] - 公司采取"高举高打"策略 通过高薪挖角和收购快速扩充AI团队 [16][18]
模拟大脑功能分化!北大与港中文发布Fast-in-Slow VLA,让“快行动”和“慢推理”统一协作
机器之心· 2025-07-12 10:11
核心观点 - 北京大学与香港中文大学研究团队发布全新双系统视觉-语言-动作模型FiS-VLA,实现高频响应与复杂推理的统一 [4] - FiS-VLA通过将快速执行模块嵌入预训练视觉-语言模型中,实现快慢系统一体化设计,控制频率高达117.7Hz [4][23] - 该方法在仿真与真机测试中表现优异,平均成功率69%,远超主流方案 [17][19] 研究背景与挑战 - 机器人操作系统需依据传感器输入和语言指令生成精确控制信号,但现有视觉-语言模型推理速度慢,限制高频控制实用性 [7] - 现有双系统设计协同效率低下,系统1无法充分利用系统2的语义推理结果 [9] 架构设计 - 基于Prismatic VLM架构,包含视觉编码器、轻量级3D tokenizer、LLaMA2-7B语言模型及MLP模块 [13] - 将VLM末端几层Transformer模块重构为系统1执行模块,嵌入系统2内部形成统一模型 [11] - 系统2低频处理2D图像和语言指令,系统1高频响应实时感知输入 [11] 双系统协作 - 灵感来自Kahneman双系统理论,系统2输出高维特征为系统1动作生成提供约束 [14] - 系统1每个时间步运行,利用周期性更新的系统2语义理解结果 [14] - 采用异构模态输入设计,系统1接收2D图像、机器人状态和3D点云信息 [15] 性能表现 - 仿真测试中平均成功率69%,控制频率21.9Hz,是CogACT的2倍以上 [17][18] - 真机测试平均成功率68%-74%,在高精度操控任务中展现显著优势 [19][20] - 泛化测试中面对未见物体、复杂背景与光照变化,准确率下降幅度远小于基线 [21][22] 技术突破 - 消融实验显示共享2层Transformer时性能最佳,系统1接收三种输入模态效果最优 [23] - 系统1和系统2协作最佳频率比为1:4,单步预测8个动作时理论控制频率达117.7Hz [23] - 采用跨平台大规模轨迹数据预训练(860K条轨迹)并在微调阶段增强任务适应性 [15]
刚刚,OpenAI想收购的Windsurf,被谷歌DeepMind抢走了核心团队
机器之心· 2025-07-12 10:11
谷歌DeepMind收购Windsurf事件 - 谷歌DeepMind宣布成功收购AI编程初创公司Windsurf的核心团队,包括CEO Varun Mohan和联合创始人Douglas Chen等研发人员[1][2][3] - 被收购团队将专注于DeepMind的Gemini项目,特别是编程智能体和工具使用方向[3] - 谷歌发言人表示Gemini是目前最好的模型之一,公司持续投资开发其高级功能[4] - 交易金额未披露,但此前OpenAI曾计划以30亿美元收购Windsurf[4] OpenAI收购失败原因 - OpenAI与Windsurf在5月达成的30亿美元收购协议排他性期限已到期,Windsurf可自由选择其他方案[5] - 这是OpenAI近期在收购AI编程公司上的第二次失败,此前收购Cursor的谈判也因对方拒绝而破裂[7][8] - 事件对OpenAI形成打击,被网友盘点为近期系列挫折之一[9] Windsurf公司背景与现状 - 公司由MIT校友2021年创立,原名Codeium,2024年4月更名为Windsurf[6] - 交易后Windsurf将继续独立运营,谷歌仅获得部分技术的非独家许可[16] - 未加入谷歌的员工面临高管和技术核心流失,业务主管Jeff Wang出任临时CEO,销售副总裁Graham Moreno担任新总裁[17][19] - 临时CEO声明称大部分团队将继续开发产品服务客户[20] 行业影响与反应 - 交易突然性引发AI行业震动,有观点认为Windsurf工程师可能都未预料到[10] - 部分开发者对失去核心团队的Windsurf未来发展表示担忧[21] - 事件反映出AI行业激烈的人才争夺战现状[21]
深夜开源首个万亿模型K2,压力给到OpenAI,Kimi时刻要来了?
机器之心· 2025-07-12 10:11
模型发布与市场反应 - 月之暗面正式发布Kimi K2大模型并开源两款商用模型Kimi-K2-Base与Kimi-K2-Instruct[4] - 模型API定价16元人民币/百万token输出[2] - 发布20分钟内Hugging Face下载量接近12K[5] - 网友测试显示其代码能力优于Grok 4且可能成为Claude 4 Sonnet的开源平替[17][20] 技术性能与基准表现 - 在LiveCode Bench等多项基准测试中超越DeepSeek-V3-0324等开源模型成为新SOTA[9] - 部分性能指标赶超GPT-4.1和Claude 4 Opus等闭源模型[9] - 采用混合专家架构(MoE)总参数量1万亿激活参数32亿支持128k上下文长度[21] - 支持工具调用(ToolCalls)JSON模式及互联网搜索功能但不支持视觉[21] 训练技术创新 - 引入MuonClip优化器解决万亿参数训练稳定性问题采用qk-clip技术控制Attention logits爆炸[24][26] - 完成15.5T tokens预训练未出现训练尖峰[28] - 通过减少Attention Heads数量提升长上下文效率增加MoE稀疏性提高token利用率[25] 工具调用与数据合成 - 开发ACEBench启发的pipeline合成数百领域数千种工具生成多轮交互数据[33][34] - 利用LLM作为评判员筛选高质量训练数据减少低质量数据影响[35] - 结合可验证任务奖励与自我评价机制扩展强化学习应用场景[36][37] 行业竞争趋势 - 与Grok 4类似采用大规模工具调用策略[42] - 国内大模型竞争转向算法创新而非单纯堆参数算力以应对算力资源紧缺[43] - HuggingFace联合创始人评价K2开源模型正挑战闭源模型领先地位[21]
ICCV2025 | 多视图生成新范式-利用自回归模型探索多视图生成
机器之心· 2025-07-12 10:11
推理代码、权重、渲染的 GSO 及其配套的 Prompt 已全部开源。 背景与动机 根据人工指令生成多视图图像对于 3D 内容创作至关重要。主要挑战在于如何在多视图之间保持一致性,以及如何在不同条件下有效地合成形状和纹理。此前的工 作主要使用 Diffusion 模型中自带的多视角一致性先验,促进多视角一致图像生成。但是 Diffusion 模型存在一些先天劣势: 论文地址: https://arxiv.org/pdf/2506.18527 代码地址: https://github.com/MILab-PKU/MVAR/ 绝大多数 Diffusion 模型同时多个视角; 单一 Diffusion 模型难以接受多模态控制条件; 本文第一作者包括北京大学博士生胡珈魁与清华大学硕士生杨羽霄;通讯作者为北京大学助理教授卢闫晔与(前)百度视觉技术部刘家伦。 本文介绍并开发了一种自回归生成多视图图像的方法 MVAR 。其目的是确保在生成当前视图的过程中,模型能够从所有先前的视图中提取有效的引导信息,从而 增强多视图的一致性。 MVAR 拉近了纯自回归方法与最先进的基于扩散的多视图图像生成方法的生成图像质量,并成为能够处理 ...
智元启动「买买买」,路径未明,资本抢跑,主流技术范式下谁在领跑具身智能赛道?
机器之心· 2025-07-12 09:33
行业动态 - 智元机器人以21亿元现金收购上纬新材 成为A股首个具身智能概念上市公司 引发行业震动[1] - 产业尚未大规模商业落地 资本已进入重资产整合阶段 引发技术是否支撑资本高预期的争议[1] 技术路径分化 - 行业主流技术路径分为端到端大模型体系和双系统架构[4] - 端到端大模型派将视觉、语言、动作模块统一 强调跨任务迁移能力 代表公司星动纪元的ERA-42模型[5] - 双系统架构派将任务理解与动作执行解耦 上层用VLM语义建模 下层用VLA执行控制 代表公司Figure AI的Helix系统和中科星图的EFM-1架构[6] - 云深处等公司从硬件入手 采用轮足混合驱动方案提升地形适应性[7] - 技术路径分化影响数据采集策略、本体协同方式 进而导致市场落地和商业模式差异[8] 行业竞争格局 - 头部公司围绕数据体系和本体方案做出差异化布局[9] - 技术路线成为企业战略的具象表达 不同公司在模型架构、数据采集、硬件设计等方面形成竞争壁垒[9]
ICML spotlight | 一种会「进化」的合成数据!无需上传隐私,也能生成高质量垂域数据
机器之心· 2025-07-11 17:22
数据短缺问题 - 公共数据产生速度预计到2028年将赶不上大模型训练的消耗速度而被耗尽[1] - 医疗、工业制造等特殊领域可用数据原本就少,数据短缺问题更严重[1] 现有解决方案的局限性 - 垂直领域中小企业倾向于使用现成大模型API,但无法直接合成垂域数据[4][5] - 大模型生成的数据与垂域实际数据存在巨大差距,无法满足垂域特性需求[7][8] - 垂域数据因隐私、知识产权等原因不能上传,增加了prompt工程难度[9] PCEvolve框架核心创新 - 只需少量标注样本即可在保护隐私同时进化出整个数据集[2] - 采用类似达尔文进化论的迭代进化框架:生成候选数据→选择淘汰→下一轮进化[11] - 设计基于指数机制的新型隐私保护方法,适配垂域少样本场景[11] 技术实现细节 - 利用开源Encoder基座模型将数据映射到特征空间计算距离[16] - 通过寻找聚类中心代表标签所有私有数据来降低计算成本[16] - 提出相似度度量h(d_s^c,D_p)来优化合成数据与垂域数据的绝对距离[18] 实验验证结果 - 在COVIDx数据集上精度达64.04%,相比初始49.34%提升显著[23] - 在Came17数据集上精度达69.10%,相比初始50.47%提升显著[23] - 在KVASIR-f和MVAD-l数据集上也分别达到50.95%和59.26%的精度[23]
ICML 2025,相约加拿大温哥华!机器之心免费请你吃饭
机器之心· 2025-07-11 17:22
会议活动 - 2025年ICML会议将于7月13日至7月19日在加拿大温哥华会议中心举行 [1] - 7月15日将举办「云帆・ICML 2025 AI Talent Meetup」线下交流活动 [1] - 活动由机器之心与上海人工智能实验室、东方菁汇、全球高校人工智能学术联盟共同组织 [1] 活动详情 - 活动时间:加拿大时间7月15日16:00-20:30 [3] - 活动地点:加拿大温哥华会议中心周边 [3] - 活动规模:200人 [3] - 活动内容包括特邀学术报告、顶尖人才SHOW、互动体验、机构宣讲、企业岗位poster展示、晚宴交流等环节 [3] - 报名截止时间:北京时间7月13日晚17:00 [3] 主办方背景 - 机器之心曾成功举办云帆・ICLR 2025 AI Talent Meetup、CVPR 2025论文分享会、NeurIPS 2024论文分享会、ACL 2024 AI Talent晚宴等活动 [6] - 活动旨在为企业和人才搭建沟通桥梁,助力合作伙伴吸纳人才并提升品牌影响力 [6]
告别Transformer!北大、北邮、华为开源纯卷积DiC:3x3卷积实现SOTA性能,比DiT快5倍!
机器之心· 2025-07-11 16:27
AI视觉生成技术 - 当前AI视觉生成领域主流是基于Transformer架构的扩散模型,如Stable Diffusion和Sora,这些模型虽然生成效果好但计算开销大、推理速度慢[4] - 北大、北邮和华为的研究团队提出了一种纯卷积的扩散模型DiC,采用3x3卷积而非Transformer架构,在性能和推理速度上都有显著提升[1][5] - DiC模型证明了经过精心设计,简单的卷积网络依然能在生成任务中达到顶尖水平,挑战了生成模型必须依赖自注意力的固有观念[24] 技术架构创新 - DiC采用U-Net Hourglass架构而非Transformer的直筒形堆叠架构,通过下采样和上采样弥补了3x3卷积感受野受限的问题[13] - 模型减少了U-Net的跳连频率,降低了计算冗余,同时采用分阶段嵌入、条件门控机制等优化手段提升生成质量[14] - 将常用的SiLU激活函数替换为GELU,带来了一定的效果提升[15] 性能表现 - 在ImageNet 256×256测试中,DiC-XL的FID分数从DiT-XL/2的20降低到13,IS分数也大幅提升[17] - DiC-XL的推理吞吐量达到313.7,是DiT-XL/2(66.8)的近5倍,展现了显著的效率优势[17][18] - 在512x512分辨率下,DiC-XL用比DiT-XL/2更少的计算量,实现了更好的生成效果和更快的速度[22] 训练效率 - 不使用cfg时,DiC的收敛速度是DiT的十倍;使用cfg时FID可以达到2.25[18] - DiC-H模型在400K训练步数时FID为11.36,600K时降至9.73,800K时进一步降至8.96,展现了良好的训练扩展性[19] - 在相同设定下,DiC-H仅需256×2M的训练就能达到2.25的FID,优于DiT-XL/2需要256×7M训练才能达到的2.27[20]