Workflow
机器之心
icon
搜索文档
VLA 推理新范式!一致性模型 CEED-VLA 实现四倍加速!
机器之心· 2025-07-13 12:58
视觉-语言-动作(VLA)模型研究进展 - 视觉-语言-动作(VLA)模型因多模态理解与泛化能力成为机器人领域重要研究方向 但高频率和精细操作任务中仍受推理速度瓶颈制约[2] - Jacobi解码虽能提升推理效率 但因需要较多迭代次数 实际加速效果有限[3] CEED-VLA核心技术突破 - 采用一致性蒸馏训练策略 使模型单次迭代可预测多个正确动作token 结合混合标签监督机制缓解误差积累[4][9] - 提出早期退出(early-exit)解码策略 放宽Jacobi解码收敛条件 实现4.1倍推理加速与4.3倍解码频率提升[5][10] - 框架通过预训练VLA模型生成Jacobi轨迹数据集 采用KL散度构建一致性损失 混合使用教师模型与真实数据监督训练[13][15][16] 实验验证效果 - 在CALVIN ABC-D和LIBERO-Long基准测试中 保持任务成功率同时实现4倍以上推理速度与执行频率提升[18] - 真实世界实验中 机械臂操作频率提升使灵巧任务成功率超过70% 显著优于基线模型[22][24] 方法论创新点 - 首创结合一致性蒸馏与混合标签监督的训练范式 同步保障动作生成精度与速度[8][9] - 首次发现Jacobi解码存在低效迭代瓶颈 通过动态调整收敛条件实现解码效率突破[10][17] - 构建完整技术闭环:从Jacobi轨迹采集、一致性训练到早期退出解码的全流程优化[13][14]
「流匹配」成ICML 2025超热门主题!网友:都说了学物理的不准转计算机
机器之心· 2025-07-13 12:58
生成式AI技术前沿 - 流体力学概念融入生成式AI,构建简洁优雅的模型形态 [2][8] - 流匹配(Flow Matching)技术成为ICML 2025生成领域的核心研究方向,具备高质量、稳定性和通用性 [4][5][7] - FLUX模型发布后,流匹配架构因处理多类型输入能力受到广泛关注 [6] 流匹配技术原理 - 核心思想:通过可逆变换将噪声分布映射到数据分布,学习噪声到数据的转化路径 [15][18] - 采用插值方式定义噪声与数据点间的运动轨迹,通过速度场控制样本生成 [16][17][25] - 基于连续性方程,将物理密度变化规律应用于概率质量分布建模 [20][21][23] 技术实现细节 - 条件流(conditional flow)通过直线路径定义噪声到目标数据点的定向移动 [28][29] - 总体速度场由多条路径的平均方向决定,优先反映高概率样本路径 [31][33] - 变分流匹配(VFM)通过推断终点分布均值简化速度场计算 [34] 与扩散模型的关系 - 扩散模型是流匹配的子集,高斯分布插值策略下两者等价 [40][41][43] - 流匹配提出速度场输出新形式,可能影响高阶采样器性能 [44] - 训练权重函数与噪声调度策略在两种模型中高度一致 [45][46] 行业应用与资源 - 流匹配技术伪代码及训练过程已公开,支持实际应用开发 [36] - 关键论文《Flow Matching for Generative Modeling》提供理论基础 [38] - 技术社区(知乎、Twitter)活跃,提供多角度解析与案例 [10][13][47]
下一代 AI 系统怎么改?让 AI 自己改?!
机器之心· 2025-07-12 18:54
下一代AI系统自我改进 - 互联网人类数据枯竭及局限性推动AI转向「自进化」范式 通过机器与世界互动生成经验数据实现自我改进 突破人类知识边界 [1][4] - 图灵奖得主Richard Sutton提出「经验时代」构想 主张智能体通过自身经验学习获得超人类能力 当前AI方法依赖人类知识输入需突破该范畴 [4] - 「达尔文哥德尔机(DGM)」为代表的自进化技术 通过修改Python代码库实现自我改进 SWE-bench性能从20%提升至50% Polyglot从14.2%提升至30.7%超越人工设计模型 [5][6] 自进化与SL/RL技术差异 - 自进化依赖模型生成训练数据 数据管理算法需纳入学习框架 监督学习(SL)依赖人类标注数据 强化学习(RL)因通用性难以适配自我改进需求 [7][8] - ICLR 2025设立自进化主题研讨会 探讨无监督下合成数据提升模型性能 接收80篇论文覆盖多智能体系统、机器人自进化等领域 [7] - 自进化存在训练崩溃风险 传统RL因奖励信号机制可避免该问题 需结合基础模型、认知神经科学等多领域实现技术突破 [8][9] 具身智能赛道发展动态 - 智元资本运作先于技术成熟 收购上纬新材引发行业关注 主流企业倾向「自研本体+定制模型」路径 双系统架构在高复杂场景稳定性受关注 [2] - 本体形态差异驱动模型设计分化 轮式/四足/人形机器人对应不同技术方案 2025年上半年资本偏好成为行业焦点 [2] - Figure AI筹备量产 借鉴飞机公司经验实现机器人能力指数级突破 摒弃「可爱型」设计避免人类沦为技术仆从 [3]
ICML 2025 Oral!北大和腾讯优图破解AI生成图像检测泛化难题:正交子空间分解
机器之心· 2025-07-12 12:57
AI生成图像检测研究突破 核心观点 - 研究提出基于正交子空间分解的新方法,突破传统"真假二分类"局限,实现检测模型从"记忆式背诵"到"理解式泛化"的跨越[1][3] - 方法在DeepFake人脸检测和AIGC全图生成检测任务中表现优异,最高准确率达100%(ProGAN)和99.85%(CycleGAN)[23][24] - 论文被ICML2025接收为Oral(TOP ~1%),具有理论深度与实践价值的双重突破[1] 技术原理 - 通过SVD分解构建正交子空间:主成分保留CLIP预训练知识,残差部分学习AIGI检测知识,二者严格正交互不影响[16][17] - 量化分析显示传统方法特征空间解释方差比率集中在前两个主成分(低秩性),而新方法维持高秩特征空间[10][14] - 可视化证实自注意力图中语义信息与伪造信息实现正交分离,保留93.23%-100%的原语义识别能力[25][27] 行业应用价值 - 解决跨数据集/跨方法检测难题:在DFDC等8个数据集上平均准确率提升12.8%,最高达87.6%[22][23] - 可迁移至大模型微调、OOD检测、Diffusion生成等领域,为AI安全提供新范式[31] - 揭示"真假层次化关系"本质:假图像从真图像分布衍生,语义对齐使判别复杂度降低47.5%[29][30] 性能对比 - 参数量仅83M,低于主流方法(如ProDett的96M),但mAcc达95.19%,超越FatFormer(90.86%)[24] - 在LDM-200steps检测中准确率98.9%,较UniFD(94.36%)提升4.54个百分点[24] - 对未见攻击(如IMLE)的泛化性达81.5%,比F3Net(51.47%)提升58.3%[24]
第一作者必须是AI!首个面向AI作者的学术会议来了,斯坦福发起
机器之心· 2025-07-12 12:57
AI在科研中的角色演进 - AI已深度介入科研流程 从提出假设到生成图表、撰写论文 正逐步参与乃至重塑整个科学研究的方式 [2] - 尽管AI在CVPR、NeurIPS等顶会中无处不在 但此前几乎没有任何会议或期刊承认其作者身份 [2] Agents4Science 2025会议突破性规则 - 斯坦福大学将于2025年举办全球首个要求AI作为第一作者的学术会议 投稿论文必须以AI系统为唯一第一作者 [4][5] - 人类研究者仅可作为共同作者 作用限于支持或监督 每位人类作者最多参与4篇投稿论文 [6] - 会议评审机制以AI为主 由多个AI系统初评避免单一模型偏差 人类专家委员会负责复评和最终奖项裁定 [9] 会议目标与设计原则 - 三大核心目标:探究AI科学发现能力边界 建立AI科研规范体系 实现全流程透明度 [14] - 会议将公开所有提交论文及AI评审数据 包括提示和评审结果 作为社区开放资源 [14] - 采用线上虚拟形式举办 与ICCV 2025同期进行 包含演讲、口头展示和小组讨论 [13][18] 学术社区反响 - 研究者高度评价该会议为"AI科研能力的基准测试" 期待其生成的数据集对行业有启示意义 [16] - 部分学者关注AI生成论文被其他LLM误采信的风险 认为公开错误案例具有研究价值 [16] 关键时间节点 - 论文提交截止:2025年9月5日(AOE时间) 评审结果公布:2025年9月29日 正式会议日期:2025年10月22日 [19] - 会议主席团队来自斯坦福大学和TogetherAI 涵盖生物医学数据科学、LLM自进化等前沿领域 [21]
无Tokenizer时代真要来了?Mamba作者再发颠覆性论文,挑战Transformer
机器之心· 2025-07-12 12:50
技术突破 - 研究提出分层网络H-Net,通过动态分块机制取代传统tokenization,实现端到端序列建模[3][13] - H-Net采用分层架构:精细处理→压缩抽象→还原输出,主网络可适配Transformer或状态空间模型(SSM)[14][16][17] - 动态分块(DC)机制包含路由模块和平滑模块,通过相似度评分预测边界并优化学习能力[18][19] 性能表现 - 单层字节级H-Net在同等计算资源下已超越BPE token的Transformer模型,多级分层可媲美两倍规模的token模型[8] - 在中文/代码/DNA序列等复杂模态中,H-Net数据效率较基线提升近4倍,中文准确率从0.599提升至0.663[10][36][39] - H-Net(2-stage)在HellaSwag测试中鲁棒性得分达42.8,显著高于BPE Transformer的22.2[33][34] 模型对比 - 各向同性模型(MambaByte/LlamaByte)性能远逊于分层模型,MambaByte优于LlamaByte[28] - SpaceByte++验证外部网络使用Mamba的有效性,但性能仍低于H-Net(space)[29] - H-Net(space)在10亿参数规模下达到与BPE Transformer相当的困惑度,动态分块分辨率达4.5-5字节/块[22][23] 架构创新 - 引入投影层/归一化层优化信号传播,根据层维度和批次大小调整参数提升稳定性[20] - 动态分块模块自动学习有意义的边界,无需外部监督或启发式规则[18][23] - 训练数据显示H-Net仅需3.6倍数据量即可达到各向同性模型同等性能[39]
EasyCache:无需训练的视频扩散模型推理加速——极简高效的视频生成提速方案
机器之心· 2025-07-12 12:50
研究背景与动机 - 扩散模型和扩散Transformer在视频生成领域广泛应用,显著提升了AI合成视频的质量和连贯性,如OpenAI Sora、HunyuanVideo、Wan2.1等模型已能生成结构清晰、细节丰富且高度连贯的长视频内容 [3] - 当前扩散模型存在推理慢、算力消耗高的问题,例如HunyuanVideo生成5秒720P视频在单张H20上需2小时,限制了实时互动和移动端应用 [4] - 核心瓶颈在于扩散模型需多次迭代去噪,每一步都需完整神经网络前向推理,导致大量冗余计算 [5] 方法创新:EasyCache设计与原理 - EasyCache是一种无需训练、无需模型结构改动的推理加速框架,通过动态检测模型输出的「稳定期」复用历史计算结果以减少冗余推理步骤 [7] - 研究发现扩散模型在去噪初期输出变化剧烈需完整推理,中后期「变换速率」趋于稳定,行为近似线性,可通过复用历史结果跳过冗余计算 [12][13] - 采用自适应缓存机制,通过变换速率度量(Kt)和累计误差阈值(Et)动态判断是否复用缓存,前R步为warm-up确保初期结构信息不丢失 [15][19] 实验结果与性能 - 在HunyuanVideo上实现2.2倍加速,PSNR提升36%至32.66,SSIM提升14%至0.9313,LPIPS大幅下降至0.0533,视频质量几乎无损 [17][20] - 在Wan2.1上取得2.54倍加速,PSNR达25.24,SSIM 0.8337,LPIPS 0.0952,优于Static cache和TeaCache等方法 [20] - 在图像生成任务(FLUX.1-dev)实现4.64倍加速,FID降至23.2,CLIP Score保持26.1 [21][22] - 与SVG等稀疏注意力技术叠加后平均加速达3.3倍,总体推理时长从2小时缩短至33分钟 [23][26] 技术优势与行业影响 - 可视化对比显示EasyCache生成的视频在细节、结构和清晰度上与原模型几乎一致,显著优于静态缓存和TeaCache等方法 [24][25] - 该技术为视频扩散模型提供了极简、高效、训练无关的推理加速新范式,为实际应用落地奠定基础 [27] - 未来有望通过持续优化进一步逼近「实时视频生成」目标,推动数字内容创作和多媒体娱乐行业变革 [27]
Meta扩张继续!挖走OpenAI 2名多模态AI研发人员,收购语音初创公司PlayAI
机器之心· 2025-07-12 12:50
Meta从OpenAI挖角AI人才 - Meta从OpenAI挖走2名知名AI研究人员Allan Jabri和Lu Liu 两人将加入Meta超级智能团队 [1] - Allan Jabri博士毕业于加州大学伯克利分校 专注自监督学习和无监督学习 曾任职DeepMind Google Brain等 [2] - Lu Liu是OpenAI研究科学家 4o图像生成基础研究员 曾就职character ai和Google Deepmind [5] - Meta可能以数千万美元高薪聘请这两位人才 [7] Meta收购AI初创公司PlayAI - Meta完成对语音技术公司PlayAI的收购 该公司专注LLM原生体验 2024年末完成2100万美元融资 [10][11] - PlayAI团队将加入Meta 向Johan Schalkwyk汇报 后者刚从Sesame AI跳槽至Meta [14] - 此次收购将为Meta的AI语音助手等产品带来新活力 [15] Meta的AI人才战略 - Meta近期高薪引进多位顶尖AI人才 包括Scale AI Alexandr Wang GitHub首席执行官Nat Friedman等 [16][17] - 公司超级智能实验室已汇聚大量AI领导者 显示其在超大模型和智能助手领域的布局野心 [17][18] - 公司采取"高举高打"策略 通过高薪挖角和收购快速扩充AI团队 [16][18]
模拟大脑功能分化!北大与港中文发布Fast-in-Slow VLA,让“快行动”和“慢推理”统一协作
机器之心· 2025-07-12 10:11
核心观点 - 北京大学与香港中文大学研究团队发布全新双系统视觉-语言-动作模型FiS-VLA,实现高频响应与复杂推理的统一 [4] - FiS-VLA通过将快速执行模块嵌入预训练视觉-语言模型中,实现快慢系统一体化设计,控制频率高达117.7Hz [4][23] - 该方法在仿真与真机测试中表现优异,平均成功率69%,远超主流方案 [17][19] 研究背景与挑战 - 机器人操作系统需依据传感器输入和语言指令生成精确控制信号,但现有视觉-语言模型推理速度慢,限制高频控制实用性 [7] - 现有双系统设计协同效率低下,系统1无法充分利用系统2的语义推理结果 [9] 架构设计 - 基于Prismatic VLM架构,包含视觉编码器、轻量级3D tokenizer、LLaMA2-7B语言模型及MLP模块 [13] - 将VLM末端几层Transformer模块重构为系统1执行模块,嵌入系统2内部形成统一模型 [11] - 系统2低频处理2D图像和语言指令,系统1高频响应实时感知输入 [11] 双系统协作 - 灵感来自Kahneman双系统理论,系统2输出高维特征为系统1动作生成提供约束 [14] - 系统1每个时间步运行,利用周期性更新的系统2语义理解结果 [14] - 采用异构模态输入设计,系统1接收2D图像、机器人状态和3D点云信息 [15] 性能表现 - 仿真测试中平均成功率69%,控制频率21.9Hz,是CogACT的2倍以上 [17][18] - 真机测试平均成功率68%-74%,在高精度操控任务中展现显著优势 [19][20] - 泛化测试中面对未见物体、复杂背景与光照变化,准确率下降幅度远小于基线 [21][22] 技术突破 - 消融实验显示共享2层Transformer时性能最佳,系统1接收三种输入模态效果最优 [23] - 系统1和系统2协作最佳频率比为1:4,单步预测8个动作时理论控制频率达117.7Hz [23] - 采用跨平台大规模轨迹数据预训练(860K条轨迹)并在微调阶段增强任务适应性 [15]
刚刚,OpenAI想收购的Windsurf,被谷歌DeepMind抢走了核心团队
机器之心· 2025-07-12 10:11
谷歌DeepMind收购Windsurf事件 - 谷歌DeepMind宣布成功收购AI编程初创公司Windsurf的核心团队,包括CEO Varun Mohan和联合创始人Douglas Chen等研发人员[1][2][3] - 被收购团队将专注于DeepMind的Gemini项目,特别是编程智能体和工具使用方向[3] - 谷歌发言人表示Gemini是目前最好的模型之一,公司持续投资开发其高级功能[4] - 交易金额未披露,但此前OpenAI曾计划以30亿美元收购Windsurf[4] OpenAI收购失败原因 - OpenAI与Windsurf在5月达成的30亿美元收购协议排他性期限已到期,Windsurf可自由选择其他方案[5] - 这是OpenAI近期在收购AI编程公司上的第二次失败,此前收购Cursor的谈判也因对方拒绝而破裂[7][8] - 事件对OpenAI形成打击,被网友盘点为近期系列挫折之一[9] Windsurf公司背景与现状 - 公司由MIT校友2021年创立,原名Codeium,2024年4月更名为Windsurf[6] - 交易后Windsurf将继续独立运营,谷歌仅获得部分技术的非独家许可[16] - 未加入谷歌的员工面临高管和技术核心流失,业务主管Jeff Wang出任临时CEO,销售副总裁Graham Moreno担任新总裁[17][19] - 临时CEO声明称大部分团队将继续开发产品服务客户[20] 行业影响与反应 - 交易突然性引发AI行业震动,有观点认为Windsurf工程师可能都未预料到[10] - 部分开发者对失去核心团队的Windsurf未来发展表示担忧[21] - 事件反映出AI行业激烈的人才争夺战现状[21]