多模态学习 - 财报，业绩电话会，研报，新闻

多模态学习

搜索文档

模拟大脑功能分化！北大与港中文发布Fast-in-Slow VLA，让“快行动”和“慢推理”统一协作

机器之心· 2025-07-12 10:11

核心观点 - 北京大学与香港中文大学研究团队发布全新双系统视觉-语言-动作模型FiS-VLA，实现高频响应与复杂推理的统一 [4] - FiS-VLA通过将快速执行模块嵌入预训练视觉-语言模型中，实现快慢系统一体化设计，控制频率高达117.7Hz [4][23] - 该方法在仿真与真机测试中表现优异，平均成功率69%，远超主流方案 [17][19] 研究背景与挑战 - 机器人操作系统需依据传感器输入和语言指令生成精确控制信号，但现有视觉-语言模型推理速度慢，限制高频控制实用性 [7] - 现有双系统设计协同效率低下，系统1无法充分利用系统2的语义推理结果 [9] 架构设计 - 基于Prismatic VLM架构，包含视觉编码器、轻量级3D tokenizer、LLaMA2-7B语言模型及MLP模块 [13] - 将VLM末端几层Transformer模块重构为系统1执行模块，嵌入系统2内部形成统一模型 [11] - 系统2低频处理2D图像和语言指令，系统1高频响应实时感知输入 [11] 双系统协作 - 灵感来自Kahneman双系统理论，系统2输出高维特征为系统1动作生成提供约束 [14] - 系统1每个时间步运行，利用周期性更新的系统2语义理解结果 [14] - 采用异构模态输入设计，系统1接收2D图像、机器人状态和3D点云信息 [15] 性能表现 - 仿真测试中平均成功率69%，控制频率21.9Hz，是CogACT的2倍以上 [17][18] - 真机测试平均成功率68%-74%，在高精度操控任务中展现显著优势 [19][20] - 泛化测试中面对未见物体、复杂背景与光照变化，准确率下降幅度远小于基线 [21][22] 技术突破 - 消融实验显示共享2层Transformer时性能最佳，系统1接收三种输入模态效果最优 [23] - 系统1和系统2协作最佳频率比为1:4，单步预测8个动作时理论控制频率达117.7Hz [23] - 采用跨平台大规模轨迹数据预训练（860K条轨迹）并在微调阶段增强任务适应性 [15]

Fast-in-Slow（FiS-VLA）

Fast-in-Slow（FiS-VLA）

智源发布“悟界”系列大模型，含全球首个原生多模态世界模型Emu3

凤凰网· 2025-06-06 22:32

大模型技术突破 - 智源研究院推出"悟界"系列大模型包括原生多模态世界模型Emu3、脑科学多模态通用基础模型Brainμ、跨本体具身大小脑协作框架RoboOS 2 0与具身大脑RoboBrain 2 0以及全原子微观生命模型OpenComplex2 [1] - Emu3基于下一个token预测范式统一多模态学习通过新型视觉tokenizer将图像/视频编码为与文本同构的离散符号序列实现文本、图像、视频的任意组合理解与生成 [2] - Brainμ整合了神经科学领域多个大型公开数据集和多个合作实验室的高质量神经科学数据完成了超过100万单位的神经信号预训练在自动化睡眠分型、感官信号重建与多种脑疾病诊断等任务中性能显著超越现有专有模型 [2][3] 具身智能系统升级 - RoboOS 2 0是全球首个基于具身智能SaaS平台、支持无服务器一站式轻量化机器人本体部署的开源框架整体性能提升达30% 全链路平均响应时延低至3ms以下端云通信效率提升27倍 [3][4] - RoboBrain 2 0任务规划准确率相较1 0版本实现74%的效果提升在空间智能方面实现17%的性能提升新增空间推理能力和闭环反馈机制 [5][6] - 系统已全面开源包括框架代码、模型权重、数据集与评测基准与全球20多家具身智能企业建立战略合作关系 [6] 生物分子建模创新 - OpenComplex2实现生物分子研究从静态结构预测到动态构象分布建模的重大突破能够表征生物分子系统的连续演化能量景观在原子分辨率层面捕捉分子相互作用及平衡构象分布 [6][7] - 模型基于FloydNetwork图扩散框架以及多尺度原子精度表示两大关键技术创新有效突破动态构象分布预测瓶颈在生物分子动态特性预测、柔性系统及超大型复合物建模等任务中性能卓越 [7] 开源生态建设 - 智源已开源约200个模型和160个数据集 FlagOS系统新增统一编译器FlagTree、统一通信库FlagCX等板块实现对11家厂商18款异构AI硬件的统一支持 [8] - 通用向量模型BGE系列发展为门类齐全的生态系统近期发布BGE-code-v1、BGE-VL-v1 5和BGE-VL-screenshot三款模型在代码检索和多模态检索任务中取得领先表现 [9] - 开源轻量长视频理解模型Video-XL-2实现单GPU处理万帧视频的能力编码2048帧视频仅需12秒推理效率大幅领先同类别竞品模型 [9][10] 应用场景展示 - 基于RoboOS 2 0和RoboBrain 2 0的机器人展示了餐饮互动、抓娃娃游戏和家居物品收纳等技能融合视觉、听觉、思考、语音交互等能力实现"心有灵犀"互动游戏 [11] - Brainμ与脑机接口设备结合在消费级便携式脑电设备上实现接近医用级设备数据采集的稳定解析能力降低脑机接口应用门槛 [11] - 数字孪生心脏药物安全性评价平台将全尺度药物毒性仿真时间由近90天减少到一天之内无感智能坐垫系统可对心率、心率变异性、呼吸频率等指标进行高精度实时监测 [12][13]

4万多名作者挤破头，CVPR 2025官方揭秘三大爆款主题，你卷对方向了吗？

机器之心· 2025-05-28 11:02

计算机视觉领域热门方向 - CVPR 2025基于全球4万多名作者的13008份投稿统计出三大热门方向投稿数量同比增长13% 最终接收2878篇论文接收率22.1% [3] - 研究群体呈现指数级增长趋势 AI领域重要性提升带动相关学位攻读人数增加 [3] 多视角与传感器3D技术 - 该方向投稿量激增研究重点从单幅图像2D渲染转向复杂3D评估 2020年NeRF技术突破推动领域发展 [4][5] - 高斯泼溅(Gaussian splatting)技术进一步促进计算机视觉与图形学融合神经渲染研究显著提升3D相关论文数量 [5] 图像与视频合成 - 成为CVPR 2025最大论文类别之一多模态商业聊天机器人已实现图像/视频生成能力正朝交互式世界生成演进 [6] - 会议展示的合成方法为生成完整虚拟环境奠定技术基础 [6] 多模态学习 - 视觉、语言和推理合并为投稿量最大类别之一可能预示新研究趋势 [7][8] - CVPR坚持学术公平原则每篇论文评审标准独立于作者机构背景维护领域生态平衡 [8] 行业动态 - CVPR 2025会议即将召开投稿竞争加剧反映AI研究热度持续攀升 [8] - 机器之心将同步举办论文分享会提供学术交流平台 [8]

ETT：打破原生多模态学习视觉瓶颈，重塑视觉tokenizer优化范式

机器之心· 2025-05-27 14:38

核心观点 - 提出ETT（End-to-End Vision Tokenizer Tuning）方法，实现视觉tokenization与目标自回归任务的联合优化，打破传统方法中视觉tokenizer固定不变的局限 [4] - ETT通过引入视觉tokenizer的码本嵌入和token级别字幕损失函数，使视觉tokenizer能根据下游任务反馈调整参数，显著提升多模态任务性能 [6] - 在模型参数和数据规模更小的条件下，ETT在多项基准测试中达到或超越现有最先进视觉语言模型的表现 [12][14][17] 传统方法的局限与ETT的突破 - 传统方法使用冻结的视觉tokenizer离散索引，导致特征表示能力浪费且无法端到端训练 [6] - ETT创新性引入码本嵌入（码本大小131,072，特征维度256）替代离散索引，结合联合优化策略释放视觉tokenizer潜力 [6][10] - 相比Emu3等框架，ETT简化模型架构并减少计算开销，同时提升多模态理解能力 [12] ETT核心架构与训练策略 - 基于改进的IBQ框架，分三阶段训练：前期对齐学习（冻结参数训练投影层）、语义学习（端到端联合优化）、后训练（特定任务微调） [10][11] - 训练中同时优化caption损失函数和重建损失函数，保持图像重建能力的同时增强语义感知 [11] - 投影层采用多层感知机，匹配视觉嵌入与预训练语言模型的隐藏层维度 [10] 性能表现多模态理解 - MMBench测试中性能与连续编码器模型相当，部分子任务更优（如ETT 58.8 vs QwenVL-Chat 60.6） [12] - 在GQA（59.4）、TextVQA（56.8）等任务中表现优于Chameleon（47.2/4.8）等离散VLM模型 [12] 多模态生成 - 在T2I-CompBench的颜色（81.03）、形状（58.19）、纹理（72.14）子任务上超越Emu3（79.13/58.46/74.22） [15] - GenEval测试中Overall得分0.63，接近DALL-E3（0.67）且优于SDXL（0.55） [15] 视觉重构 - 保留低级细节的同时提升高级语义表示能力，如改善文本渲染效果 [17] 潜在发展与局限 - 当前数据规模和模型容量仍有扩展空间 [19] - 未来计划探索从头训练视觉tokenizer，并扩展至视频、音频等多模态场景 [19] - 方法易于实现集成，有望推动多模态基础模型应用 [25]

多模态学习

视觉tokenizer

人工智能

ETT（End-to-End Vision Tokenizer Tuning）

ETT（End-to-End Vision Tokenizer Tuning）

Emu3

EMU 系列