多模态学习

搜索文档
大会发布 | 世界人工智能大会青年菁英交流会学术研究成果征集通知
36氪· 2025-07-03 10:53
一、背景与目的 为响应世界人工智能大会"智能时代 同球共济" 的主题,推动全球青年人工智能研究者的学术交流与创新合作,现面向国内外高校、科研机构及企业征集 人工智能领域前沿研究成果。 本次活动旨在为青年学者、技术开发者提供高规格学术交流平台,促进学术思想碰撞,并通过与国际顶级期刊的合作,打造顶级国际学术会议,助力科研 成果转化与传播。 2.计算机视觉与多模态学习 涵盖空间智能、图像/视频理解、跨模态表征学习、视觉推理、自动驾驶视觉感知等核心技术。 3.强化学习与机器人技术 包括深度强化学习算法、机器人自主控制、人机协作系统、智能无人系统等关键领域。 4.人工智能伦理与安全 涉及算法公平性、数据隐私保护、技术治理框架、对抗攻击防御及社会影响评估。 5.跨学科应用创新 二、征集内容 本次征集聚焦人工智能全领域前沿探索,涵盖但不限于以下方向: 1.大模型与生成式人工智能 包括新一代模型架构、强化学习模型、多模态生成模型、可控生成技术及行业场景适配研究。 鼓励医疗 AI 辅助诊断、教育智能系统、能源网络优化、金融科技等领域的交叉融合研究。 三、成果形式提交 1. 学术海报(Poster)展示 学术研究成果需以可视化形 ...
智源发布“悟界”系列大模型,含全球首个原生多模态世界模型Emu3
凤凰网· 2025-06-06 22:32
凤凰网科技讯 6月6日,在2025北京智源大会上,继"悟道"系列大模型之后,智源研究院推出"悟界"系 列大模型。 "悟界"大模型系列,包括原生多模态世界模型Emu3、脑科学多模态通用基础模型见微Brainμ、跨本体 具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0以及全原子微观生命模型OpenComplex2。 Emu3作为原生多模态统一架构让大模型具备理解和推理世界的能力,Brainμ基于Emu3架构,引入脑信 号这一新的模态数据,实现了单一模型完成多种神经科学任务的大一统。多模态与脑科学模型未来可成 为人机交互具身场景下的基础模型。 RoboOS 2.0与RoboBrain 2.0在初代版本基础上,原有性能大幅提升,并新增多机协作规划与物理常识驱 动的空间推理能力。 作为神经科学领域跨任务、跨模态、跨个体的基础通用模型,Brainμ可同步处理多类编解码任务,兼容 多物种动物模型(包括小鼠 狨猴 猕猴)与人类数据,实现科学数据注释、交互式科学结论解读、大脑 感觉信号重建及模拟刺激信号生成。在自动化睡眠分型、感官信号重建与多种脑疾病诊断等任务中,作 为单一模型其性能显著超越现有的专有 ...
4万多名作者挤破头,CVPR 2025官方揭秘三大爆款主题, 你卷对方向了吗?
机器之心· 2025-05-28 11:02
机器之心报道 机器之心编辑部 当今计算机视觉领域最热门的三个方向。 当今计算机视觉领域最热门的话题有哪些? 「自 2020 年 NeRF 论文首次发表以来,利用深度网络进行 3D 重建已成为趋势。如今高斯泼溅(Gaussian splatting)技术进一步推动了这一发展,」CVPR 2025 程序联合主席、美国俄勒冈州立大学副教授 Fuxin Li 分享道,「本质上,计算机视觉与图形学正在融合。神经渲染研究的兴起,显著推动了 3D 相关论文数量的 增长。」 图像与视频合成 随着研究的不断发展,学界现在能够通过视频和图像形式更精确地呈现环境信息。对该领域的探索已成为 CVPR 2025 论文的焦点,图像和视频合成成为今年大会上最大的类别之一。 「今年商业聊天机器人的一大趋势是它们已经实现了多模态化;它们现在不仅能分析和生成文本,还能分 析和生成图像,有时还能生成视频,」Isola 解释道。「即将出现的能力是生成完整的交互式世界。CVPR 刚刚,CVPR 官方给出了最新统计,他们根据论文提交情况,总结出三大方向: 这份统计是基于全球 4 万多名作者 13008 份投稿结果产生的。相比往年,今年的投稿数量增长了 ...
ETT:打破原生多模态学习视觉瓶颈,重塑视觉tokenizer优化范式
机器之心· 2025-05-27 14:38
本文由北京智源研究院多模态大模型研究中心(团队负责人王鑫龙,团队代表作 EMU 系列、EVA 系列、Painter & SegGPT)、中科院自动化所和大连理 工大学联合完成。 在多模态学习蓬勃发展的当下,视觉 tokenizer 作为连接视觉信息与下游任务的关键桥梁,其性能优劣直接决定了多模态模型的表现。然而,传统的视觉 tokenization 方法存在一个致命缺陷:视觉 tokenizer 的优化与下游任务的训练是相互割裂的。 这种分离式的训练范式假设视觉 tokens 能够在不同任务间无缝通用,但现实情况是,为低级重建任务优化的视觉 tokenizer 往往难以满足诸如图像生成、 视觉问答等需要丰富语义表示的下游任务需求,导致下游任务的性能受限。 针对这一亟待解决的问题,我们提出了 ETT(End-to-End Vision Tokenizer Tuning),一种全新的端到端视觉 tokenizer 调优方法。 ETT 的核心架构与训练策略 ETT 创新性地实现了视觉 tokenization 与目标自回归任务的联合优化,打破了传统方法中视觉 tokenizer 一旦训练完成便固定的常规,充分释放了 ...