Workflow
多模态大模型
icon
搜索文档
线下仅200名额!CVPR 2025北京论文分享会报名开启
机器之心· 2025-05-14 16:09
以火热的「文生图」赛道为例,自回归与扩散模型的融合与优化正在引领视觉模型架构的创新。理论突破与产业落地的结合,正在推动这一领域进入新阶 段。 此外,视频生成、多模态大模型、3D 领域同样以惊人的技术迭代速度刷新着我们的认知。 2025 尚未过半,人工智能领域的新进展已经令人应接不暇。 在计算机视觉领域,生成式 AI、多模态基础模型及实际应用落地等方向都取得了显著进展。这个领域正从单一任务模型转向通用化、多模态的基础架构,同 时加速向移动端和产业场景渗透。 热点技术怎么追?前沿研究该看哪些?不妨来参加论文分享会。 全球性的顶级学术会议,从来都是领域内的「风向标」。CVPR 全称为计算机视觉与模式识别会议,是计算机视觉领域中最重要的国际会议之一。今年的 CVPR 2025 共收到 13008 份论文投稿,最终接收 2878 篇论文,整体接收率为 22.1%。 合作伙伴介绍 腾讯青云计划 腾讯青云计划聚焦 AI 大模型等十大技术领域,面向全球招募顶尖实习生和毕业生,提供上不封顶的职级薪酬、全面定制化的培养方案,并开放核心业务工 作机会、解锁前瞻性技术课题培养中国未来的科技人才。 今年腾讯将继续深度参与多场全球顶级学 ...
国泰海通:具身智能落地打开人形机器人成长空间
智通财经网· 2025-05-14 14:43
人形机器人市场前景 - 人形机器人具备与人类相似的感知方式、肢体结构及运动方式,对人类社会适配性高,潜在应用场景可覆盖生产制造、社会服务、危险作业等领域 [1] - 2024-2028年中国人形机器人智能水平整体仍处于Lv1,少部分最新产品向Lv2探索,市场规模不足百亿元 [1] - 伴随智能水平向具身智能进化,人形机器人有望突破特定场景及任务限制,实现各行业领域全面覆盖,2045年以后中国人形机器人市场规模有望突破万亿元 [1] 技术驱动因素 - 多模态大模型是提高人机交互效率、增强情景理解力的关键,目前英伟达GR00T、特斯拉Grok3大模型积极整合多模态感知,加速提升机器人交互及决策精度 [2] - 思维链赋能大模型高效推理,GPT-4.5已在一定程度上通过图灵测试,优必选基于DeepSeek-R1研发具身推理大模型,预期可实现复杂环境中的准确高效反应和决策 [2] - 运动控制算法是协调全身动作执行核心,强化学习可基于奖励函数实现步态、奔跑等运动高效学习,并增强泛化能力,有望成为运动算法主要范式 [2] 硬件与通信升级 - 纯视觉方案显著降低硬件成本,实现视觉高效感知,六维力传感器及电子皮肤可有效提高感知灵敏度,助力机器人精准理解环境信息,精确执行动作操作 [2] - 纯视觉+六维力传感器+电子皮肤未来有望成为传感器标准方案 [2] - 实时控制需要高效的通信协议及强大的硬件算力作为底层支撑,EtherCAT具备高实时性、低延迟与高同步性,通信延迟由CAN协议的毫秒级降至微秒级,预计将成为机器人主流通信协议 [2] - 伴随机器人智能向具身智能演进,端侧算力需求预计持续增长,驱动端侧芯片性能升级 [2] 推荐标的 - 峰岹科技(688279SH) [1] - 奥比中光-UW(688322SH) [1] - 创耀科技(688259SH) [1] - 华兴源创(688001SH) [1]
字节最强多模态模型登陆火山引擎!Seed1.5-VL靠20B激活参数狂揽38项SOTA
机器之心· 2025-05-14 12:36
多模态大模型Seed1.5-VL发布 - 火山引擎发布5款AI模型和产品,包括豆包・视频生成模型Seedance 1.0 lite、升级后的豆包1.5・视觉深度思考模型(Seed1.5-VL)、新版豆包・音乐模型等 [1] - Seed1.5-VL具备更强的通用多模态理解和推理能力,新增视频理解、多模态智能体能力 [3] - 模型仅需一张图和提示词就能精准识别多种元素并分类给出坐标 [4] - 在60个公开评测基准中,有38个取得SOTA表现,性能与Gemini2.5 Pro相当 [6] 模型性能表现 - 推理输入价格仅为每千tokens 0.003元,输出价格为每千tokens 0.009元 [7] - 在视觉定位测试中,10秒内精准识别货架商品并完成价格计算 [14] - 能准确识别5只"生气"的小猫并给出坐标 [17] - 10秒内解决公务员图形推理题目,展示强大视觉推理能力 [20] 技术架构创新 - 由视觉编码模块SeedViT(532M参数)、MLP适配器和基于MoE架构的Seed1.5-LLM(20B激活参数)组成 [27] - 训练分为三个阶段:初期对齐视觉语言表征、中期强化知识积累、后期加入视频等新领域数据 [29] - 采用监督微调与强化学习组合策略,整合RLHF/RLVR等先进技术 [30] - 采用多模态并行框架和局部贪心负载均衡算法优化计算效率 [31] 应用场景 - 可用于构建AI视觉助手、巡检系统、交互Agent或智能摄像头 [7] - 多模态智能体能力可识别并点击"点赞"按钮,模拟用户行为 [22] - 正在重塑与视觉世界交互的方式,拓宽通用视觉系统应用路径 [31]
线下仅200名额!CVPR 2025北京论文分享会报名开启
机器之心· 2025-05-13 17:30
此外,视频生成、多模态大模型、3D 领域同样以惊人的技术迭代速度刷新着我们的认知。 热点技术怎么追?前沿研究该看哪些?不妨来参加论文分享会。 以火热的「文生图」赛道为例,自回归与扩散模型的融合与优化正在引领视觉模型架构的创新。理论突破与产业落地的结合,正在推动这一领域进入新阶 段。 2025 尚未过半,人工智能领域的新进展已经令人应接不暇。 在计算机视觉领域,生成式 AI、多模态基础模型及实际应用落地等方向都取得了显著进展。这个领域正从单一任务模型转向通用化、多模态的基础架构,同 时加速向移动端和产业场景渗透。 全球性的顶级学术会议,从来都是领域内的「风向标」。CVPR 全称为计算机视觉与模式识别会议,是计算机视觉领域中最重要的国际会议之一。今年的 CVPR 2025 共收到 13008 份论文投稿,最终接收 2878 篇论文,整体接收率为 22.1%。 为了服务中国 AI 社区,近年来机器之心持续举办了多场 NeurIPS、CVPR、ACL 论文分享会,受到了海内外 AI 社区的极大关注,众多高校、企业都积极 参与。 2025 年 6 月 7 日,机器之心计划在北京举办「CVPR 2025 论文分享会」,广 ...
文生图进入R1时代:港中文MMLab发布T2I-R1,让AI绘画“先推理再下笔”
量子位· 2025-05-13 12:45
技术突破 - 港中文MMLab团队发布首个基于强化学习的推理增强文生图模型T2I-R1 实现"先推理后生成"的双层级CoT框架 [2][8][27] - 提出Semantic-level CoT负责图像全局结构规划 Token-level CoT专注底层视觉细节生成 解决跨模态对齐与细粒度生成难题 [10][12][16] - 创新BiCoT-GRPO强化学习方法 在单一RL步骤中协同优化语义规划与像素生成 相比分阶段训练效率更高且计算成本更低 [8][21][23] 性能表现 - T2I-R1在T2I-CompBench和WISE基准测试中分别比基线模型提升13%和19%性能 在多个子任务超越FLUX.1等先进模型 [33] - 具体指标显示:颜色绑定能力达0.8130 形状绑定0.5852 纹理绑定0.7243 空间关系0.3378 综合复杂任务处理能力0.3993 [34] - 模型通过语义推理准确理解用户意图 例如将"阿姆斯特丹所在国家栽培的花"正确推理为郁金香并生成对应图像 [15][29][31] 行业意义 - 该技术突破证明CoT推理在图像生成领域的有效性 为多模态生成任务提供新范式 可拓展至视频生成与3D内容合成 [36] - 采用多视觉专家模型集成作为奖励机制 既保障多维度质量评估 又防止模型过拟合单一奖励标准 [25][32] - 首次实现无需额外模型的端到端推理生成架构 显著降低部署复杂度 为通用智能体发展提供技术路径 [9][18][36]
ICML 2025 | 长视频理解新SOTA!蚂蚁&人大开源ViLAMP-7B,单卡可处理3小时视频
机器之心· 2025-05-12 17:06
核心观点 - 蚂蚁和人大研究团队提出视觉语言大模型ViLAMP 通过混合精度策略实现对超长视频的高效处理 在单张A100 GPU上可处理10,000帧视频 并在多个视频理解基准上全面超越现有方案[1][2][9] 技术原理 - 视频信息在时空维度均呈现稀疏性与冗余性 90%注意力仅分布在不到5%的视频帧上 50%的patch承载80%的模型注意力[7][19] - 提出差分蒸馏原则 识别并保留高查询相关性且低信息冗余的重要视频信息[8] - 采用双层混合精度架构:差分关键帧选择(DKS)实现关键帧高效识别 差分特征合并(DFM)将非关键帧压缩为单个信息量最大化的token[12][13][14] 性能表现 - 以7B参数量达到或超越部分70B量级模型表现 在Video-MME长视频子集上比现有最优模型提升4.8%[17] - 在VideoNIAH任务中处理10K帧视频保持58.15%准确率 超越VideoChat-Flash基线模型12.82%[18] - 内存消耗相比LLaMA-VID基线降低约50% 在8,192帧情况下计算量减少80%以上[20] 效率突破 - 可在单张A100 GPU上连续处理10,000帧视频 按每秒1帧计算约3小时内容[2] - DKS在长视频场景下表现明显优势 DFM相比特征融合方案在所有数据集上展现3个百分点以上性能优势[20] 应用前景 - 突破长视频处理计算瓶颈 为在线教育 视频监控 直播分析等实际应用场景带来新的可能[2][22] - 相关论文已被ICML 2025接收 提供新的研究思路和实用价值[2][22]
2025年中国多模态大模型行业生产生活应用现状 多模态大模型助力生产生活走向高品质【组图】
前瞻网· 2025-05-12 16:11
转自:前瞻产业研究院 智能营销、教学辅助、3D建模以及智能驾驶等应用场景是生产生活中的重要领域,也是目前多模态大 模型可以切入并且精准赋能的领域。根据赛迪四川研究数据显示,2024年智能营销占中国人工智能多模 态大模型20强企业模型场景的9.5%,教学辅助、3D建模和智能驾驶均占4.8%左右。 行业主要上市公司:阿里巴巴(09988.HK,BABA.US);百度(09888.HK,BIDU.US);腾讯(00700.HK, TCEHY);科大讯飞(002230.SZ);万兴科技(300624.SZ);三六零(601360.SH);昆仑万维(300418.SZ);云从科技 (688327.SH);拓尔思(300229.SZ)等 本文核心数据:应用场景比重; 多模态大模型生成生活相关场景 多模态大模型助力智能营销优化策略 智能营销行业利用人工智能、大数据、机器学习和多模态技术,通过自动化、个性化的方式优化广告投 放、客户关系管理和内容营销。智能营销不仅帮助品牌实现更高效的客户触达,还能够动态调整营销策 略,提升用户体验,推动品牌增长。 智能营销是应用人工智能技术,对数字营销的全链路进行智能化升级的新型营销方式。智 ...
云从科技“从容多模态大模型”全球领先,与华为昇腾合作推动解决方案落地
快讯· 2025-05-12 13:48
技术突破 - 云从科技自主研发的"从容多模态大模型"在Open Compass评测中以65.5分位列全球前三,超越谷歌Gemini1.5Pro等模型 [1] - 该模型在跨模态跟踪、3D人脸识别等细分领域10次刷新世界纪录 [1] 商业应用 - 公司与华为昇腾联合推出智用一体机解决方案 [1] - 解决方案已在天津港智慧物流调度、国网山东能源管理等多个标杆项目中落地 [1] - 技术应用助力企业运营效率提升超20% [1]
冯诺依曼研究院成立深港科技合作再添AI范式
21世纪经济报道· 2025-05-09 17:45
研究院成立与定位 - 香港科技大学成立冯诺依曼研究院,整合具身智能、生成式AI及先进超级运算等技术,推动跨学科协作 [1] - 研究院由计算机视觉与AI领域知名专家贾佳亚领衔,他是思谋集团创始人 [1] - 研究院定位为大湾区首个"全链条实战型"AI研究院,聚焦五大前沿领域:具身智能、多模态大模型、可信人工智能、虚实融合空间、医疗AI应用 [2] - 研究院突破传统高校纯学术模式,通过专业实验室、校企联合攻关等机制,实现从论文到产品的快速跨越 [2] 战略目标与产学研合作 - 香港特区政府推行"AI+"策略,目标是将AI融入各行各业 [1] - 研究院将成为开拓AI应用场景与推动研究成果商业化的平台 [1] - 思谋集团与科大成立研究院,实践了与港投公司签订的战略合作协议,包括产学研合作和人才培育 [1] - 研究院期望通过探索AI创新与应用,孵化更多独角兽,构建更完善的AI生态圈 [1] 研究方向与技术重点 - 研究院聚焦五大AI关键领域:新一代多模态AI系统、增强AI逻辑推理能力、机器人智能技术、AI驱动的3D理解与生成、大模型改革医疗保健服务 [2] - 思谋科技深度融合"AI大脑+全栈机器人"技术,已成为AI独角兽企业 [2] - 思谋科技服务近300家全球大型制造业企业 [2] 人才培养计划 - 研究院启动"AI探索者:人工智能学校教育计划",构建覆盖全港的青少年科创培养体系 [3] - 计划将培训超100名博士生,为香港储备AI新生代力量 [3] - 通过科普讲座、开放实验室、特色课程等举措培养人才 [3] 深港协同与产业落地 - 香港发挥国际资本、高校科研和全球人才优势,深圳依托制造业集群和供应链体系 [4] - 思谋科技构建"创新策源+产业落地"的双向赋能体系,总部在香港,研发中心和工厂在深圳 [5] - 深港协同实现"上午算法调试,下午部署测试,当晚样品生产"的高效机制 [5] - 思谋工业智能体已在特斯拉、比亚迪等300家工厂实现24小时无间断作业,操作精度达0.01mm级 [4]
KuaiMod来了!快手用大模型重构短视频生态格局
机器之心· 2025-05-09 12:19
机器之心发布 机器之心编辑部 在短视频成为亿万用户日常生活标配的当下,它不仅是一种娱乐方式,更是人们获取信息、表达观点、构建社交的主要媒介。 随着内容量的井喷式增长, 平台面临着前所未有的挑战:一方面,需要更高效地识别和管理内容;另一方面,必须精准地将优质内容推送给真正感兴趣的用户。 大模型技术,尤其是多模态大模型,正迅速成为人工智能领域的新引擎,具备强大的图文音视频理解能力。但在短视频生态这一复杂、高速演化的场景中, 如何将这些技术真正落地,仍是一道难解的行业命题。 作为国内领先的短视频社区,快手对利用多模态大模型重塑短视频生态做出了尝试,提出了基于多模态大模型的短视频平台生态优化和综合用户体验 改善方案,并在实际部署中取得了显著的成效。这一创新举措不仅为短视频平台的健康发展提供了新的思路,也为行业树立了标杆。 基于多模态大模型的短视频生态优化方案 低质内容广泛存在于各个媒体平台,识别和过滤这些内容是改善用户体验和平台生态的重要环节。但传统视频质量判别方案高度依赖静态规则和标注人员判 别,造成了高昂的判断成本,且难以适应用户反感内容的动态性,现有的自动化质量判别方案主要通过关键词匹配和大语言模型的提示工程( ...