Workflow
多模态大模型
icon
搜索文档
ICML 2025 | 长视频理解新SOTA!蚂蚁&人大开源ViLAMP-7B,单卡可处理3小时视频
机器之心· 2025-05-12 17:06
该工作第一作者为中国人民大学高瓴人工智能学院硕士生程传奇, 目前于蚂蚁技术研究院实习,其主要研究领域为多模态大模型,蚂蚁技术研究院副研究员关健 为共同第一作者。 在视觉语言模型(Vision-Language Models,VLMs)取得突破性进展的当下,长视频理解的挑战显得愈发重要。以标准 24 帧率的标清视频为例,仅需数分钟即可 产生逾百万的视觉 token,这已远超主流大语言模型 4K-128K 的上下文处理极限。当面对影视级的长视频内容时,传统解决方案的不足愈加凸显:粗放式的帧采样 策略往往造成关键帧信息遗漏,而特征融合方法虽能降低数据维度,却不可避免地导致语义完整性受损。 近日, 蚂蚁和人大 的研究团队带来了一个创新性的解决方案。他们提出视觉语言大模型 ViLAMP (Video-Language Model with Mixed Precision),实现了对超长 视频的高效处理。这个方法的核心在于其独特的 " 混合精度 " 策略:对视频中的关键内容保持高精度分析,而对次要内容进行强力压缩,就像人类在观看视频时会 重点关注关键场景,而对过渡时空信息只做快速扫描一样。 论文标题:Scaling Vi ...
云从科技“从容多模态大模型”全球领先,与华为昇腾合作推动解决方案落地
快讯· 2025-05-12 13:48
技术突破 - 云从科技自主研发的"从容多模态大模型"在Open Compass评测中以65.5分位列全球前三,超越谷歌Gemini1.5Pro等模型 [1] - 该模型在跨模态跟踪、3D人脸识别等细分领域10次刷新世界纪录 [1] 商业应用 - 公司与华为昇腾联合推出智用一体机解决方案 [1] - 解决方案已在天津港智慧物流调度、国网山东能源管理等多个标杆项目中落地 [1] - 技术应用助力企业运营效率提升超20% [1]
冯诺依曼研究院成立深港科技合作再添AI范式
21世纪经济报道· 2025-05-09 17:45
研究院成立与定位 - 香港科技大学成立冯诺依曼研究院,整合具身智能、生成式AI及先进超级运算等技术,推动跨学科协作 [1] - 研究院由计算机视觉与AI领域知名专家贾佳亚领衔,他是思谋集团创始人 [1] - 研究院定位为大湾区首个"全链条实战型"AI研究院,聚焦五大前沿领域:具身智能、多模态大模型、可信人工智能、虚实融合空间、医疗AI应用 [2] - 研究院突破传统高校纯学术模式,通过专业实验室、校企联合攻关等机制,实现从论文到产品的快速跨越 [2] 战略目标与产学研合作 - 香港特区政府推行"AI+"策略,目标是将AI融入各行各业 [1] - 研究院将成为开拓AI应用场景与推动研究成果商业化的平台 [1] - 思谋集团与科大成立研究院,实践了与港投公司签订的战略合作协议,包括产学研合作和人才培育 [1] - 研究院期望通过探索AI创新与应用,孵化更多独角兽,构建更完善的AI生态圈 [1] 研究方向与技术重点 - 研究院聚焦五大AI关键领域:新一代多模态AI系统、增强AI逻辑推理能力、机器人智能技术、AI驱动的3D理解与生成、大模型改革医疗保健服务 [2] - 思谋科技深度融合"AI大脑+全栈机器人"技术,已成为AI独角兽企业 [2] - 思谋科技服务近300家全球大型制造业企业 [2] 人才培养计划 - 研究院启动"AI探索者:人工智能学校教育计划",构建覆盖全港的青少年科创培养体系 [3] - 计划将培训超100名博士生,为香港储备AI新生代力量 [3] - 通过科普讲座、开放实验室、特色课程等举措培养人才 [3] 深港协同与产业落地 - 香港发挥国际资本、高校科研和全球人才优势,深圳依托制造业集群和供应链体系 [4] - 思谋科技构建"创新策源+产业落地"的双向赋能体系,总部在香港,研发中心和工厂在深圳 [5] - 深港协同实现"上午算法调试,下午部署测试,当晚样品生产"的高效机制 [5] - 思谋工业智能体已在特斯拉、比亚迪等300家工厂实现24小时无间断作业,操作精度达0.01mm级 [4]
KuaiMod来了!快手用大模型重构短视频生态格局
机器之心· 2025-05-09 12:19
机器之心发布 机器之心编辑部 在短视频成为亿万用户日常生活标配的当下,它不仅是一种娱乐方式,更是人们获取信息、表达观点、构建社交的主要媒介。 随着内容量的井喷式增长, 平台面临着前所未有的挑战:一方面,需要更高效地识别和管理内容;另一方面,必须精准地将优质内容推送给真正感兴趣的用户。 大模型技术,尤其是多模态大模型,正迅速成为人工智能领域的新引擎,具备强大的图文音视频理解能力。但在短视频生态这一复杂、高速演化的场景中, 如何将这些技术真正落地,仍是一道难解的行业命题。 作为国内领先的短视频社区,快手对利用多模态大模型重塑短视频生态做出了尝试,提出了基于多模态大模型的短视频平台生态优化和综合用户体验 改善方案,并在实际部署中取得了显著的成效。这一创新举措不仅为短视频平台的健康发展提供了新的思路,也为行业树立了标杆。 基于多模态大模型的短视频生态优化方案 低质内容广泛存在于各个媒体平台,识别和过滤这些内容是改善用户体验和平台生态的重要环节。但传统视频质量判别方案高度依赖静态规则和标注人员判 别,造成了高昂的判断成本,且难以适应用户反感内容的动态性,现有的自动化质量判别方案主要通过关键词匹配和大语言模型的提示工程( ...
(经济观察)业界人士热议:文旅行业将率先拥抱人工智能
中国新闻网· 2025-05-08 23:09
中新社上海5月8日电 (记者郑莹莹)上海徐汇区"AI+文旅生态成长计划"8日在模速空间内启动。参与活动 的业界人士认为,对于拥抱人工智能技术,文旅行业更具包容度。 "工业等领域的应用场景需要非常高的准确率,但文旅场景对于这类新科技的包容度是比较高的。比 如,机器人表演有时还会摔跤,对此大家其实是能包容的。"上海魂伴科技有限责任公司(简称:魂伴科 技)合伙人金成思说。他认为,文旅场景有望率先实现人工智能应用落地。 魂伴科技在2025年4月举办的2025上海龙华庙会上展示人形机器人应用。 中新社记者郑莹莹摄 魂伴科技在今年4月举办的2025上海龙华庙会上"秀"了一把机器人,吸引了沪上众多市民游客围观。这 对金成思触动很大:"当时机器人的表演其实并没有往日视频里酷炫,但市民游客仍觉得比在网络视频 里看到的更好、更真实,现场有些老年市民看到现实版人形机器人后,还期待它未来能帮忙养老。" 这让他思考,也许更重要的是让更多市民有机会了解、接触机器人。"我们要让机器人产品从实验室里 走到广场上,了解市民的需求,哪怕让机器人出洋相。如此,我们才能知道我们差的是什么。" 上海稀宇科技有限公司的公共事务副总裁严奕骏也看好文旅领域 ...
国泰海通|电子:从“能动”到“灵动”,机器人智能化步入新篇章
投资建议。 人形机器人高速发展,具身智能是驱动商业化落地的核心因素。机器人智能水平以及实时控制 性能提升将驱动感知性能、算力、通信效率等需求增长,端侧传感、驱控及通信芯片将充分受益。具身智 能落地打开人形机器人成长空间,未来应用前景广阔,带动整机厂商业绩上行。 报告导读: 具身智能是人形机器人商业化落地核心,多模态、强化学习加速智能进化,感 知传感迭代革新, EtherCAT 赋能高速通信,端侧算力持续升级。 本文摘自:2025年5月8日发布的 从"能动"到"灵动",机器人智能化步入新篇章 舒 迪 ,资格证书编号: S0880521070002 更多国泰海通研究和服务 亦可联系对口销售获取 重要提醒 本订阅号所载内容仅面向国泰海通证券研究服务签约客户。因本资料暂时无法设置访问限制,根据《证 券期货投资者适当性管理办法》的要求,若您并非国泰海通证券研究服务签约客户,为保证服务质量、 控制投资风险,还请取消关注,请勿订阅、接收或使用本订阅号中的任何信息。我们对由此给您造成的 不便表示诚挚歉意,非常感谢您的理解与配合!如有任何疑问,敬请按照文末联系方式与我们联系。 法律声明 市 场空间超万亿,实现具身智能是商业化落 ...
国泰海通:具身智能驱动人形机器人商业化落地 算法突破等成行业上涨催化剂
智通财经网· 2025-05-08 15:56
行业前景 - 具身智能是人形机器人商业化落地核心因素 驱动感知性能、算力、通信效率等需求增长 [1] - 人形机器人潜在应用场景覆盖生产制造、社会服务、危险作业等领域 对人类社会适配性高 [1] - 2024-2028年中国人形机器人智能水平整体处于Lv1 少部分产品向Lv2探索 市场规模不足百亿元 [1] - 2045年以后中国人形机器人市场规模有望突破万亿元 [1] 技术发展 - 多模态大模型提高人机交互效率 英伟达GR00T、特斯拉Grok3整合多模态感知 提升交互及决策精度 [2] - 优必选基于DeepSeek-R1研发具身推理大模型 预期可实现复杂环境中准确高效反应和决策 [2] - 强化学习成为运动算法主要范式 基于奖励函数实现步态、奔跑等运动高效学习并增强泛化能力 [2] - 纯视觉+六维力传感器+电子皮肤有望成为传感器标准方案 显著降低硬件成本并提高感知灵敏度 [2] 基础设施 - EtherCAT具备高实时性、低延迟与高同步性 通信延迟由CAN协议的毫秒级降至微秒级 预计成为主流通信协议 [2] - 机器人智能向具身智能演进 端侧算力需求持续增长 驱动端侧芯片性能升级 [2]
【行业前瞻】2025-2030年全球及中国多模态大模型行业发展分析
搜狐财经· 2025-05-07 11:45
多模态大模型行业概述 - 多模态大模型能够处理、理解和生成多种类型数据(如文本、图像、音频、视频等),通过跨模态语义对齐实现不同模态数据的无缝连接和理解 [1] - 应用领域包括自然语言处理、图像识别、语音识别、智能驾驶、医疗影像诊断等 [1] - 行业主要上市公司包括阿里巴巴、百度、腾讯、科大讯飞、万兴科技、三六零、昆仑万维、云从科技、拓尔思等 [1] 多模态大模型产业链 - 产业链分为基础层、模型层和应用层 [1] - 基础层主要包括硬件和基础软件 [1] - 模型层包括CLIP、BLIP、BLIP-2、dreamLLM、LLaMA、LLaVA、flamingo、mini-GPT4等 [1] - 应用层涵盖生产制造、生活娱乐、公共服务等领域 [1] 多模态大模型产品成本 - 国内主流大模型训练成本在数千万至数亿美元级别,百度文心、阿里通义、腾讯混元等大厂模型投入超2亿美元 [3] - 创业公司如Kimi、DeepSeek训练成本在3000-6000万美元之间 [3] - 云托管成本受模型规模影响显著,大厂依托自有云平台降低成本,初创公司依赖多云弹性部署 [3] - 具体成本示例:盘古大模型训练成本≥1亿美元,文心大模型≥3亿美元,混元大模型≈2.5亿美元,通义大模型≥2亿美元 [5] 全球多模态大模型行业发展历程 - 早期探索期(1956年-2005年):人工智能学科诞生,神经网络模型开始发展 [6] - 快速成长期(2006年-2019年):深度学习概念被重新引入,Transformer等模型推动行业进步 [6] - 大模型兴起期(2020年-2022年):参数规模迅速扩大,2022年被视为大模型元年 [6] - 广泛应用期(2023年至今):大模型在各领域深度应用不断拓展 [6] 全球大模型算力需求 - 人工智能依赖"强算法、高算力、大数据"支持,模型大小和参数量直接影响智能涌现质量 [9] - GPT-3大模型训练参数量为1750亿,算力消耗为3640PF-days,需要至少1万片GPU支撑 [9] - 模型参数扩大十倍时,算力投入将超过十倍 [9]
【投资视角】启示2025:中国多模态大模型行业投融资及产业基金分析(附投融资事件、投资类型和兼并重组等)
前瞻网· 2025-05-06 16:08
多模态大模型行业投融资概况 - 行业核心公司包括阿里巴巴、百度、腾讯、科大讯飞、三六零、云从科技等[1] - 2025年投融资呈现爆发式增长,前4个月投融事件17件,金额达16亿元,超过2024年全年11件/5.16亿元的水平[1] - 2021年曾出现单笔高峰,5件事件融资金额达19.1亿元[1] 投融资事件明细 - 2025年代表性融资案例:爱芯元智C轮10亿元(宁波通商基金领投)、红熊AI天使轮1800万元、海豚智能种子轮数千万元[4] - 2024年大额融资包括:百川智能A2轮28.24亿元(阿里巴巴等参投)、月之暗面股权投资3亿美元(腾讯领投)、MiniMax股权投资6亿美元[6] - 早期融资占比达60%,种子轮至B+轮为主流,典型如云梧智能Pre-A轮数千万元、原力灵机天使轮2亿元[4][7] 投资主体与地域分布 - PE/VC占投资主体58.3%,企业投资者占27.8%,CVC仅2.6%(含百度风投、美团龙珠等)[8] - 北京吸纳50%投资案例,深圳占10%,上海占8%,宁波/三亚/苏州因营商环境优势吸引部分项目[10] - 主要投资机构包括宁波通商基金(管理规模超900亿元)、中关村协同基金(规模50亿元)、两江基金(556亿元)等[13][15] 行业发展趋势 - 技术处于萌芽期,融合文本/图像/语音等多数据类型,应用场景覆盖办公、教育、企业管理等领域[16] - 投资方重点关注商业化路径清晰度与垂直行业应用能力,偏好"投新投早投小"策略[17][18] - 国资背景机构(如中关村投资集团)与科技巨头(阿里/腾讯)构成主要资本力量[17]
多模态技术爆发元年,行业应用如何落地?
AI前线· 2025-05-06 12:25
作者 | AICon 全球人工智能开发与应用大会 策划 | 李忠良 编辑 | 宇琪 近年来,多模态大模型技术发展迅速,展现出强大的视觉理解能力,显著提升了 AIGC 的可控 性,各行各业正经历从"人工密集型"到"AI 原生驱动"的颠覆性变革。那么,多模态技术中面临哪 些核心技术挑战?在 AIGC 技术落地过程中,会产生什么新的应用场景?大模型的下一阶段突破 可能来自哪些方向? 近日 InfoQ《极客有约》X AICon 直播栏目特别邀请了 上海交通大学人工智能学院副教授赵波担任主 持人,和快手快意多模态模型算法负责人高欢、腾讯混元专家研究员邵帅一起,在 AICon 全球人工智 能开发与应用大会 2025 上海站即将召开之际,共同探讨多模态大模型如何开启智能交互新篇章。 部分精彩观点如下: 在 5 月 23-24 日将于上海举办的 AICon全球人工智能开发与应用大会 先训练一个大模型,再用它来蒸馏小模型或减少推理步数,比直接训练小模型或低步数模型效果 更好。 现阶段,比起通用模型,针对特定业务场景定制化的垂直领域模型仍是更优选择。 如果单纯为了追求效果而无限制地扩大模型规模,虽然可能获得性能提升,但投入产出比 ...