Workflow
多模态大模型
icon
搜索文档
AI自发形成人类级认知!我国科技学家揭示多模态大模型涌现类人物体概念表征
环球网· 2025-06-10 10:09
研究背景与核心问题 - 人类智能核心在于对自然界物体进行概念化 不仅能识别物理特征 还能理解功能 情感价值和文化意义[1] - 研究探讨大语言模型是否能从语言和多模态数据中发展出类似人类的物体概念表征系统[1] 研究方法与设计 - 研究采用创新范式 结合计算建模 行为实验与脑科学方法[2] - 使用认知心理学经典"三选一异类识别任务" 要求模型与人类从1854种日常概念的三元组中选出最不相似选项[2] - 通过分析470万次行为判断数据构建AI大模型的"概念地图"[2] 研究发现与维度提取 - 从海量大模型行为数据中提取出66个高度可解释的"心智维度" 并为这些维度赋予语义标签[2] - 这些维度与大脑类别选择区域(如FFA PPA EBA)的神经活动模式显著相关[2] 模型性能比较 - 多模态大模型(Gemini_Pro_Vision Qwen2_VL)在行为选择模式上与人类一致性表现更优[3] - 人类决策更倾向于结合视觉特征和语义信息 而大模型更依赖语义标签和抽象概念[3] 研究结论与意义 - 研究证实多模态大语言模型能够自发形成与人类高度相似的物体概念表征系统[1][3] - 表明大语言模型并非"随机鹦鹉" 其内部存在类似人类对现实世界概念的理解[3] 研究成果发表 - 相关研究成果以Human-like object concept representations emerge naturally in multimodal large language models为题发表于《自然·机器智能》期刊[3]
生数科技CEO骆怡航:从模型到生产,多模态AI如何推动视频创作更高效
硬AI· 2025-06-09 22:07
多模态大模型行业趋势 - 多模态大模型正处于规模化生产落地的关键拐点,技术迭代迅速,行业需求旺盛[1][5][6] - 视频生成技术需同时满足优质内容、百倍效率提升和成本大幅降低三大条件才能实现规模化落地[1][7][9] - 行业痛点包括传统内容生产周期长、成本高、专业软件依赖性强,多模态大模型可显著改善这些问题[7][9] 生数科技战略与产品布局 - 公司聚焦多模态生成领域,当前以视频生成为核心,未来将拓展至3D叙事空间等方向[3][9] - 目标覆盖8大行业(如互联网广告、动漫、电商等)和30大场景,已服务2000+企业客户[11][22] - 产品矩阵包括Vidu系列模型(1.5/2.0/Q1)及SaaS/MaaS平台,支持移动端和API接入[10][11] 技术突破与产品迭代 - Vidu 2.0实现5秒极速生成,Q1版本新增高清/首尾帧/动漫支持,并优化音效生成能力[3][11] - 模型能力持续升级:1.5版本提升多主体一致性,Q1版本在文生/图生领域登顶国内外榜单[10][13] - 全球覆盖200+国家和地区,拥有3000万创作者用户,日活跃用户生成数百万次创意内容[11][12] 商业化进展与案例 - 专业创作占比增长300%,企业客户增长150%,严格场景(广告/动漫/电商)应用占比达80%[4][22] - 典型案例包括:与飞鹤合作品牌广告(成本效率显著提升)、索尼电影水墨风宣传片(成本节省90%)[18][20] - 创作者案例:动漫作品《观察者悖论》观看量达300万次,效率较传统方式提升10倍[14][16] 行业应用价值 - 赋能内容生产全流程:从个人创作者(如60岁作家视频化著作)到企业级批量生产(飞书API集成)[16][18] - 在影视/广告领域实现突破:好莱坞动画工作室采用AI工作流,十天完成传统需一个月的预告片制作[20][21] - 核心价值主张:生产效率需提升百倍,生产成本需降至传统方式的1%以下以推动行业变革[7][9][22]
我国科学家研究揭示多模态大模型概念表征机制
新华社· 2025-06-09 17:32
研究核心发现 - 多模态大语言模型首次被证实能够自发形成与人类高度相似的物体概念表征系统 [1] - 该研究为人工智能认知科学提供了新路径,并为构建类人认知结构的人工智能系统提供了理论框架 [1] - 研究揭示了多模态大模型在行为选择模式上与人类的一致性方面表现更优 [2] 研究方法与过程 - 研究团队从认知神经科学经典理论出发,设计了一套融合计算建模、行为实验与脑科学的创新范式 [1] - 团队构建了人工智能大模型的"概念地图",并从海量大模型行为数据中提取出66个高度可解释的"心智维度" [2] - 研究发现这些维度与大脑类别选择区域的神经活动模式显著相关 [2] 人类与AI概念表征差异 - 人类能够对物体进行概念化,理解其物理特征、功能、情感价值和文化意义等多维度信息 [1] - 人类在做决策时更倾向于结合视觉特征和语义信息进行判断,而大模型则倾向于依赖语义标签和抽象概念 [2] - 当前人工智能的物体识别与人类对物体本质的理解仍有区别 [1]
为什么浮亏似海深,浮盈一口闷?
格隆汇· 2025-06-09 09:34
上周道指见证历史,首次突破4万点,周涨1.24%。纳斯达克指数周涨2.1%再创新高,标普500周涨1.5%再创新高。科技股多数走高,微软涨1.5%,苹果涨 3.7%,英伟达涨2.9%均连涨4周。大摩看好AI服务器成吸金利器,戴尔周涨12.6%,超微电脑周涨11.2%。你不觉得奇怪么?作为美股的对冲盘,港股居然也 是不跌反升。说明这一轮推动港股上涨的避险资金更多是来自其他新兴市场。恒生科技周涨3.79%,比美股好,连恒生指数都涨了3.11%,也比美股好。说 明什么?学霸从95分提高到98分要付出不懈努力,学渣从25分提高到30分没那么难,多蒙对两道选择题就有了。 从桥水和高瓴的持仓变动看,未见美资大幅加仓中国资产的动作。高瓴旗下HHLR一季度第一重仓股仍为拼多多,建仓AMD,同时减仓百度、阿里巴巴, 贝壳和京东。桥水一季度加仓谷歌、英伟达、苹果、Meta、亚马逊,减仓拼多多。 就算缺乏美资的祝福,港股还是涨起来了,而且恒生指数的涨幅还不小,这应该和预期取消红利税有关。对于一些长期资金,他们的耐心能跨越股价的周期 波动,股息率才是关键参数。同样一只股票,来港股买就能有折让,获得更多的股息率,不香吗?上周,香港交易 ...
聚焦多模态:ChatGPT时刻未到,2025大模型“变慢”了吗
北京商报· 2025-06-08 21:27
多模态大模型技术发展 - 智源研究院发布原生多模态世界模型Emu3 实现文本、图像、视频任意组合理解与生成 通过单一模型捕捉世界规律[1] - Emu3采用原生多模态训练路径 在模型初始阶段即纳入文字、图像、声音等模态数据 区别于先强语言后多模态的传统路径[3] - 当前多模态模型技术路线未收敛 视频生成能力处于GPT-2到GPT-3过渡阶段 与产业预期存在显著差距[1][5] 视频生成技术现状 - 视频生成领域存在叙事性、稳定性、可控性三大挑战 目前无法满足影视级专业内容制作需求[6] - Sora展现高质量视频生成潜力 但DiT训练方案存在可扩展性问题 类似2018年BERT模型的技术瓶颈[5] - 行业专家认为视频生成技术仍处早期 相当于语言模型的GPT-2阶段 尚未迎来"ChatGPT时刻"[5][6] 商业化应用进展 - 多模态模型商业化面临两大挑战:技术能力与市场需求未完全统一 成本收益比尚未达到临界点[7] - 智象未来商业模式持续迭代 从PaaS模型服务(2023)到SaaS工具(2024) 再到直接交付结果(2025)[8] - 全球多模态AI市场规模2024年达24亿美元 预计2025年将快速增长至1280亿美元 年复合增长率62.3%[8] 行业竞争格局 - 2024年大模型行业关键词为价格战 2025年转向应用多元化 表面发展"变慢"实为技术沉淀期[1] - 传统CV模型应用成熟 多模态模型需在视觉理解能力和泛化能力提升后 才能替代现有解决方案[7] - 企业技术路线差异明显 智源采用原生多模态训练 其他厂商多采用语言优先的渐进式路径[3]
多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距
量子位· 2025-06-07 13:02
多模态大模型视觉推理能力评测 - 核心观点:多模态大模型在细粒度视觉理解与空间推理任务中存在明显瓶颈,特别是处理高分辨率交通图时表现不佳[2][6] - 西湖大学等团队推出首个高分辨率交通图评测基准ReasonMap,聚焦结构化空间信息理解[3][5] ReasonMap基准设计特点 - 高分辨率挑战:测试图像平均分辨率达5839×5449,远超现有视觉任务标准[10] - 难度感知设计:为图像设置难度标签并均衡分布问答对[11] - 多维度评估体系:除准确性外还评估路径合理性、换乘策略等[12] - 半自动化标注流程:支持题目难度调控和多样化问题模板,覆盖单线直达、多线换乘等场景[13] 模型性能表现 - 闭源模型显著领先:GPT-o3在短/长问题中加权准确率达63.02%/59.11%,远超开源模型Qwen2.5-VL-72B的26.65%/24.22%[17] - 城市差异明显:北京、杭州地铁图难度最高,测试样本分别达40/39个[9] - 强化学习模型优势:经过RL训练的闭源模型在路径规划正确性上比通用模型高15-20个百分点[15][17] 技术突破方向 - 视觉编码能力:高分辨率图像处理仍是技术瓶颈,开源模型平均准确率不足30%[6][17] - 跨线路推理:模型普遍存在视觉混淆和站点遗漏问题,尤其在多线换乘场景[6][18] - 真实场景适配:当前模型与人类思维模式存在差距,需优化空间关系理解[12][19] 行业影响 - 评测标准革新:ReasonMap成为判断模型视觉-空间推理能力的核心基准工具[19] - 技术路线分化:闭源体系通过强化学习后训练建立显著优势,开源生态需突破计算效率瓶颈[15][17] - 应用场景拓展:该研究为自动驾驶、机器人导航等需要复杂空间推理的领域提供评估框架[5][13]
预见 2025:《2025 年中国多模态大模型行业全景图谱》(附市场现状、竞争格局和发展趋势等)
搜狐财经· 2025-06-06 22:09
产业概况 - 多模态指集成和处理两种或以上不同类型信息或数据的技术,涉及文本、图像、视频、音频和传感器数据,旨在提升任务性能、用户体验和数据分析结果 [1] - 多模态大型语言模型(MLLMs)结合大型语言模型(LLMs)的自然语言处理能力与其他模态数据的理解与生成能力,提供更丰富的交互体验 [1] 产业链剖析 - 产业链分为基础层(硬件和基础软件)、模型层(CLIP、BLIP等模型)和应用层(生产制造、生活娱乐、公共服务等领域) [3] - 上游硬件参与者包括英特尔、英伟达,基础软件参与者有华为、腾讯等;中游模型层参与者包括OpenAI、Meta、阿里、百度等;下游应用层参与者包括用友网络、京东、阿里巴巴等 [3] 行业发展历程 - 中国多模态大模型行业依托政府支持、企业投入和学术力量,从基础研究到产业应用全面发展,未来有望从“追赶”到“引领”全球技术发展 [3] 行业政策背景 - 政策支持包括资金支持、简化流程、建立共享资源数据库等,旨在提升自主研发能力和科技成果转化效率 [4] - 具体政策包括《新一代人工智能示范应用场景的通知》(2022年8月)、《虚拟现实与行业应用融合发展行动计划》(2022年10月)等,涵盖算力资源调度、伦理规范、标准体系建设等 [4] 行业发展现状 - 国内大模型企业需完成《互联网信息服务深度合成管理规定》或《生成式人工智能服务管理暂行办法》备案 [6][7] - 截至2025年4月,国内已有327个生成式AI大模型通过备案,227个完成登记 [8] - 早期商业模式为SaaS和PaaS模式,现主流为MaaS模式(模型即服务),通过API提供服务 [9] - 收费模式以token计价和订阅模式为主,价格差异较大 [10] - 2023年人工智能核心产业规模达5000亿元,大模型市场规模132.3亿元,同比增长110%;2024年大模型市场规模预计205亿元,多模态占比22%,市场规模45.1亿元 [11][14] 行业竞争格局 - 全国327个大模型通过备案,北京、上海、广东分别通过105、66、39个,京沪粤浙苏占比近80% [14] - 百度处于领先地位,算力能级与排名呈正相关,第一梯队算力能级为第四梯队两倍 [16] 产业发展前景 - 多模态大模型将成为未来发展重点,技术渗透率持续提高,预计2030年市场规模达969亿元,复合增速超65% [18][19]
上海AI实验室造出首个「通才」机器人大脑:看懂世界+空间推理+精准操控全拿下
量子位· 2025-06-05 13:00
核心观点 - 上海人工智能实验室联合多家单位提出全新通用具身智能大脑框架VeBrain,集成视觉感知、空间推理和机器人控制能力,实现多模态大模型对物理实体的直接操控[1] - VeBrain在视觉感知、空间推理和机器人控制能力上同时取得最先进性能,相比现有框架平均提升31.5%[4][17] - 模型通过统一语言建模范式、机器人适配器模块和高质量数据集VeBrain-600k实现三大能力协同[2][9][10] 技术架构创新 - 将机器人控制重构为关键点检测和技能识别两个通用MLLM子任务,实现统一输入输出空间[5][6][7] - 机器人适配器模块由点追踪器、运动控制器、策略执行器和动态接管组成,实现文本到动作的闭环控制[9][13] - 提出多模态链式思维标注方法,提升模型组合推理能力[2][10] 数据集构建 - 构建VeBrain-600k数据集,包含60万条指令数据,覆盖多模态理解(20万条)、空间推理(31.2万条)和机器人控制(8.8万条)三类任务[10][14] - 数据采用GPT-4o与Gemini自动生成推理过程并经专家复核,提升任务复杂度[10] 性能表现 多模态能力 - 在13个多模态benchmark上平均得分77.1,超越GPT-4o(76.5)和Qwen2.5-VL(76.9)[19] - 在MMVet(+5.6%)、DocVQA(94.4分)等任务表现突出[19] 空间推理能力 - 在ScanQA(CIDEr 101.5)和ScanRefer(Acc@0.25 66.4%)刷新纪录,超越专业模型GPT4Scene-HDM[20][21] - VSI基准测试平均得分86.4,比Qwen2.5-VL高出44.3%[22] 机器人控制 - 在复杂寻找任务成功率80%,相比现有MLLM提升70%[16] - 四足机器人长程任务成功率提升50%,机械臂任务表现显著优于π0模型[24]
单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
量子位· 2025-06-04 13:21
核心观点 - 国产开源模型Video-XL-2在长视频理解领域取得突破性进展,支持单张显卡处理万帧视频输入,编码2048帧视频仅需12秒 [1][9][24] - Video-XL-2在效果、长度、速度三方面全面超越上一代Video-XL,达到开源轻量级模型的SOTA水平 [3][9][15] - 模型采用四阶段渐进式训练和双粒度KV解码等创新技术,显著提升计算效率和显存利用率 [8][11][13] 技术架构 - 核心组件包括视觉编码器SigLIP-SO400M、动态Token合成模块DTS和大语言模型Qwen2.5-Instruct,实现跨模态对齐与语义推理 [4][6] - 视觉编码器逐帧处理视频,DTS模块融合时序特征,最终通过MLP映射至文本嵌入空间 [6] 性能突破 - 评测表现:在MLVU(74.9)、VideoMME(66.8)、LVBench(48.6)、Charades-STA(73.0)等基准超越720亿参数大模型 [17][18] - 处理长度:单张80GB显卡支持万帧视频输入,24GB显卡支持千帧处理 [19][23] - 运算效率:2048帧视频预填充仅12秒,时间与帧数呈线性增长关系 [24][26] 应用场景 - 适用于影视内容分析、监控异常检测(如肢体冲突识别)、剧情问答等复杂视频理解任务 [28][30][32] - 示例显示模型可准确回答细节问题(如"红色电话"识别)和宏观事件判断(如"顾客与店员冲突") [30][32] 资源开放 - 模型权重、技术报告及代码已在Hugging Face和GitHub平台开源 [33]
本周日不见不散!CVPR 2025北京论文分享会最后报名了
机器之心· 2025-06-03 16:57
AI视频生成技术 - 谷歌发布新一代AI视频生成模型Veo 3 首次实现音画同步 被评价为不亚于OpenAI Sora的跨时代产品 标志着AI视频进入"有声时代" [1] - 视频生成领域从无声进化到有声 多模态领域向理解与生成大一统方向演进 [2] CVPR 2025论文分享会 - 会议将于6月8日在北京举办 聚焦多模态和视频生成等热门主题 邀请顶级专家和论文作者交流 [2] - CVPR 2025共收到13008份论文投稿 接收2878篇 整体接收率22.1% [2] - 设置Keynote、论文分享、圆桌对话、Poster交流等环节 全日程和嘉宾信息已公布 [2][4][10][12][14] 论文分享环节 - 腾讯混元高级算法研究员周子翔分享《Multi-modal driven human animations》[4] - 阿里巴巴高德地图算法专家熊峰分享《HumanRig: Learning Automatic Rigging for Humanoid Character》[4] - 北京大学博士生张霖分享《OmniManip: Towards General Robotic Manipulation》[4] - 中科院张泽锋分享《Debiasing Multimodal Large Language Models》[4] - 国防科技大学唐熠杰分享《OnlineAnySeg: Online Zero-Shot 3D Segmentation》[4] Keynote演讲 - 中科院计算所高林研究员分享基于混合表达与生成模型的可视媒体合成与编辑方法 涵盖高斯泼溅技术进展和视频生成模型应用 [10][12] - 北航黄雷副教授从表征和学习视角探讨多模态大模型的统一建模 介绍课题组在统一建模方面的研究进展 [14] 圆桌讨论 - 主题为"迈向理解与生成统一的多模态大模型" 邀请北航黄雷、BIGAI黄思远、Sand.AI张拯三位专家参与 [16][20][22][24] 合作伙伴计划 - 腾讯青云计划聚焦AI大模型等十大技术领域 提供高薪和核心业务机会 [27] - 京东TGT计划面向青年技术人才 聚焦多模态大模型与应用等前沿课题 提供三导师培养机制 [28]