多模态大模型
搜索文档
成为具身智能“大脑”,多模态世界模型需要具备哪些能力?丨ToB产业观察
钛媒体APP· 2025-11-05 12:01
多模态大模型技术突破 - 北京智源研究院发布悟界·Emu3 5多模态世界大模型,参数量达34B,训练数据包含790年视频时长,通过自研DiDA技术将推理速度提升20倍,并验证了“Next-State Prediction”范式 [2] - 模型采用原生统一架构,基于单一Transformer和自回归架构实现多模态理解与生成的原生统一,避免了组合式架构导致的模态间信息损耗和性能折损问题 [3] - 组合式架构模型在处理长视频时文本理解准确率显著下降,视觉生成的时空一致性受损,在跨模态任务中逻辑断裂率高达28%,而原生统一架构模型仅为9% [3] 市场规模与增长 - 2024年中国多模态大模型市场规模达138 5亿元,同比增长67 3%,预计2025年攀升至236 8亿元 [2] - 2025年全球多模态大模型市场规模预计突破4200亿元人民币,中国市场占比达35%,成为全球第二大单体市场 [2] - 2024年中国具身智能市场规模达8634亿元,同比增长65%,预计2025年突破9731亿元,其中多模态技术贡献了约42%的增长动力 [6] 数据挑战与解决方案 - 高质量多模态数据获取成本极高,2024年有68%的初创企业因数据成本放弃自主训练,模型难以从碎片化的互联网数据中学习深层物理规律和因果逻辑 [4] - Emu3 5突破的关键在于大规模使用长视频数据,如纪录片和教学视频,这些数据包含丰富的上下文和连贯的叙事逻辑,是模型学习世界运作的绝佳教材 [4] - 医疗、金融等领域的多模态数据包含隐私信息,企业在应用模型赋能过程中因担心合规问题不敢大规模训练 [4] 性能效率平衡与应用瓶颈 - 模型性能提升往往以牺牲效率为代价,2024年前主流模型生成5秒视频平均耗时超3秒,组合式架构模型在手机端生成3D模型的响应延迟达1 2秒,无法满足实时交互需求 [5] - Emu3 5的发布验证了多模态Scaling Law,成为继语言预训练、后训练推理之后的“第三范式” [5] 具身智能应用 - 多模态大模型为具身智能提供“大脑”,推动机器人从“机械执行”向“自主决策”进化,解决智能无限可能性与物理硬件及数据极端匮乏的核心矛盾 [6] - Emu3 5的“Next-State Prediction”能力使智能体具备物理直觉,能在执行动作前模拟不同行动方案的后果,从而在动态真实环境中做出更安全高效的决策 [7][8] - 采用统一模型端到端处理“感知-认知-行动”完整回路,可取代模块化设计,降低高级机器人技能开发门槛,加速具身智能在工业分拣、仓储物流等场景的应用 [8] 行业应用案例 - 在医疗领域,多模态大模型融合到医学影像技术中实现疾病早期发现与精准治疗,某县医院部署后疑难病例诊断准确率从68%提升至89%,患者外转率下降41% [9] - 智能诊疗系统通过分析患者影像、基因图谱、治疗史等多模态数据生成定制化治疗方案,测试显示采用个性化方案的患者中位生存期延长6 8个月,治疗副作用发生率降低34% [10] - 系统使用涵盖12万患者的多中心数据集,包含45万份影像、18万份病历与9万条基因序列,通过自监督学习掌握治疗手段与患者反应的关联规律 [10]
多模态大模型理解物理工具吗?PhysToolBench提出了衡量多模态大模型对物理工具理解的基准
机器之心· 2025-11-04 16:52
研究背景与目标 - 多模态大模型在具身智能任务规划和动作执行方面潜力巨大,但其是否真正理解物理工具的运作原理缺乏统一量化评估[2] - 研究团队提出PhysToolBench基准,旨在系统衡量多模态大模型对物理工具的理解能力,该能力被划分为“认识”、“理解”、“创造”三个等级[2] - 该基准测试了32个最新的多模态大模型,涵盖闭源商用、开源、具身智能专用及VLA模型的VLM主干四大类别[3] 评估框架设计 - PhysToolBench以视觉问答形式构建,包含1000+图文配对数据集,文字部分为任务描述,图片代表机器人观察到的包含各种工具的环境[5] - 评估体系分为三个难度层级:Easy级要求模型识别工具及其主要功能;Medium级要求理解工具运作原理,并细分为工具属性、组合工具和工具可用性三个子类;Hard级则考验模型根据任务需求反推并创造工具的能力[7][8] 主要实验结果 - 在总体表现上,闭源商用模型领先,开源模型紧随其后,且模型规模与性能呈正相关[11][13] - 表现最佳的模型为GPT-5,总体得分仅为62.15%,在M3难度和Hard难度下得分普遍低于50%,与人类最佳表现(93.19%)和最差表现(87.85%)差距显著[11][13] - 专用于具身智能场景的模型(如Robobrain2、Embodied-R1)相较于其基础模型(如Qwen-2.5-VL)并未展现出领先优势,表明相关训练数据集中工具使用内容仍较欠缺[11][14] - 用于VLA模型中的VLM主干模型表现普遍不佳,总体得分大多低于20%,显示其物理工具理解能力不足以支撑更高阶复杂任务[11][16] 模型能力深度分析 - 模型对工具的识别与理解存在长尾效应,尤其对某些电子设备的识别与理解欠佳[18] - 模型对工具“是否可用”的理解极差,在设置工具损坏“陷阱”的M3难度中,多数模型未能识别,其总得分甚至低于Hard难度,揭示模型理解仅停留在死记硬背层面,存在安全隐患[18] - 思维链推理能带来性能提升,但在M3和Hard难度下,纯文本推理存在瓶颈,模型难以捕捉视觉模态中的关键信息[19][20] - 采用以视觉为中心的推理框架,通过目标识别等工具放大观察关键工具并进行额外推理,可显著提升M3难度准确率(例如GPT-5结合VCR后,M3得分从36.75%提升至54.81%),但整体水平仍不理想[19][20] 行业意义与方向 - PhysToolBench基准揭示了当前多模态大模型在物理工具理解方面的主要短板,为行业发展指明了方向[22] - 理解、运用和创造复杂物理工具的能力,是迈向通用智能体的关键步骤,也是下一代多模态大模型需要重点提升的能力[22]
摆脱微软依赖:OpenAI与亚马逊云服务达成380亿美元算力采购协议
环球网· 2025-11-04 10:45
【环球网科技综合报道】11月4日消息,据外媒报道,OpenAI已与亚马逊云服务(AWS)签署一项总额 高达380亿美元的算力资源采购协议。这一合作被视为其减少对微软依赖、构建多元化技术生态的重要 战略举措。 来源:环球网 根据协议内容,OpenAI将立即启动在AWS基础设施上的工作负载部署,初期将依托美国地区数十万台 英伟达高性能图形处理器(GPU)构建算力集群,并计划在未来数年内持续扩大资源规模,以满足其不 断增长的模型训练与推理需求。 作为估值已突破5000亿美元的AI独角兽,OpenAI此前长期与微软保持深度合作,后者不仅是其核心投 资者,还通过Azure云平台为其提供算力支持。然而,此次与AWS的签约被业界视为OpenAI"去单一 化"的关键信号。 OpenAI在声明中透露,初期部署的英伟达GPU集群将重点支持其多模态大模型研发及实时推理服务, 而后续扩容计划则暗示了该公司对AI技术商业化落地的雄心。随着自动驾驶、机器人、医疗诊断等高 算力需求场景的拓展,全球AI产业对基础设施的依赖度将持续攀升,此次合作或成为行业资源整合的 新范式。(青山) ...
当还在纠结研究方向的时候!别的同学已经CCF-A了......
具身智能之心· 2025-11-04 08:05
还在为论文选题抓耳挠腮?还不知道怎么入门和选择哪个赛道? 在具身这个新型领域,很多小白不知道如何下手,选择强化学习还是vla?传统slam还是vln?哪些方向需要 较大算力,哪些不需要? 除此之外,什么样的本体适合自己研究,预算不够怎么办?仿真可以吗? 别慌!具身智能之心的科研辅导正式推出了,资深导师团队在线 "救援",解决你的论文烦恼。 论文辅导上线了 【具身智能之心论文辅导重磅上线!多模态大模型/VLA/强化学习/VLN/遥操作/数采/机器人仿 真/real2sim2real/端到端/diffusion等顶会方向1V1定制化辅导】 辅导区间 CCF-A到CCF-C SCI一区到四区 EI/中文核心/毕业论文/申博等 ✅ 全流程闭环辅导:从选题创新点挖掘→实验设计→代码调试→论文写作→投稿策略,助你快速产出高质 量成果。 ✅ 工业界/学术界双视角:不仅发论文,更关注落地价值。 欢迎咨询 现在前10名咨询的同学,能免费匹配专属导师!来和导师进行深度 Meeting,根据你的研究方向、学术基 础,一对一深入分析,给出最适合你的会议、期刊选投建议! 更多详细内容欢迎添加微信进一步交流:AIDriver005,开启 ...
大模型如何准确读懂图表?微软亚研院教它“看、动手、推理”
量子位· 2025-11-03 11:12
文章核心观点 - PixelCraft系统通过高保真图像处理与非线性多智能体推理两大支柱,系统性提升结构化图像理解的准确性、鲁棒性与可解释性 [2] - 该系统在多个图表与几何基准上给出一致的性能增益,解决了传统多模态大模型在结构化图像上因细小感知误差导致推理偏差的痛点 [1][2][33] 结构化图像理解的挑战与PixelCraft的解决方案 - 结构化图像将信息编码进坐标、数据点、连线与数值标注,要求模型在像素级细节上建立可验证的符号化抽象,而传统方法难以满足此要求 [3] - 传统视觉链式思考流程受制于低保真图像处理和简单线性处理链条,在复杂真实问题中效果有限 [4] - PixelCraft将问题拆解为高保真图像处理确保“看准”,以及非线性多智能体推理实现灵活“思考” [5] PixelCraft系统架构与工作流 - 系统由调度器、规划器、推理器、视觉评审与规划评审以及一组视觉工具代理构成,形成多智能体协作框架 [7] - 工作流围绕“工具选择→协作讨论与回溯→自我审查与再规划”展开,规划器利用图像记忆支持选择性回看与分支探索 [7][21] - 视觉评审负责在环质量控制,规划评审负责事后复盘,必要时触发再规划,提升系统稳定性 [20][24] 高保真图像处理技术细节 - 基于微调后的像素级grounding模型,将目标区域文本指代精准映射到像素级坐标区域 [10] - 通过自动生成-标准化-调用的闭环形成工具库,工具代理可执行裁切、放大、按图例遮挡、辅助线标注等标准化CV操作 [10][11][12] - 微调后的grounding模型在各项指标上显著超越基线模型,例如子图区域IoU从0.27提升至0.99,整体指标从0.10提升至0.93 [15][16] 非线性多智能体推理机制 - 采用讨论式工作流,规划器根据上下文动态选择下一角色及输入,支持角色间传递中间结果和回溯 [19][21] - 与线性链式思考相比,该机制允许主动回看早期证据、尝试备选分支和修订假设,尤其适用于易出错的结构化图像场景 [22][28] 实验性能与验证结果 - 在三个图表理解基准上均取得显著提升:在GPT-4o基座上,CharXiv提升5.6个百分点至55.2,ChartQAPro提升6.32个百分点至58.83,EvoChart提升7.60个百分点至70.24 [23][24] - 在GPT-4.1-mini基座上,三个基准分别提升9.5、7.71和8.16个百分点;在Claude-3.7-sonnet基座上分别提升6.8、6.99和6.32个百分点 [24] - 消融实验证实可靠的图像编辑、在环校验和事后复盘共同支撑系统稳定性,全系统配置在ChartQAPro上达到65.56的最高分 [25]
2025大脑具身智能落地的关键
搜狐财经· 2025-11-02 08:45
文章核心观点 - 具身智能正成为科技领域新焦点,其核心载体是人形机器人,而机器人的“大脑”系统是决定行业发展速度的关键 [1] - 机器人大脑以AI大模型为核心,需整合传感器数据、物理规律和硬件限制,技术研发难度高于通用大模型 [2] - 行业技术路线呈现多元化探索,包括大脑+小脑分层、端到端VLA和世界模型等,目前尚未形成统一标准 [2][3] - 全球参与者分为三类:专业机器人大脑公司、通用大模型企业和机器人本体自研厂商,形成差异化竞争格局 [4][5] - 当前限制人形机器人规模化应用的核心瓶颈是模型本身而非数据,技术临界点预计在未来1-5年内到来 [5] - 机器人大脑研发面临数据获取难、训练复杂度高、通用泛化能力不足等核心挑战 [6] - 尽管存在挑战,特斯拉Optimus、Figure AI等企业的技术突破正推动行业从“机械执行”向“自主思考”迈进 [7] 机器人大脑的定义和能力 - 人形机器人由大脑、小脑和肢体三部分构成:大脑作为决策中枢基于AI大模型进行自主判断,小脑专注运动控制精准性,肢体负责环境感知和执行动作 [1][14] - 大脑系统需具备实时交互能力,能通过语言、手势等方式与人类进行多轮任务级交互,快速理解并执行指令 [15] - 需要强大的多模态感知能力,整合视觉、听觉、触觉等多种感官信息,实现对环境的全面理解 [16] - 必须具备自主可靠决策能力,能够理解复杂任务并将其分解为可执行的子任务序列 [19] - 应具备涌现和泛化能力,能够在未见过的新环境中适应未知情况,展现出创新性解决方案 [19] - 与通用大模型有本质区别,机器人大脑必须解决物理世界的现实问题,考虑硬件限制和动力学规律 [2][19] 人形机器人大模型技术路线 - 大脑+小脑分层路线是相对成熟的主流方向,大脑由多模态大模型担任任务规划和流程理解,小脑专注于运动控制的精准执行 [2][20] - 端到端VLA技术路线采用单一模型直接从感知到动作,灵活性强但目前更适合短时间简单任务,复杂长程任务仍有局限 [3][20] - 世界模型路线是最前沿探索方向,旨在建立对物理世界的认知地图,通过预测未来状态优化动作,但因物理规则复杂仍处于早期阶段 [3][20] - 类脑智能通过对人脑生物结构进行直接模拟,未来有望成为代替大模型的新技术路线 [20][22] - 脑机接口技术建立人脑与外部设备连接通路,未来可能实现“人+机”混合智能的解决方案 [22] 行业竞争格局 - 专业机器人大脑公司包括北京通用人工智能研究院(通研院)、美国的Physical Intelligence和Skild AI等,专注为机器人公司进行AI赋能 [4][25] - 通用大模型企业如谷歌、OpenAI、字节跳动等尝试将自身大模型能力延伸至机器人领域,拥有海量数据和成熟架构但对物理世界理解需加强 [4][25] - 机器人企业自主研发以特斯拉为代表,Optimus采用与自动驾驶同源的单一基础模型架构,实现从感知到行动的端到端自主决策 [5][25] - 国内智元机器人已实现通用具身机器人量产,并推出自己的基座模型,能通过人类操作视频快速学习新技能 [5] 研发瓶颈与挑战 - 模型本身是限制人形机器人规模化应用的最大阻碍,行业发展阶段类似ChatGPT发布前1-3年,临界点预计在未来1-5年内到来 [5][27] - 数据获取困难,机器人大脑需要的是与物理世界交互的“行为数据”,采集成本高且不同机器人硬件导致数据格式不统一 [6][28] - 真实数据被称为“黄金数据”但采集成本高,仿真数据虽能大规模生成但难以还原真实世界的复杂物理交互 [6][28] - 训练难度大,机器人与物体的物理接触会让问题复杂度呈指数级上升,需要同时考虑重力、摩擦力等多重参数 [6][29] - 通用泛化能力不足,如何让模型在未见过的场景中自主应对问题仍是行业需要突破的核心难题 [6][29] 代表性厂商技术进展 - 特斯拉Optimus采用与FSD自动驾驶同源的单一基础模型架构,整合xAI的Grok模型提升逻辑推理能力,复杂指令准确率达92%以上 [32][33] - Figure AI自主研发Helix模型,是全球首个能对整个人形机器人上半身进行高频率连续控制的VLA模型,实现多机器人协同作业效率提升4倍以上 [34][36] - Physical Intelligence聚焦家用场景,其π0.5模型能让机器人在陌生厨房自主完成清理,并能从其他机器人那里学习动作经验 [4] - 通研院推出“通智大脑”系统,联合多家机器人企业成立联盟,推动技术与硬件的适配 [4]
A股计算机视觉第一股格灵深瞳业绩持续承压,前三季亏损过亿
南方都市报· 2025-10-30 20:08
财务表现 - 2025年第三季度归属母公司股东净亏损4748.79万元,扣非后归母净亏损5107.75万元 [1] - 2025年前三季度累计净亏损1.27亿元,较2024年同期的1.38亿元亏损略有收窄 [1] - 2025年第三季度营业收入5175.61万元,同比增长453.28%,但低于2021年至2023年同期约7000万元的水平 [1] - 2025年第三季度经营活动产生的现金流量净额为净流出6256.45万元 [3] 业务运营与客户结构 - 公司技术涵盖计算机视觉、多模态大模型、大数据分析和机器人,应用领域包括智慧金融、城市管理、政务及特种、智慧教育 [3] - 智慧金融和特种领域客户集中度较高,受宏观经济影响,智慧金融客户预算收紧,需求放缓 [3] - 2024年第一大客户中国农业银行贡献了年营收的44.44% [3] - 2025年前三季度,来自农业银行以外的其他客户营收占比近90%,公司与中国农业银行的框架合同已于2025年9月到期 [3] 研发投入与项目 - 研发重点投向多模态大模型技术与应用开发项目(预计投资3.68亿元)和智慧能源农场项目(预计投资5058万元) [4] - 智慧能源农场项目始于2023年,已完成全自动微藻培养系统开发并实现智能算法控制的技术验证 [4] - 2025年上半年研发人员数量从2024年同期的318人减少至227人 [5] - 研发人员平均薪酬从2024年上半年的18.97万元降至2025年上半年的17.89万元 [5] 公司治理 - 公司实际控制人为赵勇,其创办公司前曾担任谷歌总部研究院资深研究员 [6]
2023年中国AI医疗器械行业调研简报:Q1:全球监管政策有哪些关键突破?对行业有何影响?-20251029
头豹研究院· 2025-10-29 20:03
行业投资评级 - 报告未明确给出行业投资评级 [1] 核心观点 - 全球AI医疗器械监管在2025年呈现趋严但路径明晰的突破性进展,形成“严监管+促创新”的平衡模式,倒逼企业构建全周期质控体系 [4] - 中国AI医疗器械行业正从“算法突破”阶段快速过渡到“场景深耕与合规运营”阶段,获批产品遵循“小切口、可验证、强合规”策略 [12][13] - 2025年AI医疗器械投资生态正从快速扩张转向精耕细作,资本更注重项目的成熟度和实际效益,市场进入高质量发展阶段 [18][19] - AI医疗器械技术正从辅助工具向核心诊疗手段演进,多模态大模型底座构建、生成式AI全链条渗透和人机协同范式升级成为突破性进展 [24][25] 全球监管政策关键突破 - 欧盟于2025年7月批准首款基于大型语言模型的临床决策系统获得CE认证(IIb类),为生成式AI医疗器械设立全新标杆,要求建立全程数据可追溯体系等 [4][7] - 中国国家药监局发布新举措,明确简化AI算法优化产品的变更注册流程,将AI影像产品平均审批时间从24个月压缩至14个月,缩短40% [4][7] - 美国FDA通过《预设变更控制计划》构建动态监管框架,允许AI模型在保障安全前提下持续迭代 [4][7] - 监管路径明晰化促使全球Top20医疗器械企业全部建立AI模型风险评估部门,合规成本占研发总投入比例从2023年的18%上升至27% [4] 2025年中国AI医疗器械获批产品特征 - 截至2025年5月末,国家药监局共批准11款AI医疗器械取得三类证,覆盖影像、手术规划及辅助诊断三大场景 [12] - 获批产品呈现“细分病种、影像主导、临床强提示”的集中特征,适应症高度聚焦于冠脉钙化、头颈血管、肺栓塞等九大解剖部位 [12] - 企业类型呈现“北京-长三角-珠三角”三极分布,区域创新集群效应明显 [12] - 技术路径以深度学习+规则后处理为主,产品形态全部为独立软件,强调与指定型号影像设备的适配性 [12] 2025年AI医疗器械投资趋势 - 投资热度维持相对活跃,但整体节奏较此前略有放缓,资本关注点从概念验证转向对实际应用场景的深度挖掘 [18] - 单笔投资规模呈现上升趋势,反映出资本更注重企业的核心竞争力和可持续发展能力 [18] - 医疗影像分析、智能手术辅助以及个性化健康管理等与临床需求紧密结合的技术方向成为资本布局重点 [18] 2025年AI医疗器械突破性技术进展 - 多模态大模型底座加速构建,形成“基础大模型-领域专用模型-临床微调模型”的三级架构,支持跨模态数据深度融合 [22][24] - 生成式AI全链条渗透至预防、诊断、治疗、康复全流程,AI系统可实时生成个性化诊疗路径建议 [22][24] - 人机协同范式升级,AI承担医疗机构50%以上的标准化工作,并通过“虚拟标准化病人”系统提升住院医师培训效率 [22][25]
海康威视(002415.SZ):中心存储产品,是公司存储业务核心产品之一
格隆汇· 2025-10-28 15:33
公司产品与技术 - 中心存储产品是公司存储业务核心产品之一 [1] - 公司将自然语言与视频图像多模态大模型引入中心级高性能存储 [1] - 公司推出文搜CVR存储产品 在存储数据的同时实现海量视图数据的多模态大模型建模 [1] 产品功能与优势 - 文搜CVR存储产品让数据变得可理解 可用自然语言进行相关目标和事件的检索 [1] - 该产品大幅提升在海量录像中查找目标的效率 [1]
自动驾驶春秋的终点
自动驾驶之心· 2025-10-28 08:03
行业竞争格局演变 - 自动驾驶行业正从类似“春秋”的争霸阶段转向类似“战国”的生死存亡阶段,竞争目标从迫使对方承认转变为彻底的兼并和统一 [2] - 竞争已不再是梯队间的排位赛,而是一场生死之战,输家将失去持续研发的资格与资源,最终只有头部玩家能够存活壮大 [3] - 第二梯队及之后的参与者难逃被整合或淘汰的命运 [3] 技术路线分化 - 随着主流厂商掌握BEV、Occ等基础感知能力,行业为寻求突围而探索差异化技术路线,导致技术路径呈现显著分化 [4] - 在传感器选择上,部分团队放弃LiDAR转向纯视觉方案;在地图使用上,分化出众包地图方案和强感知的无图方向 [4] - 规控层面出现时空联合规划算法取代传统分离式算法,并探索端到端设计及“两段式端到端”过渡方案 [4] - 多模态大模型、可微分渲染、强化学习等新技术被寄望于破解长尾场景难题和带来数据生成新可能 [4] 技术成熟度与市场现状 - 尽管新技术名词层出不穷,但实际成熟度尚待打磨,用户体验提升进入平缓期,系统仍受限于大量规则代码与兜底策略 [5] - 高阶智驾功能随供应商方案成熟开始下放至更多入门车型,技术光环褪去,行业竞争回归以价格战为核心的贴身肉搏 [6] - 供应商方案仅需少量对接人员即可提供一线智驾能力,对自研能力未达第一梯队的车企而言,切换供应商是降本甚至提升产品力之举 [6] 数据驱动与行业瓶颈 - 自动驾驶技术陷入平台期的核心原因在于数据驱动的新方案未完全成熟,系统仍严重依赖规则算法,而规则系统的性能天花板已被探明 [7] - Tesla FSD V14的技术分享表明,大量丰富的真实世界数据仍是提升自动驾驶AI水平最关键的要素,仿真数据在细节真实性和丰富多样性上均不及真实数据 [7] - 行业突破瓶颈的关键在于减轻对规则算法的依赖,转向数据驱动范式,否则无法将自动驾驶体验再提高一个台阶 [9]