Workflow
多模态大模型
icon
搜索文档
成为具身智能“大脑”,多模态世界模型需要具备哪些能力?丨ToB产业观察
钛媒体APP· 2025-11-05 12:01
当前多模态技术最大痛点在于实现真正的原生统一。主流方案中约60%的模型采用 "组合式架构"——通 过独立模块处理不同模态,再通过跨模态注意力机制交互。这种方式存在致命缺陷:模态间信息传递损 耗导致性能折损,且新增模态训练会干扰既有能力。对此,智源研究院院长王仲远告诉笔者,组合式模 型处理长视频时,文本理解准确率下降很多,视觉生成的时空一致性受损,而更严峻的是,这种架构难 以支撑复杂推理。 CSDN在今年对5款主流模型的评测显示,采用组合式架构的 Llama 3在"图文+语音"跨模态任务中,逻 辑断裂率高达28%,远高于采用原生统一架构的豆包V5.2(9%)。 日前,北京智源研究院发布悟界·Emu3.5多模态世界大模型,这款参数量达34B、训练数据包含790年视 频时长的模型,不仅通过自研 DiDA技术将推理速度提升20倍,更以"Next-State Prediction"范式验证了 多模态模型的世界建模能力。 这一突破并非孤立事件,而是全球技术演进的缩影:2024年中国多模态大模型市场规模已达138.5亿 元,同比增长67.3%,2025年预计攀升至236.8亿元。 与此同时,中国多模态大模型产业发展也在世界 ...
多模态大模型理解物理工具吗?PhysToolBench提出了衡量多模态大模型对物理工具理解的基准
机器之心· 2025-11-04 16:52
人类之所以能与复杂的物理世界高效互动,很大程度上源于对「工具」的使用、理解与创造能力。对任何通用型智能体而言,这同样是不可或缺的基本技能,对 物理工具的使用会大大影响任务的成功率与效率。 尽管当下的多模态大模型在具身智能的高层任务规划以及低层动作执行方面都展现出很大的潜力,但它们是否真正「懂」物理工具、理解其运作原理,仍缺乏统 一的量化评估。 为此,来自香港科技大学(广州)、香港科技大学等研究机构的团队提出了 PhysToolBench ,一个衡量多模态大模型对物理工具的理解的基准。PhysToolBench 把 对物理工具的理解分为了三个等级,分别为「认识」工具、「理解」工具、「创造」工具。 PhysToolBench 介绍 机器人执行任务的一般逻辑是,机器人会收到 任务指令 ,并进行 环境观察 ,随后再做出任务规划或者一级动作执行。因此,PhysToolBench 以视觉问答 (VQA) 的 形式,设计了包含 1000+ 图文配对的数据集,其中文字部分是 任务描述 ,图片是一个包含了各种工具的图片,代表了机器人观察到的 环境 ,模型被要求观察图 片,回答应该使用的工具 (当判断没有工具可用时可以回答 No ...
摆脱微软依赖:OpenAI与亚马逊云服务达成380亿美元算力采购协议
环球网· 2025-11-04 10:45
【环球网科技综合报道】11月4日消息,据外媒报道,OpenAI已与亚马逊云服务(AWS)签署一项总额 高达380亿美元的算力资源采购协议。这一合作被视为其减少对微软依赖、构建多元化技术生态的重要 战略举措。 来源:环球网 根据协议内容,OpenAI将立即启动在AWS基础设施上的工作负载部署,初期将依托美国地区数十万台 英伟达高性能图形处理器(GPU)构建算力集群,并计划在未来数年内持续扩大资源规模,以满足其不 断增长的模型训练与推理需求。 作为估值已突破5000亿美元的AI独角兽,OpenAI此前长期与微软保持深度合作,后者不仅是其核心投 资者,还通过Azure云平台为其提供算力支持。然而,此次与AWS的签约被业界视为OpenAI"去单一 化"的关键信号。 OpenAI在声明中透露,初期部署的英伟达GPU集群将重点支持其多模态大模型研发及实时推理服务, 而后续扩容计划则暗示了该公司对AI技术商业化落地的雄心。随着自动驾驶、机器人、医疗诊断等高 算力需求场景的拓展,全球AI产业对基础设施的依赖度将持续攀升,此次合作或成为行业资源整合的 新范式。(青山) ...
当还在纠结研究方向的时候!别的同学已经CCF-A了......
具身智能之心· 2025-11-04 08:05
还在为论文选题抓耳挠腮?还不知道怎么入门和选择哪个赛道? 在具身这个新型领域,很多小白不知道如何下手,选择强化学习还是vla?传统slam还是vln?哪些方向需要 较大算力,哪些不需要? 除此之外,什么样的本体适合自己研究,预算不够怎么办?仿真可以吗? 别慌!具身智能之心的科研辅导正式推出了,资深导师团队在线 "救援",解决你的论文烦恼。 论文辅导上线了 【具身智能之心论文辅导重磅上线!多模态大模型/VLA/强化学习/VLN/遥操作/数采/机器人仿 真/real2sim2real/端到端/diffusion等顶会方向1V1定制化辅导】 辅导区间 CCF-A到CCF-C SCI一区到四区 EI/中文核心/毕业论文/申博等 ✅ 全流程闭环辅导:从选题创新点挖掘→实验设计→代码调试→论文写作→投稿策略,助你快速产出高质 量成果。 ✅ 工业界/学术界双视角:不仅发论文,更关注落地价值。 欢迎咨询 现在前10名咨询的同学,能免费匹配专属导师!来和导师进行深度 Meeting,根据你的研究方向、学术基 础,一对一深入分析,给出最适合你的会议、期刊选投建议! 更多详细内容欢迎添加微信进一步交流:AIDriver005,开启 ...
大模型如何准确读懂图表?微软亚研院教它“看、动手、推理”
量子位· 2025-11-03 11:12
文章核心观点 - PixelCraft系统通过高保真图像处理与非线性多智能体推理两大支柱,系统性提升结构化图像理解的准确性、鲁棒性与可解释性 [2] - 该系统在多个图表与几何基准上给出一致的性能增益,解决了传统多模态大模型在结构化图像上因细小感知误差导致推理偏差的痛点 [1][2][33] 结构化图像理解的挑战与PixelCraft的解决方案 - 结构化图像将信息编码进坐标、数据点、连线与数值标注,要求模型在像素级细节上建立可验证的符号化抽象,而传统方法难以满足此要求 [3] - 传统视觉链式思考流程受制于低保真图像处理和简单线性处理链条,在复杂真实问题中效果有限 [4] - PixelCraft将问题拆解为高保真图像处理确保“看准”,以及非线性多智能体推理实现灵活“思考” [5] PixelCraft系统架构与工作流 - 系统由调度器、规划器、推理器、视觉评审与规划评审以及一组视觉工具代理构成,形成多智能体协作框架 [7] - 工作流围绕“工具选择→协作讨论与回溯→自我审查与再规划”展开,规划器利用图像记忆支持选择性回看与分支探索 [7][21] - 视觉评审负责在环质量控制,规划评审负责事后复盘,必要时触发再规划,提升系统稳定性 [20][24] 高保真图像处理技术细节 - 基于微调后的像素级grounding模型,将目标区域文本指代精准映射到像素级坐标区域 [10] - 通过自动生成-标准化-调用的闭环形成工具库,工具代理可执行裁切、放大、按图例遮挡、辅助线标注等标准化CV操作 [10][11][12] - 微调后的grounding模型在各项指标上显著超越基线模型,例如子图区域IoU从0.27提升至0.99,整体指标从0.10提升至0.93 [15][16] 非线性多智能体推理机制 - 采用讨论式工作流,规划器根据上下文动态选择下一角色及输入,支持角色间传递中间结果和回溯 [19][21] - 与线性链式思考相比,该机制允许主动回看早期证据、尝试备选分支和修订假设,尤其适用于易出错的结构化图像场景 [22][28] 实验性能与验证结果 - 在三个图表理解基准上均取得显著提升:在GPT-4o基座上,CharXiv提升5.6个百分点至55.2,ChartQAPro提升6.32个百分点至58.83,EvoChart提升7.60个百分点至70.24 [23][24] - 在GPT-4.1-mini基座上,三个基准分别提升9.5、7.71和8.16个百分点;在Claude-3.7-sonnet基座上分别提升6.8、6.99和6.32个百分点 [24] - 消融实验证实可靠的图像编辑、在环校验和事后复盘共同支撑系统稳定性,全系统配置在ChartQAPro上达到65.56的最高分 [25]
2025大脑具身智能落地的关键
搜狐财经· 2025-11-02 08:45
文章核心观点 - 具身智能正成为科技领域新焦点,其核心载体是人形机器人,而机器人的“大脑”系统是决定行业发展速度的关键 [1] - 机器人大脑以AI大模型为核心,需整合传感器数据、物理规律和硬件限制,技术研发难度高于通用大模型 [2] - 行业技术路线呈现多元化探索,包括大脑+小脑分层、端到端VLA和世界模型等,目前尚未形成统一标准 [2][3] - 全球参与者分为三类:专业机器人大脑公司、通用大模型企业和机器人本体自研厂商,形成差异化竞争格局 [4][5] - 当前限制人形机器人规模化应用的核心瓶颈是模型本身而非数据,技术临界点预计在未来1-5年内到来 [5] - 机器人大脑研发面临数据获取难、训练复杂度高、通用泛化能力不足等核心挑战 [6] - 尽管存在挑战,特斯拉Optimus、Figure AI等企业的技术突破正推动行业从“机械执行”向“自主思考”迈进 [7] 机器人大脑的定义和能力 - 人形机器人由大脑、小脑和肢体三部分构成:大脑作为决策中枢基于AI大模型进行自主判断,小脑专注运动控制精准性,肢体负责环境感知和执行动作 [1][14] - 大脑系统需具备实时交互能力,能通过语言、手势等方式与人类进行多轮任务级交互,快速理解并执行指令 [15] - 需要强大的多模态感知能力,整合视觉、听觉、触觉等多种感官信息,实现对环境的全面理解 [16] - 必须具备自主可靠决策能力,能够理解复杂任务并将其分解为可执行的子任务序列 [19] - 应具备涌现和泛化能力,能够在未见过的新环境中适应未知情况,展现出创新性解决方案 [19] - 与通用大模型有本质区别,机器人大脑必须解决物理世界的现实问题,考虑硬件限制和动力学规律 [2][19] 人形机器人大模型技术路线 - 大脑+小脑分层路线是相对成熟的主流方向,大脑由多模态大模型担任任务规划和流程理解,小脑专注于运动控制的精准执行 [2][20] - 端到端VLA技术路线采用单一模型直接从感知到动作,灵活性强但目前更适合短时间简单任务,复杂长程任务仍有局限 [3][20] - 世界模型路线是最前沿探索方向,旨在建立对物理世界的认知地图,通过预测未来状态优化动作,但因物理规则复杂仍处于早期阶段 [3][20] - 类脑智能通过对人脑生物结构进行直接模拟,未来有望成为代替大模型的新技术路线 [20][22] - 脑机接口技术建立人脑与外部设备连接通路,未来可能实现“人+机”混合智能的解决方案 [22] 行业竞争格局 - 专业机器人大脑公司包括北京通用人工智能研究院(通研院)、美国的Physical Intelligence和Skild AI等,专注为机器人公司进行AI赋能 [4][25] - 通用大模型企业如谷歌、OpenAI、字节跳动等尝试将自身大模型能力延伸至机器人领域,拥有海量数据和成熟架构但对物理世界理解需加强 [4][25] - 机器人企业自主研发以特斯拉为代表,Optimus采用与自动驾驶同源的单一基础模型架构,实现从感知到行动的端到端自主决策 [5][25] - 国内智元机器人已实现通用具身机器人量产,并推出自己的基座模型,能通过人类操作视频快速学习新技能 [5] 研发瓶颈与挑战 - 模型本身是限制人形机器人规模化应用的最大阻碍,行业发展阶段类似ChatGPT发布前1-3年,临界点预计在未来1-5年内到来 [5][27] - 数据获取困难,机器人大脑需要的是与物理世界交互的“行为数据”,采集成本高且不同机器人硬件导致数据格式不统一 [6][28] - 真实数据被称为“黄金数据”但采集成本高,仿真数据虽能大规模生成但难以还原真实世界的复杂物理交互 [6][28] - 训练难度大,机器人与物体的物理接触会让问题复杂度呈指数级上升,需要同时考虑重力、摩擦力等多重参数 [6][29] - 通用泛化能力不足,如何让模型在未见过的场景中自主应对问题仍是行业需要突破的核心难题 [6][29] 代表性厂商技术进展 - 特斯拉Optimus采用与FSD自动驾驶同源的单一基础模型架构,整合xAI的Grok模型提升逻辑推理能力,复杂指令准确率达92%以上 [32][33] - Figure AI自主研发Helix模型,是全球首个能对整个人形机器人上半身进行高频率连续控制的VLA模型,实现多机器人协同作业效率提升4倍以上 [34][36] - Physical Intelligence聚焦家用场景,其π0.5模型能让机器人在陌生厨房自主完成清理,并能从其他机器人那里学习动作经验 [4] - 通研院推出“通智大脑”系统,联合多家机器人企业成立联盟,推动技术与硬件的适配 [4]
A股计算机视觉第一股格灵深瞳业绩持续承压,前三季亏损过亿
南方都市报· 2025-10-30 20:08
10月28日,科创板"AI计算机视觉第一股"格灵深瞳(688207.SH)发布的第三季度财报显示,当季归属 母公司股东的净亏损为4748.79万元,扣除非经常性损益后归母净亏损为5107.75万元。 以归母净利润计算,今年前三季度格灵深瞳共亏损1.27亿元,较2024年同期的1.38亿元亏损仅略有收 窄,显示出公司盈利能力持续承压。 收入方面,格灵深瞳2025年第三季度营业收入5175.61万元,同比增长453.28%。增幅看似强劲,但如果 拉长时间线看,该季度营收并不算抢眼——2021年至2023年的第三季度营收均在7000万元左右,而2024 年同期暴跌至935.45万元。 2021年以来格灵深瞳每个季度的营收变化。 另外值得注意的是,格灵深瞳的研发人员规模也显著缩减。2025年上半年,格灵深瞳的研发人员从2024 年同期的318人减少至227人。研发人员平均薪酬也从18.97万元降至17.89万元。 格灵深瞳提醒,如果公司不能持续加强对原有关键技术人才的激励和保护力度,或者不能持续引进新人 才应对内部研发需要,或者在人才市场的竞争中在发展前景、薪酬、福利、工作环境、激励制度等方面 无法保持持续吸引力,则 ...
2023年中国AI医疗器械行业调研简报:Q1:全球监管政策有哪些关键突破?对行业有何影响?-20251029
头豹研究院· 2025-10-29 20:03
行业投资评级 - 报告未明确给出行业投资评级 [1] 核心观点 - 全球AI医疗器械监管在2025年呈现趋严但路径明晰的突破性进展,形成“严监管+促创新”的平衡模式,倒逼企业构建全周期质控体系 [4] - 中国AI医疗器械行业正从“算法突破”阶段快速过渡到“场景深耕与合规运营”阶段,获批产品遵循“小切口、可验证、强合规”策略 [12][13] - 2025年AI医疗器械投资生态正从快速扩张转向精耕细作,资本更注重项目的成熟度和实际效益,市场进入高质量发展阶段 [18][19] - AI医疗器械技术正从辅助工具向核心诊疗手段演进,多模态大模型底座构建、生成式AI全链条渗透和人机协同范式升级成为突破性进展 [24][25] 全球监管政策关键突破 - 欧盟于2025年7月批准首款基于大型语言模型的临床决策系统获得CE认证(IIb类),为生成式AI医疗器械设立全新标杆,要求建立全程数据可追溯体系等 [4][7] - 中国国家药监局发布新举措,明确简化AI算法优化产品的变更注册流程,将AI影像产品平均审批时间从24个月压缩至14个月,缩短40% [4][7] - 美国FDA通过《预设变更控制计划》构建动态监管框架,允许AI模型在保障安全前提下持续迭代 [4][7] - 监管路径明晰化促使全球Top20医疗器械企业全部建立AI模型风险评估部门,合规成本占研发总投入比例从2023年的18%上升至27% [4] 2025年中国AI医疗器械获批产品特征 - 截至2025年5月末,国家药监局共批准11款AI医疗器械取得三类证,覆盖影像、手术规划及辅助诊断三大场景 [12] - 获批产品呈现“细分病种、影像主导、临床强提示”的集中特征,适应症高度聚焦于冠脉钙化、头颈血管、肺栓塞等九大解剖部位 [12] - 企业类型呈现“北京-长三角-珠三角”三极分布,区域创新集群效应明显 [12] - 技术路径以深度学习+规则后处理为主,产品形态全部为独立软件,强调与指定型号影像设备的适配性 [12] 2025年AI医疗器械投资趋势 - 投资热度维持相对活跃,但整体节奏较此前略有放缓,资本关注点从概念验证转向对实际应用场景的深度挖掘 [18] - 单笔投资规模呈现上升趋势,反映出资本更注重企业的核心竞争力和可持续发展能力 [18] - 医疗影像分析、智能手术辅助以及个性化健康管理等与临床需求紧密结合的技术方向成为资本布局重点 [18] 2025年AI医疗器械突破性技术进展 - 多模态大模型底座加速构建,形成“基础大模型-领域专用模型-临床微调模型”的三级架构,支持跨模态数据深度融合 [22][24] - 生成式AI全链条渗透至预防、诊断、治疗、康复全流程,AI系统可实时生成个性化诊疗路径建议 [22][24] - 人机协同范式升级,AI承担医疗机构50%以上的标准化工作,并通过“虚拟标准化病人”系统提升住院医师培训效率 [22][25]
海康威视(002415.SZ):中心存储产品,是公司存储业务核心产品之一
格隆汇· 2025-10-28 15:33
公司产品与技术 - 中心存储产品是公司存储业务核心产品之一 [1] - 公司将自然语言与视频图像多模态大模型引入中心级高性能存储 [1] - 公司推出文搜CVR存储产品 在存储数据的同时实现海量视图数据的多模态大模型建模 [1] 产品功能与优势 - 文搜CVR存储产品让数据变得可理解 可用自然语言进行相关目标和事件的检索 [1] - 该产品大幅提升在海量录像中查找目标的效率 [1]
自动驾驶春秋的终点
自动驾驶之心· 2025-10-28 08:03
行业竞争格局演变 - 自动驾驶行业正从类似“春秋”的争霸阶段转向类似“战国”的生死存亡阶段,竞争目标从迫使对方承认转变为彻底的兼并和统一 [2] - 竞争已不再是梯队间的排位赛,而是一场生死之战,输家将失去持续研发的资格与资源,最终只有头部玩家能够存活壮大 [3] - 第二梯队及之后的参与者难逃被整合或淘汰的命运 [3] 技术路线分化 - 随着主流厂商掌握BEV、Occ等基础感知能力,行业为寻求突围而探索差异化技术路线,导致技术路径呈现显著分化 [4] - 在传感器选择上,部分团队放弃LiDAR转向纯视觉方案;在地图使用上,分化出众包地图方案和强感知的无图方向 [4] - 规控层面出现时空联合规划算法取代传统分离式算法,并探索端到端设计及“两段式端到端”过渡方案 [4] - 多模态大模型、可微分渲染、强化学习等新技术被寄望于破解长尾场景难题和带来数据生成新可能 [4] 技术成熟度与市场现状 - 尽管新技术名词层出不穷,但实际成熟度尚待打磨,用户体验提升进入平缓期,系统仍受限于大量规则代码与兜底策略 [5] - 高阶智驾功能随供应商方案成熟开始下放至更多入门车型,技术光环褪去,行业竞争回归以价格战为核心的贴身肉搏 [6] - 供应商方案仅需少量对接人员即可提供一线智驾能力,对自研能力未达第一梯队的车企而言,切换供应商是降本甚至提升产品力之举 [6] 数据驱动与行业瓶颈 - 自动驾驶技术陷入平台期的核心原因在于数据驱动的新方案未完全成熟,系统仍严重依赖规则算法,而规则系统的性能天花板已被探明 [7] - Tesla FSD V14的技术分享表明,大量丰富的真实世界数据仍是提升自动驾驶AI水平最关键的要素,仿真数据在细节真实性和丰富多样性上均不及真实数据 [7] - 行业突破瓶颈的关键在于减轻对规则算法的依赖,转向数据驱动范式,否则无法将自动驾驶体验再提高一个台阶 [9]