Workflow
多模态大模型
icon
搜索文档
开源又赢闭源,商汤8B模型空间智能碾压GPT-5,AI看懂世界又进了一步
36氪· 2025-11-11 16:45
产品发布与性能表现 - 商汤正式发布并开源SenseNova-SI系列空间智能大模型,涵盖2B与8B两个参数版本 [1] - SenseNova-SI-8B模型在四大核心基准测试(VSI-Bench、MMSI-Bench、MindCube-Tiny、ViewSpatial)中获得60.99的平均成绩,大幅领先同级别开源及专注空间理解的模型,如Qwen3-VL-8B(40.16)和SpatialMLLM(35.05)[1] - 在8B参数规模下,该模型平均成绩已领先闭源模型GPT-5(49.68)与Gemini-2.5-Pro(48.81)[2] 技术突破与训练方法 - 性能提升得益于系统性的训练机制设计,公司研究团队构建了“空间能力分类体系”并扩充空间理解数据规模 [2] - 首次在空间智能领域验证了“尺度效应”,即随着数据量与质量的增长,模型的空间认知能力同步增强 [5] - 该训练方法具备通用性,能支持多种基座模型进行空间能力的增强迁移 [5] 具体能力对比与优势 - 在六道典型空间智能题目测试中,SenseNova-SI-8B全部答对,而GPT-5在俯视图判断、相对方位判断等题目上均出现误判 [6][8][10][12][15][16] - 测试题目覆盖空间智能多个关键维度,包括视角转换、物体方位与移动方向推理等,显示该模型在空间理解与推理上表现更稳定 [18] 战略整合与行业应用 - SenseNova-SI作为空间能力组件,将接入公司今年7月发布的“悟能”具身智能平台,补强模型在三维结构认知方面的基础能力 [19] - 公司同步开源了空间智能测评平台EASI,旨在统一测评口径、展示模型进展和推动开源生态合作 [19] - 空间智能是支撑具身智能与世界模型发展的核心能力,将为自动驾驶、机器人等落地应用提供更坚实的基础 [24]
十五运开幕式上人形机器人如何协作奏乐?揭秘→
人民日报· 2025-11-11 10:13
技术突破 - 人形机器人实现群体智能、多模态大模型及“类人眼”双目立体视觉感知等关键技术突破 [1] - 机器人演奏达到毫米级敲击定位精度,误差控制在2毫米以内 [1] - 三个机器人动作同步误差在10毫秒以内,并能以媲美人类乐师的稳定力度进行精准自主敲击 [1] 应用展示 - 三个代表粤港澳三地的人形机器人在第十五届全国运动会开幕式上协作演奏“青铜句鑃” [1] - 演奏乐器为出土于广州的“青铜句鑃”,最大者高64厘米重40公斤,最小者高36.8厘米重10.75公斤 [1] - 此次演示体现了人形机器人处理复杂、高精度协作任务的能力 [1]
人形机器人如何协作奏乐?(秒懂全运)
人民日报· 2025-11-11 06:15
人形机器人技术展示 - 在第十五届全国运动会开幕式上,3个人形机器人成功协作演奏古代乐器“青铜句鑃”[1] - 机器人演奏实现了毫米级的敲击定位精度,误差在2毫米内,动作同步误差在10毫秒以内[1] - 机器人能以媲美人类乐师的稳定力度进行精准自主敲击[1] 技术突破细节 - 工程师团队在群体智能、多模态大模型、“类人眼”双目立体视觉感知等人形机器人技术上取得突破[1] - 这些技术突破使得机器人能够完成对敲击位置与力度要求极高的复杂演奏任务[1] 任务挑战与设备参数 - 演奏“青铜句鑃”需精准控制敲击位置与力度,对人类乐师都颇具挑战[1] - 使用的“青铜句鑃”乐器大小不一,最大的高64厘米、重40公斤,最小的高36.8厘米、重10.75公斤[1]
139笔过亿融资,超600亿真金白银,砸向这些AI公司
36氪· 2025-11-10 14:59
整体融资概况 - 2025年1月至10月,中国AI领域共发生139笔超亿元融资,总额突破600亿元人民币 [1] - 融资流向呈现显著变化,具身智能领域融资额超越大模型 [1][6] 大模型融资 - 大模型领域头部效应明显,共完成29笔超1亿元融资,累计融资142亿元,单笔均值近5亿元 [3] - 通用大模型领域,月之暗面、智谱和MiniMax三家公司融资额均超过20亿元人民币 [3] - 多模态大模型成为投资重点,视频模型领域的生数科技、爱诗科技和SandAI,以及3D模型领域的影眸科技和VAST均获得超亿元融资 [4] - 多模态模型商业路径清晰,爱诗科技全球用户破1亿,年度收入超4000万美元;生数科技上线8个月年化收入突破2000万美元 [5] 具身智能融资 - 具身智能成为融资最热门板块,73家企业获得超过257亿元融资,笔数和总额均超过大模型 [6] - 头部公司产业化进程加速,智元机器人2025年前三季度中标金额最高,获至少1.7亿元订单涉及400台以上人形机器人 [7] - 量产能力成为核心标尺,自变量机器人预计在12月进入小规模量产,乐聚机器人已完成近15亿元Pre-IPO轮融资并启动IPO辅导 [8] AI基础设施融资 - AI芯片投资多元化,曦智科技融资15亿人民币,爱芯元智融资10亿人民币,赛道告别“唯制程论”转向技术路线多元化 [9] - 算力服务投资提速,清程极智获数亿元A+轮融资,比特智路获5亿元Pre-A融资估值25亿元 [10] - 计算基础设施头部项目获高溢价,硅基流动8个月内连获两轮亿元融资,基流科技获数亿元融资代表算力从云端走向边缘趋势 [11] AI垂直应用融资 - 医疗是AI应用最热门赛道,在15笔亿元级AI应用融资中占6笔,占比40% [14] - 联影智能获得超10亿人民币融资,其AI辅助筛查产品覆盖XR、CT等场景 [14] - AI零售和AI工业是热门应用领域,聚焦于商品图生成、门店运营、矿山无人化、设备故障检测等具体痛点 [15] - 部分垂直应用公司表现突出,未来智能AI会议耳机上市半年销量破10万台,帷幄Whale零售门店AI运营系统服务5万家门店 [16]
NeurIPS2025 Spotlight | RobustMerge: 多模态大模型高效微调模型合并的全新范式
机器之心· 2025-11-10 12:40
核心观点 - 研究团队针对参数高效微调模块合并性能不佳的问题,提出了“方向鲁棒性”概念,指出根本原因是“方向不鲁棒”而非传统认为的“符号冲突”[7][8][10] - 团队提供了一个名为RobustMerge的解决方案,该方案无需额外成本且简单高效,能显著提升PEFT模块合并性能[2][10][17] - 该方法为构建快速适应多任务、节省计算资源的AI系统提供了关键技术支持,并已在顶级会议NeurIPS 2025上被评为Spotlight论文[2][3] 问题定义与挑战 - 多模态大模型参数规模巨大,全量微调成本过高,使得参数高效微调成为主流选择[7] - LoRA等PEFT方法虽能快速适应单一任务,但缺乏将多个专家模型有效合并为通用模型的能力[7] - 传统多任务学习存在训练成本高和数据隐私两大问题,而直接将FFT时代的模型合并方法用于PEFT模块时效果显著下降[7][8] 技术原理与发现 - LoRA模块参数分布更广且奇异值存在显著差异,导致合并时尾部奇异值方向不稳定[12][14] - 头部奇异值代表任务特定知识,方向稳定;尾部奇异值代表通用知识,方向敏感易变[14][15] - 成功的PEFT合并关键在于保护低秩空间中每个奇异向量的方向,特别是奇异值较小的向量[16][17] RobustMerge方法 - 采用两阶段策略:修剪与参数互补缩放、跨任务归一化,整个过程无需训练[17][19][23] - 第一步通过修剪无效参数和参数互补缩放,自适应增强尾部奇异值方向稳定性[19][20][21][22] - 第二步通过跨任务归一化平衡不同任务缩放系数,确保泛化性能不受数据量差异影响[23][24] - 最终将调整后的PEFT模块进行加权融合,得到具备多任务知识的通用模型[25][26] 实验结果 - 在自建基准MM-MergeBench上测试,包含8个已见任务和4个未见任务[28] - 在已见任务上平均准确率相较传统方法提升3.4%,在未见任务上平均性能提升4.5%[29][31] - 在POPE、MME等通用能力基准上也取得领先结果,POPE达87.2,MME达1494.9[32][33] - 通过方向相似性和奇异值保留比率量化验证了方法能有效维持小奇异值向量的方向和幅度[35][36][38] 应用价值与前景 - 可应用于多任务模型快速部署,帮助企业将多个业务场景的LoRA模块融合为全能模型,降低服务成本[44][45] - 适用于联邦学习和持续学习场景,在保护数据隐私的前提下实现模型迭代[44][45] - 其方向鲁棒性的核心思想具有强普适性,可扩展至推荐系统、多模态数据分析等多个领域[42][43]
机器人大脑产业跟踪
2025-11-10 11:34
行业与公司 * 机器人大脑产业及人形机器人行业 [1] * 涉及公司包括特斯拉(擎天柱机器人)、高通(骁龙芯片)、以及国内机器人厂商(如银河通用)等 [10][16] 核心观点与论据 行业发展趋势 * 机器人行业重心正从传统工业机器人转向更具人形和特殊产品形态的机器人 [2] * 机器人大脑和小脑的融合概念越来越普及 [2] * 人形机器人研发与汽车智能化、电动化密切相关,许多机器人研发人员来自汽车领域,因为自动驾驶技术栈与机器人自动控制技术有延伸性 [1][2][3] 发展挑战与瓶颈 * 机器人大脑发展面临操作系统实时性和AI算法不确定性的双重挑战 [4] * AI算法(如大语言模型)存在幻觉现象,不确定性在精准控制中尤为明显 [4] * 不同场景的数据差异巨大(如家庭环境),增加了模型训练难度 [4][5][12] * 当前机器人大脑更多是特定场景下特定功能的控制系统,而非通用大脑 [10][11] * 构建大脑需要实时操作系统和足够观测算力以维持模型推理反馈速度 [10] * 算力不足是处理世界模型庞大数据集的主要困难 [9] * 中国机器人产业缺乏优秀的产品经理来定义和设计产品 [22] 不同场景的落地可行性 * 工业场景下的机器人大脑更容易落地,因为工厂项目预算较高,可支持大量数据采集、分析和训练,实现定制化 [6] * 居家养老等个人场景因预算有限且环境差异大,技术尚不成熟,预计3-5年内仍难以真正落实 [13] * 人形机器人在许多场景中优势不明显,双足机器人主要用途以展示为主,轮式机器人可能在工业生产中更适用 [17] 技术路径与进展 * 世界模型自2024年下半年受关注,其核心在于重构场景数据,但面临数据量挑战 [8][9] * 未来有望通过芯片和云端算力提升解决算力问题 [9] * 理论进展包括VLA模型、3D VLA模型以及新的语义模型(如李飞飞团队研究的空间模型) [18] * 目前AI范式没有重大突破,依然依赖大量数据,需要范式层面的突破才能显著进展 [19] * 可通过控制目标工作场景中的物品和数据量(如工业无人叉车)提高模型应用性 [13] * 通过将单一工作拆解成多个工序并由不同机器人协作完成,可以实现快速应用(如咖啡制作机器人、酒店送餐机器人) [21] 成本与产业链 * 中国机器人产业链一旦形成,成本将比美国低得多,中国拥有全世界最好的产业链建设基础 [14] * 马斯克2万美元以内的机器人部件精细度并不高 [14] * 目前国内已有几万块钱的机器人,但精度和适用场景有待考验 [14] * 智能机器人产业链尚未完全形成,全球厂商都未真正打通技术栈 [16] * 操作系统选择需在实时性(如Global公司的NX、vx)和开放性(如Linux)之间取舍 [15] * 芯片发展路径建议初期利用Global成熟芯片实现功能,稳定后再寻找国产替代方案以降低成本并应对风险 [15] 投资前景与风险 * 短期内(两到三年)大规模商业化落地仍需时间,巨额投资存在风险 [20][24] * 投资者应管理好预期,全自动化控制系统短期内难以实现颠覆性突破 [24] * 中国机器人产业应明确初期应用场景,实现快速市场化,从特定狭义场景入手(如清洁卫生间的机器人),而非追求大而全 [13][22] * 国内厂商应关注自身技术路径,通过单点突破或行业共创实现发展 [16]
vivo AI Lab提出自我进化的移动GUI智能体,UI-Genie无需人工标注实现性能持续提升
机器之心· 2025-11-07 15:17
研究背景与核心问题 - 移动GUI智能体是AI领域新热点,旨在让多模态大模型在智能手机上自主操作APP完成复杂任务[2] - 当前训练智能体面临根本瓶颈,即严重依赖昂贵人工标注的大规模高质量专家演示轨迹数据,限制了模型的泛化能力和鲁棒性[2] - GUI操作正确性高度依赖历史上下文,现有评估方法难以准确判断每一步操作的有效性及最终任务完成情况[6] - 缺乏可靠轨迹验证方法导致数据规模存在瓶颈,难以扩展到长链路、跨应用的复杂任务[7] UI-Genie框架核心突破 - 提出自我进化框架UI-Genie,通过智能体模型与奖励模型相互协作实现无需人工标注的高质量数据合成与能力持续提升[3] - 核心突破是从“被动学习”到“主动进化”,解决了移动GUI智能体训练中的数据获取挑战[5] - 框架包含两部分创新:专为移动GUI操作设计的奖励模型UI-Genie-RM,以及用于智能体和奖励模型共同进化的训练闭环[7] UI-Genie-RM奖励模型设计 - UI-Genie-RM是首个专为移动GUI智能体轨迹评估设计的奖励模型,采用图像-文本交错架构处理四种输入[9][10] - 模型设计充分考虑了GUI操作任务特性,需理解整个操作历史并对当前动作正确性进行判断[10] - 研究团队通过三种自动化数据生成策略构建了约51.7万条奖励样本训练模型[11] - 数据生成策略包括基于规则的验证、受控的轨迹破坏和困难负样本挖掘[15] 自我进化机制与迭代过程 - 自我进化闭环包含三个关键环节:奖励引导的轨迹探索、训练数据双向扩展和渐进式任务复杂度提升[14] - 智能体在Android模拟环境中生成候选轨迹,由奖励模型打分并保留累计得分最高的5条路径继续探索[16] - 探索得到的轨迹同时用于强化两个模型:为智能体扩充训练数据,为奖励模型扩充监督信号[17][18] - 共进行三轮迭代,任务难度逐步增加,从使用开源数据到LLM改写指令,再到融合失败任务与人工设计的复杂场景[19][22] 性能评估结果 - 在AndroidControl基准上,UI-Genie的72B模型在高级任务指令下取得86.3%的定位准确率与77.0%的操作成功率[21] - 在AndroidLab的138个真实任务上,UI-Genie平均成功率显著高于商用与开源模型,3B版本对标7B级别基线,7B模型超过部分70B级模型[23] - UI-Genie-RM在包含1050对样本的综合基准上表现最佳,步骤级评估F1分数达79.6%,结果级评估达82.1%[24][25] - 经过三轮迭代,智能体任务成功率从18.1%提升至38.7%,奖励模型准确率从68.2%提高到79.6%[24] 行业应用前景 - GUI Agent作为“端侧隐形助理”正在重塑手机交互方式,可跨应用协同原生日历、文档和邮件应用自动完成会议安排等任务[29] - 在娱乐场景下能与手机自带媒体播放器和相册无缝集成,实现智能识别播放控件和顺畅指令操作[29] - 既为老年用户、视障人士简化手机使用门槛,也为忙碌人群提供便捷服务,未来将融入智能网联生态成为核心交互枢纽[29]
首个、首座、首次!本周,中国硬核实力再刷屏
央视新闻· 2025-11-07 06:49
航空航天领域 - 天问一号环绕器首次观测到星际天体阿特拉斯,观测距离约3000万千米,是距离该天体最近的探测器之一 [3] - 天问一号探测器已稳定运行4年8个月,状态良好,此次观测为天问二号小行星探测进行了技术试验并积累了经验 [3][4] - 我国在轨运行的北斗导航卫星达到50颗,包括15颗北斗二号卫星和35颗北斗三号卫星 [9] - 全国已有88个北斗探空站数据接入全球气象资料交换系统,为全球天气预报输出中国精度 [9] 工程建设领域 - 世界首座双层斜拉-悬索协作体系大桥铜陵长江三桥通车,解决了超大跨度与结构刚度并存的技术难题 [5] - 大桥全长11.88公里,主跨988米,为公铁两用桥,通车后优化了区域过江通道通行能力,并使全长641公里的G3京台高速安徽段实现全程高速通行 [5] 深海科技与人工智能 - 发布全球首个面向深海典型生境的多模态大模型“深海生境智能认知与探索多模态大模型” [5][8] - 该模型具备深海生境智能感知、全域智能推演、治理决策方案生成与沉浸式认知导览等功能,并已完成对一座深海海山和一处热液区的智能认知系统构建 [8] - 该模型是联合国“海洋十年”数字化深海典型生境大科学计划的重要成果 [8] 北斗导航产业 - 北斗产业呈现强劲增长趋势,综合指数稳步提升,多领域应用渗透率持续扩大 [9] - 北斗规模应用已进入市场化、产业化、国际化发展的新阶段 [9]
成为具身智能“大脑”,多模态世界模型需要具备哪些能力?丨ToB产业观察
钛媒体APP· 2025-11-05 12:01
多模态大模型技术突破 - 北京智源研究院发布悟界·Emu3 5多模态世界大模型,参数量达34B,训练数据包含790年视频时长,通过自研DiDA技术将推理速度提升20倍,并验证了“Next-State Prediction”范式 [2] - 模型采用原生统一架构,基于单一Transformer和自回归架构实现多模态理解与生成的原生统一,避免了组合式架构导致的模态间信息损耗和性能折损问题 [3] - 组合式架构模型在处理长视频时文本理解准确率显著下降,视觉生成的时空一致性受损,在跨模态任务中逻辑断裂率高达28%,而原生统一架构模型仅为9% [3] 市场规模与增长 - 2024年中国多模态大模型市场规模达138 5亿元,同比增长67 3%,预计2025年攀升至236 8亿元 [2] - 2025年全球多模态大模型市场规模预计突破4200亿元人民币,中国市场占比达35%,成为全球第二大单体市场 [2] - 2024年中国具身智能市场规模达8634亿元,同比增长65%,预计2025年突破9731亿元,其中多模态技术贡献了约42%的增长动力 [6] 数据挑战与解决方案 - 高质量多模态数据获取成本极高,2024年有68%的初创企业因数据成本放弃自主训练,模型难以从碎片化的互联网数据中学习深层物理规律和因果逻辑 [4] - Emu3 5突破的关键在于大规模使用长视频数据,如纪录片和教学视频,这些数据包含丰富的上下文和连贯的叙事逻辑,是模型学习世界运作的绝佳教材 [4] - 医疗、金融等领域的多模态数据包含隐私信息,企业在应用模型赋能过程中因担心合规问题不敢大规模训练 [4] 性能效率平衡与应用瓶颈 - 模型性能提升往往以牺牲效率为代价,2024年前主流模型生成5秒视频平均耗时超3秒,组合式架构模型在手机端生成3D模型的响应延迟达1 2秒,无法满足实时交互需求 [5] - Emu3 5的发布验证了多模态Scaling Law,成为继语言预训练、后训练推理之后的“第三范式” [5] 具身智能应用 - 多模态大模型为具身智能提供“大脑”,推动机器人从“机械执行”向“自主决策”进化,解决智能无限可能性与物理硬件及数据极端匮乏的核心矛盾 [6] - Emu3 5的“Next-State Prediction”能力使智能体具备物理直觉,能在执行动作前模拟不同行动方案的后果,从而在动态真实环境中做出更安全高效的决策 [7][8] - 采用统一模型端到端处理“感知-认知-行动”完整回路,可取代模块化设计,降低高级机器人技能开发门槛,加速具身智能在工业分拣、仓储物流等场景的应用 [8] 行业应用案例 - 在医疗领域,多模态大模型融合到医学影像技术中实现疾病早期发现与精准治疗,某县医院部署后疑难病例诊断准确率从68%提升至89%,患者外转率下降41% [9] - 智能诊疗系统通过分析患者影像、基因图谱、治疗史等多模态数据生成定制化治疗方案,测试显示采用个性化方案的患者中位生存期延长6 8个月,治疗副作用发生率降低34% [10] - 系统使用涵盖12万患者的多中心数据集,包含45万份影像、18万份病历与9万条基因序列,通过自监督学习掌握治疗手段与患者反应的关联规律 [10]
多模态大模型理解物理工具吗?PhysToolBench提出了衡量多模态大模型对物理工具理解的基准
机器之心· 2025-11-04 16:52
研究背景与目标 - 多模态大模型在具身智能任务规划和动作执行方面潜力巨大,但其是否真正理解物理工具的运作原理缺乏统一量化评估[2] - 研究团队提出PhysToolBench基准,旨在系统衡量多模态大模型对物理工具的理解能力,该能力被划分为“认识”、“理解”、“创造”三个等级[2] - 该基准测试了32个最新的多模态大模型,涵盖闭源商用、开源、具身智能专用及VLA模型的VLM主干四大类别[3] 评估框架设计 - PhysToolBench以视觉问答形式构建,包含1000+图文配对数据集,文字部分为任务描述,图片代表机器人观察到的包含各种工具的环境[5] - 评估体系分为三个难度层级:Easy级要求模型识别工具及其主要功能;Medium级要求理解工具运作原理,并细分为工具属性、组合工具和工具可用性三个子类;Hard级则考验模型根据任务需求反推并创造工具的能力[7][8] 主要实验结果 - 在总体表现上,闭源商用模型领先,开源模型紧随其后,且模型规模与性能呈正相关[11][13] - 表现最佳的模型为GPT-5,总体得分仅为62.15%,在M3难度和Hard难度下得分普遍低于50%,与人类最佳表现(93.19%)和最差表现(87.85%)差距显著[11][13] - 专用于具身智能场景的模型(如Robobrain2、Embodied-R1)相较于其基础模型(如Qwen-2.5-VL)并未展现出领先优势,表明相关训练数据集中工具使用内容仍较欠缺[11][14] - 用于VLA模型中的VLM主干模型表现普遍不佳,总体得分大多低于20%,显示其物理工具理解能力不足以支撑更高阶复杂任务[11][16] 模型能力深度分析 - 模型对工具的识别与理解存在长尾效应,尤其对某些电子设备的识别与理解欠佳[18] - 模型对工具“是否可用”的理解极差,在设置工具损坏“陷阱”的M3难度中,多数模型未能识别,其总得分甚至低于Hard难度,揭示模型理解仅停留在死记硬背层面,存在安全隐患[18] - 思维链推理能带来性能提升,但在M3和Hard难度下,纯文本推理存在瓶颈,模型难以捕捉视觉模态中的关键信息[19][20] - 采用以视觉为中心的推理框架,通过目标识别等工具放大观察关键工具并进行额外推理,可显著提升M3难度准确率(例如GPT-5结合VCR后,M3得分从36.75%提升至54.81%),但整体水平仍不理想[19][20] 行业意义与方向 - PhysToolBench基准揭示了当前多模态大模型在物理工具理解方面的主要短板,为行业发展指明了方向[22] - 理解、运用和创造复杂物理工具的能力,是迈向通用智能体的关键步骤,也是下一代多模态大模型需要重点提升的能力[22]