多模态融合
搜索文档
美团 “全能突破”:RoboTron-Mani +RoboData实现通用机器人操作
具身智能之心· 2025-11-11 11:48
文章核心观点 - 美团团队提出的RoboTron-Mani模型与RoboData数据集协同设计,通过“3D感知增强+多模态融合架构”解决了机器人操作领域“通用性”难题 [1] - 该方案突破了传统方案在3D空间感知和数据利用效率上的双重瓶颈,实现了跨数据集、跨机器人、跨场景的通用操作能力 [2][3] - 在多个主流数据集上的实验表明,RoboTron-Mani作为首个通用型策略,其性能超越了一系列专家模型 [17] 机器人操作行业现状与瓶颈 - 现有方案存在核心缺陷:传统多模态模型缺乏3D空间感知能力,物理世界交互精度低且模态融合灵活性差 [2] - 单数据集训练模型泛化能力弱,更换机器人或场景需重新训练,数据收集成本高昂,例如RT-1数据集的13万段数据收集耗时17个月 [2] - 多数据集融合方案存在模态缺失和空间错位问题,导致训练冲突和性能下降 [2] RoboTron-Mani模型架构 - 模型采用四层架构:视觉编码器提取多视角时空特征,为3D感知与模态融合提供基础 [7] - 3D感知适配器采用UVFormer模型,融合图像特征、相机参数与可学习查询,生成统一的3D视图表示以理解物体三维位置与姿态关系 [8] - 特征融合解码器基于OpenFlamingo的交叉注意力机制,引入模态隔离掩码实现多模态的灵活融合与监督 [9] - 多模态解码器针对动作、图像、占用率输出设计专用解码器,确保结果精准性 [10][14] RoboData数据集设计 - 数据集整合了CALVIN、Meta-World、RT-1等9个主流公开数据集,包含7万段任务序列、700万个样本,涵盖多种任务类型 [11] - 通过重新渲染和重建数据,补充了传统数据集缺失的深度图、相机参数等3D相关关键模态 [11] - 实现了3D空间对齐,将所有数据集的坐标系和工作空间范围统一,并采用复合旋转矩阵法统一动作表示 [12][15] - 提供标准化输入输出接口,支持模型在多个数据集上同时评估,为通用模型提供公平的评估基准 [16] 实验性能表现 - 在LIBERO数据集上取得91.7%的成功率,超过当前最佳专家模型QueST的89.8% [17][18] - 在CALVIN数据集上成功率达93.8%,任务平均序列长度从1.7提升至3.5,大幅提升长序列任务能力 [18] - 在RT-1数据集上平均成功率达60%,显著优于同参数规模的其他模型 [18] - 相较于通用模型RoboFlamingo,在4个模拟数据集上的成功率平均提升14.8%-19.6% [18] 关键技术模块价值验证 - 消融实验表明,无3D感知适配器会使CALVIN数据集首任务成功率从94.2%降至85.0% [19] - 无模态隔离掩码会导致跨数据集泛化性能下降12%-15% [22] - 无占用率监督会使长序列任务成功率明显下降,后续任务成功率从56.5%降至48.1% [22] - 使用RoboData对齐数据训练后,LIBERO数据集成功率从64.2%提升至90.7%,CALVIN数据集从74.7%提升至91.0% [20] 方案优势与产业意义 - 该方案兼顾通用性与实用性,为仓储分拣、家庭保洁等追求规模化落地的工业和服务场景提供了重要参考 [21] - 通过全链路设计打破了“机器人操作要么3D感知弱,要么泛化能力差”的僵局 [21] - 未来方向包括加入触觉、力反馈等多模态扩展,优化模型效率以适配边缘计算,以及整合更多真实世界数据集 [23]
西安交大丁宁:大模型是“智能基建”,资本与技术融合重塑AI版图
21世纪经济报道· 2025-11-11 07:12
行业宏观定位 - 当前处于以人工智能和大数据为代表的第四次工业革命,人工智能有望成为未来世界不可或缺的核心技术 [1] - 2022年底ChatGPT的出现标志着人工智能发展的转折点,开启了大模型的产业化竞争 [2] 大模型技术演进趋势 - 大模型发展从早期盲目追求参数量扩张回归理性,转向注重结构设计、训练方法和数据质量 [2] - 模型性能提升遵循“规模法则”,即参数量、算力和数据规模增加与性能提升呈幂律关系,但成本能耗等因素促使行业转向结构创新和精细训练 [2] - 模型正从单模态(仅文本)向图像、语音、代码等多模态融合演进,使AI能感知和生成来自不同世界的信息 [2][3] - 训练方式从“预训练+监督微调”向持续学习和参数高效微调演化,目标是用更少算力实现更快适配,推动AI从技术突破走向可负担的产业落地 [3] - 主流大模型仍以Transformer架构为基础 [3] 技术与资本互动关系 - 资本是技术的放大器,技术是资本的倍增器,大模型训练前期成本极高,需资本介入才能形成高质量基础模型 [1][4] - 没有技术洞见和研发积累,资本也难以真正驱动产业升级 [4] 全球竞争格局与中国现状 - 美国在头部企业、算力中心和生态层面仍领先 [4] - 中国在人工智能领域论文数量占全球41%,专利数全球占比达到69% [4] - 算力是制约中国AI发展的关键瓶颈,模型“幻觉”、表达精度不足、产业链协同难等问题仍待突破 [4] 未来发展方向 - 多模态融合,即文字、图像、语音、传感数据全面打通 [4] - 大规模与轻量化并行,在追求能力极限的同时推动端侧部署 [4] - 发展具身智能,使AI与物理世界交互,催生机器人新生态 [4][5] - 探索通用人工智能(AGI),使其具备通用认知和自学习能力,成为长期目标 [5] - 超级智能是更前瞻的概念,指超过最有天赋人类的系统,目前仍处于理论探讨阶段 [5]
研判2025!中国文本转语音技术行业发展历程、产业链、发展现状、竞争格局及趋势分析:作为人机交互的重要组成部分,行业应用需求不断扩大[图]
产业信息网· 2025-11-10 08:59
文章核心观点 - 文本转语音技术作为人机交互的关键基础设施,正随着人工智能和深度学习技术的发展而快速演进,其应用从传统领域扩展至虚拟主播、个性化语音定制等新兴场景,行业市场规模在2024年达到187.6亿元人民币,同比增长22.77% [1][4][11] - 行业呈现“国际技术引领,国内场景深耕”的竞争格局,未来发展趋势将聚焦于拟人化与长场景适配、多模态融合以及行业规范化发展 [11][14][15][16] 文本转语音技术行业相关概述 - 文本转语音技术是一种将文字内容转换为语音输出的技术,其核心价值在于打破信息传递的媒介限制,已成为人机交互领域的基础设施,广泛应用于智能客服、有声读物、车载导航及无障碍设备等场景 [4] - 技术工作原理主要包括文本预处理、语音合成和语音输出三个部分,通过算法和大量语音数据训练生成自然流畅的语音信号 [5] - 技术发展经历了从18世纪机械式合成到20世纪80年代后的拼接合成,再到2016年至今深度学习驱动的端到端系统的革命性演进 [6][7] 文本转语音技术行业产业链 - 产业链上游为核心硬件、算法框架与基础设施支持,中游是技术核心环节,下游应用领域涵盖教育、金融、医疗、媒体等 [8] - 在教育领域,技术应用于在线课程语音播报、辅助阅读工具等,属于智慧教育范畴,其市场规模从2015年的1864亿元增长至2024年的4176亿元 [8] - 在网络视听领域,技术用于内容制作的语音解说生成,2024年中国网络视听用户规模达10.91亿人,同比增长1.58% [9] 文本转语音技术行业发展现状 - 2024年中国文本转语音技术行业市场规模为187.6亿元人民币,同比增长22.77% [1][11] - 现代技术已从机械模拟演进为能生成接近人类水平自然度的智能系统,在传统及新兴应用场景中展现出巨大潜力 [1][11] 文本转语音技术行业竞争格局 - 行业格局为“国际技术引领,国内场景深耕”,国际企业如Google、微软占据高端市场,国内企业如科大讯飞、百度、云知声等在中文及垂直应用场景具备优势 [11] - 未来竞争将围绕边缘计算部署、多模态交互及伦理安全技术展开 [11] 重点企业分析 - 科大讯飞股份有限公司是智能语音和人工智能上市企业,以语音合成技术为起点,2025年1-9月营业收入为169.89亿元,同比增长14.41%,归母净利润亏损0.67亿元,亏损幅度同比收窄80.60% [12] - 云知声智能科技股份有限公司是专注于物联网人工智能服务的企业,2025年上半年营业收入为4.05亿元,同比增长20.2%,归母净利润亏损2.97亿元 [12] 文本转语音技术行业发展趋势 - 技术将向拟人化与长场景适配发展,聚焦情感化表达和长时音频合成能力,例如实现90分钟连续音频生成与多角色自然对话 [14] - 多模态融合成为核心发展路径,与文本、图像、视频生成等技术协同,构建全链路内容生产生态 [15] - 行业将向规范化发展,政策监管加强,核心关注数据隐私与声音版权保护,通过区块链等技术实现声音资产确权与追溯 [16]
乌镇峰会风向标:AI应用竞逐“空间智能”新赛道
21世纪经济报道· 2025-11-06 21:36
会议概况 - 2025年世界互联网大会乌镇峰会及"互联网之光"博览会于11月6日至7日启幕 [1] - 大会主题为"共筑开放合作、安全普惠的数智未来——携手构建网络空间命运共同体" [2] - "互联网之光"博览会以"AI共生、智启未来"为主题,设置两大场馆7个主题展区,汇聚全球600多家企业带来的1000多项人工智能前沿技术产品 [4] 人工智能行业趋势 - 人工智能发展从2023年热议"ChatGPT时刻"、2024年涌现国产大模型,演进至2025年各家大模型已形成体系,应用覆盖各个行业 [3] - "十五五"规划建议提出加快人工智能等数智技术创新,突破基础理论和核心技术,全面实施"人工智能+"行动,全方位赋能千行百业 [3] - 多模态融合成为行业发展趋势,大模型向"视觉、语音、文本等"全模态融合方向演进 [5] - 人工智能正从封闭竞争走向协同创新,开源趋势能加速模型与算法迭代,降低中小企业参与AI生态的门槛 [6][7] 多模态模型与应用落地 - 国内多模态生成模型已进入落地应用阶段,从"会看、会听"迈向"能理解、能创作" [5] - 在医疗健康领域,AI应用可连接血压计、血糖仪等硬件设备,智能解读健康数据并支持异常预警,改变传统家庭健康检测方式 [4] - 在文旅等生活领域,大模型应用继续集成化、垂直化,不同智能体成为人们的智慧管家 [3] 工业AI与空间智能 - 工业场景被普遍预期是具身智能最快落地的场景之一 [7] - 空间智能模型持续赋能制造业智能转型,AI帮助具身智能加快在工厂落地 [3] - 数字孪生进一步融入人工智能技术,推动工业数字化向更高层次的智能制造和虚实融合迈进 [7] - 群核科技展示的SpatialTwin工业AI孪生平台融合数字孪生技术,通过实时渲染与物理仿真技术,能够1:1在数字空间复刻真实工业场景 [8][10] - AI能力在数字孪生中体现在识别、理解和生成三个方面,支持机器人在数字空间模拟真实作业流程,大幅降低试错成本 [11] - 数字孪生是具身时代智慧工厂的必须项,通过孪生世界的无限预演来预测和优化工厂产出 [12] 开源生态发展 - 中国AI大模型技术在开源生态中跃升到更重要位置,例如百灵大模型系列在开源社区受关注,Ling-1T持续位居Hugging Face开源社区模型趋势榜首 [6] - "直通乌镇"全球互联网大赛首次面向开发者办赛,新设开源项目赛道,联合阿里云、华为、腾讯云等7家企业(社区),吸引600余名开发者参赛 [6] 未来竞争核心 - 未来行业竞争的核心不再只是技术壁垒,而是开放生态和持续创新的能力 [12] - 通过开放生态的方式,打造可互联、可协作的工业生态格局,提升运营效率并降低企业成本 [12]
丁宁:大模型是“智能基建” 资本与技术融合重塑AI版图
21世纪经济报道· 2025-11-05 17:36
行业宏观定位 - 当前处于以人工智能和大数据为代表的第四次工业革命,人工智能有望成为未来世界不可或缺的核心技术 [1] - 2022年底ChatGPT的出现标志着人工智能发展的转折点,开启了大模型的产业化竞争 [2] 技术发展趋势 - 大模型发展从盲目追求参数量扩张回归理性,转向结构创新和精细训练 [2] - 模型性能提升遵循“规模法则”,与参数量、算力和数据规模呈幂律关系,但并非线性依赖参数 [2] - 模型从单模态(文本)向图像、语音、代码等多模态融合演进,AI能感知和生成来自不同世界的信息 [2][3] - 主流大模型仍以Transformer架构为基础,训练方式从“预训练+监督微调”向持续学习和参数高效微调演化 [3] - 未来趋势包括多模态融合、大规模与轻量化并行、具身智能、通用人工智能探索以及更前瞻的超级智能概念 [4][5] 产业化应用前景 - 基于高质量预训练模型和参数高效微调的微调大模型可广泛嵌入科研、制造、教育、医疗、金融等领域 [3] - 技术演进使AI从技术突破走向可负担的产业落地,用更少算力实现更快适配 [3] 资本与技术协同 - 大模型快速发展依赖资本投入与产业协同,资本是技术的放大器,技术是资本的倍增器 [4] - 大模型训练前期成本极高,包括算力、数据、算法和人才,需要资本介入才能形成高质量基础模型 [4] 全球竞争格局 - 美国在头部企业、算力中心和生态层面领先 [4] - 中国在人工智能领域的论文数量占全球41%,专利数占比达到69% [4] - 算力是制约行业发展的关键瓶颈,芯片、GPU、系统与模型生态需要配套发展 [4]
丁宁:大模型是“智能基建”,资本与技术融合重塑AI版图
21世纪经济报道· 2025-11-05 17:23
行业宏观定位 - 当前处于以人工智能和大数据为代表的第四次工业革命阶段,人工智能有望成为未来世界不可或缺的核心技术 [1] - 2022年底ChatGPT的出现标志着人工智能发展的转折点,开启了大模型的产业化竞争 [2] - 资本是技术的放大器,技术是资本的倍增器,大模型训练前期成本极高,需要资本介入才能形成高质量基础模型 [3] 技术演进趋势 - 大模型发展从早期盲目追求参数量扩张回归理性,转向结构创新和精细训练,性能提升并非线性依赖于参数 [2] - 训练方式从“预训练+监督微调”向持续学习和参数高效微调演化,目标是用更少算力实现更快适配 [3] - 模型形态从过去单模态(仅文本)向图像、语音、代码等多模态融合演进,AI能感知和生成来自不同世界的信息 [2] 未来发展方向 - 多模态融合成为趋势,即文字、图像、语音、传感数据全面打通 [4] - 大规模与轻量化并行发展,在追求能力极限的同时推动端侧部署 [4] - 具身智能是重要方向,即AI与物理世界交互以催生机器人新生态 [4] - 通用人工智能(AGI)成为长期目标,超级智能是更前瞻的概念,目前仍停留在理论探讨阶段 [4][5] 国际竞争格局 - 美国在头部企业、算力中心和生态层面仍保持领先地位 [3] - 中国在人工智能领域的论文数量占全球的41%,专利数占比达到69% [3] - 算力是制约中国AI发展的关键瓶颈,芯片、GPU、系统与模型生态需要配套发展 [3]
大模型专题:2025年中国大模型行业发展研究报告
搜狐财经· 2025-11-04 00:20
大模型行业发展概况 - 大模型是新一代人工智能发展的战略核心与关键引擎,可从应用广度、部署形态和技术路径三个维度进行分类,包括通用与行业模型、云端与端侧模型、闭源与开源模型 [15][16] - 2024年中国大模型市场规模约294.16亿元,预计2026年将突破700亿元,行业处于爆发式发展阶段 [26][27] - 多模态融合与智能体演进成为竞争焦点,2024年中国多模态大模型市场规模达156.3亿元,主要应用场景包括数字人(占比24%)、游戏(13%)、广告商拍(13%)等 [26][27] - 全球大模型行业正从技术竞速转向生态竞合,中国凭借完备产业链与广阔应用场景稳居全球发展第一梯队,厂商已从技术跟随转向并行乃至部分引领 [18] - 中国人工智能政策体系形成"创新驱动、基础强化、场景牵引、安全治理"四位一体格局,2025年《关于深入实施"人工智能 + "行动的意见》推动AI赋能千行百业 [20][21][22][23] 大模型生态新范式与企业竞争力 - CBDG四维生态模型(消费者Consumer、企业Business、设备Device、政府Government)成为中国大模型发展新范式,四者通过深度耦合形成相互作用与赋能的有机整体 [42][43] - 消费者(C端)是应用创新的活力源泉与商业模式验证的试金石,其快速反馈驱动模型迭代 [43] - 企业(B端)是价值创造与落地核心,驱动大模型技术与行业Know-how深度融合,催生面向特定场景的深度解决方案 [43] - 企业竞争力体现在生态构建、技术研发、行业赋能、商业变现、创新拓展五大能力,竞争从技术和产品单点对决转向全方位的体系化竞争 [8] 大模型企业典型案例分析 - 科大讯飞深耕G/B端,2024年央国企大模型解决方案市场份额居首,2025年Q3中标数量和金额双第一,并通过"机器人超脑"平台布局具身智能 [7][38][39] - 字节跳动依托C端流量与数据飞轮构建生态闭环 [7] - 阿里以夸克转型AI工具集提升用户粘性,实现差异化突围 [7] 大模型行业未来发展趋势 - 技术向多模态融合、智能体化、具身智能突破,大模型凭借涌现性特征驱动具身智能系统自我进化,成为连接虚拟与物理世界的核心枢纽 [8][36][37] - 产业竞争转向生态协同,价值向应用服务层聚集 [8] - 大模型应用正从试点验证迈向规模化深耕,B端与G端成为价值实现的主阵地,截止到2025年3月中国AI原生应用月活用户已突破2.7亿 [33] - 据预测,到2030年中国具身智能市场规模预计达到4,000亿元,2035年有望突破万亿元,应用主要集中在机器人(占比约56%)和自动驾驶(占比约44%)两大领域 [35][36]
谷歌OCS和产业链详解
2025-10-27 08:31
涉及的行业与公司 * **行业**:人工智能、云计算服务、数据中心光通信、光模块制造[1][3][5] * **公司**:谷歌、Anthropic、Oracle、微软、AWS等云服务商[1][2][3];光模块及上游组件供应商如旭创、新易盛、天孚、Coherent、腾景科技、福晶科技、源杰、世佳光子、长光华芯、博创、太辰光等[12][17][18] 核心观点与论据 * **AI商业闭环验证推动资本开支**:谷歌Gemini系列C端产品渗透超预期,企业侧围绕会议转写、代码助手等付费渗透加速,上下文能力和多模态能力提升驱动推理需求呈现日级、周级和月级持续高增长,带来云收入和在手订单增长[1][2] * **云服务商对AI算力投资信心强劲**:谷歌、Oracle、微软和AWS等云服务商均表达对AI长期增长的信心,加大对GPU、TPU、智能网卡、交换机和高速光互联的投资,AI进入稳态迭代式投入周期[1][3][4] * **AI应用发展提升光通信网络价值**:AI应用多模态融合及智能体升级需多次网络通信,推理需求的长连接、高并发及低延时特性对数据中心内外光互联提出更高要求,光模块成为系统瓶颈[1][5][7] * **谷歌网络架构演进以满足性能需求**:谷歌采用OCS方案和Ironwood架构,旨在降低链路损耗,满足大规模训练性能需求,Ironwood架构Super Pod可实现9,216张卡互联,通过3D Torus拓扑及OCS全光互联优化AI网络[1][6] * **推理与训练阶段对硬件要求差异**:推理阶段强调与C端和B端高频交互,对带宽网络要求更高,推理集群规模走向百万级别,Anthropic采购超100万张DTPU表明用户付费场景提供稳定现金流[1][7][8] * **光模块需求受谷歌驱动显著上修**:谷歌TPU V4架构Super Pod包含4,096张TPU,每颗TPU对应约1.5个高速光模块[9],谷歌需求驱动下,2026年800G光模块需求或达4,500万至5,000万只,1.6T光模块需求上修至至少2000万只以上,理想情况下可能达到3,000万只[3][16] 其他重要内容 * **OCS方案成本结构**:谷歌使用的MEMS方案中,单个2D MEMS阵列价值约6,000-7,000美元,两组合计约14,000-15,000美元,环形器每个约40美元,总计256个成本超10,000美元[11];液晶方案单台设备价值量较高,可达9-10万美元,简化结构后可降至3万到4万美元左右[13] * **技术方案对比**:MEMS方案成熟度更高、成本更低,但端口切换需通过微电机驱动镜子转角度;液晶方案实验率更低,更接近电交换机的实验率,但价格较高[15] * **需求增长向上游传导**:光模块行业供需不平衡蔓延至上游EML芯片、硅光芯片、CW光源及MPO等环节,国内企业扩产意愿增加并有机会进入大客户供应链[17] * **冷却技术**:谷歌在其Android架构中明确采用了水冷技术以管理热量[14]
不管是中国还是美国最终走向都是人工智能时代是这样吗?
搜狐财经· 2025-10-09 04:55
技术发展格局 - 美国在基础算法、大模型架构及核心专利领域保持优势,其科研生态更注重底层突破 [1] - 中国依托庞大的用户基数、移动互联网积淀及产业链协同,在场景化应用推进速度更快,部分领域体验已超越美国 [1] - 微信AI助手"元宝"实现社交生态无缝集成,腾讯豆包模型推理能力跻身全球第一梯队 [1] 产业生态与政策驱动 - 美国战略强化技术霸权主导地位,通过出口管制、标准制定及盟友合作遏制竞争者,2025年新政策主张放松监管、推动开源 [3] - 中国发挥制造业根基与数据规模优势,聚焦"AI+实体产业"融合,张亚勤指出中国将在5年内成为全球最大AI应用国 [3] - 中国AI发展的核心推力来自成熟的移动生态延续性及产业链协同效应 [3] 核心竞争优势与挑战 - 美国创新重心为基础理论与通用大模型,竞争优势在于学术原创性及全球标准主导,挑战为监管反复与政治干预 [5] - 中国创新重心为场景应用与工程化落地,竞争优势在于商业化速度与市场规模,挑战为核心技术自主性待提升 [5] 未来竞争焦点 - 双方竞赛将围绕智能体普及、混合专家模型降本增效以及多模态融合创造增量市场三大技术主线展开 [7] - 中国在移动互联网时代积累的5-8年领先优势,可能为AI应用层竞争提供关键跳板 [7] - 人工智能作为核心生产力引擎的地位已不可逆,两国终将在AI定义的新经济秩序中深度交织 [7]
非植入式脑机接口+苹果Vision Pro
思宇MedTech· 2025-10-04 22:33
公司动态与产品技术 - 公司于2025年10月1日宣布正式启动一项临床研究,探索其基于脑电图(EEG)的非植入式脑机接口(BCI)与Apple Vision Pro的结合应用 [2] - 公司拥有自主研发的可穿戴、非侵入式神经接口设备平台Axon-R,具备先进的EEG测量与反馈能力 [4] - 该技术的核心特点是“无手术、可穿戴、可日常化”,区别于市场上如Synchron和Neuralink等多为植入式的脑机接口方案 [4] - 技术结合了脑电信号与眼动追踪,实现多模态交互,并利用人工智能算法提升解码效率 [6] - 临床研究已启动招募,将持续至2026年4月,并计划在完成可行性研究后于2026年开展关键性临床试验并申请FDA批准 [5] 临床研究与应用场景 - 临床研究的主要目标是验证通过脑电信号与眼动控制支持患者进行流畅、自然交流的能力 [6] - 研究旨在评估技术在移动设备控制、娱乐、教育和工作中的应用价值 [6] - 研究重点关注ALS(渐冻症)、脊髓损伤(SCI)、中风后言语障碍、创伤性脑损伤(TBI)等患者人群 [6] - 技术的应用场景包括交流沟通、设备控制、教育娱乐与辅助现实,旨在从实验室走向家庭与工作环境 [6][10] 行业趋势与竞争格局 - 脑机接口技术正在快速走向临床与消费市场融合,非侵入式BCI与主流消费电子生态结合代表新趋势 [8] - 行业重要发展方向是多模态融合,即将脑电信号与眼动追踪、头部姿态等多通道信号结合以提高交互准确性与自然度 [10] - 在植入式BCI仍处于科研与早期临床阶段时,公司通过“可穿戴EEG + 主流XR平台”的组合提供了更低门槛的解决方案 [10] - 与植入式BCI厂商相比,公司的策略是走一条更快商业化、更贴近日常生活的道路 [10]