多模态融合
搜索文档
美团 “全能突破”:RoboTron-Mani +RoboData实现通用机器人操作
具身智能之心· 2025-11-11 11:48
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Feng Yan等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在机器人操作领域,"通用性" 始终是难以攻克的难关——现有方案要么局限于 2D 视觉理解,无法适配物理世界的 3D 空间交互;要么依赖单一数据集训练,面 对不同机器人、不同场景就 "水土不服"。 而美团团队提出的 RoboTron-Mani ,以 "3D 感知增强 + 多模态融合架构" 为核心,搭配涵盖多平台数据的 RoboData 数据集,实现了 "跨数据集、跨机器人、跨 场景" 的全能操作:既通过相机参数与占用率监督强化 3D 空间理解,又借助模态隔离掩码提升多模态融合精度,最终在模拟与真实场景中,成为首个超越专家 模型的通用型机器人操作策略。 RoboTron-Mani 官方项目页 :https://github.com/EmbodiedAI-RoboTron/RoboTron-Mani 为什么要重构机器人操作的模 ...
西安交大丁宁:大模型是“智能基建”,资本与技术融合重塑AI版图
21世纪经济报道· 2025-11-11 07:12
导读:大模型的快速发展离不开资本的投入与产业协同。如果用一句话总结这种关系:资本是技术的放 大器,技术是资本的倍增器。 "我们现在处于第四次工业的革命——一场以人工智能大数据为代表的智能化革命。"西安交通大学人工 智能学院教授丁宁在"科学家遇见投资人"闭门研讨会西安交通大学专场活动上表示,"借鉴前三次工业 革命,相关技术都成为了人们工作和生活的必需品。可以预见,第四次工业革命后,人工智能也极有可 能成为未来世界不可或缺的核心技术。" 丁宁本科与硕士毕业于西安交大,博士毕业于日本庆应大学,曾在阿里巴巴工作数年,于2023年回到高 校从事大模型、人机交互、自然语言处理、语音处理等方向的研究。 AI正在进入"多模态融合"阶段 理解大语言模型(LLM),可以按着"模型""语言模型""大语言模型"逐次递进。这是一个函数式的映射 系统,通过参数学习输入与输出间的关系。模型的"规模"代表参数量级,但"大"并不只是数字意义的扩 张。 "在相同结构下,模型的参数量越大,它的性能越好。但并不代表,参数量大的模型一定比参数量小的 模型好。"丁宁教授在演讲中指出,早期大家追求的是更大的参数量,而近两年行业开始回归理性。 他进一步解释 ...
研判2025!中国文本转语音技术行业发展历程、产业链、发展现状、竞争格局及趋势分析:作为人机交互的重要组成部分,行业应用需求不断扩大[图]
产业信息网· 2025-11-10 08:59
一、文本转语音技术行业相关概述 文本转语音技术,即TTS技术,是一种将文字内容转换为语音输出的技术。它通过计算机程序和算法, 将文本信息转化为自然流畅的语音信号,让用户能够听到文字内容,而无需手动阅读。其核心价值在于 打破信息传递的媒介限制,使机器能够以人类语音形式与用户交互。从智能客服的自动应答到有声读物 的个性化朗读,从车载导航的实时指引到无障碍设备的语音辅助,TTS技术已成为人机交互领域的基础 设施。 该技术的工作原理主要包括文本预处理、语音合成、语音输出三个部分。文本预处理是指当TTS系统接 收到一段文本输入时,首先会对文本进行预处理。这包括分词、词性标注、语义理解等操作。语音合成 是指TTS系统会根据预处理的结果,将文本转化为语音信号。这一步骤是通过复杂的算法和大量的语音 数据训练来实现的。系统会根据每个字词的发音规则、语调、语速等要素,生成相应的语音波形。语音 输出是指TTS系统将生成的语音信号通过扬声器或其他音频设备输出,让用户能够听到清晰、自然的语 音。在这个过程中,系统还会对语音信号进行一些优化处理,如降噪、音量调整等,以提高语音的质量 和可听性。 文本转语音技术的工作原理 文本转语音技术作 ...
乌镇峰会风向标:AI应用竞逐“空间智能”新赛道
21世纪经济报道· 2025-11-06 21:36
会议概况 - 2025年世界互联网大会乌镇峰会及"互联网之光"博览会于11月6日至7日启幕 [1] - 大会主题为"共筑开放合作、安全普惠的数智未来——携手构建网络空间命运共同体" [2] - "互联网之光"博览会以"AI共生、智启未来"为主题,设置两大场馆7个主题展区,汇聚全球600多家企业带来的1000多项人工智能前沿技术产品 [4] 人工智能行业趋势 - 人工智能发展从2023年热议"ChatGPT时刻"、2024年涌现国产大模型,演进至2025年各家大模型已形成体系,应用覆盖各个行业 [3] - "十五五"规划建议提出加快人工智能等数智技术创新,突破基础理论和核心技术,全面实施"人工智能+"行动,全方位赋能千行百业 [3] - 多模态融合成为行业发展趋势,大模型向"视觉、语音、文本等"全模态融合方向演进 [5] - 人工智能正从封闭竞争走向协同创新,开源趋势能加速模型与算法迭代,降低中小企业参与AI生态的门槛 [6][7] 多模态模型与应用落地 - 国内多模态生成模型已进入落地应用阶段,从"会看、会听"迈向"能理解、能创作" [5] - 在医疗健康领域,AI应用可连接血压计、血糖仪等硬件设备,智能解读健康数据并支持异常预警,改变传统家庭健康检测方式 [4] - 在文旅等生活领域,大模型应用继续集成化、垂直化,不同智能体成为人们的智慧管家 [3] 工业AI与空间智能 - 工业场景被普遍预期是具身智能最快落地的场景之一 [7] - 空间智能模型持续赋能制造业智能转型,AI帮助具身智能加快在工厂落地 [3] - 数字孪生进一步融入人工智能技术,推动工业数字化向更高层次的智能制造和虚实融合迈进 [7] - 群核科技展示的SpatialTwin工业AI孪生平台融合数字孪生技术,通过实时渲染与物理仿真技术,能够1:1在数字空间复刻真实工业场景 [8][10] - AI能力在数字孪生中体现在识别、理解和生成三个方面,支持机器人在数字空间模拟真实作业流程,大幅降低试错成本 [11] - 数字孪生是具身时代智慧工厂的必须项,通过孪生世界的无限预演来预测和优化工厂产出 [12] 开源生态发展 - 中国AI大模型技术在开源生态中跃升到更重要位置,例如百灵大模型系列在开源社区受关注,Ling-1T持续位居Hugging Face开源社区模型趋势榜首 [6] - "直通乌镇"全球互联网大赛首次面向开发者办赛,新设开源项目赛道,联合阿里云、华为、腾讯云等7家企业(社区),吸引600余名开发者参赛 [6] 未来竞争核心 - 未来行业竞争的核心不再只是技术壁垒,而是开放生态和持续创新的能力 [12] - 通过开放生态的方式,打造可互联、可协作的工业生态格局,提升运营效率并降低企业成本 [12]
丁宁:大模型是“智能基建” 资本与技术融合重塑AI版图
21世纪经济报道· 2025-11-05 17:36
行业宏观定位 - 当前处于以人工智能和大数据为代表的第四次工业革命,人工智能有望成为未来世界不可或缺的核心技术 [1] - 2022年底ChatGPT的出现标志着人工智能发展的转折点,开启了大模型的产业化竞争 [2] 技术发展趋势 - 大模型发展从盲目追求参数量扩张回归理性,转向结构创新和精细训练 [2] - 模型性能提升遵循“规模法则”,与参数量、算力和数据规模呈幂律关系,但并非线性依赖参数 [2] - 模型从单模态(文本)向图像、语音、代码等多模态融合演进,AI能感知和生成来自不同世界的信息 [2][3] - 主流大模型仍以Transformer架构为基础,训练方式从“预训练+监督微调”向持续学习和参数高效微调演化 [3] - 未来趋势包括多模态融合、大规模与轻量化并行、具身智能、通用人工智能探索以及更前瞻的超级智能概念 [4][5] 产业化应用前景 - 基于高质量预训练模型和参数高效微调的微调大模型可广泛嵌入科研、制造、教育、医疗、金融等领域 [3] - 技术演进使AI从技术突破走向可负担的产业落地,用更少算力实现更快适配 [3] 资本与技术协同 - 大模型快速发展依赖资本投入与产业协同,资本是技术的放大器,技术是资本的倍增器 [4] - 大模型训练前期成本极高,包括算力、数据、算法和人才,需要资本介入才能形成高质量基础模型 [4] 全球竞争格局 - 美国在头部企业、算力中心和生态层面领先 [4] - 中国在人工智能领域的论文数量占全球41%,专利数占比达到69% [4] - 算力是制约行业发展的关键瓶颈,芯片、GPU、系统与模型生态需要配套发展 [4]
丁宁:大模型是“智能基建”,资本与技术融合重塑AI版图
21世纪经济报道· 2025-11-05 17:23
行业宏观定位 - 当前处于以人工智能和大数据为代表的第四次工业革命阶段,人工智能有望成为未来世界不可或缺的核心技术 [1] - 2022年底ChatGPT的出现标志着人工智能发展的转折点,开启了大模型的产业化竞争 [2] - 资本是技术的放大器,技术是资本的倍增器,大模型训练前期成本极高,需要资本介入才能形成高质量基础模型 [3] 技术演进趋势 - 大模型发展从早期盲目追求参数量扩张回归理性,转向结构创新和精细训练,性能提升并非线性依赖于参数 [2] - 训练方式从“预训练+监督微调”向持续学习和参数高效微调演化,目标是用更少算力实现更快适配 [3] - 模型形态从过去单模态(仅文本)向图像、语音、代码等多模态融合演进,AI能感知和生成来自不同世界的信息 [2] 未来发展方向 - 多模态融合成为趋势,即文字、图像、语音、传感数据全面打通 [4] - 大规模与轻量化并行发展,在追求能力极限的同时推动端侧部署 [4] - 具身智能是重要方向,即AI与物理世界交互以催生机器人新生态 [4] - 通用人工智能(AGI)成为长期目标,超级智能是更前瞻的概念,目前仍停留在理论探讨阶段 [4][5] 国际竞争格局 - 美国在头部企业、算力中心和生态层面仍保持领先地位 [3] - 中国在人工智能领域的论文数量占全球的41%,专利数占比达到69% [3] - 算力是制约中国AI发展的关键瓶颈,芯片、GPU、系统与模型生态需要配套发展 [3]
大模型专题:2025年中国大模型行业发展研究报告
搜狐财经· 2025-11-04 00:20
大模型行业发展概况 - 大模型是新一代人工智能发展的战略核心与关键引擎,可从应用广度、部署形态和技术路径三个维度进行分类,包括通用与行业模型、云端与端侧模型、闭源与开源模型 [15][16] - 2024年中国大模型市场规模约294.16亿元,预计2026年将突破700亿元,行业处于爆发式发展阶段 [26][27] - 多模态融合与智能体演进成为竞争焦点,2024年中国多模态大模型市场规模达156.3亿元,主要应用场景包括数字人(占比24%)、游戏(13%)、广告商拍(13%)等 [26][27] - 全球大模型行业正从技术竞速转向生态竞合,中国凭借完备产业链与广阔应用场景稳居全球发展第一梯队,厂商已从技术跟随转向并行乃至部分引领 [18] - 中国人工智能政策体系形成"创新驱动、基础强化、场景牵引、安全治理"四位一体格局,2025年《关于深入实施"人工智能 + "行动的意见》推动AI赋能千行百业 [20][21][22][23] 大模型生态新范式与企业竞争力 - CBDG四维生态模型(消费者Consumer、企业Business、设备Device、政府Government)成为中国大模型发展新范式,四者通过深度耦合形成相互作用与赋能的有机整体 [42][43] - 消费者(C端)是应用创新的活力源泉与商业模式验证的试金石,其快速反馈驱动模型迭代 [43] - 企业(B端)是价值创造与落地核心,驱动大模型技术与行业Know-how深度融合,催生面向特定场景的深度解决方案 [43] - 企业竞争力体现在生态构建、技术研发、行业赋能、商业变现、创新拓展五大能力,竞争从技术和产品单点对决转向全方位的体系化竞争 [8] 大模型企业典型案例分析 - 科大讯飞深耕G/B端,2024年央国企大模型解决方案市场份额居首,2025年Q3中标数量和金额双第一,并通过"机器人超脑"平台布局具身智能 [7][38][39] - 字节跳动依托C端流量与数据飞轮构建生态闭环 [7] - 阿里以夸克转型AI工具集提升用户粘性,实现差异化突围 [7] 大模型行业未来发展趋势 - 技术向多模态融合、智能体化、具身智能突破,大模型凭借涌现性特征驱动具身智能系统自我进化,成为连接虚拟与物理世界的核心枢纽 [8][36][37] - 产业竞争转向生态协同,价值向应用服务层聚集 [8] - 大模型应用正从试点验证迈向规模化深耕,B端与G端成为价值实现的主阵地,截止到2025年3月中国AI原生应用月活用户已突破2.7亿 [33] - 据预测,到2030年中国具身智能市场规模预计达到4,000亿元,2035年有望突破万亿元,应用主要集中在机器人(占比约56%)和自动驾驶(占比约44%)两大领域 [35][36]
谷歌OCS和产业链详解
2025-10-27 08:31
涉及的行业与公司 * **行业**:人工智能、云计算服务、数据中心光通信、光模块制造[1][3][5] * **公司**:谷歌、Anthropic、Oracle、微软、AWS等云服务商[1][2][3];光模块及上游组件供应商如旭创、新易盛、天孚、Coherent、腾景科技、福晶科技、源杰、世佳光子、长光华芯、博创、太辰光等[12][17][18] 核心观点与论据 * **AI商业闭环验证推动资本开支**:谷歌Gemini系列C端产品渗透超预期,企业侧围绕会议转写、代码助手等付费渗透加速,上下文能力和多模态能力提升驱动推理需求呈现日级、周级和月级持续高增长,带来云收入和在手订单增长[1][2] * **云服务商对AI算力投资信心强劲**:谷歌、Oracle、微软和AWS等云服务商均表达对AI长期增长的信心,加大对GPU、TPU、智能网卡、交换机和高速光互联的投资,AI进入稳态迭代式投入周期[1][3][4] * **AI应用发展提升光通信网络价值**:AI应用多模态融合及智能体升级需多次网络通信,推理需求的长连接、高并发及低延时特性对数据中心内外光互联提出更高要求,光模块成为系统瓶颈[1][5][7] * **谷歌网络架构演进以满足性能需求**:谷歌采用OCS方案和Ironwood架构,旨在降低链路损耗,满足大规模训练性能需求,Ironwood架构Super Pod可实现9,216张卡互联,通过3D Torus拓扑及OCS全光互联优化AI网络[1][6] * **推理与训练阶段对硬件要求差异**:推理阶段强调与C端和B端高频交互,对带宽网络要求更高,推理集群规模走向百万级别,Anthropic采购超100万张DTPU表明用户付费场景提供稳定现金流[1][7][8] * **光模块需求受谷歌驱动显著上修**:谷歌TPU V4架构Super Pod包含4,096张TPU,每颗TPU对应约1.5个高速光模块[9],谷歌需求驱动下,2026年800G光模块需求或达4,500万至5,000万只,1.6T光模块需求上修至至少2000万只以上,理想情况下可能达到3,000万只[3][16] 其他重要内容 * **OCS方案成本结构**:谷歌使用的MEMS方案中,单个2D MEMS阵列价值约6,000-7,000美元,两组合计约14,000-15,000美元,环形器每个约40美元,总计256个成本超10,000美元[11];液晶方案单台设备价值量较高,可达9-10万美元,简化结构后可降至3万到4万美元左右[13] * **技术方案对比**:MEMS方案成熟度更高、成本更低,但端口切换需通过微电机驱动镜子转角度;液晶方案实验率更低,更接近电交换机的实验率,但价格较高[15] * **需求增长向上游传导**:光模块行业供需不平衡蔓延至上游EML芯片、硅光芯片、CW光源及MPO等环节,国内企业扩产意愿增加并有机会进入大客户供应链[17] * **冷却技术**:谷歌在其Android架构中明确采用了水冷技术以管理热量[14]
不管是中国还是美国最终走向都是人工智能时代是这样吗?
搜狐财经· 2025-10-09 04:55
技术发展格局 - 美国在基础算法、大模型架构及核心专利领域保持优势,其科研生态更注重底层突破 [1] - 中国依托庞大的用户基数、移动互联网积淀及产业链协同,在场景化应用推进速度更快,部分领域体验已超越美国 [1] - 微信AI助手"元宝"实现社交生态无缝集成,腾讯豆包模型推理能力跻身全球第一梯队 [1] 产业生态与政策驱动 - 美国战略强化技术霸权主导地位,通过出口管制、标准制定及盟友合作遏制竞争者,2025年新政策主张放松监管、推动开源 [3] - 中国发挥制造业根基与数据规模优势,聚焦"AI+实体产业"融合,张亚勤指出中国将在5年内成为全球最大AI应用国 [3] - 中国AI发展的核心推力来自成熟的移动生态延续性及产业链协同效应 [3] 核心竞争优势与挑战 - 美国创新重心为基础理论与通用大模型,竞争优势在于学术原创性及全球标准主导,挑战为监管反复与政治干预 [5] - 中国创新重心为场景应用与工程化落地,竞争优势在于商业化速度与市场规模,挑战为核心技术自主性待提升 [5] 未来竞争焦点 - 双方竞赛将围绕智能体普及、混合专家模型降本增效以及多模态融合创造增量市场三大技术主线展开 [7] - 中国在移动互联网时代积累的5-8年领先优势,可能为AI应用层竞争提供关键跳板 [7] - 人工智能作为核心生产力引擎的地位已不可逆,两国终将在AI定义的新经济秩序中深度交织 [7]
非植入式脑机接口+苹果Vision Pro
思宇MedTech· 2025-10-04 22:33
公司动态与产品技术 - 公司于2025年10月1日宣布正式启动一项临床研究,探索其基于脑电图(EEG)的非植入式脑机接口(BCI)与Apple Vision Pro的结合应用 [2] - 公司拥有自主研发的可穿戴、非侵入式神经接口设备平台Axon-R,具备先进的EEG测量与反馈能力 [4] - 该技术的核心特点是“无手术、可穿戴、可日常化”,区别于市场上如Synchron和Neuralink等多为植入式的脑机接口方案 [4] - 技术结合了脑电信号与眼动追踪,实现多模态交互,并利用人工智能算法提升解码效率 [6] - 临床研究已启动招募,将持续至2026年4月,并计划在完成可行性研究后于2026年开展关键性临床试验并申请FDA批准 [5] 临床研究与应用场景 - 临床研究的主要目标是验证通过脑电信号与眼动控制支持患者进行流畅、自然交流的能力 [6] - 研究旨在评估技术在移动设备控制、娱乐、教育和工作中的应用价值 [6] - 研究重点关注ALS(渐冻症)、脊髓损伤(SCI)、中风后言语障碍、创伤性脑损伤(TBI)等患者人群 [6] - 技术的应用场景包括交流沟通、设备控制、教育娱乐与辅助现实,旨在从实验室走向家庭与工作环境 [6][10] 行业趋势与竞争格局 - 脑机接口技术正在快速走向临床与消费市场融合,非侵入式BCI与主流消费电子生态结合代表新趋势 [8] - 行业重要发展方向是多模态融合,即将脑电信号与眼动追踪、头部姿态等多通道信号结合以提高交互准确性与自然度 [10] - 在植入式BCI仍处于科研与早期临床阶段时,公司通过“可穿戴EEG + 主流XR平台”的组合提供了更低门槛的解决方案 [10] - 与植入式BCI厂商相比,公司的策略是走一条更快商业化、更贴近日常生活的道路 [10]