多模态融合
搜索文档
中国建筑一局申请基于多模态融合的混凝土结构渗漏检测方法专利,显著提升检测灵敏度与鲁棒性
搜狐财经· 2026-02-18 15:44
公司动态与专利技术 - 中国建筑一局(集团)有限公司与北京中建建筑科学研究院有限公司联合申请了一项名为“一种基于多模态融合的混凝土结构渗漏检测方法”的专利,公开号为CN121543012A,申请日期为2025年11月 [1] - 该专利方法涉及多模态数据采集、预处理、特征提取、自适应加权融合、有限元辅助分析、渗漏溯源与可视化及决策建议生成等多个步骤 [1] - 专利技术旨在通过多模态数据同步采集与时空配准,结合自适应加权融合机制动态调整各模态权重,以解决单一模态易受环境干扰的问题,从而显著提升检测灵敏度与鲁棒性 [1] - 该技术引入有限元模拟渗流-热耦合数据辅助深度学习,并结合渗漏概率图溯源修正,实现从检测渗漏点到诊断渗漏源的跨越,最终生成可视化报告与专家级维修建议 [1] 公司背景信息 - 中国建筑一局(集团)有限公司成立于1953年,位于北京市,是一家以从事建筑安装业为主的企业,注册资本为1000000万人民币 [2] - 该公司对外投资了136家企业,参与招投标项目5000次,拥有专利信息5000条,行政许可4174个 [2] - 北京中建建筑科学研究院有限公司成立于1994年,位于北京市,是一家以从事研究和试验发展为主的企业,注册资本为1200万人民币 [2] - 该研究院对外投资了2家企业,参与招投标项目23次,拥有商标信息4条,专利信息279条,行政许可20个 [2]
智能体不再 “偏科”,OpenAI、讯飞、千问等各显神通
AI研究所· 2026-01-26 17:33
市场概况与政策驱动 - 2025年中国智能体市场规模已达78.4亿元,预计2026年增速将超过70% [1] - 制造、能源、金融、政务四大领域需求占比超70% [1] - 政策层面,《“人工智能 + 制造”专项行动实施意见》明确提出培育1000个高水平工业智能体 [1] 行业核心痛点与挑战 - 传统智能体多依赖单一模态交互,难以应对复杂场景 [2] - 定制开发成本高,限制了中小企业参与 [2] - 部分产品执行链路不完整,无法实现“数据-决策-执行”闭环 [2] 技术突破:多模态交互升级 - 多模态融合已成为头部企业的共同选择,旨在提升智能体对环境的感知与需求理解能力 [4] - 阿里千问采用多模态扩展架构,将图像、音频、GUI界面等不同模态映射至统一语义空间,实现同步处理与融合理解 [5] - 智谱AI旗下CogAgent通过多模态感知实现全GUI空间交互,能以视觉形式感知界面并模拟人类进行点击、输入等操作 [5] - OpenAI旗下智能体Operator具备与图形用户界面交互的能力,可模拟人类在电脑上的操作行为完成任务 [5] - 科大讯飞星辰智能体平台打通语音、视觉、动作、业务流等多模态能力,整合AIUI全链路技术实现1.6秒极速响应 [8] - 星辰平台搭配多麦克风阵列降噪等技术,在-5dB高噪场景中也能保持92%以上的交互成功率 [8] - 阿里千问通过跨应用数据协同,实现文本、支付、物流等多维度信息整合调用 [11] - OpenAI产品强化自然语言理解与工具调用的协同,提升复杂任务执行精度 [11] 技术突破:降低开发门槛 - 星辰智能体平台通过原生MaaS架构,一键连接超50个业界优质开源模型,提供一句话精调、零代码可视化精调等多种定制方式 [12] - 平台深度集成原生RPA功能与AI原子能力,接入行业通用MCP工具,让智能体具备执行与链接能力 [12] - 阿里千问通过简化应用接入流程,让企业无需复杂适配即可实现智能体与现有业务对接 [13] - 智谱AI的Auto框架聚焦终端设备的快速赋能,降低移动场景部署成本 [13] - 星辰智能体推出的Astron开源项目基于Apache2.0协议,支持核心能力二次开发,在GitHub已获得13k+ Star [13] 生态构建与场景落地 - 星辰智能体平台在海外市场聚焦中东、东南亚区域,覆盖公共服务、基建招投标等八大场景,通过本地化部署提供适配服务 [15] - 其海外应用覆盖从数千页基建标书的自动分析,到多语言实时出行引导,再到复杂合同合规风险透视等场景 [15] - 阿里千问重点发力消费服务场景,实现外卖、购物、出行等高频需求的智能协同 [18] - 商汤医疗聚焦医疗领域,其肝脏智慧诊疗智能体实现分钟级三维重建,已在多家头部医疗机构落地 [18] - 星辰智能体依托讯飞开放平台资源积累,该平台聚集超过1026.5万开发者团队,累计覆盖终端设备42.8亿台 [18] - 平台在国内聚焦开发者赋能,在海外设立区域总部与本地化团队,构建全球化生态网络 [18] - OpenAI通过API开放策略,让第三方开发者能基于其核心能力构建垂直场景智能体 [18] - 阿里借助自身生态优势,实现智能体与电商、支付、物流等业务的深度融合 [19] - 智谱AI通过“工具赋能 + 创业辅导”模式,加速培育AI原生企业,丰富产业生态 [19] 行业发展趋势 - 智能体产业正处于从技术探索向规模化落地转型的关键阶段 [21] - 未来智能体的发展将更注重场景适配的精准性、开发的便捷性与生态的开放性 [21] - 企业与开发者的协同创新将成为产业进步的重要动力 [21]
华为靳玉志:ADS 4比旧版本安全多了,说“我们智驾靠堆代码”是胡扯
经济观察网· 2026-01-18 23:28
公司业务表现与市场数据 - 华为乾崑智驾系统(乾崑ADS)于2024年4月推出,并于2025年4月发布ADS 4版本 [2] - 2025年10月至12月,搭载华为乾崑智驾的车型连续3个月销量超过10万辆 [2] - 2025年全年,华为乾崑用户辅助驾驶里程达54.2亿公里,累计避免可能的碰撞212万次,辅助泊车3.3亿次 [2] - 截至新闻发布时,华为乾崑智驾累计辅助驾驶里程已超过72亿公里 [3] - 辅助驾驶活跃用户占比达到98%,智慧助手唤醒26亿次,无缝流转1.32亿次,照明光毯开启2434万次,晕车舒缓开启343万次 [2] - 公司预计到2026年底,搭载乾崑智驾的车辆将达到300万辆 [3] 技术路线与产品发展 - 乾崑智驾ADS 4采用了世界引擎与行为模型结合的架构,代表“世界模型”技术路线,该路线认为语言模态并非构建驾驶能力的必需 [3] - 行业技术路线逐渐分化为VLA大模型和“世界模型”两种,VLA路线强调语言模态的必要性 [3] - 在硬件方案上,公司支持“多模态融合”,认为激光雷达在极限场景(如眩光、无光线)下对提升安全性是必要的 [3] - 公司计划在2026年对乾崑五大解决方案进行全面升级,其中乾崑智驾将发布ADS 5版本 [3] - 下一代安全产品计划首搭于尊界S800与问界M9旗舰车型 [3] 产品性能与用户反馈 - 针对外界关于ADS 4变得更保守的质疑,公司回应称在城区场景下,ADS 4的用户使用比例相较ADS 3.3实际增加了个百分点 [2] - 公司统计数据显示,ADS 4的安全性比ADS 3.3提升了50% [2] - 在每发生一次严重碰撞事故前,乾崑ADS平均已安全行驶的公里数是人类司机的3.58倍 [3] - 公司于2025年广州车展发布华为乾崑App,在一两个月时间内下载量超过100万,用户量达到66万 [4] - 通过该App,公司已收到用户关于功能优化的1.5万条心愿单 [4] 公司对外界质疑的回应 - 公司高管驳斥了关于乾崑智驾系统是靠堆规则、堆代码写出来的不实说法 [2] - 公司表示不认可外界某些不客观的质疑,但始终欢迎用户提出宝贵意见 [4] 未来规划与市场展望 - 公司预计2026年搭载乾崑智驾的车辆将超过80款 [3]
全球AI应用平台市场全景图与趋势洞察报告
搜狐财经· 2026-01-10 20:08
全球AI应用平台市场概况 - AI应用平台正成为AI技术规模化应用的核心载体,是集成了模型开发、部署与运营能力的一体化企业级平台,旨在将复杂技术转化为解决实际业务问题的产品与服务 [2] - 全球市场由美国主导,其市场规模占比超过55%,中美两国合计已占全球近七成份额 [2] - 欧洲市场增长迅速,预计2029年市场规模将达到约2500亿美元 [2] 全球AI市场融资与规模 - 2025年全球AI创业公司融资额达到2023亿美元,同比增长超75%,占全球总融资近50% [13] - 美国在AI融资领域占据主导地位,2025年美国本土企业融资总额达1590亿美元,占全球AI融资的79%,其中旧金山湾区贡献了1220亿美元,占美国融资的四分之三以上 [13] - 西欧市场规模占整个欧洲市场的九成以上 [12] 中国AI市场现状与预测 - 预计到2029年,中国人工智能总投资规模将达1114亿美元,五年复合增长率为25.7% [18] - 生成式AI在中国市场占比将显著提升,预计从2024年占总投资规模的18.2%提升至2029年的41.1%,投资规模超450亿美元,五年复合增长率为48.0% [18] - 中国AI产品在用户规模与产品数量上已具备全球竞争力,2025年数据显示,中国AI APP下载量为2.63亿次,产品总数为172个 [17] - 但在商业化收入和Web端渗透率上仍有提升空间,2025年中国AI APP内购收入为8040万美元,AI WEB访问量为14.25亿次,显著低于全球水平 [17][18] AI应用平台服务商分类 - 平台层/PaaS提供者(如微软Azure、百度智能云),提供开发工具与基础设施 [3] - 解决方案构建者(如Palantir、迈富时),聚焦行业场景交付完整解决方案 [3] - 传统软件服务者(如Oracle、用友),在现有软件中嵌入AI能力实现产品智能化 [3] 全球区域发展特点 - 美国扮演“定义规则”的角色,在基础技术、产品形态与商业模式上引领全球 [3] - 欧洲注重“深度整合”,将AI嵌入高端制造、汽车等实体产业,追求高价值与高合规性落地 [3] - 中国作为“规模应用”的场景大师,依托庞大统一市场,在消费互联网、智慧城市等领域实现快速规模化落地与迭代 [3] 未来技术发展趋势 - AI Agent智能体将向具备规划与工具调用能力的自主系统演进 [3] - 低代码AI开发工具将进一步降低开发门槛 [3] - 多模态融合技术将推动AI从文本向图像、语音、视频统一理解与生成跨越 [3] 全球AI关键趋势 - 大模型推理成本大幅下降,例如DeepSeek-V3使推理成本年降90%,其输入成本仅为GPT-4o的1/18-1/5,输出成本为GPT-4o的1/4-1/10,对比Claude3.5,其输出成本仅为其1/53 [25] - AI Agent已进入大语言模型驱动阶段 [24] - 行业AI应用平台正从工具转向集成化平台 [24] 中国AI产业链结构演进 - 算力方面,正从依赖进口转向国产芯片性能追赶并构建生态,未来目标实现接口算子库/训练统一及云边端动态调度 [20] - 算法方面,从预训练规模竞赛转向强化学习与多模态重点发展,未来目标实现多模态认知统一及深度决策 [20] - 数据方面,从依赖公开语料转向建设语料平台与数据要素市场,未来合成数据占比将超50% [20] - 生态与开发方面,从闭源主导、工程化工具链缺失转向开源模型性能比肩闭源、自动化微调平台缩短周期,未来低代码平台将覆盖80%场景 [20] - 应用方面,从集中于数字原生行业转向行业分化明显,未来将向垂直行业深化与专业化本地化部署发展 [20] 行业AI应用需求与渗透率 - 人工智能行业渗透率持续提升,互联网、电信、政府、金融、制造、交通、服务和教育等是AI技术积极探索和广泛落地的领域 [27] - 2024年数据显示,中国互联网行业的AI渗透率已接近90%,处于绝对领先地位 [30] - 电信、政务、金融行业的渗透率普遍超过70% [30] 制造业AI应用 - 需求围绕“提效、提质、降本、控风险”展开,旨在通过AI打通全链路数据,实现各环节的智能化决策与自动化执行 [28] - 具体应用包括:研发环节的生成式设计与AI仿真以提升效率;生产环节的AI质检与预测性维护;供应链环节的库存优化与风险管控;销售环节的精准获客;服务环节的预测性维护与智能客服 [29] 零售消费业AI应用 - 需求聚焦“精准、高效、降本、提体验”,旨在实现从获客、服务到履约的智能化决策 [31] - 具体应用包括:营销环节的AI内容生成与程序化广告;会员运营环节的个性化分层服务;门店管理环节的智能巡店与排班;供应链环节的精准销量预测与库存优化 [32] 金融保险业AI应用 - 需求正从单点效率提升向跨职能协同与业务模式创新演进 [33] - 具体应用包括:风控环节的智能核保、反欺诈与异常监视;客服环节的AI客服机器人;营销环节的客户流失预测与个性化推荐;合规环节的自动化合同与法规审查 [34] 医疗健康业AI应用 - 需求围绕“精准、高效、可及、经济”的核心价值展开 [37] - 具体应用包括:诊疗辅助环节的医学影像智能分析与电子病历处理;患者管理环节的长期状态监测与个性化干预;药物研发环节的靶点发现与化合物设计 [38] - AI+医疗细分赛道中,医学影像分析商业化能力与市场成熟度最高,电子病历、专病专科、医院管理等也是重点布局领域 [38]
腾讯阿里的子弹,命中同一IPO
虎嗅APP· 2026-01-09 08:10
公司上市与市场表现 - 大模型行业竞争加速,已进入快速抢滩港交所的阶段[5] - MiniMax于1月9日以165港元发行价在港交所上市,按全球发行2919.76万股估算,公司市值有望快速突破500亿港元[6] - 市场认购情绪高涨,IPO孖展金额超2533亿港元,公开发售超额认购1209倍,参与机构超460家,创近年港股机构认购纪录[6] - 公司成立不足四年即成功IPO,有望成为AI领域最快上市企业[6] - 1月8日暗盘交易股价最高触及211.2港元/股,收于205.6港元/股,较发行价上涨24.6%[7] 公司团队与研发效率 - 公司灵魂人物为前商汤科技副总裁闫俊杰,其技术背景为MiniMax夯实了基底[12] - 团队非常年轻,CEO闫俊杰36岁,COO 31岁,大语言模型负责人29岁,视觉模型负责人32岁,全体员工平均年龄仅29岁[13] - 公司展现出极高的人效,截至2025年9月底,员工共385人,累计研发投入仅5亿美元,而同期OpenAI累计投入约400~550亿美元[13] - 相当于用OpenAI约1%的投入,便将文本、语音、视觉三大AI核心模态推进至全球第一梯队[13] 公司发展路径与产品矩阵 - 公司成长路径差异化,成立之初便聚焦全模态模型研发[20] - 2022年率先布局海外C端AI社交赛道,旗下AI角色扮演平台Talkie/星野在海外崭露头角[16] - 2023年启动MoE模型研发,旗下abab 6成为国内首款MoE大模型,使公司成为亚洲首家、全球首批实现MoE架构商用的企业[17] - 2024年8月,上线海螺AI视频生成功能,累计生成视频超5.9亿个,在激烈竞争中率先实现商业化[17] - 2025年10月,发布的新一代文本大模型MiniMax-M2在全球权威测评榜单Artificial Analysis中位列全球前五、开源第一[17] - 已构建覆盖多场景的产品矩阵,包括智能Agent应用MiniMax、视觉生成平台海螺AI、音频生成工具MiniMax语音、全模态交互平台Talkie/星野[20] - 公司业务已覆盖全球200多个国家和地区,拥有超2.12亿用户,服务超100个国家和地区的企业客户与开发者[22] 用户数据与粘性 - 公司旗下产品月活跃用户达2760万[22] - 用户日均使用时长高达70分钟,作为参照,2024年主流长视频平台的用户日均使用时长为60-70分钟[22] 商业模式与财务表现 - 公司以B端和C端双轮驱动构建商业闭环[23] - 2025年前三季度收入达5343.7万美元,已超过2024年全年收入3052.3万美元[23] - 毛利率从2023年的-24.7%大幅改善至2025年前三季度的23.3%[23] - 收入71.1%来自AI应用的订阅及付费服务,付费用户达177万,付费率超6%[24] - 海外收入占比超70%,成为收入结构核心亮点[24] - 通过开放平台API服务从B端获取28.9%的收入,已积累超10万家企业和开发者客户,其中付费客户约2500家[24] - 净亏损规模较大,2022-2024年净亏损分别为7372.9万美元、2.69亿美元、4.65亿美元,2025年前三季度净亏损进一步增至5.12亿美元[26] - 研发投入巨大,2022-2024年研发开支分别为1056万美元、7000.2万美元、1.89亿美元,2025年前三季度为1.80亿美元[26] - 研发费用占当期总收入的比例持续下降,从2023年的2023%降至2024年的619%,2025年前三季度进一步降至337%[26] - 2025年前三季度销售费用下降26%,研发费用仅增长30%,收入却同比大增175%,显示增长质量较高[26] 资本背景与行业意义 - 公司成立以来累计融资超15亿美元[27] - 战略投资人涵盖米哈游、阿里、腾讯、小红书、小米等互联网及移动互联网时代明星企业[27] - 以MiniMax为代表的企业,其践行的C端多模态应用与全球化战略,正在重塑中国新一代科技公司的成长路径与行业共识[28]
大咖再扩列!“WAIC UP!全球年终盛会”议程上新,马上锁定你的那一趴!
36氪· 2026-01-04 18:04
世界人工智能大会日程与主题 - 大会日程分为上午场、下午场和夜场三个主要时段,分别聚焦前沿趋势、实战案例与生态共创 [3][4][10][14] - 上午场核心活动为“WAIC UP”主题演讲,旨在洞见前沿趋势并引爆灵感共振 [5] - 下午场核心活动包括“WAIC @”商业产业主题演讲、“WAIC Ground”科教圆桌、“WAIC FUTURE TECH”未来科技主题演讲及“AI GRAVITY”国际合作主题演讲 [11][12] - 夜场核心活动为“WAIC MORE”,旨在打破圈层边界并共创无限可能 [15] 前沿技术趋势与研究方向 - 生成式AI是大会重点讨论的前沿技术趋势之一 [9] - AI for Science(AI4S)作为科研新范式受到关注,涉及技术预见和世界模型等概念 [9] - 多模态融合、具身智能、量子计算被列为重要的未来科技与研究方向 [13] - AI伦理与安全是大会涵盖的关键议题之一 [13] 产业应用与商业生态 - 下午场设有专门针对商业与产业的实战案例分享环节 [11] - 企业圆桌是探讨产业实践的重要形式 [12] - 出海战略被列为大会讨论的议题,关注人工智能技术的全球化商业布局 [13] 人才培养与教育演化 - 大会设有“校长圆桌”和“青年人才”专题讨论,聚焦科教风向与人才机遇 [12] - 教育演化是大会的核心议题之一 [13] 创业投资与国际合作 - 创业与投资是大会设置的专门讨论板块 [13] - 大会设有“AI GRAVITY”环节,以主题演讲和对话形式聚焦国际合作 [12][13] 互动交流与社群链接 - 夜场设有多个自由交流区,包括WAIC UP Zone、CONNECT Zone、Future Tech Zone和Young Zone,促进跨界互动 [16] - 大会旨在链接多元生态,挖掘多维潜能 [11]
践行者说|朱晓辉:出货量率先破万,华威科如何用“多模态融合”定义机器人触觉的未来?
机器人大讲堂· 2026-01-04 12:37
文章核心观点 - 华威科作为触觉传感器领域的先行者,通过多模态融合技术路径、实现万台级量产能力以及构建数据驱动生态,正推动人形机器人触觉感知从实验室走向产业化,并定义了该技术未来从操作级应用到场景化细分的演进路径 [2][4][6][27][30] 技术破局:多模态融合 - 公司认为触觉是人形机器人融入人类生活的核心,而单一感知模态不足,因此坚定选择多模态融合的技术路线,以模仿人类皮肤能同时感知压力、温度、纹理、震动等多维信息的能力 [7][9] - 公司提出“状态机”概念,使机器人能根据场景(如高温、精密抓取)智能切换主导感知模态(如温度、磁传感、压阻),实现自适应感知,接近人类的“下意识反应” [11] - 多模态融合通过底层算法与硬件深度耦合实现,例如在指尖采用压阻+磁融合方案以提升操作灵敏度,在掌心优化反馈精度,从而构建起全方位、立体化的感知网络 [13] 量产密码:规模化与产品矩阵 - 2025年,公司应用于灵巧手的触觉传感器出货量已突破**1万台**,成为行业内首个实现此量产规模的企业,解决了从实验室样品到批量产品的关键难题 [4][13] - 量产突破依赖于装备、材料与算法的三重创新:自主研发专用生产装备以控制关键参数、自研柔性感知材料保障可靠性、开发自动化动态场景标定系统确保品质与长期稳定性 [14][16] - 量产推动成本进入千元量级,并预测未来**3-5年将进入百元量级**,为人形机器人全身覆盖电子皮肤奠定经济可行性 [16] - 公司发布“龙鳞”与“灵犀”两大产品系列,形成覆盖“操作+交互”的全手掌感知方案。“龙鳞”系列主打全手覆盖,实现手心手背感知,用于交互反馈;“灵犀”系列聚焦指尖,集成压力、温度、纹理感知,用于精密操作 [16][18][20] - 产品采用模块化设计,可适配从**10岁儿童到成年人**的全尺寸手型,并具备可拆卸、边缘计算、**100万次以上使用寿命**等工程化特性 [20] 数据驱动与生态构建 - 公司将自身定位为“具身感知解决方案提供商”,致力于构建“传感+AI+数据”的闭环生态 [22] - 公司与湖北人形机器人创新中心及产业联盟合作,共建聚焦“手部及腕部以下”的触觉数据采集平台,采集物体属性、操作动作与触觉数据的耦合关系,目前已覆盖**10个核心场景、1000种以上物体** [22][24] - 通过分析海量数据优化算法模型,未来计划通过OTA远程升级方式,让机器人的触觉系统具备“自主学习”能力,实现“智能灵巧手” [24] 行业展望与技术演进路径 - 公司描绘了触觉技术三阶段演进路径:第一阶段以灵巧手为核心的操作级应用(当前**1万台出货量**即为此阶段里程碑);第二阶段拓展至机器人身体、脸部的操作+交互融合应用,进入家庭服务、医疗护理等场景;第三阶段实现场景化细分,渗透工业、汽车、3C、家居等多领域 [27] - 公司认为触觉市场规模潜力巨大,其本质是解放人类双手、实现人机共生的核心技术,并明确视觉与触觉是互补关系,触觉在盲区、透明物体识别、细微形变感知等方面具有优势 [27] - 公司下一年的出货量目标是**5万台以上**,标志着触觉感知技术从“可选”到“必选”的跨越 [30]
年终盘点|大模型洗牌、分化、冲上市,无人再谈AI六小龙
第一财经资讯· 2025-12-31 14:03
文章核心观点 - 2025年AI行业进入转折期,创业公司经历剧烈分化,互联网大厂凭借资源优势全面发力,行业竞争格局重塑 [1] - 基础模型的“规模化法则”增长瓶颈显现,行业探索新范式,竞争焦点从模型能力转向商业化落地和产业化赚钱 [2][5][11][13] - 2026年行业预计仍将高速发展,但非终局之年,技术迭代、商业化探索和生态竞争将持续 [12][13] 创业公司赛道分化 - 曾被资本热捧的“大模型六小龙”光环褪去,发展路径清晰分化 [3] - **智谱**与**MiniMax**已通过港交所聆讯,启动港股上市流程,均计划通过港股18C章节上市 [1][3][4] - **月之暗面**持续更新模型与产品冲击上市营收条件,其Kimi在2025年11月上线K2 Thinking模型后,Web端访问量上涨48.6%至4300多万 [3] - **阶跃星辰**同样持续更新模型技术与应用产品 [3] - **百川智能**与**零一万物**转向垂类应用,分别聚焦医疗与企业级商业化场景 [3] - 留在基座模型赛道的玩家越来越少,下注金额越来越高,例如MiniMax每月现金消耗接近2亿元 [5][6] 市场竞争与用户格局 - AI原生应用市场头部格局相对稳定但存在竞争,据QuestMobile三季度数据:**豆包**月活1.72亿,**DeepSeek**月活1.45亿,**腾讯元宝**月活3286万,**即梦AI**月活1012万,**Kimi**月活967万 [3] - 截至2025年12月8日至14日的最新周期,周活跃用户榜单发生变化:**豆包**1.55亿,**DeepSeek**8156万,**腾讯元宝**2084万,**蚂蚁阿福**1025万,**千问**872万 [4] - 在营销投放上,2025年11月**腾讯元宝**买量素材领先,但**千问**在月末日投放素材量实现了反超 [7] 互联网大厂全面发力 - 大厂在2025年末包揽行业热度,凭借算力、数据与生态优势全面压境 [1][7] - **字节跳动**:豆包APP日活突破一亿,豆包大模型日均tokens调用量超过50万亿 [7] - **阿里巴巴**:集团侧全力推动千问发展,给予资金、资源、人才全方位支持,千问月活突破4000万,计划将高德地图、外卖、订票等阿里生态场景全面接入千问APP [7][8] - **腾讯**:宣布成立AI Infra/AI Data/数据计算平台部,由姚顺雨任首席AI科学家,凭借强流量、场景与数据优势入局 [7][8] - 行业观点认为大厂入局能利用自身资源培育市场,当前比拼的核心是战略眼光、执行能力及对时间节点的把握 [8] 技术发展与行业趋势 - 基础模型的Scaling Law增长明显放缓,规模依然重要,但架构创新和数据创新的权重已显著提升 [5] - 下一代模型的关键方向之一是更深度的多模态融合,目前如谷歌Gemini也只是起步 [4] - 2025年AI编程能力和智能体是各家模型重点突破方向,因编程能力相关商业价值较高,落地后能直接产生营收 [11] - 行业虽面临技术瓶颈讨论,但预计2026年仍将保持高速发展态势,企业或在新架构、新学习范式上加大投入,寻求原始性研究突破 [12] 资本动向与商业化 - 2025年末发生重要收购案:智能体初创公司**Manus**被Meta收购 [1] - **智谱**港股上市募集资金净额的70%(约29亿港元)将用于通用AI大模型研发 [6] - 行业焦点正从“AI模型能做什么”转向“AI该如何产业化地赚钱”,2026年商业化将成为关注重点 [2][13] - 模型厂商将更多考虑如何更大程度商业化,而需求端企业将评估AI投入的价值与收益 [13]
2025机器人技能大赛折射中国AI+机器人融合新趋势
新华社· 2025-12-29 21:52
行业趋势:从“炫技”到“上岗” - 中国机器人产业与AI发展深度融合,展现出从技术展示迈向实际应用的新趋势[1] - 机器人正加速走进工厂车间、医院病房、社区养老院及千家万户,成为可靠的生产力工具[3][4] - 行业竞争焦点从比拼单点性能转向比拼任务成功率、稳定性与可交付性[4] 赛事与前沿应用 - 2025机器人技能大赛在深圳举行,主题为“智创未来·技领全球”,涵盖医疗健康、低空飞行、人形表演、智能仓储物流、高精度工业装配六大前沿赛道[1] - 超过100支来自全国高校、科研机构和企业的团队参赛[1] - 医疗与养老赛道展示了家庭康养机器人和超声自动扫查机器人等具体应用,后者能模仿医生“手眼脑协调”能力,实现标准化检查[4] 产业生态与商业模式创新 - 深圳市龙岗区正构建全球领先的AI与机器人产业高地,推动新质生产力形成[4] - 龙岗区拥有1.27万家机器人集群企业,占深圳全市6.5万家企业总数的19.54%[6] - 创新商业模式涌现:“人工智能6S店”整合展示、销售、培训等六大功能,采用“前店后厂”模式[6];“机器人6S店”新增租赁与个性化定制服务,自7月28日开业至12月16日,营业额达2000万元,并签约6家加盟分店[6] - “机器人零部件超市”汇聚精密减速器、伺服电机到人形关节模组等核心部件,形成完整产业链条[6] - 龙岗区将全区作为“超级试验场”,已发布677项场景需求,撮合落地项目218个,带动合作金额超30亿元[6] 技术挑战与发展路径 - 当前最大瓶颈是机器人的“环境泛化能力不足”,例如不同医院药盒样式各异、养老院电磁干扰严重、户外风速影响无人机精度等[7] - 单一传感器已无法满足复杂场景需求,多模态融合是必由之路[7] - 对应用场景的深度理解是决定AI与产业结合能走多远的关键要素[7] - 成本控制是技术普惠化的关键,粤港澳大湾区成熟供应链使核心部件价格大幅下降[7] - 得益于供应链本地化配套,研发与量产成本显著降低,上游供应链重合度超过60%[7] - 智能汽车产业正成为“聚合智能的桥梁”,其电驱动、算力平台、通信模块等技术可被机器人领域直接复用[7]
MIT团队提出OpenTouch:首次实现真实场景下视觉、触觉、手部姿态的同步建模
具身智能之心· 2025-12-24 08:25
文章核心观点 - MIT、杜克大学等联合团队提出的OPENTOUCH框架,通过“硬件感知系统 - 大规模数据采集 - 多模态基准测试”的三层技术体系,首次实现了真实场景下视觉、触觉、手部姿态的同步建模,为具身学习与机器人操纵提供了全新范式 [3][4] 技术背景与挑战 - 现有计算机视觉与机器人技术长期依赖单一视觉模态,难以捕捉接触力、材质属性等关键信息 [3] - 真实世界触觉感知面临四大核心挑战:模态信息缺失、野生环境适应性差、多模态同步难题、标注效率低下 [6][7][8][9] 方案设计:三层技术闭环 第一层:硬件感知系统 - 设计了轻量化、高鲁棒性的硬件套件,以实现野生环境下的高精度多模态采集 [12] - **全手触觉传感手套**:基于柔性印刷电路技术,集成16×16电极网格与压阻薄膜,形成169个触觉传感点,均匀覆盖手掌与手指,成本低且可批量生产 [12] - **手部姿态追踪手套**:采用Rokoko Smartglove专业动捕设备,通过IMU与EMF传感器融合,以30Hz频率输出7个6DOF姿态数据,旋转精度达±1° [12] 第二层:大规模数据采集 - 构建了覆盖真实生活场景的大规模多模态数据集 [13] - **第一视角视觉采集**:利用Meta Project Aria智能眼镜,同步采集1408×1408分辨率RGB视频、眼动追踪、音频与IMU数据,视场角110° [15] - **多模态时间同步**:通过终端视觉触发信号实现跨设备校准,将视频、触觉、姿态数据的时间延迟控制在2ms内 [15] - **多样化采集场景**:在14个日常环境中,让参与者自由操纵800+类物体,采集5.1小时同步数据,其中3小时为高密度标注的接触-rich交互片段 [15] - **智能标注流水线**:采用GPT-5自动化标注加人工验证机制,生成物体名称、类别、环境、动作、抓握类型、自然语言描述6类标签,标注准确率达90% [15] - **多模态数据维度**:数据集包含RGB视频、全手触觉压力图、3D手部姿态、眼动轨迹、音频等多源数据,支持跨模态关联分析 [15] 第三层:基准测试体系 - 基于数据集构建了两大核心基准任务:跨模态检索任务与触觉模式分类任务 [15][16] - **跨模态检索任务**:包括视频↔触觉、姿态↔触觉、多模态→单模态三类子任务,要求模型学习共享表征空间 [16] - **触觉模式分类任务**:分为手部动作识别与抓握类型分类,验证触觉信号对交互意图与接触方式的判别能力 [16] - **评估指标与基线**:采用Recall@1/5/10、平均精度均值评估检索性能,分类任务使用准确率指标,基线模型包括CCA、PLSCA线性方法与CLIP-style对比学习框架 [16] 性能验证结果 跨模态任务性能突破 - 在核心基准测试中,多模态融合模型显著优于单模态与线性基线 [20] - **跨模态检索**:视频+姿态→触觉检索的mAP达26.86%,较CCA线性方法提升5倍以上;触觉单独检索姿态的Recall@1达7.15%,远超随机猜测的0.07% [21] - **分类任务**:触觉+视觉融合的抓握类型分类准确率达68.09%,触觉单独分类准确率达60.23% [21] - **定性结果**:模型能精准匹配相似接触模式,即使视觉上存在遮挡或物体透明,触觉信号仍能提供关键线索 [21] 关键因素消融分析 - **时间窗口长度**:20帧窗口的检索性能最优,较5帧窗口的Recall@1提升47%,证明长时程时序动态对接触模式识别的重要性 [24] - **触觉编码器设计**:轻量化CNN编码器在所有任务中优于ResNet-18,mAP最高提升10.49%,说明触觉信号的稀疏结构化特性更适合紧凑编码器 [24] 真实场景应用拓展 - 在Ego4D野生视频数据集上的零样本检索实验中,OPENTOUCH模型能从输入视频中检索到语义相似的触觉序列,证明其泛化能力 [26] - 给定人类操纵物体的视频查询,模型返回的触觉信号与真实接触模式高度一致 [28] - 该应用可将大规模视觉视频数据集与触觉信息关联,为机器人操纵提供丰富的接触力先验知识 [28] 技术局限与未来方向 - **触觉维度局限**:当前仅捕捉法向压力,未涵盖剪切力、温度、振动等触觉子模态 [29] - **硬件耐用性**:FPC传感器在反复弯曲与汗液侵蚀下可能出现线路断裂,需优化封装工艺 [29] - **标注精细化**:部分遮挡或低光照场景下的标注准确率仍有提升空间 [29] - **跨模态融合深度**:未来可探索transformer架构实现模态间的细粒度交互,进一步提升性能 [29] 总结与行业影响 - OPENTOUCH的核心贡献在于建立了“感知硬件 - 数据标注 - 基准测试”的完整技术链路 [28] - 通过低-cost同步硬件破解真实场景采集难题,通过AI辅助标注解决大规模数据构建瓶颈,通过跨模态基准揭示触觉与视觉、姿态的互补关系 [28] - 其5.1小时多模态数据、硬件设计方案与开源代码,为计算机视觉、机器人学、神经科学等领域提供了统一研究平台,推动多模态具身学习从实验室走向真实世界,加速通用自主机器人的落地进程 [28]