Workflow
多模态融合
icon
搜索文档
MIT团队提出OpenTouch:首次实现真实场景下视觉、触觉、手部姿态的同步建模
具身智能之心· 2025-12-24 08:25
文章核心观点 - MIT、杜克大学等联合团队提出的OPENTOUCH框架,通过“硬件感知系统 - 大规模数据采集 - 多模态基准测试”的三层技术体系,首次实现了真实场景下视觉、触觉、手部姿态的同步建模,为具身学习与机器人操纵提供了全新范式 [3][4] 技术背景与挑战 - 现有计算机视觉与机器人技术长期依赖单一视觉模态,难以捕捉接触力、材质属性等关键信息 [3] - 真实世界触觉感知面临四大核心挑战:模态信息缺失、野生环境适应性差、多模态同步难题、标注效率低下 [6][7][8][9] 方案设计:三层技术闭环 第一层:硬件感知系统 - 设计了轻量化、高鲁棒性的硬件套件,以实现野生环境下的高精度多模态采集 [12] - **全手触觉传感手套**:基于柔性印刷电路技术,集成16×16电极网格与压阻薄膜,形成169个触觉传感点,均匀覆盖手掌与手指,成本低且可批量生产 [12] - **手部姿态追踪手套**:采用Rokoko Smartglove专业动捕设备,通过IMU与EMF传感器融合,以30Hz频率输出7个6DOF姿态数据,旋转精度达±1° [12] 第二层:大规模数据采集 - 构建了覆盖真实生活场景的大规模多模态数据集 [13] - **第一视角视觉采集**:利用Meta Project Aria智能眼镜,同步采集1408×1408分辨率RGB视频、眼动追踪、音频与IMU数据,视场角110° [15] - **多模态时间同步**:通过终端视觉触发信号实现跨设备校准,将视频、触觉、姿态数据的时间延迟控制在2ms内 [15] - **多样化采集场景**:在14个日常环境中,让参与者自由操纵800+类物体,采集5.1小时同步数据,其中3小时为高密度标注的接触-rich交互片段 [15] - **智能标注流水线**:采用GPT-5自动化标注加人工验证机制,生成物体名称、类别、环境、动作、抓握类型、自然语言描述6类标签,标注准确率达90% [15] - **多模态数据维度**:数据集包含RGB视频、全手触觉压力图、3D手部姿态、眼动轨迹、音频等多源数据,支持跨模态关联分析 [15] 第三层:基准测试体系 - 基于数据集构建了两大核心基准任务:跨模态检索任务与触觉模式分类任务 [15][16] - **跨模态检索任务**:包括视频↔触觉、姿态↔触觉、多模态→单模态三类子任务,要求模型学习共享表征空间 [16] - **触觉模式分类任务**:分为手部动作识别与抓握类型分类,验证触觉信号对交互意图与接触方式的判别能力 [16] - **评估指标与基线**:采用Recall@1/5/10、平均精度均值评估检索性能,分类任务使用准确率指标,基线模型包括CCA、PLSCA线性方法与CLIP-style对比学习框架 [16] 性能验证结果 跨模态任务性能突破 - 在核心基准测试中,多模态融合模型显著优于单模态与线性基线 [20] - **跨模态检索**:视频+姿态→触觉检索的mAP达26.86%,较CCA线性方法提升5倍以上;触觉单独检索姿态的Recall@1达7.15%,远超随机猜测的0.07% [21] - **分类任务**:触觉+视觉融合的抓握类型分类准确率达68.09%,触觉单独分类准确率达60.23% [21] - **定性结果**:模型能精准匹配相似接触模式,即使视觉上存在遮挡或物体透明,触觉信号仍能提供关键线索 [21] 关键因素消融分析 - **时间窗口长度**:20帧窗口的检索性能最优,较5帧窗口的Recall@1提升47%,证明长时程时序动态对接触模式识别的重要性 [24] - **触觉编码器设计**:轻量化CNN编码器在所有任务中优于ResNet-18,mAP最高提升10.49%,说明触觉信号的稀疏结构化特性更适合紧凑编码器 [24] 真实场景应用拓展 - 在Ego4D野生视频数据集上的零样本检索实验中,OPENTOUCH模型能从输入视频中检索到语义相似的触觉序列,证明其泛化能力 [26] - 给定人类操纵物体的视频查询,模型返回的触觉信号与真实接触模式高度一致 [28] - 该应用可将大规模视觉视频数据集与触觉信息关联,为机器人操纵提供丰富的接触力先验知识 [28] 技术局限与未来方向 - **触觉维度局限**:当前仅捕捉法向压力,未涵盖剪切力、温度、振动等触觉子模态 [29] - **硬件耐用性**:FPC传感器在反复弯曲与汗液侵蚀下可能出现线路断裂,需优化封装工艺 [29] - **标注精细化**:部分遮挡或低光照场景下的标注准确率仍有提升空间 [29] - **跨模态融合深度**:未来可探索transformer架构实现模态间的细粒度交互,进一步提升性能 [29] 总结与行业影响 - OPENTOUCH的核心贡献在于建立了“感知硬件 - 数据标注 - 基准测试”的完整技术链路 [28] - 通过低-cost同步硬件破解真实场景采集难题,通过AI辅助标注解决大规模数据构建瓶颈,通过跨模态基准揭示触觉与视觉、姿态的互补关系 [28] - 其5.1小时多模态数据、硬件设计方案与开源代码,为计算机视觉、机器人学、神经科学等领域提供了统一研究平台,推动多模态具身学习从实验室走向真实世界,加速通用自主机器人的落地进程 [28]
米哈游投资的独角兽拟上市:4年研发烧掉35亿,员工平均95后
创业邦· 2025-12-22 11:11
公司上市与市场地位 - 公司MiniMax(上海稀宇极智科技有限公司)已于2024年12月21日通过港交所聆讯,拟在港股主板上市 [2] - 公司成立于2021年6月30日,成立仅4年多,是中国成长最快、估值最高的AI科技公司之一 [2] - 公司是一家全模态AI公司,基于自研大模型打造了覆盖B端和C端的AI原生产品矩阵,包括海螺AI、Talkie、星野等,同时也为企业用户和开发者提供开放平台服务 [2] 股东结构与知名投资者 - 公司股东阵容强大,包括腾讯、米哈游、阿里巴巴、小红书、高瓴、IDG、红杉、经纬、明势、云启等知名企业和投资机构 [4] - 根据招股书披露的主要股东信息,阿里巴巴中国控股有限公司持有38,247,987股A类普通股,米哈游有限公司持有16,015,779股A类普通股 [5][7] - 米哈游是公司的“领航资深独立投资者”,IPO前持有公司约7.34%的股份,上市后预计持有约7.05% [26] - 米哈游创始人刘伟与阿里巴巴集团战投部总经理陈英杰均担任公司非执行董事 [24][26] 团队构成与研发实力 - 公司研发团队约385人,研发人员占比近74%,分为专注文本、视觉、音频、AI基础架构及产品开发的专业小组 [8] - 核心研发团队由来自微软、谷歌、Meta、阿里巴巴、ByteDance及DeepSeek等企业的专家组成 [8] - 研发团队平均年龄不足30岁,在港股历史上较为罕见 [10] - 核心高管团队年轻化:CEO兼创始人闫俊杰36岁,COO兼联合创始人贠烨祎31岁,大语言模型负责人赵鹏宇29岁,视觉模型负责人周彧聪32岁 [10] - 公司自成立至今的研发投入约为5亿美元(约合35亿元),2025年前九个月研发开支达1.38亿美元(约合9.71亿元) [21] - 公司CEO认为,其核心优势在于中国的人才优势,能以更低的研发投入达到接近国际领先水平的效果 [22] 财务表现与收入增长 - 公司收入呈现爆发式增长:2023年全年收入为346万美元(约合2436万元),2024年飙升至3052万美元(约合2.14亿元),同比增长高达782.2% [12] - 2025年前九个月,收入继续增长至5343.7万美元(约合3.76亿元),同比增长超174% [12] - AI原生产品收入增长迅猛:2025年前九个月,AI原生产品收入超3800万美元(约合2.67亿元),占总收入的71.1%,较2023年的约76万美元(约合535万元)增长近50倍 [13][14] - 公司毛利率显著改善:从2023年的-24.7%转正至2024年的12.2%,并在2025年前九个月进一步提升至23.3% [19] - 公司目前仍处于亏损状态:2025年前九个月,经调整净亏损为1.86亿美元(约合13亿元),但经调整亏损率从2023年的-2574.4%大幅收窄至-348.6% [20][21] 产品数据与用户规模 - 公司AI原生产品累计个人用户数已突破2.12亿 [15] - 平均月活跃用户(MAU)从2023年的310万,增长至2025年9月的2760万,两年间增长近9倍 [15] - 核心产品Talkie/星野在2025年前九个月平均MAU超2000万,贡献收入1875万美元(约合1.32亿元),占总收入35.1% [13][15] - 视频产品海螺AI在2025年前九个月贡献收入1746万美元(约合1.22亿元),占总收入32.6% [13][17] - 智能Agent应用用户基数较小但人均付费能力极强,2025年前九个月每位付费客户平均支出高达73美元,远超Talkie星野的5美元 [17] 技术优势与行业地位 - 公司是唯一一家在语音、视频、文本、音乐四大模态中都达到国际领先水平的中国AI公司 [19] - 公司凭借在长上下文模型和可扩展的多模态架构设计方面的技术重点脱颖而出 [22] - 公司是全球第十大大模型技术公司,市场份额为0.3%;按2024年基于模型的收入计算,是全球第四大pureplay大模型技术公司 [22] - 公司发布的MiniMax-01系列模型,在4000亿以上参数的大模型中使用了线性Attention机制架构,能高效处理长达400万token的上下文,达到全球最长水平 [23] - 公司CEO对中国AI行业发展非常乐观,认为未来三年内一定会有中国公司在AI领域实现引领性突破 [22] 战略合作与行业应用 - 公司与米哈游存在深度战略绑定:米哈游既是公司的主要投资者和股东,也是其下游游戏行业的主要客户,双方在游戏+AI领域有深度合作 [26] - 公司旗下的Talkie/星野主打与虚拟角色实时互动的社交体验,与米哈游希望在游戏中实现更智能的NPC对话、情感陪伴等AI需求高度契合 [27] - 公司开放平台及企业服务在2025年前九个月贡献收入1542万美元(约合1.08亿元),占总收入28.9%,服务的企业与开发者数量已突破10万家 [13][19] - 公司CEO认为,中国游戏产业一年有3000亿产值,AI与游戏的结合虽然存在政策困难,但一定会发生 [27]
A股千亿级大并购;壁仞科技香港IPO拟发行逾2.47亿股……盘前重要消息一览
证券时报· 2025-12-22 08:15
政策与行业动态 - 国家发展改革委、市场监管总局、国家网信办联合制定《互联网平台价格行为规则》,明确平台内经营者可依法自主定价,并禁止平台经营者采取提高收费、限制流量、搜索降序、算法降权、屏蔽店铺等不正当手段[1] - 商务部会议强调要大力提振消费,扩大优质商品和服务供给,释放服务消费潜力[1] - 山西省人民政府宣布废止2020年发布的烟花爆竹禁令,中国烟花爆竹协会表示将支持协助政策调整实施,推动行业健康有序发展[1] - 《2025年世界贸易报告》指出,在配套政策到位的情况下,人工智能有望到2040年将跨境货物和服务贸易额提高34%至37%,并推动全球GDP增长12%至13%[1] 科技与消费市场 - 长安汽车在重庆获得首块L3级自动驾驶专用正式号牌“渝AD0001Z”,标志着公司开启L3级自动驾驶时代[1] - 2025年全年中国动画电影票房突破250亿元,创历史新高,其中《哪吒之魔童闹海》《疯狂动物城2》《浪浪山小妖怪》位列票房榜前三[2] - 三星发布全球首款2nm智能手机芯片Exynos2600,市场预计该芯片将为明年2月底发布的Galaxy S26系列部分版本提供动力[2] 公司资本运作与战略 - 中国神华公告拟以1335.98亿元购买国家能源集团及其全资子公司西部能源持有的相关资产[3] - 通用人工智能科技公司MiniMax已通过港交所聆讯,该公司专注于研发文本、语音、视觉多模态融合的通用人工智能技术[3] - 北京智谱华章科技股份有限公司更新聆讯后资料集,意味着其港交所IPO正式通过聆讯[3] - 观想科技公告筹划购买辽晶电子不低于60%的股权,公司股票自公告日起停牌[3] - *ST东易公告其重整计划已获北京市第一中级人民法院裁定批准,公司将进入重整计划执行阶段[3] 半导体与硬件技术 - 摩尔线程举办首届MUSA开发者大会,创始人介绍了公司研发历时五年的新一代全功能GPU架构“花港”[3] - 上峰水泥公告其通过全资子公司投资的粤芯半导体IPO申请已于12月19日获深交所受理,公司间接持有粤芯半导体此次发行前约1.4957%的股权[4] - 壁仞科技在港交所公告,拟发行247692800股H股,发行价格区间为17至19.6港元/股,预期H股将于明年1月2日开始交易[4] 公司治理与股权变动 - *ST名家公告其资本公积金转增股本已完成,共计转增7.3亿股,公司总股本增至14.26亿股,股票自公告日起复牌[4]
介入放射学导航系统行业分析报告:产业链、行业政策、发展趋势及进入壁垒
QYResearch· 2025-12-19 12:53
文章核心观点 - 介入放射学导航系统是服务于微创介入诊疗的实时引导与定位设备,通过整合医学影像、传感技术、空间定位算法和手术路径规划,使临床医生能够精准操作,将手术从“经验驱动”转向“数据驱动”,从而提高准确性、安全性并减少手术时间与并发症风险 [2] - 该行业正朝着更高精度、更智能和更自动化的方向演进,AI、机器人技术和多模态融合影像是主要驱动力,使其成为现代微创治疗体系中不可或缺的核心技术 [6] - 2024年全球介入放射学导航系统市场规模达到4.79亿美元,预计2025年将达到5.07亿美元,未来六年年复合增长率为6.3% [10] - 行业面临较高的技术和认证壁垒,但受益于微创手术需求增长、疾病发病率攀升及降低辐射暴露的临床需求,是微创医学装备中极具潜力的细分方向 [16][17] 产品定义与工作原理 - **产品定义**:介入放射学导航系统是一类服务于微创介入诊疗的实时引导与定位设备,通过整合医学影像、传感技术、空间定位算法和手术路径规划,帮助医生在复杂人体结构中精准到达目标位置 [2] - **工作原理**:基于三大技术模块 [4] - **影像采集**:采集CT、MRI、DSA或超声影像,形成病灶及周围组织的三维模型作为导航基础地图 [4] - **坐标匹配**:通过配准技术将患者实际解剖位置与影像模型进行匹配,建立稳定的导航坐标系,配准方式包括骨性标志点、皮肤表面点云、定位标记等 [4] - **实时追踪**:利用电磁追踪、光学追踪或机器人反馈技术,对导管、穿刺针等器械进行实时监测,并将其位置信息实时映射到三维影像中 [4] 应用领域 - 系统被广泛应用于肿瘤消融、穿刺活检、血管介入、神经介入、经皮引流及复杂解剖区域的微创治疗 [5] - **肿瘤介入**:例如在肝脏肿瘤消融中,医生可在三维导航界面上规划最佳进针路径,避开血管与重要结构,系统实时校正针尖位置,提高穿刺准确率 [5] - **血管介入**:导航系统能够显示导丝在弯曲血管中的方位,简化复杂的血管入路,减少对造影剂和透视的依赖,从而降低辐射暴露 [5] - **其他复杂操作**:在硬膜外腔穿刺、肺小结节活检或深部骨盆病灶穿刺中,导航系统能够有效补偿呼吸运动、体位变化等因素带来的误差 [5] 技术参数与发展前景 - **重要技术参数**:系统性能由多项关键参数定义 [7][8] - **定位性能**:空间定位精度高端为0.5–1.0mm,中端为2–3mm;支持6自由度实时追踪;需具备抗金属干扰、抗磁场漂移的稳定性 [7][8] - **导航方式**:包括电磁、光学、混合型及机器人辅助;导航延迟高端约50–80ms,需低于100ms;刷新率≥60fps [7][8] - **图像处理能力**:支持CT/MRI/CBCT/US多模态融合;融合刷新时间<1秒;具备血管/器官3D重建与自动分割能力 [8] - **AI智能功能**:包括病灶自动识别、自动穿刺路径生成、风险区域提示及AI预测最佳入路与深度等 [8] - **辐射剂量管理**:可使术中辐射减少20–40% [8] - **发展前景与趋势**:行业向数字化、智能化与自动化演进 [6][16] - **技术融合**:多模态影像融合是关键方向,AI驱动的路径规划、自动配准、术中器械识别逐步成熟,使导航系统从辅助工具向智能助手转变 [6][16] - **机器人整合**:机器人臂结合导航系统可执行稳定而精确的针路控制,减少人为误差 [6] - **新型导航方式**:无标记导航、基于超声的动态导航以及与术中CT/CBCT联动的实时重建技术,能更贴近实际组织变化 [6] - **驱动因素**:全球微创手术需求快速增长、肿瘤与血管疾病发病率持续攀升、医院希望降低术中X射线剂量以及缩短术者学习曲线 [16] 市场规模与产业链 - **市场规模**:据QYResearch研究,2024年介入放射学导航系统全球市场规模达到4.79亿美元,预计2025年将达到5.07亿美元,未来六年年复合增长率为6.3% [10] - **产业链分析** [14] - **上游**:依赖精密传感器、医疗影像设备与导航算法平台的供应,代表性企业包括在光学与磁场定位技术领先的NDI、在介入影像设备有优势的Siemens Healthineers,以及提供AI导航算法平台的NVIDIA [14] - **下游**:集中在医疗机构、介入手术中心和综合医院,在介入放射科、心血管中心、神经介入和微创外科中广泛应用,典型应用包括肝肿瘤消融、血管介入治疗、神经血管通路重建等 [14] 竞争格局与主要厂商 - **主要厂商**:全球市场的主要参与者包括GE Healthcare、Medtronic、Siemens Healthineers、Philips Healthcare、Boston Scientific、Intuitive Surgical等国际企业,以及联影医疗、医达健康、迈迪斯医疗、赛诺威盛、东软医疗、万思医疗、唯迈医疗等中国厂商 [21] - **产品类型**:主要产品类型包括电磁导航、光学导航、机械导航、超声定位导航和惯性导航 [21] - **应用领域**:主要应用于神经介入、心血管介入、肿瘤介入、肺部介入和外周血管介入等领域 [21] 行业政策与进入壁垒 - **行业政策**:全球监管政策围绕提升介入治疗可及性、推动微创医疗发展及强化医疗器械监管展开 [15] - **美国FDA**:对导航系统通常采用510(k)途径,要求设备在安全性与等效性方面具备明确证据 [15] - **欧盟MDR**:强化了对软件类医疗器械和导航系统的临床评估,包括实时定位系统的精度验证 [15] - **中国NMPA**:推动创新医疗器械特别审批通道,鼓励介入导航、光电定位和智能影像融合类设备的注册,加速了国产技术的临床落地 [15] - **进入壁垒**:行业进入面临较高壁垒 [17] - **技术门槛高**:需要光学定位、磁导航、影像融合、实时计算和手术流程学理解的深度复合能力 [17] - **认证门槛高**:导航系统作为二类或三类医疗器械,需经过严格的临床验证与长期稳定性测试 [17] - **客户粘性强**:成熟品牌占据市场核心,新进入者需投入大量资源建立医生培训体系与售后支持 [17] - **合作门槛**:需与影像设备厂商建立深度合作,以获得可靠的术中影像接口与数据权限 [17] 选型建议 - 根据不同临床场景,对系统关键参数的优先级选择有所不同 [9] - **肿瘤介入**:优先考虑空间定位精度(≤1mm)、图像融合能力及AI识别,因肝穿、肿瘤消融等对精度要求最高 [9] - **血管介入**:优先考虑实时性、高刷新率(≥60fps)和低延迟(<80ms),并支持血管自动分割,因其高度依赖流畅的动态血管导航 [9] - **神经介入**:优先考虑极低延迟、光学导航和高稳定性三维血管建模,因神经介入容错率极低 [9] - **骨科微创介入**:优先考虑机械稳定性、骨结构识别及精度(≤1.5mm),因骨结构硬度高,需要清晰边界导航 [9] - **心脏介入**:优先考虑电磁导航和低延迟(≤50ms),以适应心脏跳动的环境需要高实时性 [9]
哈萨比斯:DeepMind才是Scaling Law发现者,现在也没看到瓶颈
量子位· 2025-12-08 14:07
Scaling Law的现状与历史 - 谷歌DeepMind首席执行官哈萨比斯在Axios AI+峰会上力挺Scaling Law,认为其对于实现AGI至关重要[1][6] - 哈萨比斯指出,Scaling Law最早的发现者并非OpenAI,而是DeepMind团队,其内部在2017至2018年期间的研究已发现相关规律,并称之为“Chinchilla Scaling Laws”[6][14][17] - 基于对Scaling Law有效性的确认,DeepMind调整了研究方向并投入更多资源,这被认为是其在大模型领域取得成功、推动Gemini从1.0演进到3.0时代的关键[18] Scaling Law与AGI(通用人工智能)的关系 - 公司认为,无论AGI最终形态如何,Scaling都将是其中的关键组成部分,且当前Scaling尚未到达极限,有必要继续沿此路线将系统推向最大化[21][22] - 哈萨比斯提出,单靠Scaling Law也有可能达成AGI,因为大量数据和计算资源的投入是展现类人智慧能力的合理途径[7][23] - 同时,他也猜测实现AGI可能还需要一两个类似Transformer或AlphaGo级别的重大突破,并预测这个时间点可能在5到10年内[24][26] 对未来12个月AI发展的预测 - **多模态融合**:完整的多模态融合将是主流演进方向,谷歌DeepMind正全力推进,旨在通过交叉融合图像、视频、文本和音频来全面提升模型的推理和创造力[27][28][30] - **视觉智能突破**:以谷歌Nano Banana Pro等图像模型为例,视觉理解能力有显著进展,未来将在更丰富的分析、故事讲述和分步视觉推理方面继续探索[31][32][33] - **世界模型普及**:世界模型是行业关注重点,也是哈萨比斯个人的工作重点,例如谷歌8月上线的世界模型Genie 3,预计下一年该领域将持续受到业界关注[35][36][37] - **Agent可靠性提升**:哈萨比斯认为,现有Agent系统尚不完全可靠,但预计再有一年时间,Agent将能开始接近于可靠地完成委托任务[38][39][40] Gemini的发展与目标 - Gemini 3的成功验证了Scaling Law的有效性,其全网爆火被视为谷歌打了一场漂亮的翻身仗[4][5] - Gemini 3的独到之处在于个性化的深度、简洁的回答、温和反驳不合理观点的能力,并能一键式生成商业级游戏,展现了其基座架构在理解高层次指令和输出高精度细节方面的优势[43][44][45][46] - 公司对Gemini设定的最终目标是成为“通用万能助手”或“通用助手”,下一代Gemini将延续现有优势,出现在更多设备上并无缝融入日常生活,其使用频率将变得和使用手机一样频繁[9][41][46][47]
哈佛老徐:看懂谷歌,就看懂 AI 的下半场
老徐抓AI趋势· 2025-11-30 16:50
文章核心观点 - 谷歌的AI战略并非跟风,而是基于第一性原理的长期布局,其“慢”是为了最终的“快”,目前正进入后劲爆发阶段 [23] - 看懂谷歌的掌舵人及其多模态融合、AGI终局思维,就能看懂AI下半场的走向 [13][23] - AI目前处于起步阶段而非泡沫期,真实需求远未被满足,未来12个月将出现从“问答”到“完成任务”的关键拐点 [8][16][19] - 谷歌是唯一在AI和量子计算两条核心赛道均保持领先的公司,其长期潜力被严重低估 [22][24] AI行业现状与泡沫争议 - 当前科技拐点每10年左右出现一次,本次是AI,全球公司在AI上的投入今年估计超过1万亿美元 [6] - 从需求端看属于供不应求、投入不足,B端和C端真实需求远未被满足,并非泡沫而是起步阶段 [8] - 谷歌资本开支从4年前的300亿美元/年增至今年超过900亿美元/年,多出部分全部投入AI [6] - 谷歌计划未来6个月算力翻一倍,未来5年算力翻1000倍,表明当前AI应用仅是“训练前的训练” [8][9] 谷歌AI战略的独特性与领先性 - 谷歌采取AI-first战略,围绕AI重构物理基础设施、研究体系、所有产品及组织方式,而非仅做AI业务 [13] - 谷歌坚持多模态融合路线,涵盖聊天、推理、视频、世界模型、机器人等能力,存在1+1>2的乘法效应 [14][16] - 与行业“一招鲜”模型不同,谷歌“全家桶”式布局短期优势不明显,但长期融合后威力巨大 [14][16] - 过去半年谷歌底层能力开始相互增强,AGI雏形显现,未来能跟上其节奏的可能只有马斯克的xAI [16] 未来AI技术演进方向 - 未来12个月AI将出现关键拐点:从“问答机器人”升级为能“完成任务”的智能体 [16] - AI将开始真正影响劳动力市场,完成如分析公司、处理交易、规划旅行等实际任务 [17][19] - 量子计算相当于5年前的AI,是下一次文明级别革命,谷歌在此领域投入巨大且技术路径明确 [22][24] 谷歌的长期布局与竞争优势 - 谷歌掌舵人DeepMind创始人哈萨比斯是工业界最懂AI的领袖之一,强调AGI必须多模态全面发展 [13][14] - 公司不争一时得失,专注AGI、量子计算等终局目标,愿意花长时间铺路以实现爆发式突破 [23] - 在AI模拟人脑、量子计算模拟宇宙两条核心赛道上,谷歌是唯一同时领先的公司 [24]
谷歌CTO兼首席AI架构师揭秘:谷歌如何用两年半完成AI逆袭
36氪· 2025-11-28 18:48
公司战略与组织变革 - 公司从坦诚技术落后转变为实现市场逆袭,两年半前AI Studio仅有3万用户且零收入,团队承受巨大压力[1] - 公司战略发生三个关键转变:从实验室思维转向战场思维,建立每六个月重大迭代的更新节奏;放弃大而全,聚焦三大杀手锏;激活谷歌的终极武器,调动六大洲2500名专家,实现从芯片层到亿级产品的端到端协同[5][20] - 组织层面形成独特能力,从早期25人合作论文到Gemini 3涉及2500名贡献者,实现研究思维与工程思维的深度融合,并具备从芯片设计到算法研发的全栈专家深度整合能力[20][21] 技术进展与模型能力 - Gemini 3模型在基准测试和预发布验证中达到预期,实际应用场景获得用户认可,在精准意图理解、全球化服务能力及工具化与创造能力方面有核心提升[4][7] - 在号称“人类最后考试”的HLE基准测试中,早期模型仅达1%或2%水平,如今先进模型如DeepThink已突破40%水平,而GPQA Diamond等挑战性基准性能仍在逐步提升中[4] - 模型聚焦三大核心维度:精准的意图理解,建立真正的任务理解与执行能力;全球化服务能力,在多个非优势语言场景表现突破;工具化与创造能力,具备函数调用、工具运用等核心能力,其中工具调用能力具有独特的指数效应[7] - 代码能力被视为数字世界的构建基石,通过自然语言编程(氛围编程)新范式,将技术门槛降至前所未有的程度,让创新成为每个人可触及的能力[7][8] 产品开发与市场应用 - 产品平台如AI Studio、Anti-Gravity构成技术演进的重要基础设施,通过真实用户反馈提供最直接的技术优化方向,建立产品与研究的闭环以重塑研发范式[8] - 技术价值最终通过产品体验实现,公司致力于构建完整的技术赋能体系,将尖端模型能力转化为产品价值,同时通过真实用户场景获取改进方向,形成双向循环[9] - 产品驱动的技术演进建立持续改进的飞轮,产品团队不仅是技术使用者,更是共同定义技术方向的战略伙伴,使公司能够快速将实验室创新转化为用户价值[11] 多模态技术与未来方向 - 多模态融合成为技术发展必然趋势,文本与视觉模型正共享底层架构,这种技术汇流创造更符合人类直觉的交互体验,Nano Banana模型展现出同时处理视觉和语言信号的能力[14][15] - 基于Gemini 3 Pro架构升级的新一代模型在理解复杂文档并生成信息图方面展现惊人能力,实现从文本到图像的流畅转换,标志着多模态交互迈向成熟[16] - 实现统一模型架构的核心挑战在于解决文本的结构化信号与图像生成所需的像素级精确、概念级连贯之间的双重标准,这需要找到关键创新点让模型融会贯通不同模态能力[18] 研发理念与行业展望 - 衡量技术进步的根本标准在于实际应用而非基准测试分数,当工具真正融入人类知识工作的各个环节时才实现真正进步,基准测试仅为进步提供可量化的参照维度[6] - 构建AGI不是封闭的实验室研究,而是必须通过与真实世界的持续交互来共同构建的工程实践,产品平台提供宝贵的连接通道以收集亿万用户的反馈信号[9][10] - 公司持续平衡基础科学研究与模型规模化扩展,认为创新源泉的枯竭是最大风险,因此坚持广泛布局探索,不局限于某一种架构或方法[22] - 公司保持“逆袭”心态,强调诚实面对差距,借鉴他人所长并坚持自主创新,通过不断学习与创新达到领先位置,目标始终是构建真正的智能[25][26]
AAAI 2026 Oral | 悉尼科技大学联合港理工打破「一刀切」,联邦推荐如何实现「千人千面」的图文融合?
机器之心· 2025-11-25 12:09
行业痛点与现有挑战 - 推荐系统利用图像和文本等多模态信息辅助决策已成为标配,但该需求与要求“数据不出本地”的联邦学习范式结合时情况变得复杂[2] - 现有联邦推荐方法面临两难:为保护隐私而放弃繁重多模态处理仅使用ID特征,或采用“一刀切”的粗暴融合策略假设所有用户图文偏好一致[2] - 用户对图文信息的“融合偏好”具有极大异质性,例如购买服装更依赖视觉冲击,挑选数码产品则更关注参数文本,这种差异在联邦环境下极难捕捉[2] - 联邦学习中存在“信息不对称”问题,服务器看不见用户行为数据,无法得知个体用户对图片或文字的偏好程度[5] - 端侧设备算力有限,难以运行庞大的视觉-语言模型(如CLIP),构成计算瓶颈[5] 核心技术框架:FedVLR - FedVLR核心洞见在于重构多模态融合决策流,将重计算的特征预处理留给服务器,而将决定“怎么看”的融合决策权通过轻量级路由机制下放给用户端侧[3] - 该框架创新性地提出双层融合机制,巧妙解耦特征提取与偏好融合[8] - 第一层为服务器端的“多视图预融合”,利用强大预训练模型将物品图像、文本和ID信息通过多种预设融合算子加工成一组“候选融合视图集”,解决算力焦虑[9] - 第二层为客户端的“个性化精炼”,引入极轻量的本地混合专家模块,利用本地私有交互历史动态计算个性化权重,实现千人千面[11] - 融合过程完全在本地发生,确保用户偏好数据从未离开设备,严格遵循隐私保护原则[12] 技术优势与工程价值 - FedVLR被设计为可插拔的通用增强方案,具有极高工程落地价值[15] - 具备模型无关性,可无缝挂载到FedAvg、FedNCF等任何主流基于ID的联邦推荐框架上[16] - 实现零通信增量,通信过程中传输的依然是梯度或小模型参数,未增加额外带宽负担[16] - 隐私无损且低端侧开销,复杂CLIP编码在云端完成,端侧仅需运行轻量级MLP路由网络[16] - 在电商、多媒体等多个领域公开数据集上的测试表明,无论基线模型如何,挂载FedVLR后NDCG和HR等核心推荐指标均实现显著且稳定提升[17][26] 应用前景与行业影响 - FedVLR为联邦基础模型落地提供了极具启发性的范式,展示了“云端大模型编码+端侧微调适配”的高效协同路径[19] - 该方案无需在每个终端部署庞大模型,通过精巧架构设计将云端通用内容理解能力与端侧私有偏好解耦[19] - 极大降低了联邦学习的通信与计算门槛,为未来将更复杂视觉-语言模型甚至生成式AI引入隐私敏感场景铺平道路[19] - 在数据稀疏场景下性能提升尤为显著,证明通过个性化融合策略能更有效利用有限本地数据理解物品内容[26] - 是构建下一代“既懂内容、又懂用户、且严守隐私边界”的智能系统的关键一步[19]
谷歌“香蕉”手写满分卷,Karpathy玩上瘾,ChatGPT跪验沉默
36氪· 2025-11-24 14:56
产品发布与战略影响 - 谷歌发布Gemini 3 Pro和Nano Banana Pro双产品,被行业视为战略突破[1] - PyTorch之父Soumith Chintala评价Gemini 3接近GPT-4水平[1] - Salesforce CEO Marc Benioff从ChatGPT转向使用Gemini 3[1] 多模态能力表现 - Nano Banana Pro生成超逼真人物图像,硅谷八巨头同框图像真假难辨[3] - 根据具体坐标和时间生成图像,如2001年9月11日纽约坐标图像[5] - 解答手写试卷时能进行涂鸦和图表绘制,输出完美手写答案[10][11] - 数学题解答能模仿原手写字体输出答案[17] 逻辑推理与文本处理 - 生成汉堡组装教程等步骤化图表[21] - 根据论文内容自动配图[26] - 将诗作《尤利西斯》转化为漫画分镜[36] - 将菜单文字转化为带图片的可视化菜单[23] 影视级内容生成 - 生成1984电影分镜故事版[32] - 支持基础图像的角度、氛围、表情无缝调整[46][48] - 生成电影幕后花絮,如《堡垒之夜》主题内容[63][64] - 制作多场景剧本分镜,包含12个场景切换[61] 创意应用与时空模拟 - 16宫格生成从1880年代到未来的跨世纪变装序列[76][78] - 模拟不同年代女性发型和穿着变化[81] - 生成漫威人物、动物表情包等恶搞系列[83][85]
深度解读|从赛场到市场:中关村具身智能机器人应用大赛解码产业变革新路径
机器人大讲堂· 2025-11-23 08:00
赛事概况与产业意义 - 第二届中关村具身智能机器人应用大赛是行业从“实验室样机”迈向“产业级应用”的里程碑事件,汇聚全球157支顶尖战队[1] - 赛事以“具身引智、应用未来”为主题,紧扣“劳动最光荣”核心导向,通过家庭服务、工业制造、安全处置等多元场景实战竞技[1] - “具身智能”首次写入政府工作报告,并被列为“人工智能+”行动中新质生产力的核心引擎[3] 赛事迭代与赛道设计 - 赛事从首届的技术展示转向“真实场景劳动技能比拼”,设置三大核心赛道:具身智能模型能力挑战赛、具身智能场景应用赛、具身智能学术前沿与产业生态[4][6] - 场景应用赛覆盖工业制造、商用服务、居家服务等6大场景15项任务,复刻真实作业环境,精准击中产业痛点[6][8] - 赛事吸引157支国内外战队,近百支队伍晋级决赛,形成高校院所与企业多元创新主体同台竞技格局[10] 标杆企业技术表现 - 灵御智能TeleAvatar机器人在家庭服务、工业制造、安全处置场景斩获一等奖,物料搬运任务43秒完成,零件装配用时1分22秒,远超赛事均值标准[11][14] - 灵心巧手“灵心乐府机器人乐队”用Linker Hand灵巧手弹奏《青花瓷》,指尖灵活度堪比真人[16] - 千寻智能“墨子”机器人1分钟内完成“穿一串糖葫芦”全流程,智身科技四足机器人“钢镚”具备720度后空翻和40度爬坡能力[16][18] 学术前沿与技术突破 - 北京理工大学多模态脊柱型四足机器鼠SQuRo-S获学术前沿赛一等奖,能跨越1.07倍身体高度障碍物和0.86倍身体宽度狭窄空间[19] - 技术突破围绕“精准控制、多模态融合、场景适配”三大核心维度展开,实现从“会动”到“会干活”的跨越[27][28][32] - 清华大学自动化系团队通过端到端深度强化学习框架,实现机器人毫秒级实时响应,克服传统预设策略的动作迟滞问题[30] 评审机制与产业生态 - 大赛创新设置现场演示与功能认证环节,采用“以实绩说话”的评审机制,连接技术创新与产业需求[22][24] - 总计200万元奖金池支持研发,获奖团队落地海淀可优先享受基金对接、人才服务等配套政策,接入区域内264家具身智能企业构成的产业网络[26] - 赛事形成竞技+孵化+转化模式,成为产业创新“加速器”,推动技术从实验室到生产环境的转化[24][26] 技术路线与场景适配 - 产业呈现“通用性平台+专业化方案”双轨并行发展路径,平衡技术创新与市场需求[35][37] - 工业场景强调效率与精度,家庭服务注重安全性、柔和度与交互友好性,安全处置突出可靠性与环境适应性[35] - 多模态融合技术整合视觉、触觉、语言等感知维度,让机器人从“感知”环境向“理解”环境跨越,为自主决策提供基础[32][34] 产业前景与发展路径 - 中国具身智能产业进入“规模化落地”关键阶段,正从“跟跑”向“并跑”“领跑”跨越[38] - 以国家战略为指引,以地方政策为支撑,以赛事平台为桥梁,探索具有中国特色的具身智能发展路径[38][40] - 智能机器人以“新工友”身份重塑劳动形态,从工业精密装配到家庭日常琐事,推动生产关系变革[38]