多模态融合
搜索文档
年终盘点|大模型洗牌、分化、冲上市,无人再谈AI六小龙
第一财经资讯· 2025-12-31 14:03
文章核心观点 - 2025年AI行业进入转折期,创业公司经历剧烈分化,互联网大厂凭借资源优势全面发力,行业竞争格局重塑 [1] - 基础模型的“规模化法则”增长瓶颈显现,行业探索新范式,竞争焦点从模型能力转向商业化落地和产业化赚钱 [2][5][11][13] - 2026年行业预计仍将高速发展,但非终局之年,技术迭代、商业化探索和生态竞争将持续 [12][13] 创业公司赛道分化 - 曾被资本热捧的“大模型六小龙”光环褪去,发展路径清晰分化 [3] - **智谱**与**MiniMax**已通过港交所聆讯,启动港股上市流程,均计划通过港股18C章节上市 [1][3][4] - **月之暗面**持续更新模型与产品冲击上市营收条件,其Kimi在2025年11月上线K2 Thinking模型后,Web端访问量上涨48.6%至4300多万 [3] - **阶跃星辰**同样持续更新模型技术与应用产品 [3] - **百川智能**与**零一万物**转向垂类应用,分别聚焦医疗与企业级商业化场景 [3] - 留在基座模型赛道的玩家越来越少,下注金额越来越高,例如MiniMax每月现金消耗接近2亿元 [5][6] 市场竞争与用户格局 - AI原生应用市场头部格局相对稳定但存在竞争,据QuestMobile三季度数据:**豆包**月活1.72亿,**DeepSeek**月活1.45亿,**腾讯元宝**月活3286万,**即梦AI**月活1012万,**Kimi**月活967万 [3] - 截至2025年12月8日至14日的最新周期,周活跃用户榜单发生变化:**豆包**1.55亿,**DeepSeek**8156万,**腾讯元宝**2084万,**蚂蚁阿福**1025万,**千问**872万 [4] - 在营销投放上,2025年11月**腾讯元宝**买量素材领先,但**千问**在月末日投放素材量实现了反超 [7] 互联网大厂全面发力 - 大厂在2025年末包揽行业热度,凭借算力、数据与生态优势全面压境 [1][7] - **字节跳动**:豆包APP日活突破一亿,豆包大模型日均tokens调用量超过50万亿 [7] - **阿里巴巴**:集团侧全力推动千问发展,给予资金、资源、人才全方位支持,千问月活突破4000万,计划将高德地图、外卖、订票等阿里生态场景全面接入千问APP [7][8] - **腾讯**:宣布成立AI Infra/AI Data/数据计算平台部,由姚顺雨任首席AI科学家,凭借强流量、场景与数据优势入局 [7][8] - 行业观点认为大厂入局能利用自身资源培育市场,当前比拼的核心是战略眼光、执行能力及对时间节点的把握 [8] 技术发展与行业趋势 - 基础模型的Scaling Law增长明显放缓,规模依然重要,但架构创新和数据创新的权重已显著提升 [5] - 下一代模型的关键方向之一是更深度的多模态融合,目前如谷歌Gemini也只是起步 [4] - 2025年AI编程能力和智能体是各家模型重点突破方向,因编程能力相关商业价值较高,落地后能直接产生营收 [11] - 行业虽面临技术瓶颈讨论,但预计2026年仍将保持高速发展态势,企业或在新架构、新学习范式上加大投入,寻求原始性研究突破 [12] 资本动向与商业化 - 2025年末发生重要收购案:智能体初创公司**Manus**被Meta收购 [1] - **智谱**港股上市募集资金净额的70%(约29亿港元)将用于通用AI大模型研发 [6] - 行业焦点正从“AI模型能做什么”转向“AI该如何产业化地赚钱”,2026年商业化将成为关注重点 [2][13] - 模型厂商将更多考虑如何更大程度商业化,而需求端企业将评估AI投入的价值与收益 [13]
2025机器人技能大赛折射中国AI+机器人融合新趋势
新华社· 2025-12-29 21:52
行业趋势:从“炫技”到“上岗” - 中国机器人产业与AI发展深度融合,展现出从技术展示迈向实际应用的新趋势[1] - 机器人正加速走进工厂车间、医院病房、社区养老院及千家万户,成为可靠的生产力工具[3][4] - 行业竞争焦点从比拼单点性能转向比拼任务成功率、稳定性与可交付性[4] 赛事与前沿应用 - 2025机器人技能大赛在深圳举行,主题为“智创未来·技领全球”,涵盖医疗健康、低空飞行、人形表演、智能仓储物流、高精度工业装配六大前沿赛道[1] - 超过100支来自全国高校、科研机构和企业的团队参赛[1] - 医疗与养老赛道展示了家庭康养机器人和超声自动扫查机器人等具体应用,后者能模仿医生“手眼脑协调”能力,实现标准化检查[4] 产业生态与商业模式创新 - 深圳市龙岗区正构建全球领先的AI与机器人产业高地,推动新质生产力形成[4] - 龙岗区拥有1.27万家机器人集群企业,占深圳全市6.5万家企业总数的19.54%[6] - 创新商业模式涌现:“人工智能6S店”整合展示、销售、培训等六大功能,采用“前店后厂”模式[6];“机器人6S店”新增租赁与个性化定制服务,自7月28日开业至12月16日,营业额达2000万元,并签约6家加盟分店[6] - “机器人零部件超市”汇聚精密减速器、伺服电机到人形关节模组等核心部件,形成完整产业链条[6] - 龙岗区将全区作为“超级试验场”,已发布677项场景需求,撮合落地项目218个,带动合作金额超30亿元[6] 技术挑战与发展路径 - 当前最大瓶颈是机器人的“环境泛化能力不足”,例如不同医院药盒样式各异、养老院电磁干扰严重、户外风速影响无人机精度等[7] - 单一传感器已无法满足复杂场景需求,多模态融合是必由之路[7] - 对应用场景的深度理解是决定AI与产业结合能走多远的关键要素[7] - 成本控制是技术普惠化的关键,粤港澳大湾区成熟供应链使核心部件价格大幅下降[7] - 得益于供应链本地化配套,研发与量产成本显著降低,上游供应链重合度超过60%[7] - 智能汽车产业正成为“聚合智能的桥梁”,其电驱动、算力平台、通信模块等技术可被机器人领域直接复用[7]
MIT团队提出OpenTouch:首次实现真实场景下视觉、触觉、手部姿态的同步建模
具身智能之心· 2025-12-24 08:25
文章核心观点 - MIT、杜克大学等联合团队提出的OPENTOUCH框架,通过“硬件感知系统 - 大规模数据采集 - 多模态基准测试”的三层技术体系,首次实现了真实场景下视觉、触觉、手部姿态的同步建模,为具身学习与机器人操纵提供了全新范式 [3][4] 技术背景与挑战 - 现有计算机视觉与机器人技术长期依赖单一视觉模态,难以捕捉接触力、材质属性等关键信息 [3] - 真实世界触觉感知面临四大核心挑战:模态信息缺失、野生环境适应性差、多模态同步难题、标注效率低下 [6][7][8][9] 方案设计:三层技术闭环 第一层:硬件感知系统 - 设计了轻量化、高鲁棒性的硬件套件,以实现野生环境下的高精度多模态采集 [12] - **全手触觉传感手套**:基于柔性印刷电路技术,集成16×16电极网格与压阻薄膜,形成169个触觉传感点,均匀覆盖手掌与手指,成本低且可批量生产 [12] - **手部姿态追踪手套**:采用Rokoko Smartglove专业动捕设备,通过IMU与EMF传感器融合,以30Hz频率输出7个6DOF姿态数据,旋转精度达±1° [12] 第二层:大规模数据采集 - 构建了覆盖真实生活场景的大规模多模态数据集 [13] - **第一视角视觉采集**:利用Meta Project Aria智能眼镜,同步采集1408×1408分辨率RGB视频、眼动追踪、音频与IMU数据,视场角110° [15] - **多模态时间同步**:通过终端视觉触发信号实现跨设备校准,将视频、触觉、姿态数据的时间延迟控制在2ms内 [15] - **多样化采集场景**:在14个日常环境中,让参与者自由操纵800+类物体,采集5.1小时同步数据,其中3小时为高密度标注的接触-rich交互片段 [15] - **智能标注流水线**:采用GPT-5自动化标注加人工验证机制,生成物体名称、类别、环境、动作、抓握类型、自然语言描述6类标签,标注准确率达90% [15] - **多模态数据维度**:数据集包含RGB视频、全手触觉压力图、3D手部姿态、眼动轨迹、音频等多源数据,支持跨模态关联分析 [15] 第三层:基准测试体系 - 基于数据集构建了两大核心基准任务:跨模态检索任务与触觉模式分类任务 [15][16] - **跨模态检索任务**:包括视频↔触觉、姿态↔触觉、多模态→单模态三类子任务,要求模型学习共享表征空间 [16] - **触觉模式分类任务**:分为手部动作识别与抓握类型分类,验证触觉信号对交互意图与接触方式的判别能力 [16] - **评估指标与基线**:采用Recall@1/5/10、平均精度均值评估检索性能,分类任务使用准确率指标,基线模型包括CCA、PLSCA线性方法与CLIP-style对比学习框架 [16] 性能验证结果 跨模态任务性能突破 - 在核心基准测试中,多模态融合模型显著优于单模态与线性基线 [20] - **跨模态检索**:视频+姿态→触觉检索的mAP达26.86%,较CCA线性方法提升5倍以上;触觉单独检索姿态的Recall@1达7.15%,远超随机猜测的0.07% [21] - **分类任务**:触觉+视觉融合的抓握类型分类准确率达68.09%,触觉单独分类准确率达60.23% [21] - **定性结果**:模型能精准匹配相似接触模式,即使视觉上存在遮挡或物体透明,触觉信号仍能提供关键线索 [21] 关键因素消融分析 - **时间窗口长度**:20帧窗口的检索性能最优,较5帧窗口的Recall@1提升47%,证明长时程时序动态对接触模式识别的重要性 [24] - **触觉编码器设计**:轻量化CNN编码器在所有任务中优于ResNet-18,mAP最高提升10.49%,说明触觉信号的稀疏结构化特性更适合紧凑编码器 [24] 真实场景应用拓展 - 在Ego4D野生视频数据集上的零样本检索实验中,OPENTOUCH模型能从输入视频中检索到语义相似的触觉序列,证明其泛化能力 [26] - 给定人类操纵物体的视频查询,模型返回的触觉信号与真实接触模式高度一致 [28] - 该应用可将大规模视觉视频数据集与触觉信息关联,为机器人操纵提供丰富的接触力先验知识 [28] 技术局限与未来方向 - **触觉维度局限**:当前仅捕捉法向压力,未涵盖剪切力、温度、振动等触觉子模态 [29] - **硬件耐用性**:FPC传感器在反复弯曲与汗液侵蚀下可能出现线路断裂,需优化封装工艺 [29] - **标注精细化**:部分遮挡或低光照场景下的标注准确率仍有提升空间 [29] - **跨模态融合深度**:未来可探索transformer架构实现模态间的细粒度交互,进一步提升性能 [29] 总结与行业影响 - OPENTOUCH的核心贡献在于建立了“感知硬件 - 数据标注 - 基准测试”的完整技术链路 [28] - 通过低-cost同步硬件破解真实场景采集难题,通过AI辅助标注解决大规模数据构建瓶颈,通过跨模态基准揭示触觉与视觉、姿态的互补关系 [28] - 其5.1小时多模态数据、硬件设计方案与开源代码,为计算机视觉、机器人学、神经科学等领域提供了统一研究平台,推动多模态具身学习从实验室走向真实世界,加速通用自主机器人的落地进程 [28]
米哈游投资的独角兽拟上市:4年研发烧掉35亿,员工平均95后
创业邦· 2025-12-22 11:11
公司上市与市场地位 - 公司MiniMax(上海稀宇极智科技有限公司)已于2024年12月21日通过港交所聆讯,拟在港股主板上市 [2] - 公司成立于2021年6月30日,成立仅4年多,是中国成长最快、估值最高的AI科技公司之一 [2] - 公司是一家全模态AI公司,基于自研大模型打造了覆盖B端和C端的AI原生产品矩阵,包括海螺AI、Talkie、星野等,同时也为企业用户和开发者提供开放平台服务 [2] 股东结构与知名投资者 - 公司股东阵容强大,包括腾讯、米哈游、阿里巴巴、小红书、高瓴、IDG、红杉、经纬、明势、云启等知名企业和投资机构 [4] - 根据招股书披露的主要股东信息,阿里巴巴中国控股有限公司持有38,247,987股A类普通股,米哈游有限公司持有16,015,779股A类普通股 [5][7] - 米哈游是公司的“领航资深独立投资者”,IPO前持有公司约7.34%的股份,上市后预计持有约7.05% [26] - 米哈游创始人刘伟与阿里巴巴集团战投部总经理陈英杰均担任公司非执行董事 [24][26] 团队构成与研发实力 - 公司研发团队约385人,研发人员占比近74%,分为专注文本、视觉、音频、AI基础架构及产品开发的专业小组 [8] - 核心研发团队由来自微软、谷歌、Meta、阿里巴巴、ByteDance及DeepSeek等企业的专家组成 [8] - 研发团队平均年龄不足30岁,在港股历史上较为罕见 [10] - 核心高管团队年轻化:CEO兼创始人闫俊杰36岁,COO兼联合创始人贠烨祎31岁,大语言模型负责人赵鹏宇29岁,视觉模型负责人周彧聪32岁 [10] - 公司自成立至今的研发投入约为5亿美元(约合35亿元),2025年前九个月研发开支达1.38亿美元(约合9.71亿元) [21] - 公司CEO认为,其核心优势在于中国的人才优势,能以更低的研发投入达到接近国际领先水平的效果 [22] 财务表现与收入增长 - 公司收入呈现爆发式增长:2023年全年收入为346万美元(约合2436万元),2024年飙升至3052万美元(约合2.14亿元),同比增长高达782.2% [12] - 2025年前九个月,收入继续增长至5343.7万美元(约合3.76亿元),同比增长超174% [12] - AI原生产品收入增长迅猛:2025年前九个月,AI原生产品收入超3800万美元(约合2.67亿元),占总收入的71.1%,较2023年的约76万美元(约合535万元)增长近50倍 [13][14] - 公司毛利率显著改善:从2023年的-24.7%转正至2024年的12.2%,并在2025年前九个月进一步提升至23.3% [19] - 公司目前仍处于亏损状态:2025年前九个月,经调整净亏损为1.86亿美元(约合13亿元),但经调整亏损率从2023年的-2574.4%大幅收窄至-348.6% [20][21] 产品数据与用户规模 - 公司AI原生产品累计个人用户数已突破2.12亿 [15] - 平均月活跃用户(MAU)从2023年的310万,增长至2025年9月的2760万,两年间增长近9倍 [15] - 核心产品Talkie/星野在2025年前九个月平均MAU超2000万,贡献收入1875万美元(约合1.32亿元),占总收入35.1% [13][15] - 视频产品海螺AI在2025年前九个月贡献收入1746万美元(约合1.22亿元),占总收入32.6% [13][17] - 智能Agent应用用户基数较小但人均付费能力极强,2025年前九个月每位付费客户平均支出高达73美元,远超Talkie星野的5美元 [17] 技术优势与行业地位 - 公司是唯一一家在语音、视频、文本、音乐四大模态中都达到国际领先水平的中国AI公司 [19] - 公司凭借在长上下文模型和可扩展的多模态架构设计方面的技术重点脱颖而出 [22] - 公司是全球第十大大模型技术公司,市场份额为0.3%;按2024年基于模型的收入计算,是全球第四大pureplay大模型技术公司 [22] - 公司发布的MiniMax-01系列模型,在4000亿以上参数的大模型中使用了线性Attention机制架构,能高效处理长达400万token的上下文,达到全球最长水平 [23] - 公司CEO对中国AI行业发展非常乐观,认为未来三年内一定会有中国公司在AI领域实现引领性突破 [22] 战略合作与行业应用 - 公司与米哈游存在深度战略绑定:米哈游既是公司的主要投资者和股东,也是其下游游戏行业的主要客户,双方在游戏+AI领域有深度合作 [26] - 公司旗下的Talkie/星野主打与虚拟角色实时互动的社交体验,与米哈游希望在游戏中实现更智能的NPC对话、情感陪伴等AI需求高度契合 [27] - 公司开放平台及企业服务在2025年前九个月贡献收入1542万美元(约合1.08亿元),占总收入28.9%,服务的企业与开发者数量已突破10万家 [13][19] - 公司CEO认为,中国游戏产业一年有3000亿产值,AI与游戏的结合虽然存在政策困难,但一定会发生 [27]
介入放射学导航系统行业分析报告:产业链、行业政策、发展趋势及进入壁垒
QYResearch· 2025-12-19 12:53
文章核心观点 - 介入放射学导航系统是服务于微创介入诊疗的实时引导与定位设备,通过整合医学影像、传感技术、空间定位算法和手术路径规划,使临床医生能够精准操作,将手术从“经验驱动”转向“数据驱动”,从而提高准确性、安全性并减少手术时间与并发症风险 [2] - 该行业正朝着更高精度、更智能和更自动化的方向演进,AI、机器人技术和多模态融合影像是主要驱动力,使其成为现代微创治疗体系中不可或缺的核心技术 [6] - 2024年全球介入放射学导航系统市场规模达到4.79亿美元,预计2025年将达到5.07亿美元,未来六年年复合增长率为6.3% [10] - 行业面临较高的技术和认证壁垒,但受益于微创手术需求增长、疾病发病率攀升及降低辐射暴露的临床需求,是微创医学装备中极具潜力的细分方向 [16][17] 产品定义与工作原理 - **产品定义**:介入放射学导航系统是一类服务于微创介入诊疗的实时引导与定位设备,通过整合医学影像、传感技术、空间定位算法和手术路径规划,帮助医生在复杂人体结构中精准到达目标位置 [2] - **工作原理**:基于三大技术模块 [4] - **影像采集**:采集CT、MRI、DSA或超声影像,形成病灶及周围组织的三维模型作为导航基础地图 [4] - **坐标匹配**:通过配准技术将患者实际解剖位置与影像模型进行匹配,建立稳定的导航坐标系,配准方式包括骨性标志点、皮肤表面点云、定位标记等 [4] - **实时追踪**:利用电磁追踪、光学追踪或机器人反馈技术,对导管、穿刺针等器械进行实时监测,并将其位置信息实时映射到三维影像中 [4] 应用领域 - 系统被广泛应用于肿瘤消融、穿刺活检、血管介入、神经介入、经皮引流及复杂解剖区域的微创治疗 [5] - **肿瘤介入**:例如在肝脏肿瘤消融中,医生可在三维导航界面上规划最佳进针路径,避开血管与重要结构,系统实时校正针尖位置,提高穿刺准确率 [5] - **血管介入**:导航系统能够显示导丝在弯曲血管中的方位,简化复杂的血管入路,减少对造影剂和透视的依赖,从而降低辐射暴露 [5] - **其他复杂操作**:在硬膜外腔穿刺、肺小结节活检或深部骨盆病灶穿刺中,导航系统能够有效补偿呼吸运动、体位变化等因素带来的误差 [5] 技术参数与发展前景 - **重要技术参数**:系统性能由多项关键参数定义 [7][8] - **定位性能**:空间定位精度高端为0.5–1.0mm,中端为2–3mm;支持6自由度实时追踪;需具备抗金属干扰、抗磁场漂移的稳定性 [7][8] - **导航方式**:包括电磁、光学、混合型及机器人辅助;导航延迟高端约50–80ms,需低于100ms;刷新率≥60fps [7][8] - **图像处理能力**:支持CT/MRI/CBCT/US多模态融合;融合刷新时间<1秒;具备血管/器官3D重建与自动分割能力 [8] - **AI智能功能**:包括病灶自动识别、自动穿刺路径生成、风险区域提示及AI预测最佳入路与深度等 [8] - **辐射剂量管理**:可使术中辐射减少20–40% [8] - **发展前景与趋势**:行业向数字化、智能化与自动化演进 [6][16] - **技术融合**:多模态影像融合是关键方向,AI驱动的路径规划、自动配准、术中器械识别逐步成熟,使导航系统从辅助工具向智能助手转变 [6][16] - **机器人整合**:机器人臂结合导航系统可执行稳定而精确的针路控制,减少人为误差 [6] - **新型导航方式**:无标记导航、基于超声的动态导航以及与术中CT/CBCT联动的实时重建技术,能更贴近实际组织变化 [6] - **驱动因素**:全球微创手术需求快速增长、肿瘤与血管疾病发病率持续攀升、医院希望降低术中X射线剂量以及缩短术者学习曲线 [16] 市场规模与产业链 - **市场规模**:据QYResearch研究,2024年介入放射学导航系统全球市场规模达到4.79亿美元,预计2025年将达到5.07亿美元,未来六年年复合增长率为6.3% [10] - **产业链分析** [14] - **上游**:依赖精密传感器、医疗影像设备与导航算法平台的供应,代表性企业包括在光学与磁场定位技术领先的NDI、在介入影像设备有优势的Siemens Healthineers,以及提供AI导航算法平台的NVIDIA [14] - **下游**:集中在医疗机构、介入手术中心和综合医院,在介入放射科、心血管中心、神经介入和微创外科中广泛应用,典型应用包括肝肿瘤消融、血管介入治疗、神经血管通路重建等 [14] 竞争格局与主要厂商 - **主要厂商**:全球市场的主要参与者包括GE Healthcare、Medtronic、Siemens Healthineers、Philips Healthcare、Boston Scientific、Intuitive Surgical等国际企业,以及联影医疗、医达健康、迈迪斯医疗、赛诺威盛、东软医疗、万思医疗、唯迈医疗等中国厂商 [21] - **产品类型**:主要产品类型包括电磁导航、光学导航、机械导航、超声定位导航和惯性导航 [21] - **应用领域**:主要应用于神经介入、心血管介入、肿瘤介入、肺部介入和外周血管介入等领域 [21] 行业政策与进入壁垒 - **行业政策**:全球监管政策围绕提升介入治疗可及性、推动微创医疗发展及强化医疗器械监管展开 [15] - **美国FDA**:对导航系统通常采用510(k)途径,要求设备在安全性与等效性方面具备明确证据 [15] - **欧盟MDR**:强化了对软件类医疗器械和导航系统的临床评估,包括实时定位系统的精度验证 [15] - **中国NMPA**:推动创新医疗器械特别审批通道,鼓励介入导航、光电定位和智能影像融合类设备的注册,加速了国产技术的临床落地 [15] - **进入壁垒**:行业进入面临较高壁垒 [17] - **技术门槛高**:需要光学定位、磁导航、影像融合、实时计算和手术流程学理解的深度复合能力 [17] - **认证门槛高**:导航系统作为二类或三类医疗器械,需经过严格的临床验证与长期稳定性测试 [17] - **客户粘性强**:成熟品牌占据市场核心,新进入者需投入大量资源建立医生培训体系与售后支持 [17] - **合作门槛**:需与影像设备厂商建立深度合作,以获得可靠的术中影像接口与数据权限 [17] 选型建议 - 根据不同临床场景,对系统关键参数的优先级选择有所不同 [9] - **肿瘤介入**:优先考虑空间定位精度(≤1mm)、图像融合能力及AI识别,因肝穿、肿瘤消融等对精度要求最高 [9] - **血管介入**:优先考虑实时性、高刷新率(≥60fps)和低延迟(<80ms),并支持血管自动分割,因其高度依赖流畅的动态血管导航 [9] - **神经介入**:优先考虑极低延迟、光学导航和高稳定性三维血管建模,因神经介入容错率极低 [9] - **骨科微创介入**:优先考虑机械稳定性、骨结构识别及精度(≤1.5mm),因骨结构硬度高,需要清晰边界导航 [9] - **心脏介入**:优先考虑电磁导航和低延迟(≤50ms),以适应心脏跳动的环境需要高实时性 [9]
哈萨比斯:DeepMind才是Scaling Law发现者,现在也没看到瓶颈
量子位· 2025-12-08 14:07
Scaling Law的现状与历史 - 谷歌DeepMind首席执行官哈萨比斯在Axios AI+峰会上力挺Scaling Law,认为其对于实现AGI至关重要[1][6] - 哈萨比斯指出,Scaling Law最早的发现者并非OpenAI,而是DeepMind团队,其内部在2017至2018年期间的研究已发现相关规律,并称之为“Chinchilla Scaling Laws”[6][14][17] - 基于对Scaling Law有效性的确认,DeepMind调整了研究方向并投入更多资源,这被认为是其在大模型领域取得成功、推动Gemini从1.0演进到3.0时代的关键[18] Scaling Law与AGI(通用人工智能)的关系 - 公司认为,无论AGI最终形态如何,Scaling都将是其中的关键组成部分,且当前Scaling尚未到达极限,有必要继续沿此路线将系统推向最大化[21][22] - 哈萨比斯提出,单靠Scaling Law也有可能达成AGI,因为大量数据和计算资源的投入是展现类人智慧能力的合理途径[7][23] - 同时,他也猜测实现AGI可能还需要一两个类似Transformer或AlphaGo级别的重大突破,并预测这个时间点可能在5到10年内[24][26] 对未来12个月AI发展的预测 - **多模态融合**:完整的多模态融合将是主流演进方向,谷歌DeepMind正全力推进,旨在通过交叉融合图像、视频、文本和音频来全面提升模型的推理和创造力[27][28][30] - **视觉智能突破**:以谷歌Nano Banana Pro等图像模型为例,视觉理解能力有显著进展,未来将在更丰富的分析、故事讲述和分步视觉推理方面继续探索[31][32][33] - **世界模型普及**:世界模型是行业关注重点,也是哈萨比斯个人的工作重点,例如谷歌8月上线的世界模型Genie 3,预计下一年该领域将持续受到业界关注[35][36][37] - **Agent可靠性提升**:哈萨比斯认为,现有Agent系统尚不完全可靠,但预计再有一年时间,Agent将能开始接近于可靠地完成委托任务[38][39][40] Gemini的发展与目标 - Gemini 3的成功验证了Scaling Law的有效性,其全网爆火被视为谷歌打了一场漂亮的翻身仗[4][5] - Gemini 3的独到之处在于个性化的深度、简洁的回答、温和反驳不合理观点的能力,并能一键式生成商业级游戏,展现了其基座架构在理解高层次指令和输出高精度细节方面的优势[43][44][45][46] - 公司对Gemini设定的最终目标是成为“通用万能助手”或“通用助手”,下一代Gemini将延续现有优势,出现在更多设备上并无缝融入日常生活,其使用频率将变得和使用手机一样频繁[9][41][46][47]
哈佛老徐:看懂谷歌,就看懂 AI 的下半场
老徐抓AI趋势· 2025-11-30 16:50
文章核心观点 - 谷歌的AI战略并非跟风,而是基于第一性原理的长期布局,其“慢”是为了最终的“快”,目前正进入后劲爆发阶段 [23] - 看懂谷歌的掌舵人及其多模态融合、AGI终局思维,就能看懂AI下半场的走向 [13][23] - AI目前处于起步阶段而非泡沫期,真实需求远未被满足,未来12个月将出现从“问答”到“完成任务”的关键拐点 [8][16][19] - 谷歌是唯一在AI和量子计算两条核心赛道均保持领先的公司,其长期潜力被严重低估 [22][24] AI行业现状与泡沫争议 - 当前科技拐点每10年左右出现一次,本次是AI,全球公司在AI上的投入今年估计超过1万亿美元 [6] - 从需求端看属于供不应求、投入不足,B端和C端真实需求远未被满足,并非泡沫而是起步阶段 [8] - 谷歌资本开支从4年前的300亿美元/年增至今年超过900亿美元/年,多出部分全部投入AI [6] - 谷歌计划未来6个月算力翻一倍,未来5年算力翻1000倍,表明当前AI应用仅是“训练前的训练” [8][9] 谷歌AI战略的独特性与领先性 - 谷歌采取AI-first战略,围绕AI重构物理基础设施、研究体系、所有产品及组织方式,而非仅做AI业务 [13] - 谷歌坚持多模态融合路线,涵盖聊天、推理、视频、世界模型、机器人等能力,存在1+1>2的乘法效应 [14][16] - 与行业“一招鲜”模型不同,谷歌“全家桶”式布局短期优势不明显,但长期融合后威力巨大 [14][16] - 过去半年谷歌底层能力开始相互增强,AGI雏形显现,未来能跟上其节奏的可能只有马斯克的xAI [16] 未来AI技术演进方向 - 未来12个月AI将出现关键拐点:从“问答机器人”升级为能“完成任务”的智能体 [16] - AI将开始真正影响劳动力市场,完成如分析公司、处理交易、规划旅行等实际任务 [17][19] - 量子计算相当于5年前的AI,是下一次文明级别革命,谷歌在此领域投入巨大且技术路径明确 [22][24] 谷歌的长期布局与竞争优势 - 谷歌掌舵人DeepMind创始人哈萨比斯是工业界最懂AI的领袖之一,强调AGI必须多模态全面发展 [13][14] - 公司不争一时得失,专注AGI、量子计算等终局目标,愿意花长时间铺路以实现爆发式突破 [23] - 在AI模拟人脑、量子计算模拟宇宙两条核心赛道上,谷歌是唯一同时领先的公司 [24]
谷歌CTO兼首席AI架构师揭秘:谷歌如何用两年半完成AI逆袭
36氪· 2025-11-28 18:48
公司战略与组织变革 - 公司从坦诚技术落后转变为实现市场逆袭,两年半前AI Studio仅有3万用户且零收入,团队承受巨大压力[1] - 公司战略发生三个关键转变:从实验室思维转向战场思维,建立每六个月重大迭代的更新节奏;放弃大而全,聚焦三大杀手锏;激活谷歌的终极武器,调动六大洲2500名专家,实现从芯片层到亿级产品的端到端协同[5][20] - 组织层面形成独特能力,从早期25人合作论文到Gemini 3涉及2500名贡献者,实现研究思维与工程思维的深度融合,并具备从芯片设计到算法研发的全栈专家深度整合能力[20][21] 技术进展与模型能力 - Gemini 3模型在基准测试和预发布验证中达到预期,实际应用场景获得用户认可,在精准意图理解、全球化服务能力及工具化与创造能力方面有核心提升[4][7] - 在号称“人类最后考试”的HLE基准测试中,早期模型仅达1%或2%水平,如今先进模型如DeepThink已突破40%水平,而GPQA Diamond等挑战性基准性能仍在逐步提升中[4] - 模型聚焦三大核心维度:精准的意图理解,建立真正的任务理解与执行能力;全球化服务能力,在多个非优势语言场景表现突破;工具化与创造能力,具备函数调用、工具运用等核心能力,其中工具调用能力具有独特的指数效应[7] - 代码能力被视为数字世界的构建基石,通过自然语言编程(氛围编程)新范式,将技术门槛降至前所未有的程度,让创新成为每个人可触及的能力[7][8] 产品开发与市场应用 - 产品平台如AI Studio、Anti-Gravity构成技术演进的重要基础设施,通过真实用户反馈提供最直接的技术优化方向,建立产品与研究的闭环以重塑研发范式[8] - 技术价值最终通过产品体验实现,公司致力于构建完整的技术赋能体系,将尖端模型能力转化为产品价值,同时通过真实用户场景获取改进方向,形成双向循环[9] - 产品驱动的技术演进建立持续改进的飞轮,产品团队不仅是技术使用者,更是共同定义技术方向的战略伙伴,使公司能够快速将实验室创新转化为用户价值[11] 多模态技术与未来方向 - 多模态融合成为技术发展必然趋势,文本与视觉模型正共享底层架构,这种技术汇流创造更符合人类直觉的交互体验,Nano Banana模型展现出同时处理视觉和语言信号的能力[14][15] - 基于Gemini 3 Pro架构升级的新一代模型在理解复杂文档并生成信息图方面展现惊人能力,实现从文本到图像的流畅转换,标志着多模态交互迈向成熟[16] - 实现统一模型架构的核心挑战在于解决文本的结构化信号与图像生成所需的像素级精确、概念级连贯之间的双重标准,这需要找到关键创新点让模型融会贯通不同模态能力[18] 研发理念与行业展望 - 衡量技术进步的根本标准在于实际应用而非基准测试分数,当工具真正融入人类知识工作的各个环节时才实现真正进步,基准测试仅为进步提供可量化的参照维度[6] - 构建AGI不是封闭的实验室研究,而是必须通过与真实世界的持续交互来共同构建的工程实践,产品平台提供宝贵的连接通道以收集亿万用户的反馈信号[9][10] - 公司持续平衡基础科学研究与模型规模化扩展,认为创新源泉的枯竭是最大风险,因此坚持广泛布局探索,不局限于某一种架构或方法[22] - 公司保持“逆袭”心态,强调诚实面对差距,借鉴他人所长并坚持自主创新,通过不断学习与创新达到领先位置,目标始终是构建真正的智能[25][26]
AAAI 2026 Oral | 悉尼科技大学联合港理工打破「一刀切」,联邦推荐如何实现「千人千面」的图文融合?
机器之心· 2025-11-25 12:09
行业痛点与现有挑战 - 推荐系统利用图像和文本等多模态信息辅助决策已成为标配,但该需求与要求“数据不出本地”的联邦学习范式结合时情况变得复杂[2] - 现有联邦推荐方法面临两难:为保护隐私而放弃繁重多模态处理仅使用ID特征,或采用“一刀切”的粗暴融合策略假设所有用户图文偏好一致[2] - 用户对图文信息的“融合偏好”具有极大异质性,例如购买服装更依赖视觉冲击,挑选数码产品则更关注参数文本,这种差异在联邦环境下极难捕捉[2] - 联邦学习中存在“信息不对称”问题,服务器看不见用户行为数据,无法得知个体用户对图片或文字的偏好程度[5] - 端侧设备算力有限,难以运行庞大的视觉-语言模型(如CLIP),构成计算瓶颈[5] 核心技术框架:FedVLR - FedVLR核心洞见在于重构多模态融合决策流,将重计算的特征预处理留给服务器,而将决定“怎么看”的融合决策权通过轻量级路由机制下放给用户端侧[3] - 该框架创新性地提出双层融合机制,巧妙解耦特征提取与偏好融合[8] - 第一层为服务器端的“多视图预融合”,利用强大预训练模型将物品图像、文本和ID信息通过多种预设融合算子加工成一组“候选融合视图集”,解决算力焦虑[9] - 第二层为客户端的“个性化精炼”,引入极轻量的本地混合专家模块,利用本地私有交互历史动态计算个性化权重,实现千人千面[11] - 融合过程完全在本地发生,确保用户偏好数据从未离开设备,严格遵循隐私保护原则[12] 技术优势与工程价值 - FedVLR被设计为可插拔的通用增强方案,具有极高工程落地价值[15] - 具备模型无关性,可无缝挂载到FedAvg、FedNCF等任何主流基于ID的联邦推荐框架上[16] - 实现零通信增量,通信过程中传输的依然是梯度或小模型参数,未增加额外带宽负担[16] - 隐私无损且低端侧开销,复杂CLIP编码在云端完成,端侧仅需运行轻量级MLP路由网络[16] - 在电商、多媒体等多个领域公开数据集上的测试表明,无论基线模型如何,挂载FedVLR后NDCG和HR等核心推荐指标均实现显著且稳定提升[17][26] 应用前景与行业影响 - FedVLR为联邦基础模型落地提供了极具启发性的范式,展示了“云端大模型编码+端侧微调适配”的高效协同路径[19] - 该方案无需在每个终端部署庞大模型,通过精巧架构设计将云端通用内容理解能力与端侧私有偏好解耦[19] - 极大降低了联邦学习的通信与计算门槛,为未来将更复杂视觉-语言模型甚至生成式AI引入隐私敏感场景铺平道路[19] - 在数据稀疏场景下性能提升尤为显著,证明通过个性化融合策略能更有效利用有限本地数据理解物品内容[26] - 是构建下一代“既懂内容、又懂用户、且严守隐私边界”的智能系统的关键一步[19]
谷歌“香蕉”手写满分卷,Karpathy玩上瘾,ChatGPT跪验沉默
36氪· 2025-11-24 14:56
产品发布与战略影响 - 谷歌发布Gemini 3 Pro和Nano Banana Pro双产品,被行业视为战略突破[1] - PyTorch之父Soumith Chintala评价Gemini 3接近GPT-4水平[1] - Salesforce CEO Marc Benioff从ChatGPT转向使用Gemini 3[1] 多模态能力表现 - Nano Banana Pro生成超逼真人物图像,硅谷八巨头同框图像真假难辨[3] - 根据具体坐标和时间生成图像,如2001年9月11日纽约坐标图像[5] - 解答手写试卷时能进行涂鸦和图表绘制,输出完美手写答案[10][11] - 数学题解答能模仿原手写字体输出答案[17] 逻辑推理与文本处理 - 生成汉堡组装教程等步骤化图表[21] - 根据论文内容自动配图[26] - 将诗作《尤利西斯》转化为漫画分镜[36] - 将菜单文字转化为带图片的可视化菜单[23] 影视级内容生成 - 生成1984电影分镜故事版[32] - 支持基础图像的角度、氛围、表情无缝调整[46][48] - 生成电影幕后花絮,如《堡垒之夜》主题内容[63][64] - 制作多场景剧本分镜,包含12个场景切换[61] 创意应用与时空模拟 - 16宫格生成从1880年代到未来的跨世纪变装序列[76][78] - 模拟不同年代女性发型和穿着变化[81] - 生成漫威人物、动物表情包等恶搞系列[83][85]