腾讯研究院AI速递 20260116

美国对华AI芯片出口政策调整 - 美国对英伟达H200、AMD MI325X等先进AI芯片征收25%关税，并将对华出口许可审查从“推定拒绝”改为“逐案审查” [1] - 新规限制对华芯片数量不得超过美国客户总量的一半，并针对特定技术参数（如TPP在14000-21100、DRAM带宽4500-6200GB/s）的芯片征收关税 [1] - 美国通过《远程访问安全法案》限制中国通过云计算服务远程获取AI芯片，并要求商务部在7月前提供数据中心芯片市场最新情况 [1] 谷歌发布Personal Intelligence功能 - 谷歌正式发布由Gemini 3模型驱动的Personal Intelligence功能，底层打通Gmail、Photos、YouTube和Search四大应用，实现跨应用数据调取与私有上下文理解 [2] - 该功能内置自然语言纠错机制，用户可直接在对话框指出AI错误，系统实时修正认知记录 [2] - 功能目前处于Beta测试阶段，优先向Google AI Pro和AI Ultra等付费用户开放，支持全平台，未来将覆盖免费版用户 [2] 英伟达智能驾驶技术进展 - 英伟达搭载全新L2++级辅助驾驶系统的奔驰CLA在旧金山完成近40分钟测试，表现流畅无碰撞，被认为与特斯拉FSD能力相当且因雷达冗余感知更安全 [3] - 公司计划2026年上半年推出L2级高速与城市驾驶功能，2026年底覆盖全美，2027年推进Robotaxi部署，2028年实现L3级高速公路驾驶 [3] - 英伟达仅用1年实现城市自动驾驶功能追平特斯拉8年成果，采用Drive AGX Thor芯片（约3500美元），基于强化学习系统持续改进 [3] 阿里千问App上线AI办事功能 - 千问App上线400多项办事功能，接入淘宝、支付宝、飞猪、高德等阿里生态，首次实现点外卖、购物、订机票酒店等AI购物功能 [4] - 新增功能包括AI点外卖（支付在对话界面内完成无需跳转）、AI打电话订餐厅、50项政务服务直达入口、智能旅行规划等 [4] - 上线“任务助理”功能，提供应用开发、办公、咨询、生活办事等能力，得益于AI Coding、全模态理解、超长上下文处理等技术突破 [4] 滴滴上线出行AI助理“小滴” - 滴滴上线Agent“小滴”，用户通过一句话即可选择油电动力、空气清新、车型车色，并能识别模糊需求（如“带大件行李”）自动推荐合适车辆 [5][6] - “小滴”具备需求优先级排序能力，分为“必要”、“优先安排”等多个等级，优先满足排序靠前的需求 [6] - 上线3个多月迭代后，AI激活了滴滴精细化运营积累，机器人能记住用户习惯提供个性化服务 [6] 阶跃星辰语音模型技术突破 - 阶跃星辰原生语音推理模型Step-Audio-R1.1登顶Artificial Analysis Speech Reasoning榜单，以96.4%准确率超越Grok、Gemini、GPT-Realtime等主流模型 [7] - Step-Audio-R1是全球首个开源原生语音推理模型，可端到端理解语音内容，实现深度语音推理、实时响应和音频领域可扩展CoT，无需增加额外时延 [7] - Step-Audio-R1.1兼顾更强实时对话和复杂语音推理能力，完整实时语音API将于2月上线，目前chat模式已支持边想边说的流式推理 [7] AI代码生成能力展示 - Cursor CEO让GPT-5.2连续运行168小时，写下300万行代码、数千个文件，从零构建出包含HTML解析、CSS布局、文本渲染和JavaScript虚拟机的完整浏览器 [8] - 项目采用多智能体系统分层架构（规划者、执行者、评审者），实现上百个Agent协同工作数周几乎无冲突 [8] - 实验显示GPT-5.2能长时间自主工作并保持专注，而Claude Opus 4.5倾向尽早结束任务，GPT-5.1-Codex规划能力较弱容易中断 [8] 机器人租赁平台“擎天租”发展 - 全球首个机器人租赁平台“擎天租”完成种子轮融资，高瓴创投领投，复星创富、慕华科创等跟投 [9] - 平台上线三周注册用户突破20万，日均租赁订单稳定在200单以上，连接50个核心城市600多家服务商，汇聚1000多台不同品牌机器人设备 [9] - 采用共享租赁+平台化调度模式，租金从长租200元/天到日租上千元梯度定价，与中国人保财险合作推出损伤险和责任险，承诺“只换不修” [9] 仿生面部机器人技术进展 - 美国哥伦比亚大学研究登上Science Robotics封面，展示具备仿生面部结构的人形机器人，通过深度学习实现与语音和歌曲同步的真实唇部运动 [10] - 机器人面孔在柔性硅胶皮肤下隐藏20余个微型电机，通过“视觉-动作”自监督学习构建Facial Action Transformer模型，观察自己面部变化学会控制表情 [11] - 机器人可将声音信号直接转化为连续自然的唇部运动，在多种语言、不同语音环境甚至歌曲中均能完成连贯的唇部同步，跨语言泛化能力稳健 [11]