腾讯研究院AI速递 20260116
腾讯研究院·2026-01-16 00:06

美国对华AI芯片出口政策调整 - 美国对英伟达H200、AMD MI325X等先进AI芯片征收25%关税,并将对华出口许可审查从“推定拒绝”改为“逐案审查” [1] - 新规限制对华芯片数量不得超过美国客户总量的一半,并针对特定技术参数(如TPP在14000-21100、DRAM带宽4500-6200GB/s)的芯片征收关税 [1] - 美国通过《远程访问安全法案》限制中国通过云计算服务远程获取AI芯片,并要求商务部在7月前提供数据中心芯片市场最新情况 [1] 谷歌发布Personal Intelligence功能 - 谷歌正式发布由Gemini 3模型驱动的Personal Intelligence功能,底层打通Gmail、Photos、YouTube和Search四大应用,实现跨应用数据调取与私有上下文理解 [2] - 该功能内置自然语言纠错机制,用户可直接在对话框指出AI错误,系统实时修正认知记录 [2] - 功能目前处于Beta测试阶段,优先向Google AI Pro和AI Ultra等付费用户开放,支持全平台,未来将覆盖免费版用户 [2] 英伟达智能驾驶技术进展 - 英伟达搭载全新L2++级辅助驾驶系统的奔驰CLA在旧金山完成近40分钟测试,表现流畅无碰撞,被认为与特斯拉FSD能力相当且因雷达冗余感知更安全 [3] - 公司计划2026年上半年推出L2级高速与城市驾驶功能,2026年底覆盖全美,2027年推进Robotaxi部署,2028年实现L3级高速公路驾驶 [3] - 英伟达仅用1年实现城市自动驾驶功能追平特斯拉8年成果,采用Drive AGX Thor芯片(约3500美元),基于强化学习系统持续改进 [3] 阿里千问App上线AI办事功能 - 千问App上线400多项办事功能,接入淘宝、支付宝、飞猪、高德等阿里生态,首次实现点外卖、购物、订机票酒店等AI购物功能 [4] - 新增功能包括AI点外卖(支付在对话界面内完成无需跳转)、AI打电话订餐厅、50项政务服务直达入口、智能旅行规划等 [4] - 上线“任务助理”功能,提供应用开发、办公、咨询、生活办事等能力,得益于AI Coding、全模态理解、超长上下文处理等技术突破 [4] 滴滴上线出行AI助理“小滴” - 滴滴上线Agent“小滴”,用户通过一句话即可选择油电动力、空气清新、车型车色,并能识别模糊需求(如“带大件行李”)自动推荐合适车辆 [5][6] - “小滴”具备需求优先级排序能力,分为“必要”、“优先安排”等多个等级,优先满足排序靠前的需求 [6] - 上线3个多月迭代后,AI激活了滴滴精细化运营积累,机器人能记住用户习惯提供个性化服务 [6] 阶跃星辰语音模型技术突破 - 阶跃星辰原生语音推理模型Step-Audio-R1.1登顶Artificial Analysis Speech Reasoning榜单,以96.4%准确率超越Grok、Gemini、GPT-Realtime等主流模型 [7] - Step-Audio-R1是全球首个开源原生语音推理模型,可端到端理解语音内容,实现深度语音推理、实时响应和音频领域可扩展CoT,无需增加额外时延 [7] - Step-Audio-R1.1兼顾更强实时对话和复杂语音推理能力,完整实时语音API将于2月上线,目前chat模式已支持边想边说的流式推理 [7] AI代码生成能力展示 - Cursor CEO让GPT-5.2连续运行168小时,写下300万行代码、数千个文件,从零构建出包含HTML解析、CSS布局、文本渲染和JavaScript虚拟机的完整浏览器 [8] - 项目采用多智能体系统分层架构(规划者、执行者、评审者),实现上百个Agent协同工作数周几乎无冲突 [8] - 实验显示GPT-5.2能长时间自主工作并保持专注,而Claude Opus 4.5倾向尽早结束任务,GPT-5.1-Codex规划能力较弱容易中断 [8] 机器人租赁平台“擎天租”发展 - 全球首个机器人租赁平台“擎天租”完成种子轮融资,高瓴创投领投,复星创富、慕华科创等跟投 [9] - 平台上线三周注册用户突破20万,日均租赁订单稳定在200单以上,连接50个核心城市600多家服务商,汇聚1000多台不同品牌机器人设备 [9] - 采用共享租赁+平台化调度模式,租金从长租200元/天到日租上千元梯度定价,与中国人保财险合作推出损伤险和责任险,承诺“只换不修” [9] 仿生面部机器人技术进展 - 美国哥伦比亚大学研究登上Science Robotics封面,展示具备仿生面部结构的人形机器人,通过深度学习实现与语音和歌曲同步的真实唇部运动 [10] - 机器人面孔在柔性硅胶皮肤下隐藏20余个微型电机,通过“视觉-动作”自监督学习构建Facial Action Transformer模型,观察自己面部变化学会控制表情 [11] - 机器人可将声音信号直接转化为连续自然的唇部运动,在多种语言、不同语音环境甚至歌曲中均能完成连贯的唇部同步,跨语言泛化能力稳健 [11]