腾讯研究院AI速递 20260123

视频生成模型技术升级 - Runway发布全新Gen 4.5图生视频模型，镜头控制和故事叙事能力显著提升，能在5秒内快速生成包含近景、中景、远景的三个镜头 [1] - 在1000人参与的测试中，仅有57%的人能分辨AI生成视频与真实视频，模型在人物面部一致性、光影逻辑和物理规律表现上接近电影级水准 [1] - 视频生成模型正进入新一轮升级期，真实度、声画同步、局部控制精细化和更长生成时长成为行业共同趋势 [1] 大模型在教育领域的应用拓展 - 谷歌联手The Princeton Review将全套SAT模拟题整合进Gemini，用户可免费进行全真模考，分数立等可取并获得详细错题解析 [2] - 测试涵盖阅读写作和数学两大模块，支持自定义倒计时和提示功能，Gemini会把解题思路拆解成详细步骤辅助理解 [2] - SAT只是第一步，谷歌计划将Gemini逐步扩展到更多标准化考试，同时通过垂直领域渗透策略让AI成为各行业的专家助手 [2] 大模型服务与算力挑战 - 智谱GLM-4.7上线后用户高速增长导致算力紧张，部分用户在高峰期遇到并发限流和模型速度变慢问题 [3] - 1月23日起限量发售GLM Coding Plan，每日可销售量降至当前20%，优先保障老用户的编程体验 [3] - 智谱正在研发更强大高效的模型并加速算力扩容，已有自动续订不受影响，限售结束时间另行通知 [3] 垂直领域大模型突破 - 百川发布医疗大模型M3 Plus，幻觉率降至2.6%达全球最低，首创“证据锚定”技术可将每句医学结论精确锚定到原始论文对应段落 [4] - M3 Plus在Healthbench等权威评测中登顶榜首全面超越GPT-5.2，API调用价格较上一代降低70% [4] - 百川推出“海纳百川”计划，向中国医疗服务机构免费开放M3 Plus API，推动AI医疗生态发展 [4] 消费级AI硬件与助手演进 - 苹果正秘密研发类似AirTag外形的AI设备，配备双摄像头和三麦克风，功能类似Ai Pin，首批规划量产2000万台，最快2027年发布 [5] - 苹果计划推出代号“Campos”的全新Siri，深度整合iOS 27，支持网页搜索、写邮件、生成图片和屏幕感知等ChatGPT级能力 [5] - 新版Siri基础模型将基于Google Gemini 3构建，苹果每年需向谷歌支付约10亿美元，并可能切换到TPU服务器托管 [5] AI驱动的程序化视频制作工具 - Remotion是一个开源库，支持用React代码程序化制作视频，现已有专门的skills可通过npx命令安装到Cursor、Claude Code等开发工具 [6] - 用户只需提供文案和节奏需求，AI就能自动生成带动画的视频效果，支持产品演示、宣传视频等场景，并可通过Web端编辑器做细节修改 [6] - 这一工具适合独立开发者制作产品宣传视频，实现了“视频编辑可以接近编程”的思维转变，支持与AI反复迭代调整效果 [6] 人工智能学术研究前沿 - AAAI 2026公布5篇杰出论文，其中三篇由华人团队主导，作者来自港科大（广州）、西湖大学、浙大、同济、浙师大、港城大等高校 [7] - 获奖论文涵盖机器人视觉语言动作模型ReconVLA、多模态表示学习LLM2CLIP、动力系统因果发现CADYT等前沿方向 [7] - AAAI 2026总投稿23,680篇，录用4,167篇，接收率17.6%，会议于1月20-27日在新加坡举行 [7] 消费级AI市场趋势与竞争格局 - 通用LLM助手市场呈“赢家通吃”趋势，ChatGPT周活跃用户达8-9亿，仅9%用户会为多款AI产品付费，Gemini桌面端用户同比增长155% [8] - 2025年图像视频生成模型在真实感和推理能力上取得长足进步， Veo 3的音视频融合和Nano Banana Pro的搜索整合成为关键突破 [8] - 头部实验室在模型研发上表现出色，但新消费级产品多未取得理想效果，2026年初创企业在细分应用场景仍有很大发展空间 [8] AI模型价值观与安全框架 - Anthropic发布84页《Claude宪法》并以CC0协议开源，这是一份直接面向AI模型的价值观宣言，定义Claude是谁及如何自处 [9] - 宪法确立四级价值优先级：广义安全＞广义伦理＞遵循指南＞真正有帮助，强调“可修正性”是当前阶段最重要的安全特性 [9] - 文件明确划定硬性红线包括不协助制造大规模杀伤性武器、不生成CSAM等，同时鼓励Claude建立稳定积极的自我认同 [9]