视频生成模型技术升级 - Runway发布全新Gen 4.5图生视频模型,镜头控制和故事叙事能力显著提升,能在5秒内快速生成包含近景、中景、远景的三个镜头 [1] - 在1000人参与的测试中,仅有57%的人能分辨AI生成视频与真实视频,模型在人物面部一致性、光影逻辑和物理规律表现上接近电影级水准 [1] - 视频生成模型正进入新一轮升级期,真实度、声画同步、局部控制精细化和更长生成时长成为行业共同趋势 [1] 大模型在教育领域的应用拓展 - 谷歌联手The Princeton Review将全套SAT模拟题整合进Gemini,用户可免费进行全真模考,分数立等可取并获得详细错题解析 [2] - 测试涵盖阅读写作和数学两大模块,支持自定义倒计时和提示功能,Gemini会把解题思路拆解成详细步骤辅助理解 [2] - SAT只是第一步,谷歌计划将Gemini逐步扩展到更多标准化考试,同时通过垂直领域渗透策略让AI成为各行业的专家助手 [2] 大模型服务与算力挑战 - 智谱GLM-4.7上线后用户高速增长导致算力紧张,部分用户在高峰期遇到并发限流和模型速度变慢问题 [3] - 1月23日起限量发售GLM Coding Plan,每日可销售量降至当前20%,优先保障老用户的编程体验 [3] - 智谱正在研发更强大高效的模型并加速算力扩容,已有自动续订不受影响,限售结束时间另行通知 [3] 垂直领域大模型突破 - 百川发布医疗大模型M3 Plus,幻觉率降至2.6%达全球最低,首创“证据锚定”技术可将每句医学结论精确锚定到原始论文对应段落 [4] - M3 Plus在Healthbench等权威评测中登顶榜首全面超越GPT-5.2,API调用价格较上一代降低70% [4] - 百川推出“海纳百川”计划,向中国医疗服务机构免费开放M3 Plus API,推动AI医疗生态发展 [4] 消费级AI硬件与助手演进 - 苹果正秘密研发类似AirTag外形的AI设备,配备双摄像头和三麦克风,功能类似Ai Pin,首批规划量产2000万台,最快2027年发布 [5] - 苹果计划推出代号“Campos”的全新Siri,深度整合iOS 27,支持网页搜索、写邮件、生成图片和屏幕感知等ChatGPT级能力 [5] - 新版Siri基础模型将基于Google Gemini 3构建,苹果每年需向谷歌支付约10亿美元,并可能切换到TPU服务器托管 [5] AI驱动的程序化视频制作工具 - Remotion是一个开源库,支持用React代码程序化制作视频,现已有专门的skills可通过npx命令安装到Cursor、Claude Code等开发工具 [6] - 用户只需提供文案和节奏需求,AI就能自动生成带动画的视频效果,支持产品演示、宣传视频等场景,并可通过Web端编辑器做细节修改 [6] - 这一工具适合独立开发者制作产品宣传视频,实现了“视频编辑可以接近编程”的思维转变,支持与AI反复迭代调整效果 [6] 人工智能学术研究前沿 - AAAI 2026公布5篇杰出论文,其中三篇由华人团队主导,作者来自港科大(广州)、西湖大学、浙大、同济、浙师大、港城大等高校 [7] - 获奖论文涵盖机器人视觉语言动作模型ReconVLA、多模态表示学习LLM2CLIP、动力系统因果发现CADYT等前沿方向 [7] - AAAI 2026总投稿23,680篇,录用4,167篇,接收率17.6%,会议于1月20-27日在新加坡举行 [7] 消费级AI市场趋势与竞争格局 - 通用LLM助手市场呈“赢家通吃”趋势,ChatGPT周活跃用户达8-9亿,仅9%用户会为多款AI产品付费,Gemini桌面端用户同比增长155% [8] - 2025年图像视频生成模型在真实感和推理能力上取得长足进步, Veo 3的音视频融合和Nano Banana Pro的搜索整合成为关键突破 [8] - 头部实验室在模型研发上表现出色,但新消费级产品多未取得理想效果,2026年初创企业在细分应用场景仍有很大发展空间 [8] AI模型价值观与安全框架 - Anthropic发布84页《Claude宪法》并以CC0协议开源,这是一份直接面向AI模型的价值观宣言,定义Claude是谁及如何自处 [9] - 宪法确立四级价值优先级:广义安全>广义伦理>遵循指南>真正有帮助,强调“可修正性”是当前阶段最重要的安全特性 [9] - 文件明确划定硬性红线包括不协助制造大规模杀伤性武器、不生成CSAM等,同时鼓励Claude建立稳定积极的自我认同 [9]
腾讯研究院AI速递 20260123