腾讯研究院AI速递 20260330

生成式AI模型能力与产品进展 - Anthropic开启Claude Mythos 5.0内测，该模型被定位为比Opus更大更智能的顶配模型，Polymarket预测其6月上线概率达73% [1] - Claude模型在安全研究领域展现强大能力，安全研究员现场演示其自主发现了Ghost CMS的盲SQL注入漏洞和Linux内核NFSv4守护程序中存在20年的堆栈缓冲区溢出漏洞 [1] - Anthropic内部工作模式发生变革，工程师团队已转向多智能体并行工作模式，不再手写代码，角色转变为AI智能体的管理者 [1] - 谷歌发布Gemini 3.1 Flash Live预览版，大幅提升语音交互的延迟和自然度，增强对音高、语速、重音和意图的识别能力，在嘈杂环境中任务完成率显著提升 [3] - Gemini 3.1 Flash Live具备实时音视频流处理能力，基于有状态WebSocket连接，支持连续音视频流输入，并具备工具调用、多语言支持、用户打断和Google Search接入等能力 [3] - 智谱发布GLM-5.1模型，其编程能力较上一代GLM-5提升近10分，与全球最强编程模型Claude Opus 4.6仅差2.6分，支持约200K上下文窗口和reasoning模式 [4] - GLM-5.1市场需求火爆，该模型面向GLM Coding Plan全部用户开放，上线后一度售罄，网友实测用其生成了可交互的国际象棋游戏和在线版“我的世界” [4] AI辅助开发与安全 - Claude Code推出自动模式，用基于Sonnet 4.6的转录分类器替代人工审批，在1万条真实流量中误拦率仅0.4%，解决了用户93%审批通过率带来的审批疲劳问题 [2] - 自动模式分类器采用双层安全架构，输入层检测提示注入，输出层评估操作安全性，并刻意剥离模型自身回复以防止自我辩护干扰判断 [2] - 系统设置了安全控制权交还机制，针对过度主动行为的漏报率为17%，系统设置连续3次或累计20次拦截后交还控制权，多Agent场景下在委派和返回节点均执行安全检查 [2] AI视频生成与多模态应用 - Runway上线Multi-Shot App，用户输入一段文字描述即可自动生成最多5个镜头的完整视频，包含对话、音效、镜头切换和节奏控制，无需手动剪辑 [5][6] - 该App基于Gen-4.5模型，支持自动镜头语言编排、角色对话口型同步、环境音效匹配和电影化构图，输出分辨率720p，单镜头最长10秒 [6] - Runway近期完成3.15亿美元融资，估值达53亿美元，公司正从单镜头生成向完整成片制作方向发力 [6] AI记忆与长期交互 - Claude Code推出实验性AutoDream功能，通过后台子Agent周期性回顾历史会话，对记忆文件执行合并、压缩、修剪和刷新操作，类似人类睡眠巩固记忆的机制 [7] - 该功能每次运行约10分钟，能复盘数十至数百个会话，核心价值在于减少重复交代背景、控制上下文膨胀、提升关键信息召回率，将记忆文件从信息堆积转变为结构化索引 [7] 行业动态与争议 - 谷歌TurboQuant论文遭RaBitQ作者公开指控学术不端，指控包括回避方法相似性、无证据将RaBitQ理论保证定性为“次优”、用单核CPU测试RaBitQ却用A100 GPU测试自身算法 [8] - NeurIPS会议新增制裁合规条款引发争议，其2026手册新增条款禁止OFAC制裁名单机构投稿，涉及华为、商汤、中芯国际等873家机构，引发中国学术圈强烈反对 [9] - NeurIPS在4天内撤回条款并致歉，称系基金会与法律团队沟通失误，已更新政策文本，欢迎所有合规机构和个人投稿 [9] 行业领袖观点与趋势 - 智谱CEO张鹏表示智能体让token用量增长10倍，但实际需求可能达100倍，GLM-5 Turbo专为长程任务优化，近期涨价是回归正常商业价值 [10] - 小米罗福莉认为“自进化”是未来一年AGI最关键方向，指出国产开源模型加OpenClaw的任务完成度已接近Claude，团队借助AI工具研究效率提升近10倍 [11] - 无问芯穹夏立雪提出需打造“Agentic Infra”，认为当前基础设施是为人设计而非为Agent设计，未来基础设施本身也应是能自我进化的智能体 [11]