生成式AI模型能力与产品进展 - Anthropic开启Claude Mythos 5.0内测,该模型被定位为比Opus更大更智能的顶配模型,Polymarket预测其6月上线概率达73% [1] - Claude模型在安全研究领域展现强大能力,安全研究员现场演示其自主发现了Ghost CMS的盲SQL注入漏洞和Linux内核NFSv4守护程序中存在20年的堆栈缓冲区溢出漏洞 [1] - Anthropic内部工作模式发生变革,工程师团队已转向多智能体并行工作模式,不再手写代码,角色转变为AI智能体的管理者 [1] - 谷歌发布Gemini 3.1 Flash Live预览版,大幅提升语音交互的延迟和自然度,增强对音高、语速、重音和意图的识别能力,在嘈杂环境中任务完成率显著提升 [3] - Gemini 3.1 Flash Live具备实时音视频流处理能力,基于有状态WebSocket连接,支持连续音视频流输入,并具备工具调用、多语言支持、用户打断和Google Search接入等能力 [3] - 智谱发布GLM-5.1模型,其编程能力较上一代GLM-5提升近10分,与全球最强编程模型Claude Opus 4.6仅差2.6分,支持约200K上下文窗口和reasoning模式 [4] - GLM-5.1市场需求火爆,该模型面向GLM Coding Plan全部用户开放,上线后一度售罄,网友实测用其生成了可交互的国际象棋游戏和在线版“我的世界” [4] AI辅助开发与安全 - Claude Code推出自动模式,用基于Sonnet 4.6的转录分类器替代人工审批,在1万条真实流量中误拦率仅0.4%,解决了用户93%审批通过率带来的审批疲劳问题 [2] - 自动模式分类器采用双层安全架构,输入层检测提示注入,输出层评估操作安全性,并刻意剥离模型自身回复以防止自我辩护干扰判断 [2] - 系统设置了安全控制权交还机制,针对过度主动行为的漏报率为17%,系统设置连续3次或累计20次拦截后交还控制权,多Agent场景下在委派和返回节点均执行安全检查 [2] AI视频生成与多模态应用 - Runway上线Multi-Shot App,用户输入一段文字描述即可自动生成最多5个镜头的完整视频,包含对话、音效、镜头切换和节奏控制,无需手动剪辑 [5][6] - 该App基于Gen-4.5模型,支持自动镜头语言编排、角色对话口型同步、环境音效匹配和电影化构图,输出分辨率720p,单镜头最长10秒 [6] - Runway近期完成3.15亿美元融资,估值达53亿美元,公司正从单镜头生成向完整成片制作方向发力 [6] AI记忆与长期交互 - Claude Code推出实验性AutoDream功能,通过后台子Agent周期性回顾历史会话,对记忆文件执行合并、压缩、修剪和刷新操作,类似人类睡眠巩固记忆的机制 [7] - 该功能每次运行约10分钟,能复盘数十至数百个会话,核心价值在于减少重复交代背景、控制上下文膨胀、提升关键信息召回率,将记忆文件从信息堆积转变为结构化索引 [7] 行业动态与争议 - 谷歌TurboQuant论文遭RaBitQ作者公开指控学术不端,指控包括回避方法相似性、无证据将RaBitQ理论保证定性为“次优”、用单核CPU测试RaBitQ却用A100 GPU测试自身算法 [8] - NeurIPS会议新增制裁合规条款引发争议,其2026手册新增条款禁止OFAC制裁名单机构投稿,涉及华为、商汤、中芯国际等873家机构,引发中国学术圈强烈反对 [9] - NeurIPS在4天内撤回条款并致歉,称系基金会与法律团队沟通失误,已更新政策文本,欢迎所有合规机构和个人投稿 [9] 行业领袖观点与趋势 - 智谱CEO张鹏表示智能体让token用量增长10倍,但实际需求可能达100倍,GLM-5 Turbo专为长程任务优化,近期涨价是回归正常商业价值 [10] - 小米罗福莉认为“自进化”是未来一年AGI最关键方向,指出国产开源模型加OpenClaw的任务完成度已接近Claude,团队借助AI工具研究效率提升近10倍 [11] - 无问芯穹夏立雪提出需打造“Agentic Infra”,认为当前基础设施是为人设计而非为Agent设计,未来基础设施本身也应是能自我进化的智能体 [11]
腾讯研究院AI速递 20260330
腾讯研究院·2026-03-30 00:11