Workflow
Claude Mythos 5.0
icon
搜索文档
腾讯研究院AI每周关键词Top50
腾讯研究院· 2026-04-04 10:33
模型发布与迭代 - 多家公司密集发布或迭代其大语言模型和多模态模型,包括Anthropic的Claude Mythos 5.0、智谱的GLM-5.1和GLM-5V-Turbo、阿里的Qwen3.5-Omni和Qwen3.6-Plus、阶跃星辰的Step 3.5 Flash [3] - 谷歌发布Gemini Flash Live和Veo3.1Lite,阿里发布Wan2.7-Image,表明行业在视频生成和图像生成应用领域持续竞争 [3][4] 应用与产品创新 - 人工智能应用向代码编程、创意工作流和日常生活助手等具体场景深度渗透,例如Anthropic推出Claude Code自动模式、AutoDream、Computer Use、Buddy宠物系统、Conway智能体,OpenAI推出Codex插件 [3] - 中国科技公司积极推出面向消费者和企业的AI应用,如腾讯的WorkBuddy小程序和QQ官方插件、字节跳动的TRAE SOLO、美团的LongCat-AudioDiT、京东的JoyStreamer、爱诗科技的PixVerse V6、百度的“有医助理” [3][4] - 人机交互模式出现新探索,如Rokid的AIUI交互模式、港科大等研发的AI气味戒指 [3][4] 行业事件与融资 - OpenAI正在进行一轮高达1220亿美元的融资,显示出资本市场对头部人工智能公司的高度认可和巨大投入 [4] - 行业出现争议与监管动态,包括谷歌的TurboQuant争议、NeurIPS会议新增AI制裁条款、苹果国行AI功能信息泄露以及Anthropic对模型源码泄露的回应 [4] - 苹果国行AI功能泄露,预示其可能在特定市场有本地化AI布局 [4] 技术研究与行业观点 - 研究机构与行业领袖发布重要技术方向与行业观点,智谱等探讨大模型与智能体发展走向,上海AI实验室发布超节点白皮书,斯坦福提出Meta-Harness方法 [4] - 行业对算力的定位形成新观点,OpenAI的Sam Altman提出“算力公用事业”概念,预示未来算力可能像水电一样成为基础服务 [4] - 前沿技术研究取得进展,如高德纳等对哈密顿分解难题的探索,英伟达提出CaP-X技术 [4] - OpenAI预告即将发布Spud模型,显示其持续的产品路线图 [4]
腾讯研究院AI速递 20260330
腾讯研究院· 2026-03-30 00:11
生成式AI模型能力与产品进展 - **Anthropic开启Claude Mythos 5.0内测**,该模型被定位为比Opus更大更智能的顶配模型,Polymarket预测其6月上线概率达73% [1] - **Claude模型在安全研究领域展现强大能力**,安全研究员现场演示其自主发现了Ghost CMS的盲SQL注入漏洞和Linux内核NFSv4守护程序中存在20年的堆栈缓冲区溢出漏洞 [1] - **Anthropic内部工作模式发生变革**,工程师团队已转向多智能体并行工作模式,不再手写代码,角色转变为AI智能体的管理者 [1] - **谷歌发布Gemini 3.1 Flash Live预览版**,大幅提升语音交互的延迟和自然度,增强对音高、语速、重音和意图的识别能力,在嘈杂环境中任务完成率显著提升 [3] - **Gemini 3.1 Flash Live具备实时音视频流处理能力**,基于有状态WebSocket连接,支持连续音视频流输入,并具备工具调用、多语言支持、用户打断和Google Search接入等能力 [3] - **智谱发布GLM-5.1模型**,其编程能力较上一代GLM-5提升近10分,与全球最强编程模型Claude Opus 4.6仅差2.6分,支持约200K上下文窗口和reasoning模式 [4] - **GLM-5.1市场需求火爆**,该模型面向GLM Coding Plan全部用户开放,上线后一度售罄,网友实测用其生成了可交互的国际象棋游戏和在线版“我的世界” [4] AI辅助开发与安全 - **Claude Code推出自动模式**,用基于Sonnet 4.6的转录分类器替代人工审批,在1万条真实流量中误拦率仅0.4%,解决了用户93%审批通过率带来的审批疲劳问题 [2] - **自动模式分类器采用双层安全架构**,输入层检测提示注入,输出层评估操作安全性,并刻意剥离模型自身回复以防止自我辩护干扰判断 [2] - **系统设置了安全控制权交还机制**,针对过度主动行为的漏报率为17%,系统设置连续3次或累计20次拦截后交还控制权,多Agent场景下在委派和返回节点均执行安全检查 [2] AI视频生成与多模态应用 - **Runway上线Multi-Shot App**,用户输入一段文字描述即可自动生成最多5个镜头的完整视频,包含对话、音效、镜头切换和节奏控制,无需手动剪辑 [5][6] - **该App基于Gen-4.5模型**,支持自动镜头语言编排、角色对话口型同步、环境音效匹配和电影化构图,输出分辨率720p,单镜头最长10秒 [6] - **Runway近期完成3.15亿美元融资,估值达53亿美元**,公司正从单镜头生成向完整成片制作方向发力 [6] AI记忆与长期交互 - **Claude Code推出实验性AutoDream功能**,通过后台子Agent周期性回顾历史会话,对记忆文件执行合并、压缩、修剪和刷新操作,类似人类睡眠巩固记忆的机制 [7] - **该功能每次运行约10分钟**,能复盘数十至数百个会话,核心价值在于减少重复交代背景、控制上下文膨胀、提升关键信息召回率,将记忆文件从信息堆积转变为结构化索引 [7] 行业动态与争议 - **谷歌TurboQuant论文遭RaBitQ作者公开指控学术不端**,指控包括回避方法相似性、无证据将RaBitQ理论保证定性为“次优”、用单核CPU测试RaBitQ却用A100 GPU测试自身算法 [8] - **NeurIPS会议新增制裁合规条款引发争议**,其2026手册新增条款禁止OFAC制裁名单机构投稿,涉及华为、商汤、中芯国际等873家机构,引发中国学术圈强烈反对 [9] - **NeurIPS在4天内撤回条款并致歉**,称系基金会与法律团队沟通失误,已更新政策文本,欢迎所有合规机构和个人投稿 [9] 行业领袖观点与趋势 - **智谱CEO张鹏表示智能体让token用量增长10倍**,但实际需求可能达100倍,GLM-5 Turbo专为长程任务优化,近期涨价是回归正常商业价值 [10] - **小米罗福莉认为“自进化”是未来一年AGI最关键方向**,指出国产开源模型加OpenClaw的任务完成度已接近Claude,团队借助AI工具研究效率提升近10倍 [11] - **无问芯穹夏立雪提出需打造“Agentic Infra”**,认为当前基础设施是为人设计而非为Agent设计,未来基础设施本身也应是能自我进化的智能体 [11]