腾讯研究院AI速递 20260403

Anthropic测试Conway智能体，Claude将获永久在线能力 - Anthropic正在测试名为Conway的智能体，旨在使Claude AI从被动会话模式进化为事件驱动的永久在线模式[1] - Conway智能体以侧边栏形式常驻系统，并支持通过Webhook进行外部唤醒[3] - 引入.cnw.zip扩展标准并深度集成Chrome浏览器，使AI能绕过聊天界面直接操作办公软件[3] - 配合Cowork通用智能体，目标是为95%的非技术职场人士服务，Anthropic的长期目标是为AI打造全新的操作系统[3] 智谱发布多模态Coding基座模型GLM-5V-Turbo - 智谱发布了GLM-5V-Turbo模型，旨在打造多模态Coding基座模型[1] - 该模型从预训练阶段深度融合视觉与文本能力，支持200K上下文窗口，能够理解设计稿和截图并直接生成代码[3] - 在多模态Coding、GUI智能体等基准测试中取得领先表现，同时保持了纯文本编程能力未退化[3] - 深度适配Claude Code与AutoClaw等智能体框架，并提供全套官方Skills开箱即用[3] 阿里发布Qwen3.6-Plus，重点提升智能体编程能力 - 阿里巴巴发布了Qwen3.6-Plus模型，重点在于提升智能体编程能力[1] - 模型默认支持100万上下文窗口，在代码修复和终端自动化等智能体编程任务中达到业界领先水平[3] - 多模态推理能力获得升级，在复杂文档理解、视频推理和视觉编程等任务上取得稳定提升[3] - 兼容OpenClaw、Claude Code等主流编程助手，并新增preserve_thinking功能以优化长程任务表现[3] 阶跃星辰发布Step 3.5 Flash优化版，提升效率 - 阶跃星辰发布了Step 3.5 Flash优化版，新增了低推理模式[1] - 在低推理模式下，token消耗降低了56%，在默认模式下token消耗降低了14%[3] - 模型针对Coding框架与智能体框架进行了优化训练，提升了稳定性和token效率[3] - 在高频智能体应用场景中，其速度优势明显，总耗时仅为其他参评模型的一半[3] 美团开源语音克隆模型LongCat-AudioDiT - 美团开源了语音克隆模型LongCat-AudioDiT，提供了两个版本[1] - 该模型直接在波形潜空间进行扩散建模，抛弃了梅尔谱中间表示，从根源上阻断了数据转换过程中的级联误差[3] - 在Seed基准测试中取得了SOTA的零样本语音克隆性能，说话人相似度超越了Seed-TTS等知名模型[3] - 提出双重约束机制和自适应投影引导，以替代传统的无分类器引导，从而提升了语音的自然度和声学质量[3] 百度健康发布医生版AI助手“有医助理” - 百度健康发布了基于Claw框架打造的医生版AI助手“有医助理”[1] - 首创“检索+任务”双引擎模式，整合了超过6000万篇专业文献和超过20万条用药知识图谱，主打结论可溯源[1] - 基于Claw框架打造，涵盖内容创作、学术检索、临床诊疗等5大场景，共包含800多项Skill[3] - 与中国抗癌协会合作，引入了覆盖53大癌种的CACA指南，实测在文献检索和辅助诊断方面表现实用[3] 英伟达开源CaP-X框架，用代码控制机器人 - 英伟达开源了CaP-X框架，使大模型能够使用代码控制机器人[4] - 该框架基于“代码即策略”的理念，机器人通过摄像头看懂环境后，由大模型编写Python代码实现自主控制[4] - 其CaP-Agent0在7项核心任务中，有4项的成功率追平或超越了人类专家，展现了强大的鲁棒性[4] - 框架包含CaP-Gym训练环境、CaP-Bench基准测试等四大组件，成功代码会自动存入可复用的技能库[4] OpenAI总裁称AGI已完成70%至80%，预告Spud模型 - OpenAI总裁表示，通用人工智能的研发已完成70%至80%，并预告了代号为Spud的新基座模型[5] - Spud模型已完成预训练，集结了OpenAI过去两年的顶尖研究成果，将大幅提升问题理解能力[5] - 视频生成模型Sora因每日消耗1500万美元且用户留存率暴跌而被关停，算力将全部押注于GPT推理路线[5] - 计划将ChatGPT、Codex和Atlas整合为名为“个人AGI”的超级应用，并预计在秋季推出自动化AI研究员[5]