腾讯研究院AI速递 20260227

生成式AI模型与产品进展 - DeepSeek新模型“sealion-lite”（V4 Lite）正在积极测试，支持1M上下文窗口和原生多模态推理，其非思考模式性能已超越V3.2的思考模式 [1] - DeepSeek已向华为等国内芯片厂商提供V4提前访问权以优化处理器软件，但英伟达和AMD尚未获得权限 [1] - 首批流出的示例显示V4 Lite代码更简洁、质量更高，市场猜测其参数约2850亿 [1] - xAI的Grok 4.20 Beta采用“4 Agents”架构，内置四个专业智能体（协调者、研究专家、逻辑专家、创意达人）以协作应对复杂查询 [2] - Grok 4.20在3992位用户评测中于Search Arena排名第一，超越了GPT-5.2和Gemini 3.0 Pro，并在Alpha Arena真实股票交易基准中同样登顶 [2] - Grok 4.20的多智能体内部讨论机制可大幅降低幻觉约65%，并提高工程、预测等多步推理的可靠性 [2] - Perplexity发布Computer产品，通过Claude Opus编排多达19个AI模型并行工作，可端到端自主完成研究、设计、编码、部署等全流程任务 [3] - Anthropic收购AI初创公司Vercept，其核心能力将在未来几周内并入Claude [3] - Claude在OSWorld基准测试中的表现已从不足15%飙升至72.5%，逼近人类水平 [3] AI编程与智能体（Agent）发展 - 前特斯拉AI总监Karpathy断言，AI编程能力在2024年12月发生质变，模型具备了更强的长期一致性，使得过去需要一个周末的项目现在30分钟即可完成 [7] - 编程模式正在被重构，从在编辑器输入代码转变为启动AI Agent并用自然语言分配任务、管理多个并行代码实例，顶级智能体工程具有极高的杠杆效应 [7] - MIT、剑桥、斯坦福的联合报告指出，在对30个顶级AI Agent的审计中，发现23个完全闭源，底层模型高度集中于GPT、Claude、Gemini三家，存在生态隐性控制权风险 [8] - 报告显示，浏览器类Agent的实际自主度已达到L4-L5，但企业宣传普遍低报为L1-L2，且仅有4个Agent披露了专属安全文档 [8] - 全球仅有0.04%的人尝试过AI编程，但Claude Code实测显示编程占Agent使用近半，且最长不中断运行时长在三个月内翻倍 [8] 硬件、市场与产业动态 - 三星发布Galaxy S26系列，搭载定制骁龙8至尊版芯片，其AI功能可在后台自主执行打车、外卖、购物等任务 [4] - S26 Ultra首次搭载内置式防窥显示屏，并支持APV专业视频标准，实现多次剪辑接近视觉无损，夜拍和视频防抖能力显著提升 [4] - 三星Galaxy S26标准版起售价为6999元，较上代上涨1000元，S26 Ultra起售价为9999元，上涨300元 [4] - 截至2025年底，支持AI的三星Galaxy设备预计将超过4亿台，公司2026年的目标是达到8亿台 [4] - 硅谷资深华人研究员庞若鸣在加入Meta仅七个月后转投OpenAI，此前Meta为其开出了总额超2亿美元、跨数年的薪酬方案 [5][6] - 该研究员曾在苹果主导了Apple Intelligence及Genmoji、邮件摘要等功能的开发，其离职发生在Meta超级智能实验室完成首批核心AI模型交付的关键时期 [6]