Workflow
Gemma 4系列开源模型
icon
搜索文档
腾讯研究院AI速递 20260407
腾讯研究院· 2026-04-07 00:05
谷歌Gemma 4系列开源模型发布 - 谷歌发布四款Gemma 4系列模型并采用Apache 2.0全面开源,最小的E2B模型仅激活20亿参数即可在手机和树莓派上完全离线运行,支持128K上下文和多模态输入 [1] - 310亿参数的Dense版本在AIME 2026数学推理基准测试中准确率从20.8%跃升至89.2%,代码能力从29.1%升至80.0%,Agent工具调用能力从6.6%提升至86.4% [1] - E2B的20亿参数手机模型在GPQA Diamond基准上达到43.4%,已追平上一代Gemma 3 270亿参数桌面模型的42.4%,实现了单位参数智能密度的突破 [1] 微软发布自研多模态AI模型 - 微软发布MAI-Transcribe-1、MAI-Voice-1和MAI-Image-2三款自研模型,其中批量转录速度是现有Azure Fast服务的2.5倍,语音生成模型1秒可产出60秒音频 [2] - MAI-Image-2在Arena.ai文本转图像排行榜位列第三,已集成至Copilot、Bing和PowerPoint等产品,WPP成为首批企业合作伙伴 [2] - 三款模型均由Mustafa Suleyman领导的AI超级智能团队自主研发,标志着微软正自建多模态AI技术体系以降低对OpenAI的依赖 [2] Anthropic调整Claude订阅服务政策 - Anthropic宣布Claude Pro和Max订阅服务不再涵盖OpenClaw等第三方工具,用户需切换至额外用量套餐或使用API密钥付费使用 [3] - 政策调整源于重度用户月付200美元却消耗价值数千美元算力,第三方工具的上下文管理低效导致API调用次数远超Claude Code自身框架 [3] - OpenClaw开发者批评此举为“先抄后锁”,Claude Code负责人回应称出于工程层面限制考量,第三方工具通过API仍可正常使用 [3] OpenAI新一代图像模型GPT-Image-2信息泄露 - GPT-Image-2以多个代号在Chatbot Arena测试并已向部分ChatGPT用户开放,其文字渲染能力和世界知识理解表现突出,整体水平可能超越谷歌Nano Banana Pro [4] - 该模型显著改善了图像编辑偏离原图的问题,解决了前代GPT-Image-1.5的黄色滤镜问题,并支持低分辨率图片高清提升和背景纹理去除 [4] - 社区实测反馈积极,其真实感和文字生成能力被评价为当前最强水平,距上代发布仅4个月即迎来重大迭代 [4] Cursor 3编辑器正式发布 - Cursor 3将整个编辑器围绕Agent重新构建,支持在云端、本地、远程服务器等不同环境并行运行多个Agent,并在统一工作区进行管理 [5] - 新增设计模式可在内置浏览器中框选UI元素直接修改,/best-of-n命令支持同一任务由多模型同时执行并选择最优结果 [6] - 内置编程模型Composer 2在Terminal-Bench 2.0上超越Claude Opus 4.6且价格降低80%,支持30多个MCP插件和企业私有插件市场 [6] Meta-Harness框架优化提升模型性能 - 斯坦福联合MIT发布Meta-Harness框架,通过AI自动优化模型运行框架,使Claude Haiku 4.5的成功率达到37.6%登顶同级所有Agent,Opus 4.6达76.4%位列第二 [7] - 核心创新在于保留完整执行轨迹而非压缩摘要,上下文观察量达1000万token,是主流方法的400倍,信息保留带来15个百分点性能提升 [7] - 在文本分类任务中仅需4次评估迭代即匹配竞品40次的效果,数学推理中发现的检索策略可零样本迁移至5个未见模型均有提升 [7] Karpathy提出基于LLM的个人知识库构建方法 - Karpathy提出用LLM持续构建并维护结构化Markdown Wiki,替代传统RAG每次从零检索的模式,知识只需编译一次并持续更新形成复利效应 [8] - 系统分为三层架构:原始资料层(只读)、Wiki层(LLM负责写作维护)和Schema层(配置LLM行为的规范文档),支持录入、查询和检查三种核心操作 [8] - 该方法适用于深度研究、读书笔记、企业内部Wiki等场景,核心优势在于LLM承担交叉引用和一致性维护等繁琐工作,人类专注于筛选资料和提出问题 [8] 行业观点:AI服务成本与协同进化 - 观点指出OpenClaw等第三方工具的上下文管理极度浪费,单用户请求触发的API调用次数是Claude Code的数倍,真实成本达订阅价格的数十倍 [9] - 短期阵痛将倒逼第三方框架改进上下文管理和提示词缓存命中率,并劝大模型厂商在未想清楚定价模式前不要盲目价格战 [9] - 真正出路是协同进化——更节省token的Agent框架与更高效的模型,AI服务单位成本由模型、框架和上下文管理三者叠加决定 [9] Sam Altman谈资源分配与行业预测 - Sam Altman透露关停Sora的根本原因是资源分配,需将算力集中到自动化研究者和超级App方向,Sora日烧百万美元且迫使公司进入不愿参与的注意力经济竞争 [9] - 承认五角大楼协议推出时机是“误判”,对社会不信任情绪强度估计不足,但坚持AI公司不能拒绝向政府提供关键技术,合同设有三条红线 [9] - Altman声称首家由单个创始人借助AI打造的十亿美元公司已经诞生,并预测2028年下半年数据中心内认知能力总量将超过外部 [10] 太空数据中心发展前景 - StarCloud已实现首颗GPU卫星在轨运行,太空一平方米太阳能板产能是地球的8倍,当发射成本降至500美元/公斤时太空建设将比地面更便宜 [11] - 70%工程精力投入散热问题,太空真空环境只能依靠热辐射散热,GPU负载具备天然容错性,在轨芯片未出现任何重启或故障 [11] - 预计2028年中后期开启商业试点,10年内每年将有近万亿美元资本投入太空算力部署,综合能源成本将低于美国地面电价的一半 [11]