腾讯研究院AI速递 20260320

英伟达发布DGX Station GB300：高性能桌面AI算力平台 - 英伟达DGX Station GB300首批交付，搭载748GB统一内存，在FP4精度下提供最高20 petaflops算力，支持万亿参数模型开发，首台设备已交付给前OpenAI创始成员Karpathy [1] - 该设备定位为本地构建与运行长时自主智能体的开发平台，其架构与数据中心一致，可实现无缝扩展，公司同步推出NemoClaw开源软件栈为OpenClaw提供安全运行环境 [1] - 此举标志着高性能算力正从云端回流至桌面，核心驱动力是智能体AI正从实验性提示词应用向持续运行的复杂系统转变 [1] CMU与普林斯顿发布Mamba-3：推理优先的新架构 - CMU与普林斯顿团队发布Mamba-3，在15亿参数规模下平均准确率达57.6%，比Transformer架构高出4%，其端到端推理延迟仅为Transformer的七分之一 [2] - 架构三大核心改进包括：指数梯形离散化提升记忆精度、复数值状态空间补齐逻辑推理短板、MIMO机制充分利用GPU闲置算力，仅用一半状态大小即达到Mamba-2同等性能 [2] - 团队承认纯状态空间模型在检索任务上仍不如Transformer，并提出5:1的混合架构方案，这与Nemotron-H、Kimi Linear等行业趋势一致，未来最优解将是融合多种架构所长 [2] 小米发布MiMo-V2-Pro：面向智能体时代的旗舰模型 - 小米发布MiMo-V2-Pro模型，总参数量超过1万亿（激活参数420亿），采用混合注意力架构支持100万token超长上下文，在Artificial Analysis全球综合排行榜位列第八、国内第二 [3] - 模型针对智能体场景深度优化，在OpenClaw和Claude Code等框架中展现出超越Claude Sonnet 4.6的端到端任务完成能力，其API定价仅为Claude Opus 4.6的五分之一 [3] - 该模型此前以匿名身份Hunter Alpha在OpenRouter平台上线，调用量多天登顶日榜并突破1万亿tokens，现已联合OpenClaw、Cline等框架提供限时免费接口 [3] 面壁智能发布EdgeClaw Box：本地化安全AI硬件 - 面壁智能发布EdgeClaw Box智能硬件，内置开源框架EdgeClaw，支持模型与智能体均部署在本地，集成MiniCPM端侧模型实现断网可用、零Token消耗 [4] - 核心创新为自研隐私路由中间件，将数据按敏感程度自动分为三级处理：默认云端、脱敏后上云、强制本地，并通过双轨记忆机制杜绝隐私数据通过上下文泄露 [4] - 产品定位为OPC群体的数字公司基础设施，已适配英伟达DGX Spark、Mac Mini等主流硬件，开箱即用无需技术部署，企业版已开启预售 [4] 阶跃星辰发布StepClaw：降低桌面端智能体部署门槛 - 阶跃AI发布桌面端StepClaw，基于OpenClaw深度优化，支持Windows和Mac双端，无需服务器和命令行即可一键部署，旨在降低智能体使用门槛 [5] - 平台接入拥有超过5000名创作者和5000个应用资源的“水产市场”生态，支持Skill、插件、触发器等五类资产，智能体可自动复盘能力缺口并主动搜索资源以补齐短板、实现自主进化 [6] - 在安全层面提供应用资产双重审查、数据本地存储和通用安全配置预装，同时支持个性化形象换肤与灵魂人设定制 [6] QQ浏览器上线AI PPT功能：文档到演示一键转换 - QQ浏览器新增AI PPT功能，用户点击右上角AI+按钮或在文档查看器中直接触发，输入指令即可一键生成结构化PPT，无需切换工具 [7] - 功能支持从零搭建汇报框架，也能从Word、PDF文档中自动提取核心信息并转化为PPT，可自动生成图表、匹配配图和统一排版 [7] - 该功能覆盖工作汇报、活动策划、财报分析、求职自我介绍等场景，实现了从文档到演示文稿的工作流无缝衔接 [7] Midjourney V8 Alpha发布：从出图模型转向图像操作系统 - Midjourney V8 Alpha上线，核心升级包括原生2K渲染、约5倍的生成速度提升以及更强的文字渲染能力，但官方将个性化、风格参考和情绪板等控制能力放在了更优先的位置 [8] - V8并非V7的平滑升级而是工作流重构，新的sref系统更精准但逻辑不同于旧版，老用户需要重新建立控制习惯，短期内工作流将经历阵痛期 [8] - 这标志着AI图像工具竞争正从单张出图效果转向风格稳定性和工作流承接能力，目标市场从灵感图扩展到品牌视觉和系列化商业生产 [8] GTC巅峰对话：AI未来五年发展趋势 - 谷歌与英伟达首席科学家一致认为推理已取代训练成为算力消耗重头戏，数据中心90%的功耗花在推理上，英伟达正通过重新设计片上片外通信架构将延迟压缩至物理极限，目标是实现每用户每秒万级token的吞吐 [9] - Jeff Dean认为预训练范式将被重写，未来模型应像AlphaGo一样在环境中主动行动和学习，而非被动观察数据流，预训练与后训练的边界长期来看将不复存在 [9] - 智能体规模化后最大瓶颈将不在模型速度，而在为人类设计的工具响应速度，例如编译器启动、办公软件响应等将成为Amdahl定律式的硬瓶颈，大量工具需要为智能体速度重新进行工程化 [9]