生成式AI模型能力升级 - OpenAI发布GPT-5.4系列,首次在通用模型中内置Computer Use能力,将代码、推理、桌面操控三大能力合并为统一模型出口 [1] - GPT-5.4在OSWorld桌面操控评测得分75.0%,超越人类基准72.4%,在GDPval专业工作评测达83.0%,在ARC-AGI-2抽象推理评测中跳幅最大达73.3% [1] - 标准版API定价为输入每百万tokens 2.50美元、输出每百万tokens 15美元,Pro版有12倍溢价主攻复杂Agent场景,其Tool Search机制将token消耗降低47% [1] 行业生态与开发者支持 - OpenClaw创始人Peter Steinberger加盟OpenAI后,首个项目“Codex for Open Source”上线,向开源维护者免费提供API积分和6个月ChatGPT Pro使用权 [2] - 该项目申请门槛覆盖核心维护者和被广泛使用的公开项目运营者,非标准项目若在生态中有重要作用也可提交申请 [2] - 项目目标是尽可能覆盖更多开源贡献者 [2] 模型技术新范式 - 腾讯混元提出“功能性神经记忆”新范式HY-WU,在推理时实时生成个性化LoRA参数,替代传统静态微调模式 [3] - 该范式应用于800亿参数图像编辑基模,在GEdit-Bench多项指标超越闭源模型,与GPT Image 1.5差距仅0.11分 [3] - 该范式具备跨模态通用性,团队规划将其扩展至视频生成、多模态对齐和端侧部署等六大方向 [3] 移动端与系统级AI Agent - 小米基于MiMo大模型推出系统级AI Agent产品miclaw,以系统应用身份运行,封装50+系统级工具,实现推理-执行循环的自主任务编排 [4] - 该产品打通米家IoT生态和MCP开放协议,AI可根据日程上下文实时判断并联动全屋设备,并支持第三方应用通过SDK主动声明工具能力 [4] - 该产品具备自进化元能力,可自主创建子智能体、配置MCP服务、运行沙箱脚本,并通过文件级记忆系统持续沉淀用户偏好和使用经验 [4] AI自主研究框架 - 研究员Karpathy开源autoresearch项目,核心仅630行代码三个文件,让AI Agent在单GPU上自主循环执行代码编辑、模型训练、评估和迭代,全程无需人工干预 [5] - 每次训练固定5分钟时长,以val_bpb为统一评估指标,Agent通过Git提交累积有效改进,人类只需迭代指导性prompt文件 [6] - Karpathy本人已在8块H100上运行加强版持续自主研究,项目定位为自我进化LLM的概念验证但框架可扩展至任意研究领域 [6] 安全与基础设施 - Transformer论文共同作者Illia Polosukhin用Rust从零重写OpenClaw,推出安全版IronClaw,建立四层纵深防御架构确保大模型接触不到原始凭证 [7] - 核心安全设计包括WASM沙箱隔离工具执行、AES-256-GCM加密凭证保险库和可信执行环境TEE,从架构层面堵住OpenClaw暴露25000+公开实例的安全漏洞 [7] - 项目是NEAR Protocol“用户自有AI”战略的一部分,已搭建AI云平台和智能体互相雇佣市场,IronClaw定位为可信运行时层 [7] 多模态与视频生成模型 - 谢赛宁团队推出首个多人视频世界模型Solaris,能够同时生成多名玩家之间保持一致的第一人称视角,在《我的世界》中验证多人协同感知能力 [8] - 团队自主构建SolarisEngine多人数据采集系统,创建含1264万帧的多人Minecraft数据集,是首个带动作标注的多人世界模型训练数据集 [8] - 模型基于MatrixGame 2.0引入多人自注意力层实现玩家间信息交换,在建筑一致性和玩家视觉对齐等困难场景中显著优于此前唯一的多人方案Multiverse [8] AI驱动科学研究 - Google Research用Gemini Deep Think结合树搜索和自动数值反馈组成神经符号系统,独立攻克理论物理中宇宙弦引力辐射功率谱的精确解析解难题 [9] - AI探索约600个候选路径,80%被自动验证器剪枝淘汰,最终找到6种解法,其中格根鲍尔方法最为优雅 [9] - 最终闭合解析解由人机协作完成,人类研究者将中间结果喂给更强模型进一步化简,展示了可复用的AI驱动科研范式 [9] 劳动力市场影响 - Anthropic基于Claude实际使用数据发布报告,发现AI冲击并非大规模裁员而是招聘放缓,22-25岁年轻人进入高AI暴露职业的比率下降约14% [10] - 计算机程序员AI任务覆盖率达74.5%居首,但各行业实际AI覆盖率普遍仅为理论值的三分之一,60%潜力尚未释放意味着更大冲击即将到来 [10] - 企业停止投资“未来人力资产”转向“即时算力资产”,初级岗位的“练级区”正在消失,决策力、审美工程和AI协作能力成为新时代核心竞争力 [11] AI Agent市场热度与挑战 - OpenClaw引发全球热潮,纽约聚会1300+人抢票,黄仁勋称其为“历史上最重要的软件发布”,活动覆盖全球6大洲40+城市 [12] - 纽约现场观察显示用户月均消耗1000-2000美元模型费用,有人日烧10亿tokens,前金融从业者首日即通过AI交易系统盈利300美元 [12] - 安全问题成最大隐患,无人认为系统100%安全,Agent可直接访问完整文件系统,但市场验证了个人智能体的真实需求,消费级AI Agent时代正式开启 [12]
腾讯研究院AI速递 20260309
腾讯研究院·2026-03-09 00:01