腾讯研究院AI速递 20250801

GPT-5泄露与功能曝光 - 大量用户在ChatGPT、MacOS应用、Cursor、微软Copilot及OpenAI API平台发现GPT-5痕迹，预计最快下周发布 [1] - GPT-5将整合GPT系列和o系列，实现多模态和推理能力大一统，包括主模型(代号"nectarine"或"o3-alpha")、mini版(代号"lobster")和nano版(代号"starfish") [1] - GPT-5将支持100万tokens上下文窗口、MCP协议与并行工具调用，其中mini版本Lobster特别强化编程能力 [1] DeepSeek R2核心技术突破 - DeepSeek与北京大学联合完成的《Native Sparse Attention》论文获ACL最佳论文奖，实现模型处理长文本速度提升11倍 [2] - 首创"原生稀疏注意力"机制，将模型从"割裂拼接"推向"有机融合"，在不牺牲性能的情况下大幅提升效率 [2] - NSA技术已完成27B、MoE架构上的完整预训练验证，通过三种阅读策略(压缩块、选择性精读、滑动窗口)和门控机制 [2] 谷歌AlphaEarth基础模型 - Google DeepMind推出AlphaEarth Foundations，将多源地球观测数据整合为统一数字表征，实现10米级精度地球观测 [3] - 系统整合卫星图像、雷达扫描、3D激光测绘等多种数据，以10×10米网格分析全球陆地及近海，所需存储空间仅为同类AI系统的1/16 [3] - 多项技术创新包括自适应解码架构、空间密集型时序瓶颈和地理文本精准对齐 [3] Moonvalley视频生成技术 - AI视频生成公司Moonvalley宣布旗舰模型Marey正式支持Sketch-to-Video功能，用户可通过手绘草图一键生成电影级视频 [4] - 该功能支持人物动作或摄像机运动路径定义，自动生成连贯视频 [5] - 目前支持1080p@24fps输出，订阅价格14.99美元/月起 [5] Ollama可视化界面升级 - Ollama 0.10.1版本正式上线可视化图形界面，同步支持Mac和Windows [6] - 新版本提供全新对话界面，支持下载模型、与PDF和文档对话、多模态交互和文档编写功能 [6] - 内置新的多模态引擎，支持发送图片给大语言模型 [6] 1688 AI版转型 - 1688推出全新AI版App，上线免费企业查询工具"88查"和全新商家数字人Agent [7] - 1688 AI版聚焦创业与拿货场景，集成AI搜索、选品、创款、图搜、查企等功能 [7] - 商家数字人已有40万商家使用，带动平台GMV和询盘增长18% [7] 逐际动力人形机器人 - 逐际动力推出LimX Oli全尺寸人形机器人，身高165cm、拥有31个主动自由度 [8] - 该机器人软硬件设计贯彻"模块化"与"全开放"理念，提供完整SDK系统 [8] - 推出Lite、EDU及Super三个版本，起售价15.8万元 [8] Meta超级智能愿景 - Meta CEO扎克伯格发布公开信，表示已开始看到AI系统自我改进迹象 [9] - Meta正改变AI模型发布策略，暗示Llama系列不再全部开源 [9] - Meta在第二季度财报中宣布将于2025年斥资高达720亿美元用于AI基础设施建设 [9] a16z AI投资新标准 - a16z合伙人Martin Casado认为AI投资不再看模型性能，而是平台是否能持续交付业务结果 [10] - 平台竞争分化的三要素为组织模式、资源配置与产品策略 [10] - AI估值逻辑回归具体场景，基于悲观、中性、乐观三种场景进行拆解模拟 [10]