腾讯研究院AI速递 20250707

Grok 4性能突破 - Grok 4在HLE测试中得分45%，超越Gemini 2.5 Pro和Claude 4 Opus [1] - 采用"第一性原理"构建推理机制，从基本公理层面分析问题 [1] - 将分Grok 4和Grok 4 Code两个版本，强化编码能力，预计7月4日后发布 [1] Gemini CLI功能升级 - 新增音视频输入功能扩展多模态交互能力，目前支持文本/图片/PDF处理 [2] - 增强Markdown功能并集成VSCodium/Neovim编辑器，提升开发体验 [2] - 技术栈升级至Ink 6和React 19，优化历史记录压缩算法提高性能 [2] 昆仑万维奖励模型 - Skywork-Reward-V2系列刷新七大评测榜单，参数规模6亿至80亿 [3] - 采用两阶段迭代数据甄选流水线，从4000万样本筛选2600万高质量数据 [3] - 1.7B小参数模型性能接近70B大模型，证明高质量数据可抵消参数限制 [3] DeepSeek R1开源进展 - 德国TNG开源DeepSeek-TNG-R1T2-Chimera模型，基于三大模型混合开发 [4] - 推理效率比R1-0528提升200%，降低推理成本且主流测试表现更优 [5] - 创新AoE架构利用MoE细粒度结构，通过权重插值优化子模型性能 [5] Excel Agent技术突破 - Shortcut成为首个超越人类的Excel Agent，10分钟解决世锦赛难题 [6] - 功能兼容性近乎完美，可处理金融建模/数据分析/像素艺术等复杂任务 [6] - 早期预览阶段存在格式化弱/长对话不佳/复杂数据易宕机等局限 [6] Sekai视频数据集 - 上海AI Lab开源5000+小时第一人称视频，覆盖101国750城 [7] - 分为真实世界Sekai-Real和虚拟场景Sekai-Game，含多维标签 [7] - 基于数据训练Yume模型支持键鼠控制视频生成，助力视频研究 [7] 医疗AI突破 - ChatGPT识别MTHFR A1298C基因突变，被称为医疗界AlphaGo时刻 [8] - 微软MAI-DxO系统诊断NEJM病例准确率85%，是医生的四倍 [8] - 医疗AI正成为全流程解决方案，开启AI+医生共治模式 [8] 上下文工程兴起 - 上下文工程取代提示工程成为AI智能体成功关键因素 [9] - 关注为LLM提供完整系统包括指令/历史/工具等全方位信息 [9] - 智能体失败多因上下文问题而非模型本身 [9] AI重塑市场调研 - 生成式AI将1400亿美元传统调研转变为持续动态竞争优势 [10] - AI原生公司构建"虚拟社会"模拟用户行为，实现实时低成本调研 [10] - CMO认为70%准确率+实时更新比传统方式更具商业价值 [10] 企业AI创业趋势 - 企业级AI需解决真实环境中用户行为不可预测等"最后一公里"问题 [11] - 顶尖AI公司年增长率达10倍以上，受益于采购行为变革 [11] - 通过数据权威/工作流锁定/垂直整合等方式构建竞争壁垒 [11]