腾讯研究院AI速递 20250808

GPT-5系列模型 - OpenAI提前披露GPT-5四个版本：标准版gpt-5、轻量版gpt-5-mini、低延迟版gpt-5-nano和多模态复杂对话版gpt-5-chat [1] - 模型将分层开放：免费用户用基础版，Plus用户用更强推理版，Pro用户独享"研究级智能"的GPT-5 Pro [1] - 实测显示SimpleBench推理测试准确率达90%，需特定提示激活复杂思考，编程和视觉表现有提升但未达惊艳水平 [1] MiniMax语音模型 - 新一代Speech 2.5模型支持40种语言真人级生成，实现跨语种音色保留和口音复刻 [2] - 相比5月版本在多语种自然表达、音色复刻和语种覆盖三方面突破 [2] - 已被Vapi、Pipecat等海外平台及高途教育、喜马拉雅、网易等国内头部平台接入 [2] 小红书多模态模型 - 开源首个多模态大模型dots.vlm1，基于12亿参数NaViT视觉编码器和DeepSeek V3构建 [3] - 视觉理解能力接近Gemini 2.5 Pro和Seed-VL1.5 Thinking，能解数独、破解高考数学题等 [3] - 两个月内连续开源dots.llm1、dots.ocr、dots.vlm1三款模型，反映技术自研力度加大 [3] 面壁小钢多模态模型 - MiniCPM-V 4.0仅用4B参数在OpenCompass等榜单取得SOTA成绩，支持手机端稳定运行 [4] - 显存占用仅3.33GB，256并发下吞吐量达13856 tokens/s，远超Qwen2.5-VL和Gemma 3 [4] - 开源推理部署工具MiniCPM-V CookBook便于开发者简易部署 [4] 通义千问新模型 - 发布Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507两款小尺寸模型，支持256K上下文 [5][6] - Qwen3-4B-Thinking在AIME25测评得81.3分，Agent能力超越Qwen3-30B-Thinking [6] - Qwen3-4B-Instruct全面超越GPT-4.1-nano，性能接近Qwen3-30B-A3B [6] 大模型对抗赛 - OpenAI的o3以4比0完胜o4-mini，展现100%准确率 [7] - Grok 4与Gemini 2.5 Pro常规赛2比2平，加赛逼和对手晋级 [7] - 决赛由Grok 4对阵o3，国际象棋冠军Magnus Carlsen等将解说 [7] Gemini教育功能 - 推出"引导式学习"模式，通过问题分解、视觉辅助和互动测验构建知识 [8] - 为美日等国大学生提供一年免费AI Pro计划（价值200美元） [8] - 承诺三年内向美国教育投入10亿美元 [8] 具身智能技术 - Skild AI推出端到端视觉感知控制方案，实现机器人稳定爬楼梯和复杂障碍通过 [9] - 采用纯视觉输入方法，通过单一神经网络实现"本能级"动作控制 [9] - 优势在于连贯运动切换和环境适应能力，可实时调整动作应对地形 [9] 理想汽车智驾 - 推出国内首个量产VLA模型，在视觉和行为间加入语言环节使决策更拟人 [10][11] - 系统每天通过"世界模型仿真系统"行驶30万公里迭代，4B模型实现10Hz帧率 [11] - 预计辅助驾驶明年达1000MPI里程碑 [11] AI应用平台趋势 - a16z认为AI应用平台将走向专业化而非赢者通吃，形成互补共存 [12] - 市场分化为原型制作、个人软件和生产级应用三类，70%用户仅活跃于单一平台 [12] - 未来三至五年每类别将出现2-3家主导企业 [12]