腾讯研究院AI速递 20250820

生成式AI - 英伟达发布9B参数量的Nemotron Nano 2模型，采用Mamba-Transformer混合架构，推理吞吐量最高可达传统模型的6倍 [1] - 模型对标Qwen3-8B，在数学、代码、推理与长上下文任务中表现持平或更优，完全开源且支持128K上下文长度 [1] - 通过20万亿Token训练基础模型，再通过Minitron策略将12B参数模型压缩至9B，单张A10G GPU即可支持128k上下文 [1] OpenAI模型演进 - OpenAI总裁分享GPT-1到GPT-5对相同提示的回答对比，展示模型在知识储备、逻辑结构和语言连贯性上的显著进步 [2] - 最新GPT-5能提供更加有逻辑、丰富且具有情感价值的回复，而初代模型GPT-1和GPT-2回答常带有胡言乱语的特性 [2] - 部分网友对早期模型表示喜爱，认为它们的回答更"狂野"和"不媚俗"，甚至有人称GPT-1更像"真正的AGI" [2] DeepSeek模型更新 - DeepSeek最新线上模型版本升级至V3.1，上下文长度扩展至128k，用户可通过官方网页、APP和小程序使用 [3] - 此次更新仅为常规版本迭代，与外界期待的DeepSeek-R2无关，R2在8月内并无发布计划 [3] - 扩展的上下文容量将有助于用户进行长文档分析、代码库理解和保持长对话一致性 [3] 图像生成技术 - 神秘AI绘图模型Nano Banana在LMArena评测中表现出卓越的人物一致性能力，可精准保留面部特征和表情 [4] - 阿里推出基于20B Qwen-Image模型的图像编辑模型Qwen-Image-Edit，支持语义与外观双重编辑能力 [5] - Qwen-Image-Edit能实现精准文字编辑，在保留原字体、字号和风格的前提下进行增删改 [6] 代码能力测评 - 腾讯混元发布专门测评大模型代码能力的数据集AutoCodeBench，包含3920个分布在20种编程语言的高难度问题 [7] - 该数据集不需人工标注，具有高难度、实用性和多样性特点，已有评测显示业界领先模型的表现均低于55分 [7] - 同时开源全套链路工具，包括数据生成工作流AutoCodeGen、简易版AutoCodeBench-Lite等 [7] 视频生成技术 - AI创企Higgsfield推出Draw-to-Video功能，用户只需在图片上绘制箭头、图形等元素并输入动作指令，AI就能生成动态画面 [8] - 该功能配套Product-to-Video功能，支持多种视频生成模型，能轻松生成广告视频 [8] - Higgsfield成立于2023年10月，曾被传与Meta洽谈收购，其电影级镜头控制技术与用户友好的交互设计引发关注 [8] 人形机器人 - 智元机器人完成"夏日CityWalk"24小时全直播活动，全尺寸人形机器人远征A2在37℃高温下完成全球首次完全自主户外行走挑战 [9] - 远征A2展示了强大的环境适应性能，全程无遥控干预，自主完成避障、路径规划、步态调整 [9] - 通过"热插拔换电"技术实现20秒内快速补能，标志着从技术研发走向商用量产的重要里程碑 [9] 超级智能架构 - 强化学习之父Richard Sutton提出OaK架构，描绘了通过运行时经验发展超级智能的路径 [10] - OaK架构包含八个步骤：学习策略与价值函数、生成状态特征、特征排序、构建子问题等 [10] - 该架构强调开放式抽象能力，能在运行时主动发现特征和模式，但仍需解决持续深度学习等关键前提技术 [11] ChatGPT发展 - OpenAI副总裁承认未继续提供GPT-4o是失误，低估了用户对模型的情感依赖，未来将提供更清晰的模型下线时间表 [12] - ChatGPT用户群体高度两极分化，普通用户希望简洁体验，而重度用户需要完整模型切换选项 [12] - 订阅模式展现强劲增长，企业用户从300万增至500万，未来将探索交易佣金等新方向 [12]