量子位 - 财报，业绩电话会，研报，新闻

量子位

搜索文档

量子位· 2025-09-16 08:52

核心观点 - OpenAI联合哈佛大学发布首份ChatGPT用户研究报告基于大规模实际对话数据分析2022年11月至2025年7月期间用户行为模式 [1][5][6] 用户规模与活跃度 - 截至2025年7月 ChatGPT周活跃用户数突破7亿 [5] - 每周消息发送总量达180亿条 [5] - 中低收入国家用户增长率是高收入国家的4倍以上 [27][28] 使用场景分布 - 75%对话集中于实用指导、信息搜索和写作三大场景 [12] - 具体占比：实用指导28.8% 信息搜索24.4% 写作23.9% [18] - 编程和社交等需求占比较小 [13] 交互模式特征 - 询问类消息占比49% 为增长最快且用户评价最高的类别 [15] - 行动类消息占比40% 其中约三分之一与工作相关 [16] - 表达类消息占比11% 主要用于个人反思和娱乐 [17] 用户人口特征 - 性别差距显著缩小：从早期80%男性用户为主转变为女性用户占比反超 [23][24] - 18-25岁用户贡献46%消息量为成年用户中最活跃群体 [26] - 年龄越大工作相关消息占比越高 [26] 研究方法论 - 分析150万次大规模对话数据采用自动化分类器结合隐私保护方法 [6][20] - 数据集包含：Growth数据集（2022年11月-2025年9月全量消息）分类消息样本（110万条去标识化消息）就业数据（13万用户职业信息） [8][9][10] - 通过数据Clean Room进行聚合分析确保用户隐私保护 [10][20][21]

Artificial Intelligence

ChatGPT

Artificial Intelligence

ChatGPT

GPT-5编程专用版发布！独立连续编程7小时，简单任务提速10倍，VS Code就能用

量子位· 2025-09-16 08:52

模型升级 - 推出GPT-5-Codex特化版模型支持独立连续编程7小时[1][5] - 新模型具备真动态思考能力可在执行任务过程中实时调整算力分配[4] - 针对复杂工程任务训练包括完整项目构建、功能测试、调试和大规模重构[8] 性能表现 - 在SWE-bench Verified上表现略优于原版GPT-5 代码重构任务成功率提升近20%[9] - 简单任务输出token数比GPT-5减少93.7% 响应速度提升10倍[11] - 复杂任务推理时间增加输出token量提升102.2%[12] - 代码审查错误率从13.7%降至4.4% 高影响力评论比例从39.4%提升至52.4%[15] 产品生态 - 推出IDE插件版支持VS Code和Cursor编辑器[2] - CLI支持图像输入可处理截图和设计稿[18] - 集成网络搜索和MCP工具用待办列表追踪复杂任务进度[19] - 终端界面升级工具调用和diff展示更清晰[20] - 支持云端本地无缝切换可在IDE创建云任务并跟踪进展[23] 基础设施 - 通过容器缓存技术新任务中位完成时间缩短90%[24] - 自动扫描设置脚本并执行运行时可通过pip install获取依赖[24] - 前端任务可启动自有浏览器查看构建结果迭代改进并附加截图至PR[24] 市场时机 - 升级正值Claude Code因模型质量下降出现用户退订潮[25] - 公司借机抢占AI编程市场份额[26]

Artificial Intelligence

AI Programming

Artificial Intelligence

GPT-5-Codex

VS Code

Cursor

Artificial Intelligence

AI Programming

Artificial Intelligence

GPT-5-Codex

VS Code

Cursor

2025Q3 AI 100产品榜单报名开启｜AI 100

量子位· 2025-09-15 17:25

量子位智库 . 连接AI创新，提供产业研究进入2025下半年，国内AI产品的竞争格局发生了质变——更激烈，新变量也更多。一方面，竞争回归产品本质。流量营销战鲜有效果，用户开始用实打实的重复使用和持续消费投票，产品增长回归到了价值交付和体验细节。头部产品在大场景中加强垄断的同时，初创的高度细分产品正抓紧把握时间窗口，抢夺用户心智。编者荐语：新一期AI100榜单来了！以下文章来源于量子位智库，作者AI 100组委会另一方面，新一代AI-Native 的产品设计正在撬动新蓝海。Multi-agent、AI消费级硬件、Vibe Coding、Deep Research、多模态交互等新变量加速落地。新场景、新工作流、新交互方式正在快速萌芽，在分歧与竞争中找寻面向未来的解法。在过去的三个月，哪些产品在头部屹立不倒？哪些互联网产品加入AI阵营？又有哪些新产品崭露头角？量子位智库将在2025 Q3的「AI 100」榜单中给出答案，期待你的参与。一、关于AI 100 「AI 100」是量子位智库推出的 AI产品风向标系列内容，主要由「旗舰100」和「创新100」双榜单，以及邀 ...

Artificial Intelligence

AI 100榜单

Artificial Intelligence

AI 100榜单

DeepMind哈萨比斯最新认知都在这里了

量子位· 2025-09-15 13:57

文章核心观点 - 谷歌DeepMind CEO哈萨比斯认为AGI将在未来十年内实现并开启科学的黄金时代和新文艺复兴在能源健康等领域带来巨大益处 [2][7][51] - 当前AI系统仍存在关键瓶颈包括缺乏真正的创造力无法提出新假设以及在某些领域表现优异但其他方面犯简单错误 [4][5][33] - 实现AGI需突破多模态理解世界模型构建和持续学习能力等核心技术障碍 [6][21][36] DeepMind战略定位与团队规模 - DeepMind与谷歌完成合并整合Alphabet所有AI团队成为谷歌和Alphabet的"发动机舱" 负责构建核心Gemini模型及视频模型交互式世界模型等多种AI模型 [15] - 团队规模约5000人其中80%以上为工程师和博士研究员约有三四千名顶尖技术人才 [16] - 模型已全面接入谷歌生态包括Workspace和Gmail等全线产品每日服务数十亿用户通过AI概览 AI模式或Gemini应用进行交互 [15] 世界模型技术突破 - Genie 3世界模型通过分析数百万段YouTube等平台视频自主推导现实世界运行逻辑能即时生成可交互的沉浸式环境 [17][19] - 模型无需预编程物理规则仅通过观察学习即掌握光影反射物体运动等复杂原理生成持续一两分钟的高度一致性交互场景 [19][20] - 技术突破点在于实现逆向工程学习物理规律生成范围远超人类活动包括操控沙滩小狗或与水母互动等多元世界模拟 [19] 机器人技术发展路径 - 采用"安卓模式"战略打造跨机器人的通用操作系统层同时探索垂直整合将最新模型与特定机器人类型深度结合 [25] - 人形机器人对日常任务极具价值因人类环境基于人体工学设计但专用机器人形态在工业等领域仍有不可替代性 [26][27] - 当前处于类似70年代PC初期阶段未来两三年将实现算法突破关键挑战在于硬件规模化时机选择需平衡成熟度与量产需求 [28][29] AGI核心能力缺失与衡量标准 - 当前AI缺乏真正创造力无法像爱因斯坦提出狭义相对论那样实现直觉飞跃或类比推理 [33][34] - 真正AGI需在所有领域保持博士级表现而非仅在某些领域优异同时需具备持续学习能力以实时吸收新知识 [35][36] - 关键测试包括给AI设置1901年知识截止点检验其能否提出类似1905年爱因斯坦的创新理论 [34] 创意工具变革与行业影响 - Nano Banana等工具的核心优势在于惊人一致性能理解指令并保持其他元素不变实现高效迭代 [14][38] - 工具双轨赋能：降低大众创作门槛同时为顶级创作者提供十倍百倍效率提升但输出质量仍依赖使用技巧和审美素养等专业因素 [38][39] - 未来娱乐将出现融合共创的新艺术形式顶级创意先锋主导高质量动态叙事数百万人可参与部分内容共创 [39][40] 药物研发加速前景 - Isomorphic Labs依托AlphaFold技术旨在将药物研发周期从数年或十年缩短至几周或几天 [41] - 目前与礼来诺华等重要合作推进癌症免疫学和肿瘤学研究预计明年进入临床前阶段 [43][44] - 采用混合模型架构结合学习组件与化学物理规则约束以解决生物学数据不足问题 [45] 能源效率与AGI贡献 - 通过模型蒸馏等技术相同性能下模型能效过去两年提升10倍甚至100倍 [49] - AI系统在电网效率材料设计和新能源等领域的贡献将远超其自身能源消耗 [50] - 当前总需求未降低因前沿模型仍需扩大规模实验但服务端能效持续优化 [49]

量子位· 2025-09-15 13:57

产品性能表现 - xAI发布Grok 4 Fast模型生成速度达每秒75个token 比标准版快10倍[1] - 在编程任务中表现高效解决LeetCode雨水问题用时不到2秒用C语言编写链表代码仅需8秒[3][5][6] - 处理常识性问答响应迅速例如瞬间解答"量子计算机何时取代传统计算机"等问题[5] 准确性测试 - 成功解答初中数学应用题包括两列火车相遇时间计算(正确答案为2小时)及往返飞鸟总飞行距离计算[12][14][15] - 在部分场景存在局限性如生成Xbox 360手柄SVG代码时输出结果不理想[17] - 简单问答可能出现异常例如对"你是谁"等基础问题回应不准确[20] 产品定位策略 - 采用速度优先设计理念通过跳过部分验证检查实现实时响应适合简单查询和工具使用场景[26] - 与注重深度验证的专家模式形成差异化定位类似GPT-mini的即时模式满足用户对实时性的需求[24][25][26] - 延续xAI速度优化产品线继8月28日推出Grok Code Fast 1后两周多即发布Grok 4 Fast[27][28] 市场反馈 - 用户评价为"迄今最快的思考模型" 认可其响应速度优势[9] - 出现非传统应用场景例如用户尝试与模型进行娱乐性对话互动[10] - 尽管持续推出新功能但市场热度未达预期存在用户认知度提升空间[28]

Artificial Intelligence

Grok 4 Fast

Artificial Intelligence

Grok 4 Fast

只要科学任务能打分，AI就能实现SOTA结果 | 谷歌最新论文

量子位· 2025-09-15 13:57

文章核心观点 - 谷歌开发了一种结合大语言模型和树搜索的AI系统能够自动创建专家级科学实证软件在多个科学领域实现超越人类专家的SOTA性能 [1][10][17] 技术方法 - 系统使用LLM重写代码提升质量评分首先生成大量候选解决方案再通过树搜索算法筛选优化方案 [17] - 通过注入外部研究思想增强代码变异能力思想来源包括高被引论文专业教科书和搜索引擎结果 [21] - 用户可直接注入思想或通过搜索引擎自动获取文献研究成果 LLM在编码过程中充分利用这些指导信息 [22][23] 性能表现 - 生物信息学领域发现40种单细胞数据分析新方法在公开排行榜上超越人类顶尖方法 [10][25] - 流行病学领域生成14个COVID-19住院预测模型全部超越CDC集合模型及所有其他个体模型 [10] - 地理空间分析领域三个新方法在DLRSD基准测试mIoU指标均突破0.80 显著优于近期学术论文结果 [26] - 神经科学领域斑马鱼活动预测方案训练速度比最佳视频模型快几个数量级 [28] - 在时间序列预测和数值积分求解领域达到或超越人类顶级方法水平 [10][30] 系统特点 - 专门针对可评分任务设计这类任务以最大化可度量质量指标为目标在科学界无处不在 [12][13][14] - 能够系统性地自动创建实证软件解决科学软件开发过程缓慢艰难的痛点 [15][17] - 通过大规模彻底搜索发现高质量解决方案实现超人类性能 [24] 社会反响 - 论文在X平台获得2.6K赞和283.4K浏览量引发广泛讨论 [7][11] - 部分网友认为这标志着任何可量化领域都将被AI征服 [5] - 存在关于AI接管科学研究合适性的争议有观点认为结果需要人类核查可靠性 [32][34]

谷歌靠Nano Banana超越ChatGPT！登顶苹果App Store第一，玩疯了玩疯了

量子位· 2025-09-15 13:57

核心观点 - Gemini应用程序在多个地区苹果应用商店登顶超越ChatGPT[1][3] - Nano Banana图像生成工具是推动Gemini增长的关键因素一个月内新增2300万用户并编辑超过5亿张图片[4][5] - 谷歌通过技术迭代和生态整合实现逆袭从Gemini 1.5的百万级上下文到Gemini 2.5 Pro的代码推理能力提升[86] 产品功能特性 - Nano Banana支持多维度图像生成：风格转换（美式证件照/漫画COS/破碎感肖像）[9][11][14]、姿势匹配（素描动作迁移/简笔画适配）[22][25]、3D模型生成（手办/漂流瓶/邪恶版角色）[29][34][36] - 高级组合功能支持局部元素修改：服装试穿[44]、家具替换[47]、虚拟场景生成（格斗游戏/撕裂现实效果）[50][54] - 专业级设计能力：真实摄影（85mm人像镜头/黄金光线）[60]、贴纸设计（小熊猫卡通形象）[64]、品牌logo生成（咖啡店极简设计）[68]、产品摄影（三点柔光棚拍）[72]、极简背景（PPT留白设计）[76]、漫画创作（黑色侦探风格）[80] 技术竞争优势 - Gemini系列技术迭代：1.5版本支持百万级上下文长度 2.0版本被评价全面对标GPT-4 2.5 Pro版本在代码和推理能力获好评[86] - 生态整合优势：嵌入搜索/Chrome/YouTube/Gmail/Docs等核心应用覆盖全球数十亿用户[86] - 用户增长数据：Nano Banana推动Gemini月增2300万用户图片编辑量超5亿张[5] 行业格局变化 - 谷歌实现从"被迫补课"到App Store反超ChatGPT的逆袭[87] - AI应用登顶App Store被视为行业高峰标志产品影响力与市场格局变化[90] - 马斯克曾指控苹果操纵榜单偏袒ChatGPT 而Gemini登顶被网友视为打破操控的证据[91][92]

腾讯混元升级AI绘画微调范式，在整个扩散轨迹上优化，人工评估分数提升300%

量子位· 2025-09-15 11:59

技术突破 - 腾讯混元团队提出Direct-Align和SRPO两项创新方法显著提升AI图像生成质量人工评估真实感评分从8.2%提升至38.9% 美学评分从9.8%提升至40.5% [2][5][17] - Direct-Align通过预定义噪声先验实现任意时间步图像恢复在仅5%去噪进度阶段即可恢复图像粗略结构解决传统方法梯度爆炸问题 [9][10][11] - SRPO将奖励定义为文本条件信号通过正负面提示词计算相对奖励差值实现无需额外数据的在线偏好调整 [5][14][16] 性能表现 - SRPO在HPDv2基准测试中全面领先自动评估指标Aesthetic Score达6.194 PickScore达23.040 显著优于ReFL DRaFT等方法 [17][18] - 仅需10分钟训练即在32块H20上收敛训练效率远超DanceGRPO(480 GPU小时)和ReFL(16 GPU小时) [1][18][19] - 通过添加"Realistic photo"控制词模型生成图像真实感提升3.7倍美学质量提升3.1倍 [16] 技术优势 - 全扩散轨迹优化突破现有方法局限避免仅在后25%时间步训练导致的奖励黑客问题(如HPSv2偏好红色调 PickScore偏好紫色图像) [8][13] - 控制词效果与训练集频率相关高频词如"painting"效果最佳低频词需组合使用 [16] - 相比DanceGRPO方法 SRPO在保持高美学质量的同时避免产生过度光泽感和边缘高光等不良伪影 [18] 行业影响 - 开发者评价SRPO为下一代RLHF(人类反馈强化学习)技术展现其在对齐人类偏好方面的突破性潜力 [6] - 该方法在FLUX1.dev模型上实现突破表现超越最新开源版本FLUX.1.Krea [19]

腾讯控股(HK:00700)

AI绘画

扩散模型

Software and Internet

腾讯混元

AI绘画

扩散模型

Software and Internet

腾讯混元

全新开源模型复现o3视觉推理，无需大量训练即可实现深度思考

量子位· 2025-09-15 11:59

模型核心突破 - 推出开源视觉语言模型Mini-o3，能够进行长达数十个步骤的深度多轮视觉推理，在训练轮次限制仅为6轮的情况下，测试阶段可将思考轮数扩展到数十轮[1][2][13] - 模型通过恰当的数据、初始化方法和强化学习微调实现长周期视觉搜索能力，无需消耗大量训练周期资源[13] - 在多个视觉搜索基准测试中达到当前最佳水平，显著优于其他开源基线模型[15][43] 技术架构与训练方法 - 采用两阶段训练流程：第一阶段为冷启动监督微调，仅使用6个人工示范样本便生成约6000条高质量推理轨迹[19][22][24] - 第二阶段实施强化学习，关键创新包括将单张图像最大像素限制从1200万降至200万，使相同上下文容量内容纳更多交互轮次[25][26][27] - 提出超轮次掩码技术，避免对达到最大交互轮次的响应进行惩罚，平衡训练效率与测试扩展性，使测试推理轨迹能延伸至数十轮[28][34][35] 数据集构建 - 专门构建视觉探测数据集VisualProbe，包含4000个训练用视觉问答对和500个测试用问答对，涵盖简单、中等、困难三个难度级别[38] - 数据集特点包括小目标、众多干扰物体和高分辨率图像，这些特性使任务更具挑战性并自然要求迭代探索和试错[39][42] 性能表现 - 在VisualProbe数据集上，Mini-o3在困难、中等、简单任务准确率分别达到48.0%、50.4%、67.0%，显著超越GPT-40的11.2%、15.4%、47.5%[40] - 在V* Bench评估中取得88.2分，优于DyFot的81.2分和Chain-of-FocusT的88.0分[40] - 消融实验显示，移除RL数据导致模型在VisualProbe-Hard上性能下降约8.6分，验证了具有挑战性的RL样本对复杂推理轨迹的重要性[45] 行业影响 - 该技术方案为多轮交互式多模态模型的开发与强化学习应用提供实用指导，相关代码已全部开源[52][53] - 模型由字节跳动与香港大学团队联合开发，团队核心成员在大型多模态模型领域有深厚积累，曾发表多项重要研究成果[54][55][58][61]

量子位· 2025-09-15 08:30

TensorFlow衰落与PyTorch崛起 - TensorFlow社区活跃度已跌至历史最低点，甚至不及初发布时期[3] - PyTorch呈现高歌猛进增长态势，形成鲜明对比[3] - 蚂蚁开源正式将TensorFlow从《大模型开源开发生态全景图2.0》中除名[8] 开源生态快速迭代特征 - 开源项目兴衰计量单位已从"年"缩短为"天"[10] - 全景图1.0到2.0仅隔100天，更新39个项目，替换率达35%[11][12][17] - 60个原有项目被移出，反映AI领域极快迭代周期[17][18] 项目淘汰机制与标准 - 短期热点型项目如OpenManus和OWL因热点消退被移出[19] - 迭代速度落后项目如NextChat被新兴项目取代[20] - 同生态位竞争落后者如MLC-LLM和GPT4All被Ollama取代[21] - 项目准入门槛设定为OpenRank > 50[17] 开源定义与商业模式演变 - Top 10活跃项目中部分未采用OSI标准开源许可证[26] - Dify在Apache 2.0基础上增加多租户使用限制[26][32] - Cherry Studio采用按用户规模双许可模式[27] - n8n采用自定义"Sustainable Use License"[28] - GitHub功能扩展为集产品发布、用户反馈、社区营销一体化平台[31] - 开源运营属性增强，成为重要GTM（Go-to-Market）战略[31] 技术领域竞争焦点转移 - Agent Framework领域整体活跃度呈下降趋势[38] - Model Serving和AI Coding领域呈现显著增长态势[39] - 竞争从功能覆盖转向性能深度优化[45] - vLLM和SGLang通过技术创新提升GPU利用率[44] - NVIDIA TensorRT-LLM提供极致性能优化方案[44] 全球开发贡献格局 - 美国开发者占比24%，贡献度37.4%[46][47] - 中国开发者占比18%，贡献度18.7%[46][47] - 中美两国合计贡献度超过55%[46] - 美国在AI Infra领域贡献度43.39%，显著领先[51] - 中国在AI Agent领域贡献度21.5%，与美国24.62%差距缩小[51] 新兴项目崛起案例 - OpenCode和Gemini CLI在数月内获得极高社区关注度[54] - Browser-use项目由2名研究生9个月开发获得60K星标[55]

AI开源技术

OpenRank算法

Artificial Intelligence

Artificial Intelligence