Workflow
量子位
icon
搜索文档
每周7亿人都在如何用ChatGPT?OpenAI最全报告来了
量子位· 2025-09-16 08:52
核心观点 - OpenAI联合哈佛大学发布首份ChatGPT用户研究报告 基于大规模实际对话数据分析2022年11月至2025年7月期间用户行为模式 [1][5][6] 用户规模与活跃度 - 截至2025年7月 ChatGPT周活跃用户数突破7亿 [5] - 每周消息发送总量达180亿条 [5] - 中低收入国家用户增长率是高收入国家的4倍以上 [27][28] 使用场景分布 - 75%对话集中于实用指导、信息搜索和写作三大场景 [12] - 具体占比:实用指导28.8% 信息搜索24.4% 写作23.9% [18] - 编程和社交等需求占比较小 [13] 交互模式特征 - 询问类消息占比49% 为增长最快且用户评价最高的类别 [15] - 行动类消息占比40% 其中约三分之一与工作相关 [16] - 表达类消息占比11% 主要用于个人反思和娱乐 [17] 用户人口特征 - 性别差距显著缩小:从早期80%男性用户为主转变为女性用户占比反超 [23][24] - 18-25岁用户贡献46%消息量 为成年用户中最活跃群体 [26] - 年龄越大 工作相关消息占比越高 [26] 研究方法论 - 分析150万次大规模对话数据 采用自动化分类器结合隐私保护方法 [6][20] - 数据集包含:Growth数据集(2022年11月-2025年9月全量消息) 分类消息样本(110万条去标识化消息) 就业数据(13万用户职业信息) [8][9][10] - 通过数据Clean Room进行聚合分析 确保用户隐私保护 [10][20][21]
GPT-5编程专用版发布!独立连续编程7小时,简单任务提速10倍,VS Code就能用
量子位· 2025-09-16 08:52
模型升级 - 推出GPT-5-Codex特化版模型 支持独立连续编程7小时[1][5] - 新模型具备真动态思考能力 可在执行任务过程中实时调整算力分配[4] - 针对复杂工程任务训练 包括完整项目构建、功能测试、调试和大规模重构[8] 性能表现 - 在SWE-bench Verified上表现略优于原版GPT-5 代码重构任务成功率提升近20%[9] - 简单任务输出token数比GPT-5减少93.7% 响应速度提升10倍[11] - 复杂任务推理时间增加 输出token量提升102.2%[12] - 代码审查错误率从13.7%降至4.4% 高影响力评论比例从39.4%提升至52.4%[15] 产品生态 - 推出IDE插件版 支持VS Code和Cursor编辑器[2] - CLI支持图像输入 可处理截图和设计稿[18] - 集成网络搜索和MCP工具 用待办列表追踪复杂任务进度[19] - 终端界面升级 工具调用和diff展示更清晰[20] - 支持云端本地无缝切换 可在IDE创建云任务并跟踪进展[23] 基础设施 - 通过容器缓存技术 新任务中位完成时间缩短90%[24] - 自动扫描设置脚本并执行 运行时可通过pip install获取依赖[24] - 前端任务可启动自有浏览器查看构建结果 迭代改进并附加截图至PR[24] 市场时机 - 升级正值Claude Code因模型质量下降出现用户退订潮[25] - 公司借机抢占AI编程市场份额[26]
2025Q3 AI 100产品榜单报名开启|AI 100
量子位· 2025-09-15 17:25
量子位智库 . 连接AI创新,提供产业研究 进入2025下半年,国内AI产品的竞争格局发生了质变——更激烈,新变量也更多。 一方面,竞争回归 产品本质 。流量营销战鲜有效果,用户开始用实打实的 重复使用 和 持续消费 投票,产品增长回归到了 价值交付 和 体 验细节 。 头部产品在大场景中加强垄断的同时,初创的高度细分产品正抓紧把握时间窗口,抢夺用户心智。 编者荐语: 新一期AI100榜单来了! 以下文章来源于量子位智库 ,作者AI 100组委会 另一方面, 新一代AI-Native 的产品设计正在撬动新蓝海。Multi-agent、AI消费级硬件、Vibe Coding、Deep Research、多模态交互等新 变量加速落地。 新场景、新工作流、新交互方式正在快速萌芽,在分歧与竞争中找寻面向未来的解法。 在过去的三个月,哪些产品在头部屹立不倒?哪些互联网产品加入AI阵营?又有哪些新产品崭露头角? 量子位智库将在2025 Q3的「AI 100」榜单中给出答案,期待你的参与。 一、关于AI 100 「AI 100」是量子位智库推出的 AI产品风向标 系列内容,主要由「旗舰100」和「创新100」双榜单,以及邀 ...
DeepMind哈萨比斯最新认知都在这里了
量子位· 2025-09-15 13:57
文章核心观点 - 谷歌DeepMind CEO哈萨比斯认为AGI将在未来十年内实现 并开启科学的黄金时代和新文艺复兴 在能源 健康等领域带来巨大益处 [2][7][51] - 当前AI系统仍存在关键瓶颈 包括缺乏真正的创造力 无法提出新假设 以及在某些领域表现优异但其他方面犯简单错误 [4][5][33] - 实现AGI需突破多模态理解 世界模型构建和持续学习能力等核心技术障碍 [6][21][36] DeepMind战略定位与团队规模 - DeepMind与谷歌完成合并 整合Alphabet所有AI团队 成为谷歌和Alphabet的"发动机舱" 负责构建核心Gemini模型及视频模型 交互式世界模型等多种AI模型 [15] - 团队规模约5000人 其中80%以上为工程师和博士研究员 约有三四千名顶尖技术人才 [16] - 模型已全面接入谷歌生态 包括Workspace和Gmail等全线产品 每日服务数十亿用户通过AI概览 AI模式或Gemini应用进行交互 [15] 世界模型技术突破 - Genie 3世界模型通过分析数百万段YouTube等平台视频 自主推导现实世界运行逻辑 能即时生成可交互的沉浸式环境 [17][19] - 模型无需预编程物理规则 仅通过观察学习即掌握光影反射 物体运动等复杂原理 生成持续一两分钟的高度一致性交互场景 [19][20] - 技术突破点在于实现逆向工程学习物理规律 生成范围远超人类活动 包括操控沙滩小狗或与水母互动等多元世界模拟 [19] 机器人技术发展路径 - 采用"安卓模式"战略 打造跨机器人的通用操作系统层 同时探索垂直整合 将最新模型与特定机器人类型深度结合 [25] - 人形机器人对日常任务极具价值 因人类环境基于人体工学设计 但专用机器人形态在工业等领域仍有不可替代性 [26][27] - 当前处于类似70年代PC初期阶段 未来两三年将实现算法突破 关键挑战在于硬件规模化时机选择 需平衡成熟度与量产需求 [28][29] AGI核心能力缺失与衡量标准 - 当前AI缺乏真正创造力 无法像爱因斯坦提出狭义相对论那样实现直觉飞跃或类比推理 [33][34] - 真正AGI需在所有领域保持博士级表现 而非仅在某些领域优异 同时需具备持续学习能力以实时吸收新知识 [35][36] - 关键测试包括给AI设置1901年知识截止点 检验其能否提出类似1905年爱因斯坦的创新理论 [34] 创意工具变革与行业影响 - Nano Banana等工具的核心优势在于惊人一致性 能理解指令并保持其他元素不变 实现高效迭代 [14][38] - 工具双轨赋能:降低大众创作门槛 同时为顶级创作者提供十倍百倍效率提升 但输出质量仍依赖使用技巧和审美素养等专业因素 [38][39] - 未来娱乐将出现融合共创的新艺术形式 顶级创意先锋主导高质量动态叙事 数百万人可参与部分内容共创 [39][40] 药物研发加速前景 - Isomorphic Labs依托AlphaFold技术 旨在将药物研发周期从数年或十年缩短至几周或几天 [41] - 目前与礼来 诺华等重要合作 推进癌症 免疫学和肿瘤学研究 预计明年进入临床前阶段 [43][44] - 采用混合模型架构 结合学习组件与化学物理规则约束 以解决生物学数据不足问题 [45] 能源效率与AGI贡献 - 通过模型蒸馏等技术 相同性能下模型能效过去两年提升10倍甚至100倍 [49] - AI系统在电网效率 材料设计和新能源等领域的贡献将远超其自身能源消耗 [50] - 当前总需求未降低因前沿模型仍需扩大规模实验 但服务端能效持续优化 [49]
马斯克的最快AI模型来了
量子位· 2025-09-15 13:57
产品性能表现 - xAI发布Grok 4 Fast模型 生成速度达每秒75个token 比标准版快10倍[1] - 在编程任务中表现高效 解决LeetCode雨水问题用时不到2秒 用C语言编写链表代码仅需8秒[3][5][6] - 处理常识性问答响应迅速 例如瞬间解答"量子计算机何时取代传统计算机"等问题[5] 准确性测试 - 成功解答初中数学应用题 包括两列火车相遇时间计算(正确答案为2小时)及往返飞鸟总飞行距离计算[12][14][15] - 在部分场景存在局限性 如生成Xbox 360手柄SVG代码时输出结果不理想[17] - 简单问答可能出现异常 例如对"你是谁"等基础问题回应不准确[20] 产品定位策略 - 采用速度优先设计理念 通过跳过部分验证检查实现实时响应 适合简单查询和工具使用场景[26] - 与注重深度验证的专家模式形成差异化定位 类似GPT-mini的即时模式满足用户对实时性的需求[24][25][26] - 延续xAI速度优化产品线 继8月28日推出Grok Code Fast 1后 两周多即发布Grok 4 Fast[27][28] 市场反馈 - 用户评价为"迄今最快的思考模型" 认可其响应速度优势[9] - 出现非传统应用场景 例如用户尝试与模型进行娱乐性对话互动[10] - 尽管持续推出新功能 但市场热度未达预期 存在用户认知度提升空间[28]
只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文
量子位· 2025-09-15 13:57
文章核心观点 - 谷歌开发了一种结合大语言模型和树搜索的AI系统 能够自动创建专家级科学实证软件 在多个科学领域实现超越人类专家的SOTA性能 [1][10][17] 技术方法 - 系统使用LLM重写代码提升质量评分 首先生成大量候选解决方案 再通过树搜索算法筛选优化方案 [17] - 通过注入外部研究思想增强代码变异能力 思想来源包括高被引论文 专业教科书和搜索引擎结果 [21] - 用户可直接注入思想或通过搜索引擎自动获取文献研究成果 LLM在编码过程中充分利用这些指导信息 [22][23] 性能表现 - 生物信息学领域发现40种单细胞数据分析新方法 在公开排行榜上超越人类顶尖方法 [10][25] - 流行病学领域生成14个COVID-19住院预测模型 全部超越CDC集合模型及所有其他个体模型 [10] - 地理空间分析领域三个新方法在DLRSD基准测试mIoU指标均突破0.80 显著优于近期学术论文结果 [26] - 神经科学领域斑马鱼活动预测方案训练速度比最佳视频模型快几个数量级 [28] - 在时间序列预测和数值积分求解领域达到或超越人类顶级方法水平 [10][30] 系统特点 - 专门针对可评分任务设计 这类任务以最大化可度量质量指标为目标 在科学界无处不在 [12][13][14] - 能够系统性地自动创建实证软件 解决科学软件开发过程缓慢艰难的痛点 [15][17] - 通过大规模彻底搜索发现高质量解决方案 实现超人类性能 [24] 社会反响 - 论文在X平台获得2.6K赞和283.4K浏览量 引发广泛讨论 [7][11] - 部分网友认为这标志着任何可量化领域都将被AI征服 [5] - 存在关于AI接管科学研究合适性的争议 有观点认为结果需要人类核查可靠性 [32][34]
谷歌靠Nano Banana超越ChatGPT!登顶苹果App Store第一,玩疯了玩疯了
量子位· 2025-09-15 13:57
核心观点 - Gemini应用程序在多个地区苹果应用商店登顶 超越ChatGPT[1][3] - Nano Banana图像生成工具是推动Gemini增长的关键因素 一个月内新增2300万用户并编辑超过5亿张图片[4][5] - 谷歌通过技术迭代和生态整合实现逆袭 从Gemini 1.5的百万级上下文到Gemini 2.5 Pro的代码推理能力提升[86] 产品功能特性 - Nano Banana支持多维度图像生成:风格转换(美式证件照/漫画COS/破碎感肖像)[9][11][14]、姿势匹配(素描动作迁移/简笔画适配)[22][25]、3D模型生成(手办/漂流瓶/邪恶版角色)[29][34][36] - 高级组合功能支持局部元素修改:服装试穿[44]、家具替换[47]、虚拟场景生成(格斗游戏/撕裂现实效果)[50][54] - 专业级设计能力:真实摄影(85mm人像镜头/黄金光线)[60]、贴纸设计(小熊猫卡通形象)[64]、品牌logo生成(咖啡店极简设计)[68]、产品摄影(三点柔光棚拍)[72]、极简背景(PPT留白设计)[76]、漫画创作(黑色侦探风格)[80] 技术竞争优势 - Gemini系列技术迭代:1.5版本支持百万级上下文长度 2.0版本被评价全面对标GPT-4 2.5 Pro版本在代码和推理能力获好评[86] - 生态整合优势:嵌入搜索/Chrome/YouTube/Gmail/Docs等核心应用 覆盖全球数十亿用户[86] - 用户增长数据:Nano Banana推动Gemini月增2300万用户 图片编辑量超5亿张[5] 行业格局变化 - 谷歌实现从"被迫补课"到App Store反超ChatGPT的逆袭[87] - AI应用登顶App Store被视为行业高峰 标志产品影响力与市场格局变化[90] - 马斯克曾指控苹果操纵榜单偏袒ChatGPT 而Gemini登顶被网友视为打破操控的证据[91][92]
腾讯混元升级AI绘画微调范式,在整个扩散轨迹上优化,人工评估分数提升300%
量子位· 2025-09-15 11:59
技术突破 - 腾讯混元团队提出Direct-Align和SRPO两项创新方法 显著提升AI图像生成质量 人工评估真实感评分从8.2%提升至38.9% 美学评分从9.8%提升至40.5% [2][5][17] - Direct-Align通过预定义噪声先验实现任意时间步图像恢复 在仅5%去噪进度阶段即可恢复图像粗略结构 解决传统方法梯度爆炸问题 [9][10][11] - SRPO将奖励定义为文本条件信号 通过正负面提示词计算相对奖励差值 实现无需额外数据的在线偏好调整 [5][14][16] 性能表现 - SRPO在HPDv2基准测试中全面领先 自动评估指标Aesthetic Score达6.194 PickScore达23.040 显著优于ReFL DRaFT等方法 [17][18] - 仅需10分钟训练即在32块H20上收敛 训练效率远超DanceGRPO(480 GPU小时)和ReFL(16 GPU小时) [1][18][19] - 通过添加"Realistic photo"控制词 模型生成图像真实感提升3.7倍 美学质量提升3.1倍 [16] 技术优势 - 全扩散轨迹优化突破现有方法局限 避免仅在后25%时间步训练导致的奖励黑客问题(如HPSv2偏好红色调 PickScore偏好紫色图像) [8][13] - 控制词效果与训练集频率相关 高频词如"painting"效果最佳 低频词需组合使用 [16] - 相比DanceGRPO方法 SRPO在保持高美学质量的同时避免产生过度光泽感和边缘高光等不良伪影 [18] 行业影响 - 开发者评价SRPO为下一代RLHF(人类反馈强化学习)技术 展现其在对齐人类偏好方面的突破性潜力 [6] - 该方法在FLUX1.dev模型上实现突破 表现超越最新开源版本FLUX.1.Krea [19]
全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考
量子位· 2025-09-15 11:59
模型核心突破 - 推出开源视觉语言模型Mini-o3,能够进行长达数十个步骤的深度多轮视觉推理,在训练轮次限制仅为6轮的情况下,测试阶段可将思考轮数扩展到数十轮[1][2][13] - 模型通过恰当的数据、初始化方法和强化学习微调实现长周期视觉搜索能力,无需消耗大量训练周期资源[13] - 在多个视觉搜索基准测试中达到当前最佳水平,显著优于其他开源基线模型[15][43] 技术架构与训练方法 - 采用两阶段训练流程:第一阶段为冷启动监督微调,仅使用6个人工示范样本便生成约6000条高质量推理轨迹[19][22][24] - 第二阶段实施强化学习,关键创新包括将单张图像最大像素限制从1200万降至200万,使相同上下文容量内容纳更多交互轮次[25][26][27] - 提出超轮次掩码技术,避免对达到最大交互轮次的响应进行惩罚,平衡训练效率与测试扩展性,使测试推理轨迹能延伸至数十轮[28][34][35] 数据集构建 - 专门构建视觉探测数据集VisualProbe,包含4000个训练用视觉问答对和500个测试用问答对,涵盖简单、中等、困难三个难度级别[38] - 数据集特点包括小目标、众多干扰物体和高分辨率图像,这些特性使任务更具挑战性并自然要求迭代探索和试错[39][42] 性能表现 - 在VisualProbe数据集上,Mini-o3在困难、中等、简单任务准确率分别达到48.0%、50.4%、67.0%,显著超越GPT-40的11.2%、15.4%、47.5%[40] - 在V* Bench评估中取得88.2分,优于DyFot的81.2分和Chain-of-FocusT的88.0分[40] - 消融实验显示,移除RL数据导致模型在VisualProbe-Hard上性能下降约8.6分,验证了具有挑战性的RL样本对复杂推理轨迹的重要性[45] 行业影响 - 该技术方案为多轮交互式多模态模型的开发与强化学习应用提供实用指导,相关代码已全部开源[52][53] - 模型由字节跳动与香港大学团队联合开发,团队核心成员在大型多模态模型领域有深厚积累,曾发表多项重要研究成果[54][55][58][61]
昔日王者TensorFlow,已死
量子位· 2025-09-15 08:30
TensorFlow衰落与PyTorch崛起 - TensorFlow社区活跃度已跌至历史最低点,甚至不及初发布时期[3] - PyTorch呈现高歌猛进增长态势,形成鲜明对比[3] - 蚂蚁开源正式将TensorFlow从《大模型开源开发生态全景图2.0》中除名[8] 开源生态快速迭代特征 - 开源项目兴衰计量单位已从"年"缩短为"天"[10] - 全景图1.0到2.0仅隔100天,更新39个项目,替换率达35%[11][12][17] - 60个原有项目被移出,反映AI领域极快迭代周期[17][18] 项目淘汰机制与标准 - 短期热点型项目如OpenManus和OWL因热点消退被移出[19] - 迭代速度落后项目如NextChat被新兴项目取代[20] - 同生态位竞争落后者如MLC-LLM和GPT4All被Ollama取代[21] - 项目准入门槛设定为OpenRank > 50[17] 开源定义与商业模式演变 - Top 10活跃项目中部分未采用OSI标准开源许可证[26] - Dify在Apache 2.0基础上增加多租户使用限制[26][32] - Cherry Studio采用按用户规模双许可模式[27] - n8n采用自定义"Sustainable Use License"[28] - GitHub功能扩展为集产品发布、用户反馈、社区营销一体化平台[31] - 开源运营属性增强,成为重要GTM(Go-to-Market)战略[31] 技术领域竞争焦点转移 - Agent Framework领域整体活跃度呈下降趋势[38] - Model Serving和AI Coding领域呈现显著增长态势[39] - 竞争从功能覆盖转向性能深度优化[45] - vLLM和SGLang通过技术创新提升GPU利用率[44] - NVIDIA TensorRT-LLM提供极致性能优化方案[44] 全球开发贡献格局 - 美国开发者占比24%,贡献度37.4%[46][47] - 中国开发者占比18%,贡献度18.7%[46][47] - 中美两国合计贡献度超过55%[46] - 美国在AI Infra领域贡献度43.39%,显著领先[51] - 中国在AI Agent领域贡献度21.5%,与美国24.62%差距缩小[51] 新兴项目崛起案例 - OpenCode和Gemini CLI在数月内获得极高社区关注度[54] - Browser-use项目由2名研究生9个月开发获得60K星标[55]