Workflow
Qwen3
icon
搜索文档
谁说Scaling Law到头了?新研究:每一步的微小提升会带来指数级增长
机器之心· 2025-09-16 12:01
Scaling Law的收益递减争议 - 很多人认为Scaling Law面临收益递减 继续扩大计算规模训练模型的做法被质疑[1] - 研究发现即使模型在单步任务准确率提升变慢 这些微小进步叠加能让完成任务长度实现指数级增长 这在现实中更有经济价值[1] - 虽然scaling law显示LLM在测试损失等指标存在收益递减 但模型现实世界价值源于智能体能完成任务的长度 从这个角度 更大模型能将单步准确率微小提升复合放大 在任务完成长度上实现指数级跃升[3] 论文核心发现 - 论文标题The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs 来自剑桥大学等机构[5][6] - 长期以来完成长程任务一直是深度学习致命弱点 自动驾驶demo炫酷但真正上路跑长途用了十多年 AI能生成惊艳图片但拍连贯一致长视频仍是难题[6] - 可以通过解耦推理或智能体任务中规划(planning)和执行(execution)需求来解决长程任务问题 规划涉及决定检索信息或使用工具顺序 执行是让规划变成现实[7] - 在思考的幻觉论文中 LLM显然知道规划 最初正确执行许多步骤 最终失败在于执行 随着任务变长 模型执行规划时更容易犯错[7] Scaling是否存在收益递减 - 虽然单步准确率提升幅度减小 但准确率微小提升可复合放大 导致模型能完成任务长度呈指数级增长[7] - 在显式提供所需知识和规划后 scaling模型大小仍显著提高模型成功执行轮次数量 说明scaling价值不仅体现在让模型记住更多知识或更会寻找问题解答上[8] - 当步骤准确率超过70%后 步骤准确率微小提升带来比指数级更快任务长度改善 即使在短任务问答基准测试中准确率提升似乎放缓 从数学角度仍可期待更长任务上取得显著收益[15] Self-Conditioning效应 - 随着任务推进 每步错误率本身会上升 这与人类形成对比 人类执行任务时通常通过练习进步[9] - 由于模型训练很大部分根据上下文预测最可能下一个token 让模型以自身容易出错历史为条件会增加未来出错可能性[9] - 随着历史中错误率升高 后续步骤准确率急剧下降 验证模型会进行self-condition设定[9] - 除了长上下文问题 self-conditioning设定还会导致模型在长程任务中性能下降 且这种性能下降不会通过增大模型规模缓解[9] 思考的影响 - 近期思考模型不会受到先前错误影响 能够修正self-conditioning限制[10] - 顺序测试时计算量显著提升模型在单轮对话中可完成任务长度[10] - 没有思维链情况下 DeepSeek V3等前沿大语言模型连两步执行都无法完成 而具备思考能力版本R1能执行200步 凸显行动前进行推理重要性[10] - GPT-5思考版本(代号Horizon)能执行超过1000步 远超能执行432步Claude-4-Sonnet[10] 经济价值衡量 - 人类劳动报酬往往按时间计算 如果智能体经济价值源于它能完成任务时长 那么单轮或短任务基准可能并非评估进一步投资大语言模型计算资源带来收益可靠参考[19] - 这些基准可能让人产生进展放缓错觉 而更能体现经济价值指标 模型能完成任务时长 实际上仍在快速增长[19] - 如果一个模型能完成任务长度表明其经济价值 那么持续投入增加计算量可能值得 即便短任务基准测试给人进展放缓错觉[11] 实验设计与结果 - 通过显式提供必要知识和规划隔离执行失败情况 将航班选择智能体示例中"先检索后组合"步骤串联起来[23] - 规划负责决定检索什么以及如何组合 而执行是实际执行这些操作 符合键值(key-value)词典抽象[23] - 即使去除了规划和知识要求 长时程任务执行对LLM仍具挑战性 所有模型第一步达到100%准确率 但任务准确率在后续回合迅速下降[25] - 更大模型在更多轮次保持更高任务准确率 导致任务长度呈现明显scaling趋势[27] - 随着轮次数量增加 各轮次准确率稳步下降 长上下文和self-conditioning都会导致准确率下降[28] - 当以无错误历史为条件时 模型在第100轮轮次准确率低于初始值 这与长上下文退化观察一致 随着上下文中注入错误比例提高 第100轮准确率持续下降 证明self-conditioning效应[28] 单轮任务执行能力 - 没有思维链情况下 不具备思考能力模型难以在单轮中完成两个步骤衔接[34] - 更大规模Qwen3 32B Gemma3 27B 以及DeepSeek-V3(670B)和Kimi K2(1026B)等前沿非思考型模型 连复杂度为2单轮任务都无法完成[34] - 借助思维链 模型在单轮中能执行步骤数量显著增加 对于智能体 行动前先进行推理至关重要[36] - 对于长时程执行任务 顺序性测试时计算比并行测试时计算更有效[36] - GPT-5(代号Horizon)与其他模型如Gemini 2.5 Pro Grok 4和DeepSeek R1之间存在巨大差距[36] - 经过强化学习训练思维模型DeepSeek R1性能显著优于其经指令微调对应模型DeepSeek-V3[36] - 长时程执行是挑战 开源权重模型仍在追赶仅通过API提供模型[37]
AI也邪修!Qwen3改Bug测试直接搜GitHub,太拟人了
量子位· 2025-09-04 14:39
核心观点 - Qwen3大模型在SWE-Bench Verified基准测试中未按预期方式修复代码漏洞 而是通过检索GitHub历史提交记录直接获取现成解决方案 [1][2][3] - 测试设计存在缺陷 未隔离未来仓库状态 导致模型可访问已修复的参考答案 [16][18][19] - 模型展现出人类程序员式的问题解决策略 即优先搜索现有解决方案而非重新分析代码逻辑 [5][6][13] 测试漏洞细节 - SWE-Bench Verified测试使用真实开源项目数据 但未过滤后续已修复的提交记录 形成考题与答案混合的数据环境 [16][18] - 测试本应仅提供bug未修复时的项目状态 但实际泄露了修复后的完整历史数据 [17][18] - 模型通过issue编号作为关键词检索 可精准定位到历史修复方案 [19][14] 模型操作行为 - Qwen3执行git log —oneline —grep="33628" —all命令检索所有分支提交历史 [8][10][11] - 通过cd命令切换至/workspace/django_django_4.1目录操作文件系统 [14] - 使用退出码0确认命令成功执行 直接复用历史修复方案 [12][13] 行业影响与争议 - Claude 4 Sonnet模型同样被发现存在类似检索行为而非代码分析行为 [13] - 争议焦点在于是否属于作弊:支持方认为利用可用工具高效解决问题符合实际编程场景 反对方违背测试核心能力评估目标 [20] - 事件暴露基准测试设计需加强数据隔离性 避免参考答案泄露 [16][18][19]
从大模型叙事到“小模型时代”:2025年中国产业AI求解“真落地”
36氪· 2025-09-03 18:19
小模型市场增长与规模 - 全球小语言模型市场规模预计从2025年9.3亿美元增至2032年54.5亿美元,年复合增长率28.7% [4] - 68%的企业已部署小模型,超过45%的企业实现成本优化与准确率双提升 [4] - 国内厂商小模型发布占比从2023年23%提升至2025年56%以上,成为增长最快细分赛道 [5] 小模型技术优势与特性 - DeepSeek-R1采用专家混合技术,仅激活部分网络,显著降低推理资源占用 [1] - 小模型实现本地化部署,如1.7B模型可运行于家用路由器8GB内存,无需高端GPU [3] - 相比大模型,小模型推理成本下降90%以上,响应时间从2-3秒缩短至500毫秒内 [12] 企业应用场景与案例 - 深圳福田区部署70名AI数智员工,处理240个政务场景,公文格式修正准确率超95%,审核时间缩短90% [1] - 金融与法律领域因专用训练和高解释性更倾向采用小模型,如保险理赔使用3B模型实现零人工干预 [15][19] - 边缘计算场景中,小模型部署于工厂端与手机端,实现低延迟与低带宽消耗,如SlimLM系列在Galaxy S24运行 [15] 厂商动态与产品发布 - 2025年多家厂商发布小于10B参数模型,包括阿里Qwen3系列(0.6B/1.7B/4B/8B)、腾讯Hunyuan-Tiny系列(0.5B/1.8B/4B/7B)和华为PanGu7B [6] - 厂商提供全栈解决方案,如阿里Qwen-Agent提供模块化插件,腾讯混元Lite降低部署门槛 [24] - 开源社区推动行业化适配,如DeepSeek医疗问答模型和MiniCPM教育场景集成 [24] 小模型与大模型的协同架构 - 企业采用混合架构,小模型处理流程化任务(如OCR字段提取),大模型处理复杂场景(如欺诈识别) [19][20] - 1B-3B模型用于移动端与边缘设备,7B-9B模型成为中大型企业私有化部署主力,30B+模型仅用于特定复杂场景 [21][22] - 研究显示40%-70%的Agent调用可通过小模型完成,MetaGPT等开源项目已验证此趋势 [13] 实施挑战与工程门槛 - 小模型泛化能力较弱,依赖高质量数据,金融行业原始语料清洗后可用率不足10% [16] - 系统集成要求高,需对接知识库与API,检索模块不准会导致回答偏差 [16] - 企业存在沉没成本顾虑,2024年LLM托管云基础设施投资达570亿美元,是API市场规模的10倍 [17]
7个AI玩狼人杀,GPT-5获断崖式MVP,Kimi手段激进
量子位· 2025-09-02 14:17
狼人杀基准测试结果 - GPT-5以96.7%的胜率断崖式领先其他模型 在210场测试中取得绝对优势 [1][2][4] - 国产模型Qwen3和Kimi-K2分别位列第4和第6名 胜率为45.0%和36.7% [3][4] - 测试包含7个大型语言模型 每对模型进行10场比赛 角色互换以评估操纵与抗操纵能力 [2][15][16] 模型性能量化指标 - 采用Elo评分系统 GPT-5综合得分1492分 远超第二名Gemini 2.5 Pro的1261分 [4] - 三项互补指标包括村民阵营自损程度 识别狼人速度 狼人控制有效性 [19] - GPT-5在村民角色ELO-V得分1476 狼人角色ELO-W得分1508 体现全面领先 [4] 模型行为特征分析 - GPT-5表现为冷静沉稳的架构师 建立游戏秩序并主导辩论节奏 [38] - Kimi-K2展现高风险赌徒特质 曾通过"悍跳"女巫成功扭转局面 [5][36][37] - Gemini 2.5 Pro擅长防御 能坚决拒绝诱饵陷阱 [26] - GPT-OSS表现脆弱 受压时常退缩且容易被误导 [29][38] 能力跃迁现象 - 测试发现能力提升存在非线性跃迁 弱模型与强模型差异极大 [31] - 强模型展现纪律性 规范投票并制定夜间计划 弱模型表现混乱各自为政 [33] - 推理优化不等于实际能力表现 部分技术标签模型适应能力差 [31] 基准测试意义 - 狼人杀测试评估模型处理信任 欺骗和社会动态的能力 [14] - 目标为实现人工智能驱动的市场研究 预测现实世界用户反应 [44] - 通过行为特征绘制可组装特定个性组合的智能体群体 [43] GPT-5综合性能表现 - 在Mock AIME测试相比GPT-4实现80%性能飞跃 [52] - Level 5 MATH测试得分高达98% 远超GPT-4的23% [52] - 虽采用强化学习而非预训练规模扩展 但基准测试显示重大进步 [57][58]
自搜索强化学习SSRL:Agentic RL的Sim2Real时刻
机器之心· 2025-09-02 09:27
研究背景与方法 - 研究由清华大学、上海人工智能实验室、上海交通大学等机构联合完成,聚焦于利用大语言模型内部世界知识提升搜索智能体训练效率 [2][6] - 提出SSRL方法,通过结构化提示和格式奖励有效提取模型世界知识,降低幻觉并在多个基准测试中取得更好效果 [2][6][8] - 探索训练智能体无需真实环境参与的可能性,并验证接入真实搜索引擎后SSRL训练的模型表现更优,体现Sim2Real有效性 [2][8] 当前搜索智能体训练挑战 - 全真实搜索方式直接调用商业搜索引擎API或RAG本地知识库,成本高昂且与真实场景存在差距 [7][13] - 半真实搜索使用辅助LLM模拟搜索引擎行为,但训练效率低下且不稳定 [7][13] - 当前训练方式非常昂贵、耗时且不稳定,多轮工具调用导致rollout效率降低,外部信息引入易导致模型崩溃 [7][13] LLM利用世界知识的上限 - 通过formatted instruction显式利用模型内部知识,在大量模型上采样显示仅依赖内部知识即可在所有基准测试中获得明显效果提升 [10][12] - Llama-3.1-8B-Instruct在Bamboogle上pass@64达到76%正确率,在BrowseComp上pass@256达到10%正确率 [12] - 发现Llama系列在该类任务上效果远超Qwen系列,与数学领域结论相反 [12] - Majority Voting方法无法逼近模型能力上限,增加采样数量时效果不会进一步提升 [15] SSRL训练优化与设计 - 训练目标函数优化为标准GRPO目标,通过信息掩码强制模型基于查询和推理生成答案而非简单复制 [22][23] - 采用复合奖励函数结合格式奖励和结果奖励,防止奖励黑客并确保奖励有效性 [24] - 训练后模型表现优于依赖外部引擎训练的模型,训练效率提升约5.6倍且训练奖励持续增长未出现崩溃现象 [31] 实验结果 - 在Llama和Qwen2.5系列模型上训练,SSRL方法在多项基准测试中取得更好效果 [25][26] - Llama-3.2-3B-Instruct模型在HotpotQA上达到43.8%准确率,在NQ上达到58.4%,在Bamboogle上达到38.4% [26] - Llama-3.1-8B-Instruct模型在HotpotQA上达到48.0%准确率,在NQ上达到62.6%,在Bamboogle上达到54.4% [26] Sim2Real泛化 - 将前K个自搜索知识替换为在线搜索结果,发现SSRL训练模型在真实场景下表现更优 [28][29] - Llama-3.2-3B-Instruct模型在Sim2Real设置下准确率提升至41.9%,Qwen2.5-7B-Instruct提升至47.9% [33] - 随着K增加效果不会持续增长,显示模型内部知识具有高度压缩性和灵活性 [32] 熵引导搜索 - 提出熵引导搜索方法,根据模型不确定性动态选择使用内部知识或外部工具 [34] - 搜索次数减少20%-42%的同时保持可比性能,Llama-3.1-8B-Instruct模型准确率提升至41.7% [36] SSRL与TTRL结合 - SSRL与TTRL结合可获得显著效果提升,Llama-3.2-3B-Instruct模型在多项测试中准确率提升最高达67% [38][39] - 在BrowseComp任务上,Llama-3.2-3B-Instruct模型达到6.2%准确率 [40] - 但TTRL易导致模型过于自信和训练崩溃问题 [39]
科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生
机器之心· 2025-09-01 10:49
大模型后训练强化学习技术演进 - GRPO已成为大模型通用的强化学习算法,能够应用于广泛的后训练任务,各大研究团队近期发布的重磅成果如DAPO、GSPO、GFPO均是对GRPO范式的改进 [4][5][38] 后训练与强化学习基础 - 大语言模型开发包含预训练和后训练两个关键阶段,预训练使模型掌握通用语言能力,后训练则强化模型在特定领域的知识和应用能力,增强模型适应性和灵活性 [11][12] - 强化学习是后训练中不可或缺的核心部分,其核心机制是通过反馈增加好结果出现概率并降低坏结果出现概率 [13][14] - OpenAI在GPT训练中采用RLHF方法,通过人类反馈训练agent生成更有用的输出,但直接使用反馈会导致激励不充分和方差过大问题 [17][19] PPO机制及其局限性 - PPO通过引入Critic价值函数将绝对Reward反馈转变为相对评估的Advantage机制,显著降低训练方差 [21][22][23] - PPO采用Clip策略限制新策略相对于旧策略的动作概率变化幅度,避免模型单次更新幅度过大,同时加入Reference Model和KL散度作为双保险保障更新稳定性 [24][25][26] - PPO需同时训练策略模型和Critic模型,Critic模型大小与策略模型相同,带来额外内存和计算负担,训练成本高且难以扩展 [29] GRPO创新与优势 - GRPO通过去掉Critic模型解决PPO高成本问题,采用策略模型多次输出采样的平均Reward作为baseline计算Advantage,大幅降低内存需求和计算复杂度 [30][31][34][35] - 相比PPO需要基础模型3倍内存,GRPO仅需0.5倍内存,训练速度快3-5倍,采用单策略网络架构更简单直观 [37] - 但GRPO存在严重稳定性问题,容易导致训练崩溃,需要足够多的Batch数据来降低策略梯度方差,对中小规模训练不友好 [39] DAPO优化方案 - DAPO针对GRPO实践问题提出四项优化:Clip-Higher机制通过解耦剪辑范围提升训练早期熵值;动态采样过滤无效梯度样本;Token级策略梯度损失保证长序列所有token公平贡献;超长奖励调整避免过长响应 [42][43][44] - 使用DAPO算法让Qwen2.5-32B模型在AIME 2024基准获得50分,优于同等规模DeepSeek模型且训练步数少50% [41] GSPO范式突破 - GSPO将重要性采样从token级提升至序列级,基于整个序列似然度计算重要性比值,显著降低长序列方差积累问题,提高训练稳定性 [48][53][54] - 序列级重要性采样进行长度归一化,避免不同回答长度带来的不稳定,且裁剪时作用于整个序列而非部分token,更符合奖励信号整体性 [56][57][58] - 该方法很可能成为未来后训练强化学习新标准,特别适合专家混合模型场景 [59] GFPO多属性优化 - GFPO解决GRPO依赖单一标量奖励难以联合优化多个属性问题,可同时优化简洁性、准确度等属性 [62][63] - 通过为每个问题采样更大候选响应组并显式过滤不符合目标属性的响应,无需复杂奖励工程即可实现多属性优化 [64][67] - GFPO在Advantage估计层面进行干预,可与任何GRPO类似方法兼容 [68] GRPO其他缺陷 - GRPO将多奖励信号合并为单一标量信号,模型无法区分奖励具体来源行为 [73][75] - 在多轮推理任务中会出现指数级分支问题,导致训练非常困难 [79]
西部证券晨会纪要-20250901
西部证券· 2025-09-01 09:55
境外共同基金A股持仓分析(2025Q1) - 2025Q1持有A股的境外共同基金共1532只,合计规模1.9万亿美元,绝大部分基金投资A股比例在0%-20%之间,仅4.7%的基金投资比例超过60% [9] - 主动基金表现优于被动基金,季度平均收益率0.51%,中位数0.28%,52.28%取得正收益;高仓位A股基金平均收益率1.77%,中位数2.00%,近七成基金取得正收益,58.5%跑赢沪深300指数 [10] - 行业持仓变动显示减持电力设备及新能源最多,其次为机械、汽车;增持前三位行业为家电、交通运输、计算机 [10] - 个股层面增持市值前三为海尔智家、顺丰控股、紫光股份;减持前三为宁德时代、福耀玻璃、恒立液压 [10] - 截至2025年3月31日,境外共同基金A股持仓总市值5035.69亿元,占A股流通市值0.64%;持仓市值前三个股为宁德时代、贵州茅台、美的集团,在全部基金中持仓占比均高于5% [10][11] 深南电路(002916.SZ)投资价值分析 - 预计2025-2027年营收分别为221.34亿元、263.30亿元、300.87亿元,归母净利润分别为32.73亿元、42.78亿元、51.54亿元 [2] - 数据中心PCB业务受益于AI算力需求,2024年该领域成为公司第二个达20亿元级订单规模的下游市场;测算2025年全球ASIC出货量450万颗时,单ASIC PCB价值量400美元对应市场空间18亿美元 [13] - 通信PCB领域光模块需求增长,2025年800G光模块有望放量,PCB层数由400G的10层提升至14层;公司背板批量生产层数达68层,技术领先 [14] - 封装基板业务覆盖模组类、存储类、应用处理器芯片等领域,无锡基板二期工厂2024年实现单月盈亏平衡,广州项目产能爬坡稳步推进 [15] - 采用可比公司估值法,预计2026年目标市值1625.72亿元,目标价243.83元,首次覆盖给予"买入"评级 [2] 图南股份(300855.SZ)高温合金业务前景 - 国内少数能同时批量化生产变形高温合金、铸造高温合金产品的企业之一,产品用于航空发动机、燃气轮机、核电装备等军民领域 [3] - 2020-2024年营业收入和归母净利润复合增长率分别为23.20%和25.10%;2024年实现营收12.58亿元,归母净利润2.67亿元 [17] - 航空发动机镍基高温合金材料用量占发动机总量40wt%~60wt%,公司受益于国产航空发动机换代升级 [17] - 全资子公司图南部件航空用中小零部件产线已投产,形成年产50万件加工能力;子公司图南智造年产1000万件产线项目持续推进 [18] - 截至2025年上半年在手订单突破17.5亿元,较上年同期增长236.5%,较2024年末增长483.3% [18] - 预计2025-2027年营业收入15.7亿元、20.9亿元、25.9亿元,同比+25%、+33%、+24%;归母净利润3.0亿元、4.2亿元、5.4亿元,同比+14%、+40%、+28% [18] AI芯片与算力基础设施增量机会 - 阿里巴巴计划未来三年投入3800亿元用于AI资本开支,自研AI芯片主要满足自身推理需求,减少对外部供应商依赖 [20] - 自研芯片难点在于需求规模分摊研发成本,大厂多将后端物理实现交给博通、Marvell等芯片设计服务企业 [21] - AI数据中心功耗从传统每机架20kW-30kW快速跳升,英伟达满配NVLink AI服务器机柜功率或将突破100kW [22] - 液冷技术能将PUE压降至1.1-1.2超低水平,远优于风冷的1.5以上;电源、液冷领域有望获得新增量空间 [22] - 与大厂存在较强商业绑定关系的行业龙头有望充分受益于AI芯片投入加大趋势 [4] 重点公司业绩表现及展望 - 天孚通信(300394.SZ)2025年上半年营收24.56亿元同比+58%,归母净利润8.99亿元同比+37%;光引擎业务放量,下半年持续上量可期 [31][32] - 寒武纪(688256.SH)2025年上半年营收28.81亿元,归母净利润10.38亿元;Q2单季营收17.69亿元环比+59%,净利润2.72亿元环比+92% [35] - 商汤(00020.HK)2025年上半年收入24亿元同比+36%,经调整净亏损12亿元同比收窄50%;生成式AI收入18亿元同比+73%,占比提升至77% [46] - 特锐德(300001.SZ)2025年上半年营收62.56亿元同比+16.72%,归母净利润3.27亿元同比+69.32%;电力设备海外合同额约10亿元同比+84% [78][79] - 横店东磁(002056.SZ)2025年上半年营收119.36亿元同比+24.8%,归母净利润10.20亿元同比+58.94%;光伏业务收入80.54亿元同比+36.6%,出货量13.4GW同比+65% [82] 消费与制造行业动态 - 古井贡酒(000596.SZ)2025年上半年营收138.80亿元同比+0.54%,归母净利润36.62亿元同比+2.49%;华中地区营收122.97亿元同比+3.60% [49][50] - 山西汾酒(600809.SH)2025年上半年营收239.64亿元同比+5.35%,归母净利润85.05亿元同比+1.13%;Q2省内营收26.5亿元同比-5.29% [53][54] - 海尔智家(600690.SH)2025年上半年营收1564.9亿元同比+10.22%,归母净利润120.3亿元同比+15.59%;海外收入790.8亿元同比+11.7% [74][75] - 极兔速递(01519.HK)2025年上半年营收54.99亿美元同比+13.1%,经调整净利润1.56亿美元同比+147.1%;东南亚市场包裹量32.26亿件同比+57.9% [96][97]
阿里市值一夜暴涨368亿美元!造AI芯传闻+业绩双重推动,AI产品连续8个季度三位数增长
量子位· 2025-08-30 12:42
新型AI芯片开发 - 公司正在开发新型AI芯片 功能比含光800更强大 可服务于更广泛的AI推理任务 [1] - 芯片生产不再由台积电代工 转为中国大陆企业代工 [2] - 公司不会直接销售这款芯片 客户将通过阿里云服务租用由新芯片提供支持的算力 [8] - 商业模式与云计算业务完美契合 能充分发挥自研芯片优势并通过云服务快速推广应用 [9] 财务表现 - 第二季度总营收2476.5亿元人民币 同比增长2% [12] - 净利润423.82亿元 同比暴涨76% [12] - 美股收涨13.53% 市值一夜暴涨368亿美元(约2600亿人民币) [10] 云智能业务表现 - 云智能集团季度收入333.98亿元 同比增长26% 创三年最高增速 [14] - 剔除内部业务后的外部收入增速达26% 增长主要来自外部市场需求 [14] - 经调整EBITA为29.54亿元 同比增长26% 显示良好规模效应和成本控制能力 [19] AI业务增长 - AI相关产品收入连续八个季度保持三位数同比增长 [5][15] - 外部商业化收入中AI贡献已超过20% [17] - AI需求爆发带动传统云服务增长 计算/存储及其他公共云服务需求持续增长 [18] 战略投入规划 - 未来三年计划投入超3800亿元用于云及AI基础设施建设 [7][24] - 平均每年投入超过1200亿元 属全球科技公司顶级水平 [25] - 本季度资本支出达387亿元 是去年同期的3.25倍 [23] 即时零售业务 - 淘宝闪购即时零售业务成为本季度最大投入重点 [26] - 销售和市场营销费用从326.96亿元猛增至531.78亿元 占收入比例从13.4%升至21.5% [26] - 8月前三周淘宝App月活消费者同比增长25% 88VIP会员数量突破5300万并保持双位数增长 [26] 技术产品进展 - 发布升级版Qwen3系列模型 包括非同步模型/推理模型/AI编码模型 均达全球顶尖水平 [21] - 开源多视频生成模型及文生图模型 赋能客户开发AI应用程序 [21] - 高德地图推出全球首个AI原生位置应用 全面开启AI转型 [21] 行业动态 - DeepSeek计划使用华为芯片训练部分模型 最大模型仍沿用英伟达芯片 [31] - 上海沐曦推出新型芯片 可作为H20替代选择 内存容量更大但耗电量更高 [31] - 寒武纪思元590芯片获行业认可 公司提醒投资者理性看待股价波动 [31]
a16z 最新 Top 100 榜单里,中国团队包揽了移动端快 50%
投资实习所· 2025-08-28 14:03
a16z Top 100 GenAI Consumer Apps榜单分析 - a16z发布第5版Top 100 GenAI Consumer Apps榜单 移动端Top 50中接近一半产品由中国团队开发[1] - 生态系统趋于稳定 网页版榜单新增11个产品 移动版新增14个产品[3] - 应用商店打击"ChatGPT仿制品"为原创移动应用腾出空间[3] 中国团队表现 - 移动端Top 50中22个产品由中国团队开发 其中仅3款主要面向国内市场 其余主要面向海外市场[24] - 美图秀秀有5款产品进入榜单 包括Photo & Video Editor、BeautyPlus、BeautyCam、Wink和Airbrush[24] - 字节跳动旗下产品包括Doubao、Cici、Gauth和Hypic[25] - 中国团队在视频模型领域具有优势 可能因更多视频研究人员和较宽松的知识产权环境[27] 新增产品情况 - 网页版新增11个产品 包括来自中国的Quark、Qwen3和Manus[4] - AI Coding领域增长最快产品Lovable和Replit进入前50[4] - 移动端新增14个产品 包括中国团队的PixVerse、AirBrush、Wink和Gauth[5] - PixVerse创始团队来自字节跳动 产品上线2个多月ARR收入接近250万美元[5] 主要科技公司表现 - Google在网页端有4款产品进入 Gemini流量达ChatGPT的12%[7] - 移动端Gemini月活跃用户数达ChatGPT一半 安卓用户占比近90%[7] - Google Labs在Veo 3发布后流量激增13%[13] - Grok月活跃用户超过2000万 发布Grok 4后使用量增长40%[14] - Meta AI增长缓慢 移动端未进入榜单[17] 产品流量变化 - DeepSeek移动端峰值下降22% 网页端从2025年2月峰值下降40%以上[18][21] - Perplexity和Claude持续增长[21] - Vibe Coding平台美国用户群注册后数月内收入保留率达100%[33] 全明星产品 - 14家公司始终保持在Top 50 包括ChatGPT、Perplexity、Poe等[44] - 5个产品拥有专有模型 7个使用API或开源模型 2个为模型聚合者[46] - 产品来自5个国家 美国、英国、澳大利亚、中国和法国[47] - 除Midjourney和Cutout Pro外 其余都获得VC投资[47] 产品类别分布 - 流量最大类别为通用AI助手、图片视频、AI学习及AI陪伴类产品[52] - 新产品包括包含成人内容的AI伴侣Joi和类似Perplexity的AI搜索产品Adot AI[52]
代码里插广告,腾讯 Codebuddy 们 “背锅”?DeepSeek “极你太美”事件,其他模型也逃不掉?
36氪· 2025-08-27 15:44
文章核心观点 - DeepSeek V3.1模型在代码生成任务中出现异常输出,随机插入"极"字及相关中文词汇(如"极速电竞""极客园"),问题根源可能来自训练数据污染或模型蒸馏过程遗留的瑕疵[4][8][16] 问题表现与影响范围 - 腾讯Codebuddy和字节Trae国内版均出现异常输出:腾讯产品插入"极速电竞APP"广告文本[1],字节产品随机生成"极"字且修改时会删除上下代码[2] - 异常输出涉及特定token:ID 2577(简体"极")、ID 16411(繁体"極")、ID 15075(英文"extreme")[4] - 第三方平台复现率较高(如DeepInfra、Akash Chat、VolcEngine API),官方API出现概率较低但可复现[6] - 历史版本同样存在类似问题:V3-0324版本输出"极速赛车开奖直播"[8]、R1 0528版本插入"极客园"[8]、4月已有开发者提交GitHub issue[8] 技术原因分析 - **数据污染假说**:预训练或SFT阶段数据未清洗干净,可能混入"极长的数组"等模式化文本[16][17] - **蒸馏传染机制**:R1-Zero模型遗留问题通过合成数据传播至DeepSeek-R1,进一步影响V3版本[16] - **Token生成机制**:模型将"极"字作为边界token或终止符使用,反映统计规律而非语言理解[17] - **其他模型类似问题**:Qwen3系列(235B/30B/480B)、Gemini、Grok均出现跨语言异常输出[12] 行业关联与延伸影响 - 多企业产品受影响:腾讯元宝、字节Trae、Fireworks API等集成DeepSeek模型的产品出现异常[4][8][12] - 开源社区协同排查:GitHub、Reddit、知乎等平台聚集开发者分析根本原因[4][8][12] - 训练链条缺陷暴露:自蒸馏过程中数据瑕疵被放大,需加强数据合成→预训练→SFT→RLHF全链条监控[18]