量子位 - 财报，业绩电话会，研报，新闻

量子位

搜索文档

量子位· 2025-09-12 08:59

论文核心观点 - Meta超级智能实验室(MSL)发表第二篇论文《Language Self-Play For Data-Free Training》提出Language Self-Play(LSP)方法让大型语言模型在没有额外训练数据的情况下实现自我提升[1][2][3] - LSP将模型学习过程设计成博弈框架让同一语言模型扮演挑战者和解决者两个角色进行对抗实现无数据训练[4][5] - 该方法旨在应对大语言模型高度依赖大规模高质量训练数据且训练数据有限所带来的困境[4] 技术方法 - LSP采用极小极大博弈框架挑战者不断生成刁钻问题以降低解决者预期回报解决者努力回答问题以最大化自身回报[7] - 单一模型设计避免训练独立对抗模型的额外开销和不稳定性通过特殊"挑战者提示"切换角色模式[8] - 采用GRPO技巧将博弈转化为强化学习过程通过奖励机制使挑战者针对解决者薄弱环节生成问题[9][10] - 引入"自我质量奖励"(RQ)解决奖励黑客问题引导博弈朝高质量交互发展使训练可长期进行[12][13] 实验效果 - 实验一显示未使用任何数据的LSP和LSP-Zero与使用数据的GRPO表现相当且显著优于原始模型[18] - 在Vicuna对话型和开放式指令数据集上 LSP表现远超GRPO[18] - 实验二显示经过LSP进一步训练后模型整体胜率从40.9%显著提升至43.1%[21] - 在Vicuna数据集上提升尤为明显表明LSP可在数据驱动训练后继续挖掘模型潜力[22] 学术争议 - 论文被质疑忽视前人研究缺乏创新网友指出未引用Andrew Zhao等人类似工作[25][26] - 网友提及多篇相关前期研究包括Absolute Zero SPIRAL等论文质疑其突破性[30] - 评论认为这可能是一篇老工作然后拿到MSL发表[30]

Meta Platforms(US:META)

Artificial Intelligence

Reinforcement Learning

Artificial Intelligence

Language Self-Play (LSP)

Language Self-Play Zero (LSP-Zero)

Artificial Intelligence

Reinforcement Learning

Artificial Intelligence

Language Self-Play (LSP)

Language Self-Play Zero (LSP-Zero)

姚顺雨离职OpenAI，开启下半场

量子位· 2025-09-12 08:59

姚顺雨职业动态 - 姚顺雨已从OpenAI离职但尚未官宣下一步去向 [2][3] - 传闻其可能加盟中国科技巨头或选择个人创业但均未获证实 [2][53] - 有爆料称其以上亿薪资入职腾讯但已被腾讯官方辟谣 [53] 教育背景与早期成就 - 合肥一中毕业高考704分位列安徽省第三进入清华姚班主修计算机科学 [4][10] - 曾获全国信息学奥林匹克竞赛（NOI）银牌（495分） [10] - 普林斯顿大学计算机博士研究方向为自然语言处理与强化学习 [4][22] 学术研究与技术贡献 - 提出思维树（Tree of Thoughts）方法显著提升大语言模型复杂问题解决能力 [6][39] - 开发SWE-bench评估数据集和SWE-agent开源AI程序员工具 [6][34] - 创建ReAct框架使语言模型在交互中同步进行推理与行动在AlFWorld任务中成功率提升至71% [36][38] - 构建WebShop模拟电商环境验证语言智能体在真实任务中的泛化能力 [31] - 累计学术引用15253次 h指数24 i10指数29 [42] 行业观点与职业转向 - 提出AI发展进入"下半场" 重点从模型构建转向现实任务定义与评估 [46][47] - 强调语言作为实现AI泛化的核心媒介其研究聚焦通用智能体开发 [28][30][41] - 职业规划从学术研究转向产品与商业应用曾表达创建万亿美金级Agent公司的意向 [50][51]

跨界思维与泛化能力

通用智能体

Artificial Intelligence

Artificial Intelligence

量子位· 2025-09-11 18:19

大学生AI使用渗透率与核心场景 - 夸克在中国大学生群体中渗透率极高，每10个大学生中就有7人使用，其大学生用户中AI功能渗透率达到80% [3][5] - AI搜索、AI拍题、AI扫描、AI写作和AI总结是大学生最常使用的五大AI功能场景 [4] - 大学生使用AI进行深度和专业化的互动，例如医学生MAU超过200万，超过50%的医学生使用夸克搜索“GSC评分，血红蛋白正常值”等复杂专业问题 [5] AI在学习与学术研究中的应用 - 在AI拍题功能中，使用最多的专业前三名是临床医学、计算机科学与技术以及高等数学，其中高数类题目位居榜首 [7] - 大学生通过搜索框的深度研究功能进行学术搜索，最关注的三大领域是医学、经济学和社会议题 [6] - AI写作和PPT制作是大学生最常用的创作方式，仅9月上旬就产生了42万份与学生竞选、社团面试相关的PPT需求，其中28.8%的大学生用户使用夸克生成班委竞选PPT [4][7] AI在生活与专业实践中的创新应用 - 大学生将AI应用于生活场景，如“赛博算命”算桃花运、解析梦境，甚至生成AI视频内容与父母互动 [8] - 有动物医学专业学生使用夸克AI相机识别猪的图片，获取科学养猪的细节指导；酿酒专业学生用其拍照识别不同葡萄品种和品质 [8] - 大学生对AI工具的使用展现出高度创造性和实用性，将其深度融入专业学习和日常生活的各个层面 [1][8] 夸克高考功能的产品定位与迭代 - 夸克高考功能被大学生广泛关注，产品经理将其定位为“AI版张雪峰”，负责提供全面信息，但最终决策权在用户手中 [10][11][12][13] - 该功能曾出现信息错漏，如错误显示四川大学风景园林专业2025年招生，后已修正为“不再招生”并给出说明，体现了产品的优化迭代 [14][15][16]

量子位· 2025-09-11 18:19

产品发布与核心特性 - 华为发布DeepDiver-V2原生多智能体系统采用团队作战模式包括一个Planner负责任务分解和进度管理多个专业Executor并行处理子任务通过共享文件系统交换信息 [1] - 系统基于多智能体形态训练具备更强的角色扮演和协同推理能力能够生成数万字的高质量深度研究报告 [2] - 该系统专攻AI深度搜索和长文调研报告生成目前已开源 [3] 性能表现与基准测试 - 在WebPuzzle-Writing基准测试中 DeepDiver-V2生成报告平均长度达24.6K tokens 是OpenAI o3 DeepResearch（10.6K tokens）的两倍多 [4] - DeepDiver-V2-38B在BrowseComp-zh测试中达到34.6分超越WebSailor-72B（30.1分）和WebSailor-32B（25.5分） [5] - DeepDiver-V2-38B在BrowseComp-en测试中达到13.4分为同规模开源模型中最高超过WebSailor-72B（12.0分） [5] - 在自动评测中 DeepDiver-V2效果与主流agent产品相当 Content Diversity指标表现优异 [4] 系统架构创新 - 采用以Planner为中心的多智能体系统架构协调多个Executor 取代V1版本的单模型超长上下文处理模式 [7] - Planner进行自适应复杂度评估构建任务树分解复杂问题并采用竞争赛马机制提高结果可靠性 [8][9] - 智能体通过共享文件系统交换精炼任务摘要和文件元数据而非完整上下文实现可扩展通信和并行执行 [11] - 系统包含专业化Executor：Information Seeker负责信息收集与验证 Writer负责长文本生成与章节构建 [12] 训练方法与技术支撑 - 采用Planner-centric分配机制解决多智能体训练中的责任归属问题 [13] - 训练流程包括冷启动监督微调拒绝采样微调（RFT）和在线RFT 使用动态轨迹缓存批处理策略 [15][16] - 训练完全使用Atlas 800I A2集群依托1000+ NPU组成的大规模计算集群通过华为高速缓存一致性系统（HCCS）互联 [17] - 开发专门强化学习框架包括Agent Factory代码库和Trajectory-wise过滤机制 [17][18] 实验发现与性能分析 - 系统性能对Executor能力极其敏感但对Planner要求相对宽松 7B Planner已能胜任大部分协调工作 [19][21] - 38B Information Seeker单独使用时在BrowseComp-zh得分26.3 超越WebSailor-32B（25.5分） [23] - 将7B Executor升级为38B后 BrowseComp-zh分数增加9分（18.3→27.3）而升级Planner仅提升6.3分（18.3→24.6） [25] - 在长文本写作任务中升级Writer带来的提升（5.51→5.80）远超升级Planner（5.51→5.56） [25] - 多智能体训练使子智能体在处理扩展任务集时更加鲁棒具备独当一面的能力 [26] 应用前景与行业影响 - 从单一模型到多智能体系统的转变为解决复杂现实问题开辟道路 [27] - 未来将在企业调研科学文献综述专业数据分析等专业领域发挥巨大作用 [27]

央企怎么做超级智能体？对谈中电信天翼AI：自研模型为底座，自主规划是必须，能适应千行百业才行

量子位· 2025-09-11 18:19

文章核心观点 - 中国电信天翼AI发布星辰超级智能体在DBC德本咨询2025企业级AI Agent榜单中位列央企第一 [1] - 智能体是当前人工智能发展的重点方向国务院首次将其列为重点发展领域 [4] - 星辰超级智能体基于全栈国产化技术具备多模态理解、复杂推理和增强记忆能力定位为深入业务架构的数字化生产力单元 [9][12][13][16] - 智能体平台能直接产出应用是大模型落地产业的主流模式和最佳模式 [8][20][65] 智能体技术架构与能力 - 星辰超级智能体支持全模态理解包括语音、视觉、文本等模态支持文生图、文生视频 [11] - 采用完全国产化技术栈包括自研底层模型、国产算力和国产框架训练 [12] - 定向增强复杂推理和记忆能力上下文可扩展到百万字级别针对办公、客服、金融、工业等场景优化 [13] - 采用四模块架构：感知与理解、认知与决策、记忆与知识、行动与执行 [27] - 通过数据加密和容器化隔离保障安全满足ToC和企业级用户安全要求 [14] 智能体发展路线与现状 - 行业存在三种智能体发展路线：自主规划智能体（全自动+简单任务）、工作流智能体（半自动+复杂任务）、超级智能体（全自动+复杂任务） [23] - 超级智能体具备动态调整能力通过虚拟机环境自主修正错误无需人工编排工作流 [25][26] - 当前超级智能体已达到70分水平能为人类提供有效帮助但执行时间可能长达几分钟至十几分钟 [8][30][32] - 能力上限取决于底层模型能力和系统嵌入程度底层模型持续迭代中 [34] 产业落地与应用场景 - 智能体落地需要嵌入企业主业系统中国电信江苏公司案例显示智能体可实现客服工单自动预处理 [36][37] - 优先落地场景包括客服、营销、办公软件和IT化程度高的行业因业务流程清晰且与大模型适配度高 [52] - 在客服网络运维领域实际应用中智能体使员工处理工单效率提升30%以上 [40] - 市场需求强烈国外资本市场和科技企业大幅投入国内推动AI+产业落地 [43] 市场竞争格局 - 市场存在四类玩家：大模型厂商、科技大厂、创业公司、央国企 [53] - 央国企优势在于内部海量落地场景、全国本地化服务团队和丰富产业经验 [54] - 中国电信2024年产业数字化收入达1466亿元与中车、中物流、国能等国企有深度合作 [56] - 星辰智能体平台采用内部开源模式允许省专公司二次开发以适应各种场景 [54] 研发背景与人才培养 - 中国电信2024年初开始布局智能体平台提前卡位新兴趋势 [22] - 专职投入大模型算法研发团队约300人与高校和科研机构合作攻关下一代技术 [59] - 获得工信部授权运营"智能体开发工程师"职业认证培训培养专业人才 [50] - 通过应用创意挑战赛和方案实现赛挖掘企业核心落地场景 [44]

智能体

Artificial Intelligence

星辰超级智能体

星辰大模型

智能体

Artificial Intelligence

星辰超级智能体

星辰大模型

攻克AI过度思考难题！美团新研究让通过“可验证”过程奖励激活LRM的高效推理

量子位· 2025-09-11 18:19

文章核心观点 - 美团等机构研究团队提出可验证的过程奖励机制（VSRM）通过奖励有效步骤和惩戒无效步骤显著减少大型语言模型（LRM）在思维链（CoT）推理中的过度思考问题在保持模型性能的同时实现输出长度的大幅缩减 [1][7][9][13][18] 过度思考问题分析 - 过度思考问题表现为模型对简单问题生成冗长输出（例如8734个token）包含大量无效推理步骤导致中间结论错误并影响最终答案准确性 [4][5][6] - 案例显示模型在计算闭区间[-500,500]内整数数量时反复修正步骤最终错误输出500（正确答案应为501）无效步骤占比超过50% [5] - 根本原因是中间步骤无法推动解题进展甚至引入错误需通过后训练机制抑制无效步骤 [6][7] VSRM机制设计原理 - 通过特殊token（例如"However"、"Therefore"）划分推理步骤结合三条规则确保步骤可读性：跳过初始重述、避免过度分割、调整句子内部token位置 [11] - 使用子轨迹正确率差值计算步骤奖励：$$\mathcal{A}_{\mathcal{T}_{i}}=\frac{1}{N}\sum_{j=i}^{N}I(\mathrm{IsCorrect}(\mathrm{LRM}(\mathcal{T}_{i})_{j}))$$ 和 $$d_{i-1}=\mathcal{A}_{i}-\mathcal{A}_{i-1}$$ [12] - 引入前瞻窗口机制解决奖励稀疏问题通过折扣因子传播未来正确率变化使奖励信号更密集：$$R_{\mathcal{T}}=[\ldots,r_{1},\ldots,r_{t},\ldots,r_{k},\ldots,r_{\mathcal{T}}^{\mathrm{result}}+r_{\mathcal{T}}^{\mathrm{format}}]$$ [13] - 机制与强化学习算法解耦可适配支持过程奖励的方法结合结果奖励和格式奖励实现高效推理 [13] 实验结果 - 在AIME24、AIME25、MATH-500等数学基准测试中 VSRM使1.5B/7B/DeepScaleR模型输出长度缩减35%-60% 同时保持或提升准确率 [14][15] - 1.5B模型在MATH-500上输出长度从4960 token降至2400 token（降幅51.6%）准确率保持82.2% [15] - 7B模型在AMC23上输出长度从6884 token降至3704 token（降幅46.2%）准确率提升1.8个百分点至80.9% [15] - 消融实验验证前瞻窗口必要性：移除后输出长度增加39%（从7065升至8638 token）显式长度惩罚会降低准确率（例如AIME25从23.0%降至20.9%） [16] 机制优势 - 从源头区分步骤有效性避免直接长度惩罚对性能的损害保持模型探索多解能力（Pass@k指标趋势一致） [13][16][18] - 适用于不同规模模型和RL算法（PPO/R++）在OlympiadBench等复杂任务中均有效 [15][18]

国产类脑大模型适配国产沐曦GPU！长序列推理提速超百倍，仅用2%数据匹敌主流模型

量子位· 2025-09-11 18:19

核心技术思路 - 提出“基于内生复杂性”的通用智能实现路径，旨在通过融合神经元内部丰富动力学特性来构建高效模型，区别于现有“基于外生复杂性”（简单神经元+大规模网络）的技术路径[7][9] - 核心创新在于借鉴大脑信息处理机制，使用具有复杂内生动态的脉冲神经元构建模型，理论上存在用小规模复杂神经元网络代替大规模简单神经元网络的可能性[5][6] - 团队在理论上建立了脉冲神经元内生动力学与线性注意力模型之间的联系，揭示现有线性注意力机制是树突计算的特殊简化形式，为性能提升提供了清晰路径[13] 模型架构与性能 - SpikingBrain-1.0包含7B和76B两个版本：7B为层间混合纯线性模型，76B为层内混合的混合线性MoE模型，分别具有线性及近线性复杂度[10][14] - 7B模型在极低训练数据量（约150B token，为主流模型的2%）下实现与主流开源Transformer模型相媲美的性能，在MMLU基准上达到65.84分[18][19] - 76B模型仅激活12B参数，在MMLU基准上达到73.58分，性能接近或优于Llama2-70B、Mixtral-8*7B等先进Transformer模型[20] 效率优势与基准测试 - 在GPU上处理1M长度序列时，TTFT速度相比主流大模型提升26.5倍，4M长度下保守估计速度提升超过100倍[2][21] - 序列长度从256k扩展到4M时，推理时间开销几乎恒定（1015ms至1073ms），而Qwen baseline在1M长度时已达27929ms且难以评测4M长度[21][22] - 在手机CPU端，压缩至1B的模型在64k-128k-256k长度下较Llama3.2的1B模型Decoding速度分别提升4.04倍-7.52倍-15.39倍[23] 技术创新点 - 构建自适应阈值神经元模型模拟生物神经元脉冲发放过程，通过虚拟时间步策略实现“电位-脉冲”转换，将整数脉冲计数重新展开为稀疏脉冲序列[12] - 动态阈值脉冲化信息编码方案可将模型中计算量占比90%以上的稠密连续值矩阵乘法替换为支持事件驱动的脉冲化算子，实现高性能与低能耗兼顾[12] - 结合网络层面MoE架构与神经元层面稀疏事件驱动计算，提供微观-宏观层面的稀疏化方案，体现按需计算的高效算力分配[13] 国产化与生态建设 - 适配了面向沐曦MetaX国产GPU集群的高效训练和推理框架、Triton算子库、模型并行策略以及集群通信原语，实现百卡规模数周稳定训练[2][13][26] - 7B模型在国产算力集群上进行8k长度训练时，MFU达到23.4%，TGS per GPU达到1558 tokens/s，展示了构建国产自主可控新型非Transformer大模型架构生态的可行性[26][28] - 团队开源了SpikingBrain-1.0-7B模型并提供76B模型的网络试用端口，支持数百人并发请求，积极推动类脑研究生态构建[27][29]

2025人工智能年度评选启动！3大维度5类奖项，正在寻找AI+时代领航者

量子位· 2025-09-11 15:43

组委会发自凹非寺量子位｜公众号 QbitAI 为了让更多从业者感受智能浪潮的跃迁，也为了给予更多同行同路人掌声与鼓舞，我们将正式启动「2025人工智能年度榜单」评选报名。这是量子位人工智能年度榜单的第8年。八年来，我们见证了技术的突破与落地，产业的融合与重塑，也见证了一批又一批推动时代前行的企业、人物与产品。在人工智能重新定义一切的时代里，智能技术已不再是单一工具，而是产业与社会协同进化的驱动力。我们期待通过这场年度评选，去发现并致敬那些真正引领变革、开拓边界的探索者与实践者。本次评选将从企业、产品、人物三大维度，设立五类奖项。欢迎企业踊跃报名！让我们共同见证年度之星，点亮未来的方向。企业榜产品榜人物榜 2025 人工智能年度焦点人物详细评选标准及报名方式如下。 2025 人工智能年度领航企业 2025 人工智能年度领航企业 2025 人工智能年度潜力创业公司 2025 人工智能年度杰出产品 2025 人工智能年度杰出解决方案将面向中国人工智能领域，评选出最具综合实力的企业，参选条件：评选标准： 2025 人工智能年度潜力创业公司聚焦于中国人 ...

人工智能

Kimi开源又放大招！20秒更新万亿参数的中间件来了

量子位· 2025-09-11 13:19

技术突破 - Kimi K2推出checkpoint-engine中间件实现万亿参数模型权重更新进入"秒更时代" [1][6] - 该中间件可在约20秒内完成在数千个GPU上对1万亿参数的更新操作 [7] - 支持两种更新模式：一次性将更新完的权重从一个节点同时发送给所有节点以及点对点动态更新 [2] 性能表现 - 在8×H800 TP8配置下 GatherMetas耗时0.17秒 Update(Broadcast)耗时3.94秒 [2] - 在16×H20 TP16配置下 GatherMetas耗时1.44秒 Update(Broadcast)耗时12.22秒 [2] - 在256×H20 TP16配置下 GatherMetas耗时1.40秒 Update(Broadcast)耗时13.88秒 [2] 系统架构 - 采用混合共置架构训练引擎和推理引擎部署在同一组工作节点上 [8] - 每个引擎都针对高吞吐量进行深度优化通过资源释放和调配实现高效协同 [9][10] - 使用参数逐条更新的流水线方式将内存占用降至最低 [19] 技术创新 - 采用三阶段流水线：H2D阶段将权重分片异步复制到缓冲区广播阶段将分片复制到IPC缓冲区并广播到所有GPU 重载阶段推理引擎从另一个IPC缓冲区加载参数 [20] - 选择将完整参数集广播到整个集群简化系统设计并降低对训练和推理引擎的侵入性 [24][25] - 通过牺牲微小开销实现训练引擎与推理引擎的完全解耦大大简化维护和测试流程 [26] 系统优化 - 优化启动时间让每个训练工作节点选择性地从磁盘读取参数并广播至对等节点确保所有节点只需集体读取一次检查点 [28][29] - 在启动阶段复用检查点引擎集体从磁盘读取检查点后更新未初始化的推理引擎状态 [31][32] - 系统可抵御单点故障某个推理副本可独立重启而无需与其他副本通信 [33]

强化学习

大语言模型

Artificial Intelligence

Kimi K2

checkpoint-engine（检查点引擎）

强化学习

大语言模型

Artificial Intelligence

Kimi K2

checkpoint-engine（检查点引擎）

81岁甲骨文创始人冲上首富！难怪马斯克念念不忘OpenAI

量子位· 2025-09-11 13:19

甲骨文股价异动 - 甲骨文股价单日一度暴涨43% 收盘上涨36% 打破多项美股涨幅纪录 [1] - 创始人拉里·埃里森身价单日增加1000亿美元总身家达3930亿美元短暂超越马斯克 [4][5] OpenAI算力采购协议 - OpenAI与甲骨文签订3000亿美元算力采购协议年均支付额600亿美元 2027年生效 [9][12] - 该协议属于OpenAI"星际之门"数据中心计划的一部分为全球最大云计算合同之一 [11][17] - 甲骨文早在6月文件中间接披露该协议称自2027年起每年将带来超300亿美元收入 [13] 协议风险与挑战 - OpenAI年度营收仅约100亿美元不足年均支付额的五分之一资金消耗速度全球罕见 [14] - OpenAI预计到2029年才能实现盈利此前累计亏损将达440亿美元 [14] - 协议可行性建立在ChatGPT用户增长和企业广泛采用的基础上 [15] - OpenAI面临人才竞争成本压力与微软谈判紧张盈利架构受监管审查 [16] 甲骨文战略投入 - 甲骨文计划在怀俄明州、宾夕法尼亚州、得克萨斯州布局新数据中心 [22] - 履行合同需4.5吉瓦电力供应能力相当于两座胡佛水坝发电量或400万户家庭年用电量 [22] - 甲骨文债务权益比达427% 远高于微软的32.7% [23] - 过去12个月经营现金流215亿美元资本支出达274亿美元投入超出现金流水平 [23] AI基础设施行业趋势 - 全球芯片、服务器及数据中心基础设施投入规模预计达2.9万亿美元（2024-2028年） [24] - 科技企业因资金承载能力不足转向债务市场融资规模扩大被比作"现代淘金热" [24]