量子位 - 财报，业绩电话会，研报，新闻

量子位

搜索文档

量子位· 2025-10-23 13:18

为了让更多从业者感受智能浪潮的跃迁，也为了给予更多同行同路人掌声与鼓舞，我们将正式启动「2025人工智能年度榜单」评选报名。本次评选将从企业、产品、人物三大维度，设立五类奖项。欢迎企业踊跃报名！让我们共同见证年度之星，点亮未来的方向。企业榜产品榜人物榜 2025 人工智能年度焦点人物组委会发自凹非寺量子位｜公众号 QbitAI 详细评选标准及报名方式如下。 2025 人工智能年度领航企业将面向中国人工智能领域，评选出最具综合实力的企业，参选条件： 2025 人工智能年度领航企业 2025 人工智能年度潜力创业公司 2025 人工智能年度杰出产品 2025 人工智能年度杰出解决方案 1、注册地在中国，或主营业务主要面向中国市场； 2、主营业务属于人工智能及相关产业，或已将人工智能广泛应用于主营业务，并在细分领域居于行业领先地位；评选标准： 2025 人工智能年度潜力创业公司聚焦于中国人工智能领域创新创业力量，将评选出最具投资价值和发展潜力的AI创业公司，参选条件：评选标准： 3、具备成熟的产品或服务，已获得实际客户应用及市场认可； 4、近一年在技术 ...

人工智能

1.3亿美元！LiblibAI拿下国内AI应用赛道年度最大融资

量子位· 2025-10-23 13:18

融资事件与行业意义 - Liblib AI完成1.3亿美元B轮融资，由红杉中国、CMC资本及一战略投资方联合领投，老股东均超额增持 [1] - 该融资是2025年迄今为止国内资本市场AI应用赛道最大的一笔融资 [2] - 此轮融资标志着AI投资热点正从底层模型转向应用层 [2] 公司业务与市场地位 - Liblib AI是中国最大的多模态模型与创作社区，平台整合了图像、视频、3D、LoRA训练等多模态能力 [5] - 公司覆盖从灵感生成、视觉设计到动态视频制作的完整AI工作流，孵化了超过2000万AI创作者 [5] - 在AI基础模型趋同背景下，公司凭借“工具集成+社区生态”的战略路径脱颖而出 [7] 产品战略与版本更新 - 平台通过模型轻量级训练与创作者激励机制，形成了独特的模型-场景-创作者共创生态 [7] - 2025年10月发布2.0版本，将“聚合工具”升级为“AI专业创作工作室”，强化视频生成能力，支持多模型生成与专业级特效模板 [7] - 新版本实现从灵感到成片的端到端体验，为AI视频制作打开了新标准 [7] 未来发展计划 - 融资完成后，Liblib AI将加速全球化布局，打造全球创作者共创的多模态内容生态 [9]

大模型推理学习新范式！ExGRPO框架：从盲目刷题到聪明复盘

量子位· 2025-10-23 13:18

核心观点 - 研究团队提出名为ExGRPO的经验管理和学习框架，旨在通过科学识别、存储、筛选和学习有价值的经验，以更稳定、快速、高效的方式优化大模型的推理能力[1] - 与传统的在线策略RLVR方法相比，ExGRPO在不同基准测试上均带来性能提升，尤其在AIME数学竞赛题等复杂任务上效果更为明显[3][4] - 该框架解决了传统强化学习中的“经验浪费”问题，通过让模型“温故而知新”，将成功经验内化为自身能力，从而提升训练效率和稳定性[7][9][37] 经验驱动训练方法的必要性 - 传统基于可验证奖励的强化学习方法存在“经验浪费”的天然缺陷，模型生成的推理轨迹仅被使用一次后即被丢弃，导致计算资源浪费和训练过程不稳定[7][8] - 学会“温故而知新”，让模型根据“错题本”内化宝贵成功经验，对训练效率和能力提升至关重要[9] - 强化学习学者指出，人类数据正在用尽，经验将是下一个能为AI带来能力提升的超级数据源和突破口[10] 高质量经验的定义与筛选 - 高质量经验的价值体现在两个关键维度：问题难度和解题路径质量[14] - 实验发现，只刷“中等难度”问题的模型最终性能提升最大，此类问题处于模型的“最近发展区”，是学习效率最高的“甜蜜点”[15][16][17][18][19] - 解题路径的质量可通过推理轨迹的Token平均熵来量化，逻辑正确的解法其熵值显著更低，低熵轨迹代表更清晰、确定的解题思路[21][22][23] - 高熵轨迹往往是幸运的猜测，反复学习可能污染模型的逻辑能力，因此筛选低熵轨迹至关重要[24] ExGRPO框架的构成与机制 - 框架包含两个核心部件：经验管理和混合经验优化[27] - 经验管理分为三步：经验收集（建立经验回放池）、经验划分与存储（按难度动态分类并设置退休机制）、经验筛选（优先选择中等难度问题和低熵轨迹）[30][31][32][33][40] - 混合策略优化目标平衡了探索新知和复习旧识，在每次训练迭代中，部分资源用于探索新问题，部分用于学习筛选出的高价值经验[34][35][36] - 该框架还引入了策略塑形机制，防止模型在复习时变得僵化，丧失创新能力[38] 实验结果与性能表现 - 在6个不同规模和架构的模型上测试，ExGRPO相对于纯在线策略方法，带来了分布内性能提升3.5个百分点和分布外性能提升7.6个百分点[39] - 对于已很强的模型，ExGRPO能带来稳定的性能增益，而标准在线方法可能导致性能下降[43] - 对于初始能力较弱的模型，ExGRPO能捕捉早期偶然的成功信号并反复利用，成功“救活”模型并稳定提升其性能，避免训练崩溃[44][51] - 框架能有效切断错误学习的路径，防止高熵经验中的逻辑瑕疵通过“滚雪球效应”根深蒂固[45][46] 行业意义与未来展望 - 有原则的经验管理将成为未来构建更强大、高效AI模型训练生态中的关键一环[48] - 该研究为模型推理能力提升提供了一套系统性的、基于经验的学习框架，标志着“经验即媒介”的AI新时代的来临[47][48] - 通过智能识别、管理和重放高价值经验，该框架显著提升了训练的效率和稳定性，为通往更强大、通用的人工智能打开了新窗口[49][50]

顶会直聘！大厂ICCV现场玩出新模式，还是鹅会玩

量子位· 2025-10-23 13:18

文章核心观点 - AI行业人才竞争加剧，大厂通过顶级学术会议直接招聘成为新趋势 [3][6] - 腾讯在ICCV 2025采取“顶会直聘”模式，将技术展示与人才招聘深度结合 [7][9][30] - 大模型时代，拥有前沿技术洞察力的人才被视为最关键的资源，是抢占未来技术竞争主动权的核心 [36][37][40] 腾讯ICCV参会策略 - 腾讯作为最高档赞助商，搭建了全场规模第二大的展台，进行重磅投入 [8][11][35] - 公司旗下核心AI业务全员出动，包括混元、微信、游戏、ARC、优图、腾讯广告等 [13] - 技术展示覆盖3D生成、视频生成、世界模型、数字人等前沿领域，共40多篇论文被大会接收 [13][21][25] 技术展示与交流 - 腾讯混元有9篇学术论文被接收，并进行了多场boothtalk分享，现场反响热烈 [13][16] - ARC Lab展示GenConstruction等成果，解决开放世界视频的深度序列生成等核心问题 [20] - 优图实验室有8篇论文入选，聚焦可变场景数字人生成技术 [21] - 公司多位技术专家频繁出现在各workshop和Oral环节，与参会者积极互动 [27][29] 人才招聘新方式 - 腾讯在展台安排多位核心业务负责人“坐班”，与参会学生直接交流技术细节和招聘机会 [7][29][30] - 交流内容具体深入，包括技术路线选择、方案优劣比较以及直接邀请投递简历 [7][8] - 线下交流有效打破信息壁垒，让海外留学生等人才更全面地了解公司业务和岗位 [33][34][35] - 原计划邀请20位同学交流，实际因人才质量高而发出了超过40份邀约 [36] 行业趋势与公司优势 - 国内大厂对AI研究投入持续加大，腾讯2025年上半年研发支出达391.6亿元人民币，一二季度同比增长分别为21%和17% [43] - 公司拥有丰富的亿级用户产品转化经验和多元业务场景构成的平台优势 [44][45] - 通过“青云计划”等顶级人才招聘计划，在待遇和资源上竞相押注 [46][47][48]

中国模型打服硅谷：Airbnb联创CEO感叹又快又好又便宜！把ChatGPT合作都拒了

量子位· 2025-10-23 11:52

中国大模型全球竞争力 - 中国大模型技术实力获得全球企业认可，爱彼迎CEO公开表示很大程度上依赖阿里巴巴的Qwen模型，认为其非常好、速度快且便宜[2] - 当AI技术红利期逐渐过去，成本、效率、稳定性等实际指标成为企业选择模型的关键因素[5] - 中国大模型在成本、效率和质量方面展现出优势，正越来越受到全球企业的认可[6][10] 阿里巴巴Qwen模型应用案例 - 爱彼迎使用Qwen等13个AI模型组成"模型矩阵"上线AI客服Agent，使依赖人工客服的用户量下降15%，平均问题解决时间从近三小时压缩至6秒[8][9] - Qwen在成本、效率和质量三重考验下表现抢眼，被评价为"又好又快又便宜"[10][11] - 开源模型允许企业自行托管并使用公司数据训练，这被认为是所有公司最终会采用的人工智能使用方式[14] Kimi K2模型性能表现 - Kimi K2开源模型在基准测试中表现优异，比GPT-5快5倍且准确率高出50%[16] - 具体测试数据显示：Kimi K2仅需2分钟运行时间且准确率超60%，而GPT-5耗时10分钟准确率不足40%，Claude Sonnet-4.5耗时8分钟准确率不足50%[17][20] - Kimi K2已获得多家知名编程和Agent应用接入，包括Cline、Cursor、Visual Studio Code等[21] DeepSeek模型技术创新 - DeepSeek R1成果获得Nature封面认证，被赞为"首个经历同行评审的大型语言模型"[22] - DeepSeek-V3.2-Exp引入新的注意力机制DeepSeek Sparse Attention，开源了更高效的GPU算子[24] - DeepSeek-OCR模型以3B规模实现指数级效能变革，在硅谷引发热议并被认为开源了谷歌Gemini的商业机密[26] 中国模型全球应用生态 - 除Qwen外，Kimi、DeepSeek、GLM等多款中国模型都在凭实力全球圈粉[7] - 中国模型以"开放"为旗帜，在全球AI竞赛中开辟出独特路径，成为真正意义上的"Open"标准[29][30] - 国外初创公司GlueAI创始人证实团队频繁使用Kimi K2，显示中国模型的国际影响力[19]

太疯狂了！Meta裁员裁到田渊栋头上，连组员一锅端

量子位· 2025-10-23 11:52

Meta AI裁员事件概述 - Meta AI研究院(FAIR)进行大规模裁员，波及资深研究科学家总监田渊栋及其领导的整个团队[1] - 此次裁员由新任首席AI官亚历山大王主导，涉及整组裁撤[6] 田渊栋的专业背景 - 拥有上海交通大学计算机系本科和硕士学位，卡内基梅隆大学机器人研究所博士学位[7] - 职业生涯始于谷歌无人驾驶汽车项目组软件工程师[8] - 2014年加入Facebook(现Meta)人工智能研究院(FAIR)，任职近十年[9] - 现任FAIR研究科学家总监，领导规模约10人的规划与推理团队[3][14] 主要技术贡献 - 2015年主导开发围棋AI"Dark Forest"，早于DeepMind的AlphaGo达到顶尖业余棋手水平[3][12] - 完成开源复现项目ELF OpenGo，仅靠单GPU就能战胜世界顶级人类选手[12] - 开发内存高效训练方法GaLore，将预训练7B模型所需内存压缩至24GB以内，实现单张消费级显卡预训练[16] - 推出快慢思考整合的Dualformer模型，使模型能动态切换简单问题直接回答和复杂问题深入推理[3][16] - 开创连续思维链(Coconut)范式，将推理轨迹压缩保留在连续隐空间中[3][16] - 2024年9月发表独作论文，从梯度动力学第一性原理揭示超参数在"顿悟"中的关键作用[15] 行业影响与市场反应 - 田渊栋被裁后，OpenAI及多家初创公司迅速在社交媒体评论区展开人才争夺[4] - 包括Dar Mehta所在公司、JimZ所在的东海岸公司以及Nuance AI等企业均公开表示招聘意向[6] - 2019年OpenAI联合创始人Ilya Sutskever曾邀请其加入共同研发语言模型，但被拒绝[13]

Meta Platforms(US:META)

人工智能

Artificial Intelligence

Artificial Intelligence

Dark Forest

Dualformer

Coconut

一个指令误导智能模型！北航等首创3D语义攻击框架，成功率暴涨119%

量子位· 2025-10-23 11:52

核心观点 - 北京航空航天大学与中关村实验室团队提出全新框架InSUR，旨在解决人工智能模型安全对齐中的语义约束对抗样本生成问题 [2] - InSUR框架基于指令不确定性约简思想，实现独立于具体任务与模型的对立样本生成，其工作已入选NeurIPS 2025 [2] - 该框架首次实现了3D语义约束对抗样本生成，为自动驾驶、具身智能等安全关键系统生成高逼真度对抗测试场景提供了新思路 [6][45] 技术框架与创新点 - InSUR框架从“采样方法”、“任务建模”、“生成器评估”三个维度突破，实现“可迁移、可适应、高效能验证”的SemanticAE生成 [9] - 针对人类指令中固有的不确定性导致的三大痛点（指称多样性、描述不完整性、边界模糊性），框架提供了相应解决方案 [8][14] - 框架整体采用扩散模型实现，并在对抗采样器、上下文编码和生成器评估上引入新机制 [11] 采样方法创新 - 设计了残差引导的对抗DDIM采样器（ResAdv-DDIM），解决扩散模型对抗采样问题 [12] - 通过“粗预测语言引导的采样过程”，提前锁定对抗优化方向，避免不同采样步骤中对抗特征优化方向反复跳跃 [12][15] - 加入L2范数约束，确保生成样本不偏离指令语义，显著提升对抗迁移能力与鲁棒性 [16][20] 任务建模突破 - 引入任务目标嵌入策略，实现更好的2D语义约束对抗样本生成，并首次实现3D语义约束对抗样本生成 [22] - 在2D生成中，通过差异化引导掩码控制扩散模型生成内容的语义引导空间分布 [23][26] - 在3D生成中，整合可微分渲染管线，包含3D高斯泼溅渲染器、可微渲染器和ResAdv-DDIM嵌入 [27][29][31] 评估体系构建 - 提供自动评估的任务构建方法，利用WordNet分类体系提升抽象层次来重新构建评估标签 [28][32] - 提出非对抗性样本生成子任务，要求生成对抗样本同时生成可被正确分类的“范例”样本 [33] - 定义相对攻击成功率和语义差异度指标，若在两个指标上都获得高分可充分证明生成器性能 [34] 实验结果 - 在2D SemanticAE上，InSUR在4种代理模型和2种任务设置中，所有目标模型至少实现1.19倍平均ASR提升和1.08倍最小ASR提升 [40] - 在3D SemanticAE生成中，InSUR方法攻击成功率达到92.2%，而非对抗性基线仅为45.1% [42] - 可视化结果表明InSUR生成的对抗样本在迁移攻击性、真实性方面展现出显著优越性 [43][44] 应用前景 - InSUR设计与具体模型和任务解耦，展现出良好可扩展性，为测试时的红队评估框架提供新思路 [45] - 可作为高质量对抗训练数据生成器，利用扩散模型生成的“困难样本”反向提升模型鲁棒性 [45] - 未来可与现有3D场景生成管线集成，应用于自动驾驶、具身智能体等安全关键系统 [45][46]

不改模型也能提升推理性能？ICLR投稿提出测试时扩展新范式OTV

量子位· 2025-10-23 08:08

文章核心观点 - 提出一种名为单token验证（OTV）的新机制，旨在不改变原始模型参数的前提下，实现对大语言模型推理过程的实时自主监控[2] - OTV通过利用模型内部的键值缓存（KV Cache）和轻量级的LoRA角色向量，使模型能够边推理边判断自身推理的正确性[8][9] - 该方法在多个模型规模和高难度数学推理数据集上的实验显示，其准确率全面领先于现有主流基线方法，并能显著降低计算开销[14][15][17] 现有主流范式的局限性 - LoRA微调虽参数高效且便于部署，但依赖详细监督数据并可能引发遗忘效应[3] - 后置验证器通过对生成结果进行质量筛选来增强可信度，但纠偏滞后且无法窥探内部推理过程[4] - RLVR（可验证奖励强化学习）节省标注成本，但流程复杂、计算代价高昂，难以普及[6] OTV机制的技术原理 - 核心是利用Transformer架构的键值缓存（KV Cache）作为完整的推理轨迹记录，捕捉模型内部动态最丰富的信息源[9] - 通过插入特殊"ToT"（Token of Truth）token，使其与整个序列的KV缓存进行注意力交互，从而回顾整条推理路径[9][11] - 内部验证器由一个LoRA实现的轻量角色向量和一个轻量回归头构成，输出0~1之间的正确性评分[9][10] OTV的训练与效率 - 训练目标以最终答案正确性为信号，为每个生成token分配启发式伪标签（正确路径得分从0.5线性增至1，错误路径递减至0）[10] - 训练流程高度并行，计算成本与传统LoRA微调相当[10] - 验证一次仅相当于模型多生成一个token的计算量，过程极其高效[9] 实验验证结果 - 在Qwen3-4B、Qwen3-8B、DAPO-Qwen-32B等模型上，使用AIME数据集测试，OTV在加权多数投票设置下稳定超越所有基线[14][15] - 具体表现为：在Qwen3-4B-Instruct-2507模型上，AIME24准确率达83.33%，AIME25达69.32%；在DAPO-Qwen-32B模型上，AIME24达70.83%，AIME25达49.58%[16] - 在高效推理设置下，OTV的"HALF 300"策略在计算量减少近90%的前提下，仍能保持最优或接近最优的准确率[17][19] OTV的优势与潜力 - 评分信号更稳定、真实且具有区分度，能清晰区分正确（红色轨迹稳定上升）与错误（绿色轨迹被压制）的推理路径[20][22][24] - 赋予模型动态控制计算开销的能力，可实时淘汰低质量路径，节省不必要的计算[17] - 未来潜力包括扩展为引入"不确定"状态的三元系统、具备安全控制潜力以终止高风险路径生成，以及推广至不同架构模型[25][26]

大语言模型推理性能提升

单Token验证（OTV）

并行思考（Parallel Thinking）

可验证奖励强化学习（RLVR）

Artificial Intelligence

单Token验证（OTV）框架

大语言模型推理性能提升

单Token验证（OTV）

并行思考（Parallel Thinking）

可验证奖励强化学习（RLVR）

Artificial Intelligence

单Token验证（OTV）框架

Meta AI大裁600人，亚历山大王操刀重点砍向LeCun团队

量子位· 2025-10-23 08:08

公司重组与裁员 - Meta AI部门进行大规模重组，计划从超级智能实验室裁掉600名员工[1] - 由新任首席AI官亚历山大王操刀，旨在解决部门过于官僚化的问题，以创建更敏捷的运营模式[5] - 裁员涉及FAIR实验室、AI产品部门和基础设施部门，而新成立的TBD Lab则毫发无损且仍在招人[1][2] 组织架构与战略调整 - 公司成立新组织TBD Lab，该部门不仅未受裁员影响，还从Thinking Machines和OpenAI等公司积极招募人才[2] - 从2023年初至近期，Llama 2、3和4项目由GenAI组织负责，现已移交至TBD Lab管理[12] - 公司实施新政策，要求FAIR实验室对外发表论文前必须经过TBD Lab审核，若论文价值大则需优先推动成果在产品中落地[9] 关键人物动态与观点 - 公司CEO对AI进展感到焦虑，担心近期未有突破或性能改进[8] - 新任首席AI官对公司的模型训练、计算计划和产品构建表示兴奋，并对迈向超级智能的道路充满信心[8] - FAIR首席科学家Yann LeCun澄清自己与Llama项目无关，仅间接参与Llama-1并推动Llama-2开源，其工作重点在于下一代超越大语言模型的AI系统[12] - 新论文审核政策对坚持学术自由的LeCun造成冲击，有消息称其可能因此辞去FAIR首席科学家职务[9][10]

Meta Platforms(US:META)

超级智能

Artificial Intelligence

Llama

超级智能

Artificial Intelligence

Llama

用激光给芯片散热，摩尔定律天花板盖不住了

量子位· 2025-10-23 08:08

文章核心观点 - 初创公司Maxwell Labs提出了一种革命性的芯片散热技术——光子冷却，该技术利用激光和反斯托克斯荧光原理，将芯片热点处的热能直接转化为光能并移除，从而实现对芯片的精准高效冷却[4][5] - 该技术相比传统风冷、液冷具有显著优势，包括更高的散热功率密度、精准定位热点、有望解决暗硅问题、提升时钟频率、助力3D芯片堆叠散热以及回收废能，预计将在2027年后开始在高性能计算和人工智能领域落地应用[5][7][27][33][34] 光子冷却技术原理 - 技术基础基于**反斯托克斯冷却**物理现象：使用特定波长的激光照射特殊材料，材料吸收低能光子并结合晶格振动（声子）后，发射出更高能量的光子，在此过程中材料自身温度降低[9] - 实现冷却的关键在于确保发射出的高能光（荧光）能迅速逸出材料，避免被重新吸收导致温度回升[10] - Maxwell Labs将这一原理集成到**薄膜芯片级光子冷板**上，该冷板尺寸约为一平方毫米，平铺于芯片基板顶部，用于实现局部热点的光子冷却[11][14] 光子冷板系统构成 - **耦合器**：透镜组件，负责将入射激光聚焦到微制冷区域，并将载热荧光引导出芯片[14] - **微制冷区域**：实际发生反斯托克斯冷却的部位[14] - **背反射器**：防止入射激光和荧光直接照射到CPU或GPU[14] - **传感器**：检测热点的形成，协助将激光引导至热点[14] - 系统工作流程：外部热像仪感应芯片热点，触发激光照射热点旁的光子冷板，激发荧光过程并提取热量[14] - 研究人员正通过多物理场仿真和逆向设计工具优化参数，目标是将冷却功率密度再提高两个数量级[16] 芯片散热行业背景与现有方案 - 芯片散热需求紧迫，源于晶体管密度和功率密度持续上升，过热会严重影响性能、可靠性与寿命[17][18] - 行业现有解决方案主要围绕两个方向：**加快热量导出**与**减少热量产生**[19] - **加快热量导出**：采用高导热材料（如单晶SiC、金刚石）、设计内部热通道增加散热面积[19] - **减少热量产生**：采用动态电压频率调节、功率门控、低功耗设计等技术[19] - 主要厂商动态： - **英特尔**：升级封装技术，采用带垂直通道的连接降低热产出，设计分段式集成热扩散器改善热导出效果[21] - **AMD**：针对嵌入式器件优化热界面材料，建议采用无金属封盖以最小化热阻[21] - **英伟达**：强调系统级液体冷却（如直触芯片/硅片冷却）及散热封装架构设计[23] - **台积电**：聚焦于热界面材料和硅集成微流控等封装解决方案[23] - **微软**：测试将微流体通道直接蚀刻到硅上的冷却系统，测试中可将GPU升温降低65%[24][25] 光子冷却技术的优势与潜在影响 - **散热效率更高**：初代实验装置的散热功率已比空气及液态冷却系统高两倍以上[27] - **解决暗硅问题**：可及时去除热点热量，允许芯片上更多晶体管同时全速运行，预计可激活目前因散热限制而必须关闭的80%芯片单元[27][28] - **提升时钟频率**：可将芯片温度持续保持在50°C以下（传统方式为90-120°C），低温环境有助于实现更高时钟频率，在不增加晶体管密度的情况下提升性能[29][30] - **助力3D芯片集成**：精准的局部冷却能力使得为3D堆栈的每一层添加光子冷板控温成为可能，简化3D芯片的热管理设计[31] - **降低系统能耗**：与空气冷却结合时，可使芯片总体能耗降低50%甚至更多[32] - **回收废能**：通过收集荧光并利用热光伏技术转化为电能，可实现高达60%的能量回收[33] - **应用前景**： - 预计2027年该技术将在高性能计算和人工智能集群中投入实用，使每瓦冷却性能提升一个数量级[33] - 2028至2030年，或完成主流计算中心部署，届时有望将IT能耗降低40%，同时计算能力翻倍，随后推广至边缘计算[34]