机器之心 - 财报，业绩电话会，研报，新闻

机器之心

搜索文档

机器之心· 2026-03-10 15:23

AMI Labs公司概况 - 公司全称为先进机器智能实验室，由图灵奖得主Yann LeCun牵头创办，于2026年1月在巴黎正式启动[1][6] - 公司完成了10.3亿美元的种子轮融资，估值达到35亿美元，融资额超过最初寻求的5亿欧元，最终筹集约8.9亿欧元[1][4][19] - 公司初始团队约12人，全球分布四个地点：巴黎、纽约、蒙特利尔和新加坡，有意发掘硅谷以外的人才[13] 公司核心技术与愿景 - 核心目标是构建一种新型AI系统，该系统能理解世界、拥有持久记忆、能够推理和规划，并且是可控和安全的[4][14] - 技术路线是开发“世界模型”系统，让模型学会将现实世界数据压缩成抽象表示，忽略随机细节，在“表示空间”进行预测和规划[11] - 判断当前AI从语言开始存在局限，真正的智能应从“世界”开始，以处理来自摄像头和传感器的高维、连续、充满噪声的真实世界数据[11] - 技术基础基于Yann LeCun在2022年提出的联合嵌入预测架构[17] 团队核心成员 - 执行董事长为图灵奖得主、前Meta AI负责人Yann LeCun[1][6] - 首席执行官Alexandre LeBrun同时也是医疗AI独角兽Nabla的CEO，并强调公司从基础研究开始，产品化需要时间[17] - 首席科学官为顶尖青年华人科学家谢赛宁，其Google Scholar文献被引用次数达9.8万，h-index为50，其关于Diffusion Transformers的工作是OpenAI Sora的基石[20][21][24][25] - 其他高管包括Meta欧洲副总裁Laurent Solly任首席运营官，Pascale Fung任首席研究与创新官，Michael Rabbat任世界模型副总裁[19] 市场定位与竞争格局 - 公司定位为前沿AI研究实验室，并非传统的实验室或典型的AI应用初创公司[2][3][17] - 2026年AI圈迎来世界模型的“终极对决”，此前李飞飞的World Labs获得了10亿美元融资，欧洲初创公司SpAItial也筹集了1300万美元天使轮融资[6][18] - 公司高管预测世界模型将成为下一个热门词汇，并认为六个月后每家公司都会自称世界模型以筹集资金[17] 应用场景与发展规划 - 目标应用领域包括对可靠性、安全性和可控性要求很高的场景，如工业过程控制、自动化系统、可穿戴设备、机器人以及医疗[12] - 首个合作伙伴将是医疗AI独角兽Nabla[17] - 公司预计在推出首个实际应用前，至少需要一年的研究时间，从理论到商业应用可能需要数年[17]

世界模型（world model）

联合嵌入预测架构（JEPA）

大型语言模型（LLMs）

Artificial Intelligence

Artificial Intelligence

world model（世界模型）

正交化之外是什么？微软等提出ARO优化器：训练提速1/3，揭示矩阵优化新「蓝海」

机器之心· 2026-03-10 09:32

文章核心观点 - 微软研究院等机构提出了一种名为ARO（自适应旋转优化）的全新矩阵优化框架，该框架将“梯度旋转”作为第一原则，超越了以Muon为代表的正交化方法，在大语言模型训练中实现了显著且稳定的效率提升 [1][5] - ARO框架不仅统一了现有主流矩阵优化器（如Muon、SOAP、SPlus、Galore），将其视为在特定旋转坐标系下使用Adam的特例，更通过理论分析揭示了其有效性可能源于对大模型架构中固有对称性的利用 [4][5][20] - 通过严格的大规模实验验证，ARO在最高达80亿参数、多倍过训练的场景下，相比基准优化器AdamW实现了约1.3至1.35倍的训练加速，相比正交化方法（如Muon）实现了约1.1至1.15倍的加速，且额外计算开销控制在3%以内 [5][14] - ARO的对称性视角挑战了当前矩阵优化器“分而治之”的设计理念，使其能够统一优化包括嵌入层和输出层在内的全模型参数，并在后期训练中展现出优势，同时为跨层参数耦合优化等新设计提供了思路 [15][17][22][24] 方法论创新：从正交化到自适应旋转优化 (ARO) - 论文将Muon、SOAP等现有矩阵优化方法统一抽象为“在旋转后的坐标系中使用Adam或其变体进行优化”的框架，其共同点是使用梯度内积矩阵的特征向量作为固定的旋转矩阵 [4] - 研究团队提出ARO框架，其核心创新在于将“梯度旋转”本身作为优化目标，动态地寻找一个旋转矩阵R，使得在该旋转下，基座优化器（如Adam）的更新能最大化训练损失的下降速率 [5][7] - ARO的更新规则是主动寻找能让当前优化器发挥更好的旋转角度，其更新方向相比传统特征旋转方法，能带来更优且持续存在的瞬时损失下降率 [7][8] - 该框架具有普适性，在多种基座优化器下均能带来提升，表明梯度旋转是一个关键且独立的设计维度 [12] 实验验证与性能表现 - 为确保结论可靠且可迁移至真实训练场景，论文制定了严格的实验准则，包括采用大批次（最高1400万）、长序列（最高4K）、大模型规模（最高80亿参数）和多倍过训练（最高8倍） [10] - 在小规模验证（1亿至15亿参数）中，ARO的旋转策略相比无旋转和传统特征旋转版本均表现更优，且优于AdamW和正交化方法 [12] - 在规模化实验中，ARO在从3亿至80亿激活参数的稠密和MoE模型上，对AdamW保持稳定的1.3至1.35倍加速，对Muon等正交化方法保持1.1至1.15倍加速，且加速比在更大规模、更长训练周期下未见衰减 [14] - 通过工程优化，ARO在大规模分布式训练中的额外时间开销相比AdamW被控制在3%以内 [5][14] 理论诠释：对称性假设与全模型优化 - 论文提出“对称性假设”，认为现有矩阵优化器的有效性可能源于无意中利用了神经网络损失景观中的参数对称性，例如Transformer中存在的残差流对称性 [19][20] - 从对称性视角看，ARO在理论上等价于非欧几何下的“对称瞬移”算法，即在不改变损失的前提下，将参数移动到对称群轨道中更利于优化的位置 [19] - 理论分析表明，传统对称瞬移（追求最大瞬时速率）和特征旋转（追求最大稳定性）是两个极端，而ARO采取了一种温和的部分提升策略，在收敛效率与鲁棒性之间取得了更好的权衡 [20] - 对称性视角自然地将嵌入层和输出层纳入优化范围，这解释了ARO能够成功应用于全模型参数优化的原因，实验结果也显示，在训练后期（3-4倍过训练后），全模型ARO的效果优于仅优化隐藏层的混合模式 [15][17][22] 衍生影响与未来方向 - 对称性关系揭示了跨层、跨模块参数之间的耦合约束，为经济地利用跨层相关性提供了新途径，例如将受同一段残差流支配的矩阵绑定同一个旋转 [24] - 初步小规模实验表明，这种跨层绑定旋转的设计（如链式耦合）不仅能降低计算开销，还能进一步优化性能，在NanoGPT和NanoChat模型上取得了更低的损失值 [24][25] - ARO的研究方向预示着矩阵优化可能走向“全模型耦合优化”，未来优化器的设计或许需要与模型架构本身更紧密地结合 [27]

1美元Token撬动4800美元收益！AI挑战百万美元级基准，最赚钱的Agent出现了

机器之心· 2026-03-10 09:32

文章核心观点 - 行业推出了一个名为 $OneMillion-Bench 的新型AI评测基准，该基准通过量化“人类专家的时间与成本”来为任务定价，旨在衡量AI模型在真实、高经济价值专业任务中能交付多少“可兑现价值” [1] - 当前最先进的AI模型在总价值超过100万美元的专业任务上，能交付约48.3万美元的经济价值，而其完成任务的API成本仅约100美元，表明AI已具备在高端专业领域创造可观经济价值的能力 [1][17] - 尽管AI已能创造显著价值，但基于“通过率”这一更严格的“上岗”标准，即使顶级模型也仅有不到45%的任务能达到可交付质量，距离稳定、可托付的专业级应用仍有差距 [19][20][21] 基准设计与构建 - **核心理念与目标**：基准旨在解决现有评测集缺乏实际经济价值衡量、区分度不足等问题，构建了一套兼备高经济价值、高区分度、可自动评测的基准，以推动大模型能力边界的拓展与经济价值的落地 [3][4] - **任务规模与构成**：基准包含400道高难度题目（200英文+200中文），覆盖金融、法律、医疗、自然科学与工业五大领域下的92个三级细分领域，每道题均为真实行业场景下的开放专家任务 [4][8] - **价值量化方法**：通过“任务经济价值 = 资深专家完成该任务的耗时 × 专家时薪”的公式为每道题定价，专家时薪锚定官方或行业权威数据，任务耗时由多领域专家共同评估，所有任务总经济价值超过100万美元 [8] - **五大领域价值分布**：根据表格数据，五大领域（金融、法律、医疗、自然科学、工业）的中文（CN）和全球（Global）子集任务总价值分别为921,832美元和1,008,370美元，其中医疗领域的全球子集任务平均价值最高，达8,188.9美元 [9] 基准的关键设计特点 - **高真实性任务设计**：邀请一线资深专家将真实工作流拆解为细颗粒度考点，每道题设计15–35个考点，累计7000+考点，覆盖5–15年经验从业者的典型任务，考验专家级决策能力 [12] - **非对称负分机制**：采用+10 ~ -20的非对称考点分值，对正向能力给分更克制，对明确或致命错误惩罚更重，以更接近真实使用体感，避免模型通过堆砌内容获得虚高分数 [13] - **地域化场景覆盖**：设置CN（中文）和Global（英文）两大子集，题目本地化，还原真实的法规、流程与业务语境，以精准刻画模型在特定地域业务场景中的能力差异 [14] - **高质量数据生产流程**：采用3-4名专家协作的Pipeline，包含对抗性评审与仲裁机制，专家平均整体通过率低于5%，题目最终质检通过率为38.1%，并通过双向截断策略控制难度 [15] 主要模型表现与分析 - **头部模型经济价值产出**：在总价值超100万美元的任务上，表现最佳的Claude Opus 4.6 Web Search模型可产出483,810美元的经济价值，通过率为43.5% [17][18] - **模型梯队分布**：GPT 5.4 Web Search、Gemini 3 Pro Preview等模型处于第二梯队，通过率在28.5%-38.0%之间，可产出经济价值在26.3万至36.5万美元区间 [18] - **“通过率”揭示交付差距**：引入“单题得分≥70%才算通过”的通过率指标后，即使排名第一的模型通过率也骤降至43.5%，第二梯队多在25%-30%区间，表明目前没有模型能在超过一半的任务中稳定达到可交付标准 [19][20] - **网络搜索工具的影响**：Web Search工具能显著补齐事实性信息，尤其在需要时效性的领域，但也会引入噪声和“看似权威的错误来源”，下一阶段的竞争关键在于“会不会搜索”，包括选源、交叉验证、证据链整合及抗噪声能力 [22] - **复杂推理与细节执行的瓶颈**：模型在需要深层理解、多步演绎或巨大可能空间探索的任务中，仍会出现深度不足、准确性波动和跳步问题，且容易给出方向正确但缺乏可执行细节的回复，这在真实落地中杀伤力很大 [23] 行业意义与未来展望 - **量化“数字员工”能力边界**：该基准的意义在于将AI“数字员工”的能力边界量化出来，明确回答今天和未来可以放心将哪些工作交给AI [26] - **行业阶段转变**：行业视角已从将AI视为“大玩具”转变为认识到其能交付数十万美元级别的专业价值，下一阶段竞争的关键是提升价值的稳定性、可复核性与可控性，将智能的边际提升直接转化为生产力和收入 [25]

Artificial Intelligence

AI Agent

Model Evaluation

Artificial Intelligence

$OneMillion - Bench

Claude Opus 4.6 Web Search

Artificial Intelligence

AI Agent

Model Evaluation

Artificial Intelligence

$OneMillion - Bench

Claude Opus 4.6 Web Search

第一次，人类「上传」了一个大脑，并让它在虚拟世界活了起来

机器之心· 2026-03-09 17:48

文章核心观点 - 硅谷公司Eon Systems通过“具身化全脑仿真”技术，成功复制了果蝇大脑并使其控制虚拟身体，展现出爬行、梳理和觅食等自然行为，这为通过复制生物大脑结构而非训练AI策略来实现智能提供了早期验证[2][7][24] - 该公司的长期愿景是实现人类意识上传（数字永生）和通用人工智能，其技术路径是从简单生物（如果蝇）开始，逐步向更复杂生物（如小鼠、人类）的大脑仿真推进，并提出了乐观的时间表[10][29][32][43] 技术原理与实现 - **全脑仿真的核心步骤**：首先需要高分辨率扫描以获取大脑的完整“神经线路图”，Eon Systems团队基于包含12.5万多个神经元和约5000万条突触连接的果蝇大脑计算模型，通过机器学习预测神经递质类型，从而创建出可运行的“数字大脑”[19][22] - **实现具身智能的关键闭环**：将数字大脑接入物理模拟环境（使用MuJoCo引擎）和虚拟身体（基于NeuroMechFly模型），形成“感知输入-神经活动-运动输出”的完整闭环，使得虚拟果蝇能自主产生行为而非通过预编程或强化学习[24] - **技术的质变意义**：该研究首次将基于真实生物连接组重建的完整大脑与物理身体模拟结合，并产生多种自然行为，与此前仅研究大脑网络或使用AI策略控制模拟身体的研究路线形成区别[25][26][28] 公司愿景与发展路径 - **终极目标**：公司旨在通过“具身化全脑仿真”实现AGI，并认为将人类意识上传至数字世界是比创建外来超级AI更安全的超级智能发展道路，可解决控制权问题并让普通人参与[10] - **发展路线图**：果蝇大脑仿真是第一步，下一步目标是拥有约7000万个神经元的小鼠大脑（是果蝇的560倍），最终目标是人类大脑，其可行性被视为一个规模扩展问题而非原理问题[29][30] - **数字永生与星际未来**：公司将全脑仿真视为“心智上传”的早期验证，描绘了将人类记忆和意识迁移至数字或机器人载体以实现“数字永生”的愿景，并认为这可能是人类走向星际的方式[32][33][45] 技术挑战与潜在方案 - **结构复制挑战与成本**：完整复制大脑结构需要高分辨率扫描神经元连接，传统电子显微镜扫描人脑的成本可能高达10万亿美元，公司认为“膨胀显微技术”有望将扫描成本降至10万美元级别[36] - **功能模拟挑战与方案**：模拟神经元工作方式需要理解其复杂的放电和信号传递规律，公司计划通过记录大量真实神经活动（如几万小时的钙成像和电压成像录像），并利用AI模型学习预测神经信号的传播规律[38] 行业影响与专家观点 - **研究引发轰动**：该成果在社交媒体上获得包括Anthropic AI研究员在内的专家转发和点赞，被认为是首次通过模拟生物体本质而非其行为来重新创造生物体[11] - **开辟AGI新思路**：该研究与Cortical Labs让培养皿中人脑细胞玩电子游戏的研究一同，被视为从生物学角度探索智能、为实现AGI开辟了新的技术路径[13]

全脑仿真

心智上传

AGI

Artificial Intelligence

Artificial Intelligence

数字果蝇大脑

觉都不睡了！龙虾又上新：OpenClaw 3.8来袭

机器之心· 2026-03-09 17:48

公司产品更新动态 - 公司产品OpenClaw在极短时间内连续发布新版本，从3.7版本发布到3.8-beta.1版本释出仅间隔一晚，显示出极高的开发迭代速度 [1] - 此次3.8版本的核心使命是在3.7版本进行庞大底层重构后，针对真实部署环境出现的“退化Bug”进行维稳和修复 [6] 新增功能与特性 - 新增了ACP来源功能，使Agent能更好地识别与其交互的用户或系统 [3] - 新增了openclaw备份功能，为YOLO部署提供安全保障，确保在高风险环境下具备回滚和恢复机制 [3] - 解决了Telegram中的假冒问题，提升了安全性 [3] - 在CLI中正式引入了openclaw backup create和openclaw backup verify命令，支持更灵活地创建本地状态归档，并在破坏性操作前提供更完善的验证和引导保护 [8] - 新增了talk.silenceTimeoutMs全局配置项，允许Talk语音模式在自动发送语音转录文本前，等待一段用户可自定义的静默时间，提升交互自然度 [9] - 针对openai-codex/gpt-5.4模型，系统已更新至支持高达1,050,000 Token的超大上下文窗口 [11] - 在Brave Web搜索中新增了tools.web.search.brave.mode: "llm-context"选项，允许系统直接调用Brave的LLM Context端点以获取高质量提取片段 [11] - 优化了Web搜索提供商的排序逻辑，在多键自动检测时会优先考虑Grok，其次是Kimi [11] 安全与稳定性提升 - 新版本修复了12个以上的安全漏洞 [3] - 系统现在会严格绑定并验证授权的bun和deno run脚本，防止脚本在执行前被恶意篡改 [10] - 浏览器端加强了SSRF防护，直接拦截私有网络的中间重定向跳跃 [10] - 修复了MS Teams权限管控中路由白名单可能导致组策略意外放宽的问题 [10] 平台专项优化 - 在macOS端，Onboarding流程中新增了远程网关Token字段，修复了Launchd重启服务卡死的问题，并针对深浅色终端背景增加了WCAG AA级别的自适应主题 [11] - 在Android端，为符合Play商店分发政策，移除了自更新、后台定位、屏幕录制和后台麦克风捕获等敏感权限，并将前台服务严格限制为数据同步 [11]

从训练到推理的「瘦身」演进：首篇高效扩散语言模型（dLLM）深度综述

机器之心· 2026-03-09 17:48

文章核心观点 - 扩散语言模型（dLLM）作为一种非自回归范式，通过迭代去噪优化文本序列，具备双向上下文建模和并行更新多个Token的潜力，有望在生成速度与可控性上超越自回归（AR）模型[2] - 然而，dLLM在实际落地前面临训练成本高、推理步骤繁琐、KV Cache难以复用等关键效率瓶颈[3] - 一篇由自动化所、香港中文大学与香港大学等机构撰写的综述论文系统梳理了高效dLLM的研究进展，从训练、推理、上下文及系统框架等维度拆解了其跨越效率瓶颈的技术路径[3] - 随着KV Cache管理、并行解码等技术的成熟，dLLM正从学术探索走向工业应用，未来有望在高质量、高可控性生成场景中成为AR模型强有力的竞争者或互补者[25] 一、训练效率 - dLLM若从头训练，数据需求大且算力消耗惊人，因此“借力”现有预训练模型成为关键[7] - 训练侧提效策略主要归纳为“从AR到dLLM的迁移”与“架构优化”[8] - 迁移策略包括利用AR模型权重，通过调整注意力掩码或引入过渡微调阶段，将AR模型能力“蒸馏”或“转换”至扩散模型，如DiffuLLaMA和Dream等工作[9] - 块扩散（Block Diffusion）是一种折中方案，保留块间的自回归串行结构，但在块内部进行并行扩散，在保留AR预训练优势的同时显著降低适应成本[9] - 架构优化方面，E2D2采用编码器-解码器架构，让编码器处理清晰输入，解码器专注去噪，从而复用特征并降低训练成本[9] - MoE（混合专家）架构也被引入dLLM（如LLaDA-MoE），通过稀疏激活在保持模型容量的同时减少推理时的参数计算量[9] 二、推理加速 - 推理速度是dLLM能否落地的核心痛点，其多步迭代特性可能导致无法接受的延迟[11] - 推理加速主要分为“并行解码”和“压缩技术”两大类[11] - 并行解码是dLLM的核心优势，可以一次性更新多个Token[14] - 压缩技术方面，量化是重要手段，但dLLM对异常值和时间步高度敏感[14] - QDLM和Quant-dLLM等工作针对扩散过程的激活分布特点，设计了细粒度的量化方案，甚至实现了2-bit的极低比特量化[14] 三、KV Cache管理 - dLLM与AR模型在KV Cache管理上存在根本差异：在dLLM中，整个序列在每一步去噪中都在变化，双向注意力机制导致所有Token互相依赖，使得标准的KV Cache失效[16] - 应对策略包括架构范式调整、自适应刷新、稀疏化与驱逐等[18][20] - 架构范式调整采用Block Diffusion或DualCache设计，将序列分为“固定的前缀”和“动态的后缀”，只对变化部分进行重计算[18] - 自适应刷新策略利用Token的稳定性，若某Token特征在两步间变化很小（基于相似度阈值），则直接复用上一轮Cache，否则才更新，代表工作有dKV-Cache和d²Cache[18] - 稀疏化与驱逐策略通过注意力显著性判断哪些Token对当前生成最关键，动态驱逐不重要的KV对，从而在有限显存下支持更长的序列[20] 四、投机解码 - 投机解码在dLLM中呈现两种独特形态：dLLM-only自我投机与dLLM-AR协同[22] - dLLM-only自我投机指模型自己预测未来的中间状态，或利用“Jump-Share”机制在迭代中跳过某些去噪步骤并共享计算结果[26] - dLLM-AR协同结合AR和dLLM的长处，一种思路是用小AR模型辅助dLLM判断采样联合概率；另一种是用dLLM快速生成草稿，再由大参数的AR模型进行验证，这种“Diffusion-as-Drafter”模式正成为提升AR模型整体吞吐量的新热点[26] 五、总结与展望 - 除了算法优化，论文还探讨了上下文扩展和系统框架，目前如SGLang等主流推理引擎已开始初步支持dLLM，但其生态系统相比vLLM对AR模型的极致优化仍处于“基建”阶段[23] - 未来方向之一是建立统一的评测标准，目前效率对比基于不同假设，急需建立涵盖训练成本、显存占用、端到端延迟的统一Benchmark[24] - 未来方向之二是硬件感知的内核优化，目前加速多停留在算法层，缺乏类似FlashAttention的底层CUDA Kernel优化，限制了理论加速比向实际墙钟时间的转化[24] - 未来方向之三是多模态融合，dLLM天然适合多模态任务，如何在多模态场景下实现统一的高效推理将是下一个爆发点[25]

AI 下半场，LLM Benchmark 要补全什么？

机器之心· 2026-03-09 11:58

文章核心观点当前，大型语言模型评测的通用榜单和基准正面临区分度下降、评审标准波动和数据污染等问题，导致其有效性和公信力受到挑战[1]。行业对评测体系本身的可靠性和长期有效性关注度提升，研究重心正从单纯的“刷分”转向探索更科学、更贴近真实应用场景的评估范式[1][4]。 LLM Benchmark「又」不够用了？ - 大模型评测平台Arena于2026年1月完成1.5亿美元融资，投后估值约17亿美元，计划将资金用于扩充计算资源、招聘工程师并推出企业级评估服务[5]。投资者认为，一旦成为事实上的基准层，产品化将是自然演进[5]。 - 针对Arena融资，行业观点出现分歧：一方面认为其已成为“比较模型体验的公共层”，融资有助于产品化；另一方面则担忧商业化可能影响其评估的客观性，使其偏向“更讨喜的表达风格”而削弱公信力[5]。 - 业界对Arena等基于人类偏好的成对评估机制提出质疑，认为其评估标准过于主观、易被操纵且偏向资源雄厚的公司，缺乏科学严谨性，不足以评估LLM的真实能力[5]。 - 在LLM能力快速迭代的背景下，业界普遍认为评估体系变得比训练更重要，竞争核心正从“解决问题”转向“定义问题”[6]。 - 现有Benchmark体系存在评测任务与真实使用场景脱节、测试过程缺乏统一规范、易受人为操作影响等问题，且公开题库在高分段的区分度持续下降[6]。例如，有观点指出模型优化目标向“刷分”偏移，导致榜单表现与用户真实体验严重脱节[6]；另有观点指出测试存在训练污染、方法口径不统一等问题[6]；到去年年末，顶尖模型在AIME等高难度数学评测上得分已进入极高区间，数据污染风险令测试区分度进一步下降[6]。 LLM Benchmark 的研究重心有何转变？ - 随着LLM能力的发展，相应Benchmark的数量在增加，评估范式正从单任务走向多任务、多领域，并逐步覆盖更复杂、更应用导向的评估场景[7]。

AI评估体系

Artificial Intelligence

LLM Benchmark

Arena

AI评估体系

Artificial Intelligence

LLM Benchmark

Arena

3B打32B？海外病毒式传播的小模型，竟然来自BOSS直聘

机器之心· 2026-03-09 11:58

行业趋势：大模型军备竞赛与“小模型”的兴起 - 大模型行业正经历激烈的“军备竞赛”，开源与闭源阵营都在疯狂追求更大的参数量和算力，模型规模已膨胀至“近乎离谱”的程度 [1] - 过去GPT-2仅有约1.5B参数，如今GPT-4的参数规模估计已达万亿水平，GPT-5预计更大，而2026年发布的开源模型如Kimi K2.5和Ling 2.5也已达到万亿参数规模 [1][2] - 然而，“模型大就一定强”的定律正在动摇，一个仅3B参数的小模型在“50米洗车”等复杂推理问题上，表现超越了万亿级参数的大模型，凸显了模型能力与参数规模并非绝对正相关 [5][7] 核心案例：Nanbeige4.1-3B模型的突破性表现 - BOSS直聘南北阁实验室发布的Nanbeige4.1-3B模型，以仅3B的参数量，实现了通用问答、复杂推理、代码编写和深度搜索等综合能力，挑战了“小模型难通用”的刻板印象 [10][19][21] - 该模型在多项评测中显著超越同规模开源模型（如Qwen3-4B、Qwen3-8B），并在综合指标上超越了参数量大10倍的Qwen3-32B与Qwen3-30B-A3B模型 [11] - 即使与发布时间更晚、参数接近的Qwen3.5-4B模型对比，Nanbeige4.1-3B在六大核心指标上依然整体领先，展现了稳健的技术优势 [14] - 模型发布后迅速获得社区关注，登上HuggingFace文本模型趋势榜第一，并一度冲进全球模型总榜前三 [14] 技术解析：实现“小而全”的关键方法 - 研究团队采用了分阶段、分领域的优化策略，在有限的3B参数规模内系统性地整合了多项能力，并保持了各领域间的能力平衡 [21][22] - **通用能力优化**：调整了指令数据的结构比例，提高代码类样本、数学难题和复杂推理任务的占比，以强化小模型对深层逻辑的建模能力 [23] - **上下文长度扩展**：采用三阶段课程学习（32K → 64K → 256K），渐进式地让模型适应更长的依赖关系，稳定学习长距离注意力结构 [24] - **回复质量提升**：通过引入Solution Refinement（解答迭代优化）与CoT Reconstruction（思维链重构）框架，减少推理中的逻辑跳步和不连贯问题，提升思维链的忠实度和一致性 [26][27][30] 训练机制：创新的强化学习(RL)策略 - 团队创新性地将RL拆分为两个阶段：Point-wise RL和Pair-wise RL [33] - **Point-wise RL**：引入通用奖励模型对单条回答质量评分，显著降低了冗长、重复与格式错误，将LiveCodeBench-v6的格式错误率从5.27%降至0.38% [34][35] - **Pair-wise RL**：让模型与其他模型进行PK，由Pair-wise奖励模型判断回答优劣，使模型在竞争环境中迭代提升，不仅提升了Arena-Hard V2等对抗评测成绩，也对Multi-Challenge等单点评分任务带来明显收益 [35][36] 专项能力：编码与深度搜索的深度优化 - **编码能力**：采用两阶段RL策略，并设计了“门控时间复杂度奖励”机制，即时间奖励仅在解答通过所有测试用例（正确率100%）时才会被激活，确保模型先追求正确性，再优化效率 [38][39] - **深度搜索能力**：通过构建大规模、结构复杂的搜索数据集，并引入“轮次级质量控制”机制，对每一轮搜索交互的推理逻辑、工具调用和信息增益进行独立评估，训练模型形成稳定的“检索-判断-再检索”循环结构 [45][46][48] - 在深度搜索基准测试中，Nanbeige4.1-3B在xBench-DeepSearch-2505上达到75分，在GAIA (text-only)上达到69.90分，成绩接近专为搜索打造的AgentCPM-Explore-4B模型 [54][55] 性能验证：全面的基准测试与实战检验 - 在综合基准测试中，Nanbeige4.1-3B在多数测试上超越了参数规模10倍以上的模型，并在与Qwen3-Next-80B-A3B等超大模型的对比中保持竞争力，各项指标互有胜负 [50][53] - 在代码领域，其LCB-V6得分达76.9，远超Qwen3-32B的57.4；在数学领域，AIME 2025得分达90.83，优于Qwen3-30B-A3B的87.8 [51] - 在模型发布后举办的真实任务竞赛中（如LeetCode周赛和HMMT数学竞赛），Nanbeige4.1-3B的表现不仅显著优于Qwen3.5-4B，甚至超过了参数量更大的Qwen3.5-9B，有力证明了其极强的泛化与推理能力 [56][57][58] 行业影响与未来展望 - Nanbeige4.1-3B的成功表明，通过精细化的训练方法创新，小模型可以形成独立、通用的能力体系，而不再仅仅是大模型的“轻量替代品” [60][61] - 参数规模的差距正被训练范式的创新所弥补，原本依赖大模型规模优势的Agent与复杂推理能力，开始下沉到更具部署友好性的小尺度模型 [61] - 当3B模型即可稳定处理推理、编程与搜索任务时，企业侧的部署范式将被重写，为移动端、本地化及私有化部署场景打开了巨大的想象空间 [62] - 行业认为，大模型的边界在扩张的同时，小模型的效率革命也在发生，未来决定AI应用广度的关键，可能是“小参数模型所能释放的智能密度” [63][64]

小模型

大模型

Scaling Law

Artificial Intelligence

Artificial Intelligence

Nanbeige4.1-3B

Qwen3系列

ICLR2026 Oral | 北大彭一杰团队提出高效优化新范式，递归似然比梯度优化器赋能扩散模型后训练

机器之心· 2026-03-09 11:58

文章核心观点 - 北京大学团队提出名为递归似然比（RLR）优化器的扩散模型后训练新方案，该方案通过创新的“半阶梯度估计范式”，在保证梯度估计无偏性的同时显著降低方差，从而在有限的计算资源下，高效解决扩散模型适配下游应用时面临的内存、效率与性能权衡问题 [2][10] 现有方法瓶颈 - 扩散模型后训练旨在将预训练模型与特定场景质量要求或人类偏好对齐，当前主流方法存在显著缺陷 [7] - 基于截断反向传播（BP）的方法为降低内存开销会终止部分梯度计算，导致梯度估计存在结构性偏差，严重时引发模型崩溃，生成内容退化为纯噪声 [7] - 基于强化学习（RL）的方法虽能降低内存需求，但梯度估计方差极高，导致样本效率低下，训练收敛缓慢 [7] - 例如，使用全BP训练Stable Diffusion 1.4仅需50个时间步就需约1TB GPU内存，完全不具实用价值，而截断BP和RL方法难以兼顾训练稳定性与生成质量 [7] RLR优化器技术原理 - RLR优化器设计了“半阶梯度估计范式”，通过利用扩散模型固有的噪声特性并重构递归扩散链中的计算图，实现无偏且低方差的梯度估计 [10] - 优化器核心包含一阶估计模块和零阶估计模块：一阶模块在第一个时间步直接对奖励模型进行反向传播，避免黑箱处理带来的精度损失；零阶模块对剩余时间步采用参数扰动策略，确保无偏性且无需缓存中间潜变量，大幅降低计算开销 [11][12] - 算法的核心可控参数是局部子链长度h，其取值决定了内存开销与梯度方差的权衡关系 [14] - 研究团队将h的求解转化为带内存预算约束的方差最小化优化问题，为参数选择提供了明确的数学依据 [14] - 在30~40GB主流GPU内存预算（8张V100）下，h=2被确定为工程黄金取值，可将整体方差降至饱和区间；将h增至3或4会使单步训练时间从1.61分钟飙升至5.65分钟、9.23分钟，但奖励分数仅微幅提升，性价比较低 [15] - 团队通过严格理论分析证明了RLR估计器的无偏性，并给出了方差边界和收敛速率保证 [16] 实验验证与性能表现 - 在文本到图像任务中，基于Stable Diffusion 1.4和2.1的实验显示，RLR在PickScore、HPSv2、AES等多个人类偏好奖励模型上均取得最高奖励分数 [18] - 在HPD v2数据集上，RLR将Stable Diffusion 1.4的ImageReward分数从32.90提升至76.55，较DDPO方法提升约47%，较AlignProp方法提升约14% [18] - 对于Stable Diffusion 2.1，RLR将ImageReward分数从基线的36.03提升至83.07 [19] - 在文本到视频任务的VBench基准测试中，RLR在主体一致性、运动流畅度、动态程度等6个核心指标上表现突出，加权平均分数达到84.63，超越了VideoCrafter、Pika、Gen-2等模型 [19] - 在动态程度指标上，RLR达到70.69，显著领先于其他方法的最高值66.94 [19] - 团队还为RLR优化器量身设计了“扩散思维链”提示词技术，通过将提示词分解为多尺度，让半阶子链精准针对生成缺陷进行梯度更新，进一步挖掘了性能潜力，在手部生成等细粒度任务中实现显著提升 [20]

OpenClaw昨晚大更新：支持GPT-5.4，记忆热插拔，Star量破28万

机器之心· 2026-03-09 10:50

核心观点 - OpenClaw项目正从一个实验性的智能体框架，演进为具备高度持久性、可扩展性和生产级安全性的成熟Agent操作系统，旨在解决AI Agent框架工程化落地的关键问题 [1][2][3][6] 技术架构与核心功能升级 - 引入上下文引擎插件接口，支持完整的生命周期钩子和基于插槽的注册表，允许开发者自由挂载RAG、知识图谱折叠或无损压缩算法等替代上下文管理策略，而无需修改核心逻辑 [3][6] - 新增对持久化频道绑定的支持，包括耐用的Discord频道和Telegram话题绑定存储，使ACP线程目标在服务重启后依然保持绑定，并能进行一致性管理 [3] - 强化主从智能体协作能力，复杂任务可以安全、隔离地拆解并分发给拥有专属记忆通道的小智能体处理，通过让不同Agent“常驻”在不同部门群组实现持久化通道绑定 [8] - 新增`prependSystemContext`和`appendSystemContext`钩子，允许将插件的静态引导信息放置在系统提示词空间，以利用供应商缓存并降低重复提示词的token成本 [7] - 重构了Web搜索工具，优化了Ollama等本地模型的处理机制，以及Docker容器部署，新版本完美兼容了本地模型在“思考/推理”阶段的流式输出隔离 [7] 性能表现与基准测试 - 在OOLONG基准测试中，使用相同模型，新版OpenClaw上lossless-claw的得分为74.8，而Claude Code的得分为70.3，随着上下文长度增加，差距会越来越大 [6] - 在所有测试的上下文长度下，其性能都优于Claude Code，有工程师表示运行一周后，“说它运行良好都算是保守的说法” [8] 模型支持与工具链优化 - 新增对`google/gemini-3.1-flash-lite-preview`的原生支持，包括模型ID正规化、默认别名、多媒体理解图像查找及向前兼容回退 [7] - 在联网搜索工具方面，将Perplexity供应商切换为Search API，支持提供结构化结果，并新增语言、地区、时间过滤器，使信息搜集更精准 [7] - Docker支持通过`OPENCLAW_EXTENSIONS`预打包扩展依赖，使容器启动更快速、结果更可复现 [4] 安全性与部署改进 - 通过防提示词注入、拦截、凭据保护、时间戳的UTC锚定对齐等更新进一步提升安全性 [9] - 对网关认证模式进行了“重大”变更，如果同时配置`gateway.auth.token`和`gateway.auth.password`，则现在必须显式指定`gateway.auth.mode`，否则升级后可能导致启动、配对或TUI失败 [4] - 为`gateway.auth.token`增加SecretRef支持，并加入身份验证模式防护栏 [7] 社区生态与市场应用 - 此次发布包含了196位贡献者的工作 [4] - 项目在GitHub上的Star量已经达到28.1万 [10][11] - 应用范围已从专业开发者扩展到各行各业，被用于选股、撰写报告、制作PPT、写电子邮件、写代码等各种用途 [11] - AI智能体助手可能很快成为每个人手下的“虚拟员工”，大大降低工作量 [12]