Workflow
机器之心
icon
搜索文档
觉都不睡了!龙虾又上新:OpenClaw 3.8来袭
机器之心· 2026-03-09 17:48
公司产品更新动态 - 公司产品OpenClaw在极短时间内连续发布新版本,从3.7版本发布到3.8-beta.1版本释出仅间隔一晚,显示出极高的开发迭代速度 [1] - 此次3.8版本的核心使命是在3.7版本进行庞大底层重构后,针对真实部署环境出现的“退化Bug”进行维稳和修复 [6] 新增功能与特性 - 新增了ACP来源功能,使Agent能更好地识别与其交互的用户或系统 [3] - 新增了openclaw备份功能,为YOLO部署提供安全保障,确保在高风险环境下具备回滚和恢复机制 [3] - 解决了Telegram中的假冒问题,提升了安全性 [3] - 在CLI中正式引入了openclaw backup create和openclaw backup verify命令,支持更灵活地创建本地状态归档,并在破坏性操作前提供更完善的验证和引导保护 [8] - 新增了talk.silenceTimeoutMs全局配置项,允许Talk语音模式在自动发送语音转录文本前,等待一段用户可自定义的静默时间,提升交互自然度 [9] - 针对openai-codex/gpt-5.4模型,系统已更新至支持高达1,050,000 Token的超大上下文窗口 [11] - 在Brave Web搜索中新增了tools.web.search.brave.mode: "llm-context"选项,允许系统直接调用Brave的LLM Context端点以获取高质量提取片段 [11] - 优化了Web搜索提供商的排序逻辑,在多键自动检测时会优先考虑Grok,其次是Kimi [11] 安全与稳定性提升 - 新版本修复了12个以上的安全漏洞 [3] - 系统现在会严格绑定并验证授权的bun和deno run脚本,防止脚本在执行前被恶意篡改 [10] - 浏览器端加强了SSRF防护,直接拦截私有网络的中间重定向跳跃 [10] - 修复了MS Teams权限管控中路由白名单可能导致组策略意外放宽的问题 [10] 平台专项优化 - 在macOS端,Onboarding流程中新增了远程网关Token字段,修复了Launchd重启服务卡死的问题,并针对深浅色终端背景增加了WCAG AA级别的自适应主题 [11] - 在Android端,为符合Play商店分发政策,移除了自更新、后台定位、屏幕录制和后台麦克风捕获等敏感权限,并将前台服务严格限制为数据同步 [11]
从训练到推理的「瘦身」演进:首篇高效扩散语言模型(dLLM)深度综述
机器之心· 2026-03-09 17:48
文章核心观点 - 扩散语言模型(dLLM)作为一种非自回归范式,通过迭代去噪优化文本序列,具备双向上下文建模和并行更新多个Token的潜力,有望在生成速度与可控性上超越自回归(AR)模型[2] - 然而,dLLM在实际落地前面临训练成本高、推理步骤繁琐、KV Cache难以复用等关键效率瓶颈[3] - 一篇由自动化所、香港中文大学与香港大学等机构撰写的综述论文系统梳理了高效dLLM的研究进展,从训练、推理、上下文及系统框架等维度拆解了其跨越效率瓶颈的技术路径[3] - 随着KV Cache管理、并行解码等技术的成熟,dLLM正从学术探索走向工业应用,未来有望在高质量、高可控性生成场景中成为AR模型强有力的竞争者或互补者[25] 一、训练效率 - dLLM若从头训练,数据需求大且算力消耗惊人,因此“借力”现有预训练模型成为关键[7] - 训练侧提效策略主要归纳为“从AR到dLLM的迁移”与“架构优化”[8] - 迁移策略包括利用AR模型权重,通过调整注意力掩码或引入过渡微调阶段,将AR模型能力“蒸馏”或“转换”至扩散模型,如DiffuLLaMA和Dream等工作[9] - 块扩散(Block Diffusion)是一种折中方案,保留块间的自回归串行结构,但在块内部进行并行扩散,在保留AR预训练优势的同时显著降低适应成本[9] - 架构优化方面,E2D2采用编码器-解码器架构,让编码器处理清晰输入,解码器专注去噪,从而复用特征并降低训练成本[9] - MoE(混合专家)架构也被引入dLLM(如LLaDA-MoE),通过稀疏激活在保持模型容量的同时减少推理时的参数计算量[9] 二、推理加速 - 推理速度是dLLM能否落地的核心痛点,其多步迭代特性可能导致无法接受的延迟[11] - 推理加速主要分为“并行解码”和“压缩技术”两大类[11] - 并行解码是dLLM的核心优势,可以一次性更新多个Token[14] - 压缩技术方面,量化是重要手段,但dLLM对异常值和时间步高度敏感[14] - QDLM和Quant-dLLM等工作针对扩散过程的激活分布特点,设计了细粒度的量化方案,甚至实现了2-bit的极低比特量化[14] 三、KV Cache管理 - dLLM与AR模型在KV Cache管理上存在根本差异:在dLLM中,整个序列在每一步去噪中都在变化,双向注意力机制导致所有Token互相依赖,使得标准的KV Cache失效[16] - 应对策略包括架构范式调整、自适应刷新、稀疏化与驱逐等[18][20] - 架构范式调整采用Block Diffusion或DualCache设计,将序列分为“固定的前缀”和“动态的后缀”,只对变化部分进行重计算[18] - 自适应刷新策略利用Token的稳定性,若某Token特征在两步间变化很小(基于相似度阈值),则直接复用上一轮Cache,否则才更新,代表工作有dKV-Cache和d²Cache[18] - 稀疏化与驱逐策略通过注意力显著性判断哪些Token对当前生成最关键,动态驱逐不重要的KV对,从而在有限显存下支持更长的序列[20] 四、投机解码 - 投机解码在dLLM中呈现两种独特形态:dLLM-only自我投机与dLLM-AR协同[22] - dLLM-only自我投机指模型自己预测未来的中间状态,或利用“Jump-Share”机制在迭代中跳过某些去噪步骤并共享计算结果[26] - dLLM-AR协同结合AR和dLLM的长处,一种思路是用小AR模型辅助dLLM判断采样联合概率;另一种是用dLLM快速生成草稿,再由大参数的AR模型进行验证,这种“Diffusion-as-Drafter”模式正成为提升AR模型整体吞吐量的新热点[26] 五、总结与展望 - 除了算法优化,论文还探讨了上下文扩展和系统框架,目前如SGLang等主流推理引擎已开始初步支持dLLM,但其生态系统相比vLLM对AR模型的极致优化仍处于“基建”阶段[23] - 未来方向之一是建立统一的评测标准,目前效率对比基于不同假设,急需建立涵盖训练成本、显存占用、端到端延迟的统一Benchmark[24] - 未来方向之二是硬件感知的内核优化,目前加速多停留在算法层,缺乏类似FlashAttention的底层CUDA Kernel优化,限制了理论加速比向实际墙钟时间的转化[24] - 未来方向之三是多模态融合,dLLM天然适合多模态任务,如何在多模态场景下实现统一的高效推理将是下一个爆发点[25]
AI 下半场,LLM Benchmark 要补全什么?
机器之心· 2026-03-09 11:58
文章核心观点 当前,大型语言模型评测的通用榜单和基准正面临区分度下降、评审标准波动和数据污染等问题,导致其有效性和公信力受到挑战[1]。行业对评测体系本身的可靠性和长期有效性关注度提升,研究重心正从单纯的“刷分”转向探索更科学、更贴近真实应用场景的评估范式[1][4]。 LLM Benchmark「又」 不够用了? - 大模型评测平台Arena于2026年1月完成1.5亿美元融资,投后估值约17亿美元,计划将资金用于扩充计算资源、招聘工程师并推出企业级评估服务[5]。投资者认为,一旦成为事实上的基准层,产品化将是自然演进[5]。 - 针对Arena融资,行业观点出现分歧:一方面认为其已成为“比较模型体验的公共层”,融资有助于产品化;另一方面则担忧商业化可能影响其评估的客观性,使其偏向“更讨喜的表达风格”而削弱公信力[5]。 - 业界对Arena等基于人类偏好的成对评估机制提出质疑,认为其评估标准过于主观、易被操纵且偏向资源雄厚的公司,缺乏科学严谨性,不足以评估LLM的真实能力[5]。 - 在LLM能力快速迭代的背景下,业界普遍认为评估体系变得比训练更重要,竞争核心正从“解决问题”转向“定义问题”[6]。 - 现有Benchmark体系存在评测任务与真实使用场景脱节、测试过程缺乏统一规范、易受人为操作影响等问题,且公开题库在高分段的区分度持续下降[6]。例如,有观点指出模型优化目标向“刷分”偏移,导致榜单表现与用户真实体验严重脱节[6];另有观点指出测试存在训练污染、方法口径不统一等问题[6];到去年年末,顶尖模型在AIME等高难度数学评测上得分已进入极高区间,数据污染风险令测试区分度进一步下降[6]。 LLM Benchmark 的研究重心有何转变? - 随着LLM能力的发展,相应Benchmark的数量在增加,评估范式正从单任务走向多任务、多领域,并逐步覆盖更复杂、更应用导向的评估场景[7]。
3B打32B?海外病毒式传播的小模型,竟然来自BOSS直聘
机器之心· 2026-03-09 11:58
行业趋势:大模型军备竞赛与“小模型”的兴起 - 大模型行业正经历激烈的“军备竞赛”,开源与闭源阵营都在疯狂追求更大的参数量和算力,模型规模已膨胀至“近乎离谱”的程度 [1] - 过去GPT-2仅有约1.5B参数,如今GPT-4的参数规模估计已达万亿水平,GPT-5预计更大,而2026年发布的开源模型如Kimi K2.5和Ling 2.5也已达到万亿参数规模 [1][2] - 然而,“模型大就一定强”的定律正在动摇,一个仅3B参数的小模型在“50米洗车”等复杂推理问题上,表现超越了万亿级参数的大模型,凸显了模型能力与参数规模并非绝对正相关 [5][7] 核心案例:Nanbeige4.1-3B模型的突破性表现 - BOSS直聘南北阁实验室发布的Nanbeige4.1-3B模型,以仅3B的参数量,实现了通用问答、复杂推理、代码编写和深度搜索等综合能力,挑战了“小模型难通用”的刻板印象 [10][19][21] - 该模型在多项评测中显著超越同规模开源模型(如Qwen3-4B、Qwen3-8B),并在综合指标上超越了参数量大10倍的Qwen3-32B与Qwen3-30B-A3B模型 [11] - 即使与发布时间更晚、参数接近的Qwen3.5-4B模型对比,Nanbeige4.1-3B在六大核心指标上依然整体领先,展现了稳健的技术优势 [14] - 模型发布后迅速获得社区关注,登上HuggingFace文本模型趋势榜第一,并一度冲进全球模型总榜前三 [14] 技术解析:实现“小而全”的关键方法 - 研究团队采用了分阶段、分领域的优化策略,在有限的3B参数规模内系统性地整合了多项能力,并保持了各领域间的能力平衡 [21][22] - **通用能力优化**:调整了指令数据的结构比例,提高代码类样本、数学难题和复杂推理任务的占比,以强化小模型对深层逻辑的建模能力 [23] - **上下文长度扩展**:采用三阶段课程学习(32K → 64K → 256K),渐进式地让模型适应更长的依赖关系,稳定学习长距离注意力结构 [24] - **回复质量提升**:通过引入Solution Refinement(解答迭代优化)与CoT Reconstruction(思维链重构)框架,减少推理中的逻辑跳步和不连贯问题,提升思维链的忠实度和一致性 [26][27][30] 训练机制:创新的强化学习(RL)策略 - 团队创新性地将RL拆分为两个阶段:Point-wise RL和Pair-wise RL [33] - **Point-wise RL**:引入通用奖励模型对单条回答质量评分,显著降低了冗长、重复与格式错误,将LiveCodeBench-v6的格式错误率从5.27%降至0.38% [34][35] - **Pair-wise RL**:让模型与其他模型进行PK,由Pair-wise奖励模型判断回答优劣,使模型在竞争环境中迭代提升,不仅提升了Arena-Hard V2等对抗评测成绩,也对Multi-Challenge等单点评分任务带来明显收益 [35][36] 专项能力:编码与深度搜索的深度优化 - **编码能力**:采用两阶段RL策略,并设计了“门控时间复杂度奖励”机制,即时间奖励仅在解答通过所有测试用例(正确率100%)时才会被激活,确保模型先追求正确性,再优化效率 [38][39] - **深度搜索能力**:通过构建大规模、结构复杂的搜索数据集,并引入“轮次级质量控制”机制,对每一轮搜索交互的推理逻辑、工具调用和信息增益进行独立评估,训练模型形成稳定的“检索-判断-再检索”循环结构 [45][46][48] - 在深度搜索基准测试中,Nanbeige4.1-3B在xBench-DeepSearch-2505上达到75分,在GAIA (text-only)上达到69.90分,成绩接近专为搜索打造的AgentCPM-Explore-4B模型 [54][55] 性能验证:全面的基准测试与实战检验 - 在综合基准测试中,Nanbeige4.1-3B在多数测试上超越了参数规模10倍以上的模型,并在与Qwen3-Next-80B-A3B等超大模型的对比中保持竞争力,各项指标互有胜负 [50][53] - 在代码领域,其LCB-V6得分达76.9,远超Qwen3-32B的57.4;在数学领域,AIME 2025得分达90.83,优于Qwen3-30B-A3B的87.8 [51] - 在模型发布后举办的真实任务竞赛中(如LeetCode周赛和HMMT数学竞赛),Nanbeige4.1-3B的表现不仅显著优于Qwen3.5-4B,甚至超过了参数量更大的Qwen3.5-9B,有力证明了其极强的泛化与推理能力 [56][57][58] 行业影响与未来展望 - Nanbeige4.1-3B的成功表明,通过精细化的训练方法创新,小模型可以形成独立、通用的能力体系,而不再仅仅是大模型的“轻量替代品” [60][61] - 参数规模的差距正被训练范式的创新所弥补,原本依赖大模型规模优势的Agent与复杂推理能力,开始下沉到更具部署友好性的小尺度模型 [61] - 当3B模型即可稳定处理推理、编程与搜索任务时,企业侧的部署范式将被重写,为移动端、本地化及私有化部署场景打开了巨大的想象空间 [62] - 行业认为,大模型的边界在扩张的同时,小模型的效率革命也在发生,未来决定AI应用广度的关键,可能是“小参数模型所能释放的智能密度” [63][64]
ICLR2026 Oral | 北大彭一杰团队提出高效优化新范式,递归似然比梯度优化器赋能扩散模型后训练
机器之心· 2026-03-09 11:58
文章核心观点 - 北京大学团队提出名为递归似然比(RLR)优化器的扩散模型后训练新方案,该方案通过创新的“半阶梯度估计范式”,在保证梯度估计无偏性的同时显著降低方差,从而在有限的计算资源下,高效解决扩散模型适配下游应用时面临的内存、效率与性能权衡问题 [2][10] 现有方法瓶颈 - 扩散模型后训练旨在将预训练模型与特定场景质量要求或人类偏好对齐,当前主流方法存在显著缺陷 [7] - 基于截断反向传播(BP)的方法为降低内存开销会终止部分梯度计算,导致梯度估计存在结构性偏差,严重时引发模型崩溃,生成内容退化为纯噪声 [7] - 基于强化学习(RL)的方法虽能降低内存需求,但梯度估计方差极高,导致样本效率低下,训练收敛缓慢 [7] - 例如,使用全BP训练Stable Diffusion 1.4仅需50个时间步就需约1TB GPU内存,完全不具实用价值,而截断BP和RL方法难以兼顾训练稳定性与生成质量 [7] RLR优化器技术原理 - RLR优化器设计了“半阶梯度估计范式”,通过利用扩散模型固有的噪声特性并重构递归扩散链中的计算图,实现无偏且低方差的梯度估计 [10] - 优化器核心包含一阶估计模块和零阶估计模块:一阶模块在第一个时间步直接对奖励模型进行反向传播,避免黑箱处理带来的精度损失;零阶模块对剩余时间步采用参数扰动策略,确保无偏性且无需缓存中间潜变量,大幅降低计算开销 [11][12] - 算法的核心可控参数是局部子链长度h,其取值决定了内存开销与梯度方差的权衡关系 [14] - 研究团队将h的求解转化为带内存预算约束的方差最小化优化问题,为参数选择提供了明确的数学依据 [14] - 在30~40GB主流GPU内存预算(8张V100)下,h=2被确定为工程黄金取值,可将整体方差降至饱和区间;将h增至3或4会使单步训练时间从1.61分钟飙升至5.65分钟、9.23分钟,但奖励分数仅微幅提升,性价比较低 [15] - 团队通过严格理论分析证明了RLR估计器的无偏性,并给出了方差边界和收敛速率保证 [16] 实验验证与性能表现 - 在文本到图像任务中,基于Stable Diffusion 1.4和2.1的实验显示,RLR在PickScore、HPSv2、AES等多个人类偏好奖励模型上均取得最高奖励分数 [18] - 在HPD v2数据集上,RLR将Stable Diffusion 1.4的ImageReward分数从32.90提升至76.55,较DDPO方法提升约47%,较AlignProp方法提升约14% [18] - 对于Stable Diffusion 2.1,RLR将ImageReward分数从基线的36.03提升至83.07 [19] - 在文本到视频任务的VBench基准测试中,RLR在主体一致性、运动流畅度、动态程度等6个核心指标上表现突出,加权平均分数达到84.63,超越了VideoCrafter、Pika、Gen-2等模型 [19] - 在动态程度指标上,RLR达到70.69,显著领先于其他方法的最高值66.94 [19] - 团队还为RLR优化器量身设计了“扩散思维链”提示词技术,通过将提示词分解为多尺度,让半阶子链精准针对生成缺陷进行梯度更新,进一步挖掘了性能潜力,在手部生成等细粒度任务中实现显著提升 [20]
OpenClaw昨晚大更新:支持GPT-5.4,记忆热插拔,Star量破28万
机器之心· 2026-03-09 10:50
核心观点 - OpenClaw项目正从一个实验性的智能体框架,演进为具备高度持久性、可扩展性和生产级安全性的成熟Agent操作系统,旨在解决AI Agent框架工程化落地的关键问题 [1][2][3][6] 技术架构与核心功能升级 - 引入上下文引擎插件接口,支持完整的生命周期钩子和基于插槽的注册表,允许开发者自由挂载RAG、知识图谱折叠或无损压缩算法等替代上下文管理策略,而无需修改核心逻辑 [3][6] - 新增对持久化频道绑定的支持,包括耐用的Discord频道和Telegram话题绑定存储,使ACP线程目标在服务重启后依然保持绑定,并能进行一致性管理 [3] - 强化主从智能体协作能力,复杂任务可以安全、隔离地拆解并分发给拥有专属记忆通道的小智能体处理,通过让不同Agent“常驻”在不同部门群组实现持久化通道绑定 [8] - 新增`prependSystemContext`和`appendSystemContext`钩子,允许将插件的静态引导信息放置在系统提示词空间,以利用供应商缓存并降低重复提示词的token成本 [7] - 重构了Web搜索工具,优化了Ollama等本地模型的处理机制,以及Docker容器部署,新版本完美兼容了本地模型在“思考/推理”阶段的流式输出隔离 [7] 性能表现与基准测试 - 在OOLONG基准测试中,使用相同模型,新版OpenClaw上lossless-claw的得分为74.8,而Claude Code的得分为70.3,随着上下文长度增加,差距会越来越大 [6] - 在所有测试的上下文长度下,其性能都优于Claude Code,有工程师表示运行一周后,“说它运行良好都算是保守的说法” [8] 模型支持与工具链优化 - 新增对`google/gemini-3.1-flash-lite-preview`的原生支持,包括模型ID正规化、默认别名、多媒体理解图像查找及向前兼容回退 [7] - 在联网搜索工具方面,将Perplexity供应商切换为Search API,支持提供结构化结果,并新增语言、地区、时间过滤器,使信息搜集更精准 [7] - Docker支持通过`OPENCLAW_EXTENSIONS`预打包扩展依赖,使容器启动更快速、结果更可复现 [4] 安全性与部署改进 - 通过防提示词注入、拦截、凭据保护、时间戳的UTC锚定对齐等更新进一步提升安全性 [9] - 对网关认证模式进行了“重大”变更,如果同时配置`gateway.auth.token`和`gateway.auth.password`,则现在必须显式指定`gateway.auth.mode`,否则升级后可能导致启动、配对或TUI失败 [4] - 为`gateway.auth.token`增加SecretRef支持,并加入身份验证模式防护栏 [7] 社区生态与市场应用 - 此次发布包含了196位贡献者的工作 [4] - 项目在GitHub上的Star量已经达到28.1万 [10][11] - 应用范围已从专业开发者扩展到各行各业,被用于选股、撰写报告、制作PPT、写电子邮件、写代码等各种用途 [11] - AI智能体助手可能很快成为每个人手下的“虚拟员工”,大大降低工作量 [12]
ICLR 2026|早于DeepSeek Engram,STEM已重构Transformer「记忆」
机器之心· 2026-03-09 10:50
文章核心观点 - 大语言模型的研究重点正从参数规模扩张转向参数组织方式的创新,旨在提升记忆存储与访问的效率、可编辑性和系统性能[2] - STEM模型架构通过将Transformer FFN中的动态“算地址”机制替换为静态“查地址”的查表式记忆,实现了记忆容量与每token计算量的解耦,并在多个维度带来显著提升[5][8][13] - 这种简洁、稳定且工程友好的设计思路,为下一代基座模型的演进提供了一条重要路径,表明通过优化参数组织方式而非单纯增加规模,同样能获得显著能力提升[29][30] STEM模型的核心机制与设计 - **核心直觉与设计**:STEM的关键洞察在于质疑FFN中地址向量需由输入动态生成的必要性,选择用静态的、按token索引的embedding表直接查表获取向量,取代传统的up-projection密集矩阵乘法[5][8][9] - **结构变化**:该设计仅替换了FFN中的up-projection子模块,完整保留了gate与down-projection用于上下文调制与压缩,使模型结构发生了本质变化[11][12][13] STEM模型带来的优势与影响 - **可编辑性提升**:由于存在显式的token-参数对应关系,研究者可直接替换特定token的STEM向量来改变模型在相关事实上的输出行为,为知识编辑和模型理解提供了新思路[16][18][19] - **训练稳定性增强**:作为一种静态稀疏结构,STEM避免了MoE等动态路由方案中常见的负载倾斜和损失尖峰问题[20] - **记忆空间更高效**:使用token索引embedding改变了FFN输入向量的几何分布,使向量间呈现更大的角度散布、更接近正交,有效减少了参数间干扰,在相同或更低计算成本下维持了更多可寻址的记忆槽位[22][23] - **计算与系统效率优化**:移除up-projection节省了约 d⋅d_ff 级别的矩阵乘法开销,且大规模embedding表可离载到CPU,通过异步预取与缓存策略访问,降低了FLOPs与IO开销[24] 实验结果与工程落地 - **性能表现**:在350M与1B模型规模上,STEM相比稠密基线整体平均性能提升约3–4%,部分知识类任务提升幅度可达9–10%[26][36] - **长上下文优势**:在Needle-in-a-Haystack与LongBench等长上下文评测中,STEM的优势随着上下文长度增加而扩大[36] - **工程实现关键**:仅替换up-projection是关键,盲目替换gate-projection会破坏上下文调制能力;embedding表可CPU离载,训练时需将梯度回写到对应的优化器状态;可采用部分层替换或混合变体来平衡参数占比与显存压力[36]
ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题
机器之心· 2026-03-09 10:00
文章核心观点 - 帝国理工大学研究团队提出了一种名为DyMo的推理阶段动态模态选择框架,旨在解决多模态学习中的“模态缺失”问题,突破了传统“丢弃或插补”的二元困境 [3] - DyMo的核心创新在于,在推理时动态识别并融合可靠的恢复模态,而非盲目丢弃或使用所有恢复模态,从而最大化任务相关信息 [3][15] - 该方法在多个自然图像与医学影像数据集上的实验表明,其性能显著优于现有方法,例如在PolyMNIST、MST和CelebA数据集上,分类准确率分别提高了1.61%、1.68%和3.88% [4][12] 研究背景与问题定义 - 多模态学习通过融合图像、文本、表格等多种模态来提升AI模型性能,但在真实世界中,“模态缺失”问题几乎不可避免 [2][3] - 现有方法主要分为两类:基于恢复的方法(尝试补全缺失模态)和无恢复方法(直接忽略缺失模态),两者分别面临引入无关噪声或损失重要信息的风险,这一矛盾被称为“丢弃-插补困境” [3][7][11] - 当高度关键的模态缺失时,无恢复方法因依赖信息较弱的模态而导致模型判别能力下降;而恢复方法可能生成低保真或语义错位的不可靠模态,干扰模型决策 [13] DyMo框架方法论 - **核心思想**:在推理阶段自适应地选择并融合可靠的恢复模态,最大化多模态任务相关信息 [15] - **网络架构**:设计了一种支持任意模态组合的多模态网络结构,包含单模态编码器、多模态Transformer和线性分类器 [15][18] - **动态模态选择算法**:核心是一个基于多模态任务相关信息增益的奖励函数,用于在推理时评估每个恢复模态的价值 [16][19] - **奖励函数**:使用交叉熵损失的下降作为任务相关信息增益的代理,奖励值大于0表示模态应被融合,小于0则可能误导模型 [19][20][21] - **类内相似度校准**:引入校准参数,通过衡量样本特征在其预测类别中的代表性来进一步优化奖励函数的可靠性 [22][23][24] - **训练策略**:结合了不完整模态模拟训练和辅助缺失不可知对比损失,以学习鲁棒的多模态潜在特征表示 [25][26][27][28] 实验结果与性能 - **实验设置**:在5个多样化数据集上进行了评估,包括PolyMNIST、MST、CelebA、DVM和UK Biobank,涵盖了随机缺失、特定组合缺失及表格内缺失等多种场景 [30] - **性能优势**:DyMo在各种模态缺失场景下均显著优于现有的动态/静态融合方法、基于恢复的方法和无恢复方法 [31] - **具体数据**:在PolyMNIST数据集上,当80%模态缺失时,DyMo相比最先进的动态融合方法,准确率提升高达13.12% [31] - **困境验证**:实验验证了“丢弃-插补困境”的存在,例如在MST数据集上,当缺失模态为{M, T}时,无恢复方法MUSE的分类准确率下降了高达61.18%;在PolyMNIST上,当缺失率从0增加到0.8时,基于恢复的方法OnlineMAE准确率下降了9.91% [31][32] - **结果可视化**:特征可视化和案例分析表明,DyMo能够有效选择可靠的恢复模态,并提升模型性能 [34][36][37] 研究意义与未来方向 - **范式转变**:DyMo将问题视角从“如何恢复所有模态”转变为“哪些恢复模态值得信任”,为不完整多模态学习提供了更灵活和鲁棒的解决方案 [39] - **实用性与易用性**:该方法易于使用,可与多种模态恢复方法结合,且动态算法无需额外复杂结构开销,方便部署 [16] - **未来工作**:可能的研究方向包括将动态选择扩展到训练阶段、扩展到分类以外的任务,以及与多模态大语言模型结合 [41]
AI 真能做研究吗?UniPat AI开源UniScientist,用30B小模型给出肯定答案
机器之心· 2026-03-09 10:00
核心观点 - 公司UniPat AI发布并开源了UniScientist模型,该模型通过实现“假设-证据-验证”的完整科研流程闭环,使人工智能具备了自主进行科学研究的能力,而非仅生成看似研究的文本 [1][6][7] - 该模型以30B(300亿)的参数量,在多个科学研究基准评测中,其性能匹敌甚至超越了参数量大一个数量级的顶尖闭源模型,显示出其在研究智能方面的显著突破 [1][33] 模型能力与设计理念 - 模型的核心是实现了从提出假设、收集证据、执行可复现推导到迭代验证的完整科研闭环,解决了当前多数大模型仅停留在“叙事推理”和格式模仿的问题 [1][4][5][7] - 公司将开放式科研过程形式化为一个基于“主动证据整合”与“模型溯因”的动态系统,系统核心是不断演化的“证据状态”,并通过循环执行产生假说、获取证据、溯因更新三个动作来完成研究 [15][16][17] - 模型引入了“成果聚合目标”的训练,使其能够学会比较、取舍和整合针对同一问题的多份候选科研成果,从而产出更完整和稳健的最终成果,模拟了“集体科研智能” [29][30][31] - 模型集成了代码解释器,将研究流程升级为“测试-修正”循环,假设可以被实例化为可执行、可复现的计算实验,从而得到验证或修正 [39] 数据与训练方法 - 公司构建高质量科研训练数据的关键洞察在于利用“大模型擅长生成”与“人类专家擅长验证”的不对称性,采用模型负责规模与多样性、人类专家负责质量与可验证性的高效分工方式 [9][12] - 公司提出了“进化式多学科合成”数据引擎,其核心设计是将一份开放式科研成果分解为多个封闭的、可独立验证的评估项,每个评估项都追求原子化、客观且可证据落地或形式化推导 [20][21][22] - 当前构建的数据集已包含超过4,700个研究级实例,每个实例附有20条以上的评估项,覆盖50多个学科和400多个研究方向,专家标注平均每条样本投入1-2小时 [22] 性能表现 - 在FrontierScience-Research基准上,UniScientist-30B-A3B模型(仅3B激活参数)得分为28.3分,超越了Claude Opus 4.5(17.5分)、Gemini 3 Pro(12.4分)、GPT-5.2 xhigh completion模式(25.2分)以及工具调用模式下的DeepSeek V3.2(26.7分)和Seed 2.0 Pro(26.7分)[33] - 在成果聚合模式下,该模型在FrontierScience-Research上的得分进一步提升至33.3分 [33] - 在FrontierScience-Olympiad基准上,启用工具的UniScientist得分为71.0分,匹配Claude Opus 4.5,并超越了多个其他前沿模型 [33] - 在多项其他研究基准上,模型的表现与一系列顶级闭源系统相当 [33] - 即使在无工具使用的评测条件下,模型性能仍有显著提升,表明其研究推理能力本身得到了增强,而非单纯依赖工具调用 [34][35] 未来方向 - 系统的当前能力主要集中在可复现推理与仿真计算范围内,下一步方向是将框架扩展到对真实实验与计算基础设施的受控编排与执行,以加速科学发现 [40][41]
让Agent学会「先试再做」:微软提出Computer-Using World Model,教智能体理解动作的后果
机器之心· 2026-03-08 18:04
文章核心观点 - 当前大模型驱动的GUI智能体在操作桌面软件时,常因无法预判操作后果而陷入低效试错,其核心瓶颈在于缺乏“行动前预判结果”的决策能力,而非简单的界面识别或指令理解 [5][28][29] - 微软研究团队提出的Computer-Using World Model通过让智能体在执行真实操作前,先在内部模拟不同动作可能导致的界面状态变化,从而选择最可能推进任务的一步,实现了从“反应式点击”到“规划式决策”的转变 [7][12][26] - 该模型的关键创新在于将“下一步预测”分解为“生成变化描述”和“实现视觉变化”两阶段,使模型能聚焦于动作带来的系统状态改变,而非低效地重绘整个界面,这标志着AI能力从“信息空间”的理解表达,向“数字世界”中承担后果的有效行动演进 [18][28][30] 技术原理与设计 - **核心机制**:CUWM是一个世界模型,其工作流程是给定当前软件界面截图和一个候选操作,预测执行该操作后的界面图像,智能体通过比较多个候选动作的预测结果与任务目标的匹配度来做决策,这个过程被称为“world-model-guided test-time action search” [9][12][22] - **关键设计**:模型采用两阶段预测法,首先生成一段聚焦于局部变化的、结构化的文本描述,说明“哪些变了、哪些不变”,再通过条件图像编辑技术将这一变化渲染到原截图上,生成预测的下一状态界面,这种设计让模型注意力集中在动作后果上 [15][18][24] - **训练数据**:模型训练不依赖昂贵的在线强化学习,而是从真实软件交互轨迹中构建三元组,并利用大语言模型作为自动标注器,为每个三元组生成UI变化描述作为监督信号,随后通过强化学习进一步细化描述的结构一致性与简洁性 [20] 应用效果与意义 - **提升决策效率**:在“为Excel工作簿添加密码保护”的任务中,智能体利用CUWM对多个候选动作进行内部模拟,最终选择点击“Protect Workbook”,因为它预测的界面最符合进入加密流程的预期,这显著减少了真实环境中的无效点击和试错成本 [22][26] - **能力范式转变**:CUWM带来的性能提升,关键在于对界面结构变化的正确预测,而非生成图像的视觉逼真度,这揭示了GUI智能体的核心能力应是面向交互的规划与决策,而不仅仅是视觉识别 [26] - **行业意义**:该技术使AI智能体开始具备“先评估后果再行动”的决策能力,标志着AI从主要在“信息空间”中进行理解与表达的对话工具,转变为一个能在数字环境中通过路径规划来推进任务的行动体,这是AI能力类型的一次重要演进 [28][30]