机器之心
搜索文档
ICLR 2026|早于DeepSeek Engram,STEM已重构Transformer「记忆」
机器之心· 2026-03-09 10:50
文章核心观点 - 大语言模型的研究重点正从参数规模扩张转向参数组织方式的创新,旨在提升记忆存储与访问的效率、可编辑性和系统性能[2] - STEM模型架构通过将Transformer FFN中的动态“算地址”机制替换为静态“查地址”的查表式记忆,实现了记忆容量与每token计算量的解耦,并在多个维度带来显著提升[5][8][13] - 这种简洁、稳定且工程友好的设计思路,为下一代基座模型的演进提供了一条重要路径,表明通过优化参数组织方式而非单纯增加规模,同样能获得显著能力提升[29][30] STEM模型的核心机制与设计 - **核心直觉与设计**:STEM的关键洞察在于质疑FFN中地址向量需由输入动态生成的必要性,选择用静态的、按token索引的embedding表直接查表获取向量,取代传统的up-projection密集矩阵乘法[5][8][9] - **结构变化**:该设计仅替换了FFN中的up-projection子模块,完整保留了gate与down-projection用于上下文调制与压缩,使模型结构发生了本质变化[11][12][13] STEM模型带来的优势与影响 - **可编辑性提升**:由于存在显式的token-参数对应关系,研究者可直接替换特定token的STEM向量来改变模型在相关事实上的输出行为,为知识编辑和模型理解提供了新思路[16][18][19] - **训练稳定性增强**:作为一种静态稀疏结构,STEM避免了MoE等动态路由方案中常见的负载倾斜和损失尖峰问题[20] - **记忆空间更高效**:使用token索引embedding改变了FFN输入向量的几何分布,使向量间呈现更大的角度散布、更接近正交,有效减少了参数间干扰,在相同或更低计算成本下维持了更多可寻址的记忆槽位[22][23] - **计算与系统效率优化**:移除up-projection节省了约 d⋅d_ff 级别的矩阵乘法开销,且大规模embedding表可离载到CPU,通过异步预取与缓存策略访问,降低了FLOPs与IO开销[24] 实验结果与工程落地 - **性能表现**:在350M与1B模型规模上,STEM相比稠密基线整体平均性能提升约3–4%,部分知识类任务提升幅度可达9–10%[26][36] - **长上下文优势**:在Needle-in-a-Haystack与LongBench等长上下文评测中,STEM的优势随着上下文长度增加而扩大[36] - **工程实现关键**:仅替换up-projection是关键,盲目替换gate-projection会破坏上下文调制能力;embedding表可CPU离载,训练时需将梯度回写到对应的优化器状态;可采用部分层替换或混合变体来平衡参数占比与显存压力[36]
ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题
机器之心· 2026-03-09 10:00
文章核心观点 - 帝国理工大学研究团队提出了一种名为DyMo的推理阶段动态模态选择框架,旨在解决多模态学习中的“模态缺失”问题,突破了传统“丢弃或插补”的二元困境 [3] - DyMo的核心创新在于,在推理时动态识别并融合可靠的恢复模态,而非盲目丢弃或使用所有恢复模态,从而最大化任务相关信息 [3][15] - 该方法在多个自然图像与医学影像数据集上的实验表明,其性能显著优于现有方法,例如在PolyMNIST、MST和CelebA数据集上,分类准确率分别提高了1.61%、1.68%和3.88% [4][12] 研究背景与问题定义 - 多模态学习通过融合图像、文本、表格等多种模态来提升AI模型性能,但在真实世界中,“模态缺失”问题几乎不可避免 [2][3] - 现有方法主要分为两类:基于恢复的方法(尝试补全缺失模态)和无恢复方法(直接忽略缺失模态),两者分别面临引入无关噪声或损失重要信息的风险,这一矛盾被称为“丢弃-插补困境” [3][7][11] - 当高度关键的模态缺失时,无恢复方法因依赖信息较弱的模态而导致模型判别能力下降;而恢复方法可能生成低保真或语义错位的不可靠模态,干扰模型决策 [13] DyMo框架方法论 - **核心思想**:在推理阶段自适应地选择并融合可靠的恢复模态,最大化多模态任务相关信息 [15] - **网络架构**:设计了一种支持任意模态组合的多模态网络结构,包含单模态编码器、多模态Transformer和线性分类器 [15][18] - **动态模态选择算法**:核心是一个基于多模态任务相关信息增益的奖励函数,用于在推理时评估每个恢复模态的价值 [16][19] - **奖励函数**:使用交叉熵损失的下降作为任务相关信息增益的代理,奖励值大于0表示模态应被融合,小于0则可能误导模型 [19][20][21] - **类内相似度校准**:引入校准参数,通过衡量样本特征在其预测类别中的代表性来进一步优化奖励函数的可靠性 [22][23][24] - **训练策略**:结合了不完整模态模拟训练和辅助缺失不可知对比损失,以学习鲁棒的多模态潜在特征表示 [25][26][27][28] 实验结果与性能 - **实验设置**:在5个多样化数据集上进行了评估,包括PolyMNIST、MST、CelebA、DVM和UK Biobank,涵盖了随机缺失、特定组合缺失及表格内缺失等多种场景 [30] - **性能优势**:DyMo在各种模态缺失场景下均显著优于现有的动态/静态融合方法、基于恢复的方法和无恢复方法 [31] - **具体数据**:在PolyMNIST数据集上,当80%模态缺失时,DyMo相比最先进的动态融合方法,准确率提升高达13.12% [31] - **困境验证**:实验验证了“丢弃-插补困境”的存在,例如在MST数据集上,当缺失模态为{M, T}时,无恢复方法MUSE的分类准确率下降了高达61.18%;在PolyMNIST上,当缺失率从0增加到0.8时,基于恢复的方法OnlineMAE准确率下降了9.91% [31][32] - **结果可视化**:特征可视化和案例分析表明,DyMo能够有效选择可靠的恢复模态,并提升模型性能 [34][36][37] 研究意义与未来方向 - **范式转变**:DyMo将问题视角从“如何恢复所有模态”转变为“哪些恢复模态值得信任”,为不完整多模态学习提供了更灵活和鲁棒的解决方案 [39] - **实用性与易用性**:该方法易于使用,可与多种模态恢复方法结合,且动态算法无需额外复杂结构开销,方便部署 [16] - **未来工作**:可能的研究方向包括将动态选择扩展到训练阶段、扩展到分类以外的任务,以及与多模态大语言模型结合 [41]
AI 真能做研究吗?UniPat AI开源UniScientist,用30B小模型给出肯定答案
机器之心· 2026-03-09 10:00
核心观点 - 公司UniPat AI发布并开源了UniScientist模型,该模型通过实现“假设-证据-验证”的完整科研流程闭环,使人工智能具备了自主进行科学研究的能力,而非仅生成看似研究的文本 [1][6][7] - 该模型以30B(300亿)的参数量,在多个科学研究基准评测中,其性能匹敌甚至超越了参数量大一个数量级的顶尖闭源模型,显示出其在研究智能方面的显著突破 [1][33] 模型能力与设计理念 - 模型的核心是实现了从提出假设、收集证据、执行可复现推导到迭代验证的完整科研闭环,解决了当前多数大模型仅停留在“叙事推理”和格式模仿的问题 [1][4][5][7] - 公司将开放式科研过程形式化为一个基于“主动证据整合”与“模型溯因”的动态系统,系统核心是不断演化的“证据状态”,并通过循环执行产生假说、获取证据、溯因更新三个动作来完成研究 [15][16][17] - 模型引入了“成果聚合目标”的训练,使其能够学会比较、取舍和整合针对同一问题的多份候选科研成果,从而产出更完整和稳健的最终成果,模拟了“集体科研智能” [29][30][31] - 模型集成了代码解释器,将研究流程升级为“测试-修正”循环,假设可以被实例化为可执行、可复现的计算实验,从而得到验证或修正 [39] 数据与训练方法 - 公司构建高质量科研训练数据的关键洞察在于利用“大模型擅长生成”与“人类专家擅长验证”的不对称性,采用模型负责规模与多样性、人类专家负责质量与可验证性的高效分工方式 [9][12] - 公司提出了“进化式多学科合成”数据引擎,其核心设计是将一份开放式科研成果分解为多个封闭的、可独立验证的评估项,每个评估项都追求原子化、客观且可证据落地或形式化推导 [20][21][22] - 当前构建的数据集已包含超过4,700个研究级实例,每个实例附有20条以上的评估项,覆盖50多个学科和400多个研究方向,专家标注平均每条样本投入1-2小时 [22] 性能表现 - 在FrontierScience-Research基准上,UniScientist-30B-A3B模型(仅3B激活参数)得分为28.3分,超越了Claude Opus 4.5(17.5分)、Gemini 3 Pro(12.4分)、GPT-5.2 xhigh completion模式(25.2分)以及工具调用模式下的DeepSeek V3.2(26.7分)和Seed 2.0 Pro(26.7分)[33] - 在成果聚合模式下,该模型在FrontierScience-Research上的得分进一步提升至33.3分 [33] - 在FrontierScience-Olympiad基准上,启用工具的UniScientist得分为71.0分,匹配Claude Opus 4.5,并超越了多个其他前沿模型 [33] - 在多项其他研究基准上,模型的表现与一系列顶级闭源系统相当 [33] - 即使在无工具使用的评测条件下,模型性能仍有显著提升,表明其研究推理能力本身得到了增强,而非单纯依赖工具调用 [34][35] 未来方向 - 系统的当前能力主要集中在可复现推理与仿真计算范围内,下一步方向是将框架扩展到对真实实验与计算基础设施的受控编排与执行,以加速科学发现 [40][41]
让Agent学会「先试再做」:微软提出Computer-Using World Model,教智能体理解动作的后果
机器之心· 2026-03-08 18:04
文章核心观点 - 当前大模型驱动的GUI智能体在操作桌面软件时,常因无法预判操作后果而陷入低效试错,其核心瓶颈在于缺乏“行动前预判结果”的决策能力,而非简单的界面识别或指令理解 [5][28][29] - 微软研究团队提出的Computer-Using World Model通过让智能体在执行真实操作前,先在内部模拟不同动作可能导致的界面状态变化,从而选择最可能推进任务的一步,实现了从“反应式点击”到“规划式决策”的转变 [7][12][26] - 该模型的关键创新在于将“下一步预测”分解为“生成变化描述”和“实现视觉变化”两阶段,使模型能聚焦于动作带来的系统状态改变,而非低效地重绘整个界面,这标志着AI能力从“信息空间”的理解表达,向“数字世界”中承担后果的有效行动演进 [18][28][30] 技术原理与设计 - **核心机制**:CUWM是一个世界模型,其工作流程是给定当前软件界面截图和一个候选操作,预测执行该操作后的界面图像,智能体通过比较多个候选动作的预测结果与任务目标的匹配度来做决策,这个过程被称为“world-model-guided test-time action search” [9][12][22] - **关键设计**:模型采用两阶段预测法,首先生成一段聚焦于局部变化的、结构化的文本描述,说明“哪些变了、哪些不变”,再通过条件图像编辑技术将这一变化渲染到原截图上,生成预测的下一状态界面,这种设计让模型注意力集中在动作后果上 [15][18][24] - **训练数据**:模型训练不依赖昂贵的在线强化学习,而是从真实软件交互轨迹中构建三元组,并利用大语言模型作为自动标注器,为每个三元组生成UI变化描述作为监督信号,随后通过强化学习进一步细化描述的结构一致性与简洁性 [20] 应用效果与意义 - **提升决策效率**:在“为Excel工作簿添加密码保护”的任务中,智能体利用CUWM对多个候选动作进行内部模拟,最终选择点击“Protect Workbook”,因为它预测的界面最符合进入加密流程的预期,这显著减少了真实环境中的无效点击和试错成本 [22][26] - **能力范式转变**:CUWM带来的性能提升,关键在于对界面结构变化的正确预测,而非生成图像的视觉逼真度,这揭示了GUI智能体的核心能力应是面向交互的规划与决策,而不仅仅是视觉识别 [26] - **行业意义**:该技术使AI智能体开始具备“先评估后果再行动”的决策能力,标志着AI从主要在“信息空间”中进行理解与表达的对话工具,转变为一个能在数字环境中通过路径规划来推进任务的行动体,这是AI能力类型的一次重要演进 [28][30]
爱因斯坦、费曼在智能体世界「复活」:30分钟刷新Erdos经典数学问题记录
机器之心· 2026-03-08 18:04
研究背景与核心方法 - 斯坦福大学与TogetherAI的研究者基于爱因斯坦、费曼等物理学家的“人格画像”构建了一批AI智能体,并创建了一个类似Kaggle的竞争合作平台[1][2] - 该研究旨在探索利用大模型和智能体解决数学问题的新范式,核心是让具有不同角色设定的智能体在平台上自由发表观点、相互竞争并展开合作[1][2] 实验成果与关键数据 - 智能体协作模式在30分钟内,为Erdös最小重叠问题发现了目前已知的最佳新解[4] - 新解决方案(Ours)在n=600步时,将问题上界优化至0.380871,优于此前所有方法[15] - 历史方法对比:2016年Haugland方法上界为0.380927,2025年5月AlphaEvolve方法为0.380924,2026年1月TTT-Discover方法为0.380876[15] - 智能体采取的核心优化思路是利用序列线性规划对阶梯函数构造进行优化[11] 智能体协作的涌现行为 - 平台系统为防止刷榜规定,智能体提交的新解必须至少比前一次提交提升1e-8,否则无法提交[7] - 在此规则下,出现了智能体委托“朋友”替自己提交结果的规避行为[8] - 研究者认为,为智能体赋予独特角色(如怀疑论者、乐观者)能产生不同的推理路径,从而以不同角度解决问题[17] 行业影响与争议 - 支持者认为这是一种新的内向型科研协作范式,智能体各自独立并行工作,减少了人类协作中的沟通与协调成本,从而高效解决问题[17] - 反对者批评该方法本质上只是一个被复杂包装的提示系统,让模型扮演特定角色可能增加“制造噪声”的步骤,而非直接进行有洞见的思考[17] - 完整的解决方案与验证过程已在GitHub开源,项目获得30个星标和4次分叉[9][10]
李曼玲、李飞飞团队顶会新作:给大模型测「空间智商」
机器之心· 2026-03-08 12:08
研究背景与核心观点 - 研究团队提出了一项针对基础模型的“空间智商测试”——空间理论,旨在探究AI是否具备人类级别的高阶空间认知能力,即主动预测并消除环境中的“不确定性”[2][4] - 该研究指出,衡量具身大模型的真正试金石,在于其能否主动预测并消除环境中的“不确定性”,这被认为是通向通用人工智能的必经之路[4] 测试方法与框架 - 研究团队打造了一个“多模态平行测试宇宙”,包含纯文本房间和基于ThreeDWorld引擎渲染的视觉房间,模型仅能使用“移动”、“多角度旋转”和“就地观察”等基础动作进行自主探索[7] - 测试系统从三大核心维度评估AI的空间认知:寻找未知、敏锐纠错和高阶推演[9] - 研究创造性地引入了“认知地图显式探测”机制,要求模型以JSON格式默写脑海中的虚拟地图,使AI对不确定性的建模过程透明化[11] 主要研究发现与模型缺陷 - 当面临“自主求解不确定性”的任务时,主流大模型集体暴露出四大深层缺陷[14] - **缺陷一:主动探索效率低下**:大模型自主探索时,往往耗费14到20步以上,并在已观测区域打转,而策略脚本代理平均只需约9步[15]。GPT-5.2在视觉宇宙中的动作准确率从被动接收信息的57.1%大幅下滑至主动探索的仅46.0%[17] - **缺陷二:存在“信念漂移”**:模型的内部空间信念脆弱,先前记住的物体坐标等信息会随着探索新区域而迅速退化模糊或被无关信息覆盖[19] - **缺陷三:存在“信念惯性”**:在纠错测试中,当物体被移动后,模型亲眼看到新位置,其预测仍固执地偏向老地方。GPT-5.2在视觉模型中的“信念惯性”高达68.9%[21] - **缺陷四:存在“模态鸿沟”**:模型在纯文本虚拟房间中表现尚可,但进入基于3D渲染的视觉世界后,得分直线下滑。人类在相同视觉测试中借助简单工具能达到99.0%的准确率,AI与之存在明显差距[23][25] 未来发展方向 - **突破一:培育具有强可塑性的“空间长时记忆”**:未来AI需要构建类似人类海马体的灵活回溯机制,以稳固锁定空间结构并能根据即时线索精准剔除错误记忆[26] - **突破二:引入内在“好奇心”驱动的强化探索**:智能体应能主动评估信息盲区,在内在“好奇心”驱动下,规划出信息增益最大化的探测轨迹[27] - **突破三:构建真正拥抱3D物理法则的“世界模型”**:未来的模型需要超越2D像素层面的模式匹配,真正理解三维空间中的几何刚体法则,能够在脑海中无缝推演视角变换的结果[28]
一键接入OpenClaw,谷歌开源CLI狂揽15k Stars,Agent开始接管Workspace
机器之心· 2026-03-08 12:08
谷歌发布Google Workspace CLI工具 - 谷歌发布了名为Google Workspace CLI(gws)的命令行工具,并将其开源在GitHub的Google Workspace官方组织名下[2] - 该工具将Drive、Gmail、Calendar、Sheets、Docs、Chat、Admin等Google Workspace云API封装为一个统一的命令行接口[2][3] - 项目发布后短时间内已获得15.3k的GitHub Stars和559个Forks,显示出极高的社区关注度[3] 工具的核心功能与定位 - 核心功能是为AI智能体(Agent)自动化工作流提供标准化接口,通过结构化JSON输出,方便接入包括OpenClaw在内的各类AI Agent系统[2][4] - 该CLI将Google Workspace API变成了一个既适合人类开发者也适合AI Agent调用的统一接口,人类无需手写API请求,AI无需编写额外工具[4] - 对于人类开发者,工具提供`--help`帮助信息和`--dry-run`预览请求功能,并自动处理分页[4] - 对于AI智能体,所有返回结果都是结构化的JSON,结合内置的Agent技能,大型语言模型(LLM)可直接管理Google Workspace而无需额外工具[4] 技术架构与实现 - 采用两阶段解析策略:首先识别要调用的服务并获取其Discovery Document进行缓存,然后动态构建命令树并解析剩余参数,最后完成认证和执行请求[4] - 所有输出,包括结果、错误信息和元数据,均以结构化JSON形式返回[4] - 项目使用Rust语言编写,但通过npm安装时无需安装Rust工具链,因为包中已包含预编译的原生二进制文件[10] 内置的AI Agent技能 - 工具内置了超过100个Agent Skills,以`SKILL.md`文件形式提供,每个支持的API都对应一个技能,并包含用于常见工作流程的高层辅助技能[6] - 提供了50个精选使用示例,覆盖Gmail、Drive、Docs、Calendar和Sheets等核心Google Workspace应用[6] - 主要技能包括`gws-shared`(认证、全局标志和输出格式)、`gws-drive`(管理文件和共享云端硬盘)、`gws-sheets`(读写电子表格)、`gws-gmail`(管理邮件)和`gws-calendar`(管理日历和事件)[8] - `gws-shared`技能包含安装配置,若系统环境变量中未检测到gws CLI,OpenClaw等AI Agent会自动通过npm安装它[7] 市场反响与安装要求 - Google Cloud AI总监Addy Osmani在社交媒体上宣传此项目,相关帖子浏览量突破了500万[3] - 安装要求包括:Node.js 18或更高版本(用于通过npm安装)、一个用于获取OAuth凭证的Google Cloud项目,以及一个拥有Google Workspace访问权限的Google账号[12] - 除了通过npm安装预编译二进制文件,用户也可以从GitHub Releases下载二进制文件,或从源码构建[11][12]
自动研究真的是未来!Karpathy放大招,将自我迭代智能体放进单个GPU
机器之心· 2026-03-08 12:08
行业研究范式的根本性转变 - 人工智能研究正从传统的人工驱动模式,转向由AI智能体(Agent)群体在大型计算集群上自主运行的范式 [1] - 一个名为FARS的自动化研究系统展示了该能力的成熟度,其在春节期间以约每2小时一篇的速度生成论文,共产生了244个研究假设和100篇短论文 [1] - 行业领先的研究者(如Andrej Karpathy)预言,AI研究的“代码”已演化为自我修改的复杂系统,其规模可能超出人类的理解范围 [1] 核心项目“autoresearch”及其机制 - Andrej Karpathy开源了名为“autoresearch”的项目,旨在探索人工智能自我迭代的起点 [2][3][4] - 该项目核心思想是:为AI智能体提供一个真实可用的轻量级LLM训练环境,让其自主进行夜间实验 [5] - 智能体运行机制为:修改代码 -> 训练模型5分钟 -> 检查性能提升 -> 保留或丢弃修改 -> 循环重复 [5] - 实验记录显示,每次训练运行严格持续5分钟,通过大量快速迭代寻找更优模型配置 [6] 新的研究分工与竞争维度 - 正在形成的新研究范式是:AI负责执行实验,人类负责设计研究系统 [9] - 这意味着未来AI研究的竞争关键,可能从模型与数据的竞争,转向“研究组织代码”的竞争 [9] - 研究者不再直接修改Python代码,而是通过编写Markdown文件(如program.md)为AI智能体提供上下文,以搭建和配置自治运行的研究组织 [7] 基础训练框架“nanochat”的关键作用 - “autoresearch”系统的训练代码基于Karpathy此前开源的项目“nanochat”——一个极简的大模型训练框架 [10] - nanochat是一个“可读版”的LLM全流程实现,用几千行代码串起了从Tokenizer训练、预训练、指令微调到推理服务的完整管线 [10] - 该框架目标并非追求极致性能,而是通过高度简化架构,提供清晰可理解的最小实现,因其结构轻量、实验成本低,已成为算法实验和自动化研究(AI-for-AI)的理想起点 [12] - 该框架性能持续优化,例如现在可在单个8x H100节点上仅用2小时训练出GPT-2能力模型,比一个月前减少了约3小时 [13] 自动化实验的具体过程与数据 - 项目通过AI智能体自动调整大量超参数进行实验,例如学习率、权重衰减、初始化标准差、动量参数等,并在每次实验后根据验证集困惑度(val_bpb)等指标决定是否采纳修改 [12] - 实验记录表格详细列出了每次代码提交(commit)对应的内存使用(memory_gb)、训练时间(time_min)、验证损失(val_bpb)及修改描述,直观展示了自动化搜索过程 [12]
30B参数超越GPT-5!REDSearcher让「深度搜索Agent」做到低成本可扩展!
机器之心· 2026-03-08 10:31
AI Agent深度搜索技术框架REDSearcher - REDSearcher是一个低成本、可扩展的AI Agent训练框架,旨在解决长程深度搜索任务[2] - 该框架使用30B规格模型,在深度搜索任务上取得了开源模型的SoTA(State-of-the-Art)性能,并超越了GPT-5、Gemini-2.5-pro、Claude-4.5-sonnet等闭源模型[2][26] - 其核心在于系统性设计,提供了一条可复现、低成本的深度搜索智能体训练路径[28] 深度搜索任务的核心挑战与量化标准 - 深度搜索的核心挑战在于处理信息分叉交织形成的回环,要求Agent同时记忆多路推论、验证一致性并准备整体回溯[8] - 团队引入图论中的TreeWidth(树宽)概念来量化“结构性困难”[8] - 线性/树状(树宽=1):典型链式推理[11] - 菱形/回环(树宽=2):出现分叉与重汇合,要求维持多路假设一致性[11] - 强耦合子图(树宽≥3):形成网状约束,需将零散证据拼合成一致整体[11] - 引入“信息分散度”概念,即覆盖全部关键证据所需的最小来源数,以杜绝搜索“捷径”[10] 自动化合成高难度问题的方法 - 基于双约束复杂度标准(树宽与分散度),采用graph-to-text流程自动化合成高难度深度搜索问题[13] - 设计了基于“结构化信息”与“网络浏览”两套图构造流程,以覆盖不同搜索环境[13] - 通过“模态注入”将纯文本推理图转化为跨模态推理,使部分约束锚定在图像中,实现向多模态搜索领域的高效迁移[13][14] 低成本Mid-Training强化智能体能力 - 采用可扩展的两阶段Mid-Training框架,依次强化模型的“原子能力”与“组合能力”,实现从语言建模到智能体的过渡[16] - 原子能力建设针对深度搜索重要的两个基础能力优化[21] - 组合能力建设通过环境交互强化长程任务中的状态维持与目标一致性,全程以成本为约束[21] 多模态扩展能力 - 通过拓扑结构增强,引入大模型智能体对初始依赖图进行“拓扑加密”,通过添加环状与交错约束提升结构复杂度[18] - 在问题构造阶段主动植入工具调用需求,使工具调用成为解题前置条件[18] - 通过视觉属性锚定、跨模态依赖、视觉语义抽象和模态灵活插入四种策略,构建多模态深度搜索问题[19] 后训练持续进化策略 - 后训练采取SFT + Agentic RL双阶段增强[22] - 构建“功能等价”的本地模拟环境,保持API一致、证据完备且含噪声,以低成本加速实验迭代[25] - 采用Agent-as-Verifier对强化学习问题集进行校验,避免数据污染影响训练稳定性[25] - 观察到效率与性能同步提升的现象:模型平均交互轮次下降,但准确率持续提升,表明其学会了更精准的信息获取策略[22] 实验结果与性能表现 - REDSearcher(30B-A3B)在多项深度搜索权威基准上取得优异表现[24] - 在BrowseComp基准上取得42.1 / 57.4*分[27] - 在BrowseComp-zh基准上取得49.8 / 58.2*分[27] - 在GAIA基准上取得80.1分[27] - 在HILE基准上取得34.3分[27] - Overall得分51.6[27] - REDSearcher-MM在多模态搜索基准中相比同规格模型取得SoTA水平,性能超过Gemini-2.5-pro,在部分基准上接近Gemini-3-pro[26] - REDSearcher-MM-RL(30B)在MMSearch基准上取得57.2分[27] - 在BrowseComp基准上取得31.2分[27] - 在BrowseComp-zh基准上取得44.5分[27]
一只能安装龙虾的龙虾,才是好龙虾!
机器之心· 2026-03-08 10:31
行业现状与痛点 - 当前市场上“Claw系列”智能体(龙虾)数量激增,形态多样,涵盖本地、云端、插件及独立系统,但普遍面临安装部署复杂、用户体验不佳的问题[1] - 许多智能体存在系统兼容性问题,例如仅支持MacOS或在Linux上版本混乱,所谓的“一键部署”往往需要阅读冗长的说明文档,甚至催生了付费上门安装服务[2] - 当工具的“安装难度”超过其“使用价值”时,这不仅构成技术门槛,更对生产力造成了负面影响[4] 解决方案:GenericAgent的核心能力 - 公司提出了一种新思路:开发一个具备“指挥官级”能力的智能体,能够理解系统、调度环境并自动部署其他智能体,而非让每个智能体自我简化[4][5] - GenericAgent是一个完全开源、仅用约3,300行Python代码实现的极简自主Agent框架,旨在让任意大语言模型获得对PC环境的“物理级接管”能力,控制浏览器、终端、文件系统等[6][7][30] - 该智能体展示了强大的“元能力”,包括跨系统理解能力、跨工具调度能力、动态纠错能力以及复杂任务拆解能力[28] - 其核心价值在于“指挥能力”,即能够理解其他智能体的结构并为其搭建运行环境,这被视作一种元认知能力,是下一阶段智能系统的关键分水岭[22][23][25][37] 技术验证:OpenClaw安装案例 - 公司选择以公认安装极其复杂的OpenClaw作为验证对象,其安装涉及Node.js、pnpm、wsl2、Docker等多重前置环境,对环境变量极为敏感[9] - 在仅给出“在当前环境下,帮我安装并跑通OpenClaw”的指令,且无预设脚本和人工干预的情况下,GenericAgent成功完成了从pnpm安装、依赖配置到网关设置等一系列步骤,最终在Mac系统上成功部署并打开了OpenClaw的网页端[10][16] - 经过少量提示与API key配置后,GenericAgent成功实现了与OpenClaw的对话功能[18] - GenericAgent具备自组织记忆能力,其学习成果以Markdown形式沉淀,使得在新环境(如从Mac切换到Windows)进行二次部署时,速度更快、更便捷,无需重新学习[19][20] 产品定位与未来展望 - GenericAgent由A3实验室(深圳夸夸菁领科技有限公司与复旦大学知识工场实验室联合团队)研发,定位为下一代自组织、自学习、自进化的通用智能体框架,具备“生命感”[30] - 该系统已于2026年1月11日开源,其设计理念是无需依赖Electron、Docker、Mac Mini等复杂环境,也无需多达53万行代码或付费安装服务[31][32] - 公司认为,真正的智能体不仅是能执行任务,更能调度其他复杂工具并不断进化,这代表了“基础设施级智能”的到来[34][35][38] - 未来,该技术框架可应用于自动部署复杂研发环境、自动搭建多Agent系统、自动构建工具链及自动接管繁琐配置任务等场景[38] 商业化产品:DinTal Claw - 为降低非技术用户的使用门槛,公司以GenericAgent为内核,推出了面向企业级、开箱即用的自进化智能体引擎——DinTal Claw[42] - DinTal Claw提供一键安装版本,用户无需懂代码或配置环境变量,双击即可运行,旨在接管用户繁杂的工作流[43] - 公司以此对比市场上可能需要花费500元寻求安装服务的复杂智能体,突出其产品的便捷性与生产力价值[44]