Workflow
机器之心
icon
搜索文档
30B参数超越GPT-5!REDSearcher让「深度搜索Agent」做到低成本可扩展!
机器之心· 2026-03-08 10:31
AI Agent深度搜索技术框架REDSearcher - REDSearcher是一个低成本、可扩展的AI Agent训练框架,旨在解决长程深度搜索任务[2] - 该框架使用30B规格模型,在深度搜索任务上取得了开源模型的SoTA(State-of-the-Art)性能,并超越了GPT-5、Gemini-2.5-pro、Claude-4.5-sonnet等闭源模型[2][26] - 其核心在于系统性设计,提供了一条可复现、低成本的深度搜索智能体训练路径[28] 深度搜索任务的核心挑战与量化标准 - 深度搜索的核心挑战在于处理信息分叉交织形成的回环,要求Agent同时记忆多路推论、验证一致性并准备整体回溯[8] - 团队引入图论中的TreeWidth(树宽)概念来量化“结构性困难”[8] - 线性/树状(树宽=1):典型链式推理[11] - 菱形/回环(树宽=2):出现分叉与重汇合,要求维持多路假设一致性[11] - 强耦合子图(树宽≥3):形成网状约束,需将零散证据拼合成一致整体[11] - 引入“信息分散度”概念,即覆盖全部关键证据所需的最小来源数,以杜绝搜索“捷径”[10] 自动化合成高难度问题的方法 - 基于双约束复杂度标准(树宽与分散度),采用graph-to-text流程自动化合成高难度深度搜索问题[13] - 设计了基于“结构化信息”与“网络浏览”两套图构造流程,以覆盖不同搜索环境[13] - 通过“模态注入”将纯文本推理图转化为跨模态推理,使部分约束锚定在图像中,实现向多模态搜索领域的高效迁移[13][14] 低成本Mid-Training强化智能体能力 - 采用可扩展的两阶段Mid-Training框架,依次强化模型的“原子能力”与“组合能力”,实现从语言建模到智能体的过渡[16] - 原子能力建设针对深度搜索重要的两个基础能力优化[21] - 组合能力建设通过环境交互强化长程任务中的状态维持与目标一致性,全程以成本为约束[21] 多模态扩展能力 - 通过拓扑结构增强,引入大模型智能体对初始依赖图进行“拓扑加密”,通过添加环状与交错约束提升结构复杂度[18] - 在问题构造阶段主动植入工具调用需求,使工具调用成为解题前置条件[18] - 通过视觉属性锚定、跨模态依赖、视觉语义抽象和模态灵活插入四种策略,构建多模态深度搜索问题[19] 后训练持续进化策略 - 后训练采取SFT + Agentic RL双阶段增强[22] - 构建“功能等价”的本地模拟环境,保持API一致、证据完备且含噪声,以低成本加速实验迭代[25] - 采用Agent-as-Verifier对强化学习问题集进行校验,避免数据污染影响训练稳定性[25] - 观察到效率与性能同步提升的现象:模型平均交互轮次下降,但准确率持续提升,表明其学会了更精准的信息获取策略[22] 实验结果与性能表现 - REDSearcher(30B-A3B)在多项深度搜索权威基准上取得优异表现[24] - 在BrowseComp基准上取得42.1 / 57.4*分[27] - 在BrowseComp-zh基准上取得49.8 / 58.2*分[27] - 在GAIA基准上取得80.1分[27] - 在HILE基准上取得34.3分[27] - Overall得分51.6[27] - REDSearcher-MM在多模态搜索基准中相比同规格模型取得SoTA水平,性能超过Gemini-2.5-pro,在部分基准上接近Gemini-3-pro[26] - REDSearcher-MM-RL(30B)在MMSearch基准上取得57.2分[27] - 在BrowseComp基准上取得31.2分[27] - 在BrowseComp-zh基准上取得44.5分[27]
一只能安装龙虾的龙虾,才是好龙虾!
机器之心· 2026-03-08 10:31
行业现状与痛点 - 当前市场上“Claw系列”智能体(龙虾)数量激增,形态多样,涵盖本地、云端、插件及独立系统,但普遍面临安装部署复杂、用户体验不佳的问题[1] - 许多智能体存在系统兼容性问题,例如仅支持MacOS或在Linux上版本混乱,所谓的“一键部署”往往需要阅读冗长的说明文档,甚至催生了付费上门安装服务[2] - 当工具的“安装难度”超过其“使用价值”时,这不仅构成技术门槛,更对生产力造成了负面影响[4] 解决方案:GenericAgent的核心能力 - 公司提出了一种新思路:开发一个具备“指挥官级”能力的智能体,能够理解系统、调度环境并自动部署其他智能体,而非让每个智能体自我简化[4][5] - GenericAgent是一个完全开源、仅用约3,300行Python代码实现的极简自主Agent框架,旨在让任意大语言模型获得对PC环境的“物理级接管”能力,控制浏览器、终端、文件系统等[6][7][30] - 该智能体展示了强大的“元能力”,包括跨系统理解能力、跨工具调度能力、动态纠错能力以及复杂任务拆解能力[28] - 其核心价值在于“指挥能力”,即能够理解其他智能体的结构并为其搭建运行环境,这被视作一种元认知能力,是下一阶段智能系统的关键分水岭[22][23][25][37] 技术验证:OpenClaw安装案例 - 公司选择以公认安装极其复杂的OpenClaw作为验证对象,其安装涉及Node.js、pnpm、wsl2、Docker等多重前置环境,对环境变量极为敏感[9] - 在仅给出“在当前环境下,帮我安装并跑通OpenClaw”的指令,且无预设脚本和人工干预的情况下,GenericAgent成功完成了从pnpm安装、依赖配置到网关设置等一系列步骤,最终在Mac系统上成功部署并打开了OpenClaw的网页端[10][16] - 经过少量提示与API key配置后,GenericAgent成功实现了与OpenClaw的对话功能[18] - GenericAgent具备自组织记忆能力,其学习成果以Markdown形式沉淀,使得在新环境(如从Mac切换到Windows)进行二次部署时,速度更快、更便捷,无需重新学习[19][20] 产品定位与未来展望 - GenericAgent由A3实验室(深圳夸夸菁领科技有限公司与复旦大学知识工场实验室联合团队)研发,定位为下一代自组织、自学习、自进化的通用智能体框架,具备“生命感”[30] - 该系统已于2026年1月11日开源,其设计理念是无需依赖Electron、Docker、Mac Mini等复杂环境,也无需多达53万行代码或付费安装服务[31][32] - 公司认为,真正的智能体不仅是能执行任务,更能调度其他复杂工具并不断进化,这代表了“基础设施级智能”的到来[34][35][38] - 未来,该技术框架可应用于自动部署复杂研发环境、自动搭建多Agent系统、自动构建工具链及自动接管繁琐配置任务等场景[38] 商业化产品:DinTal Claw - 为降低非技术用户的使用门槛,公司以GenericAgent为内核,推出了面向企业级、开箱即用的自进化智能体引擎——DinTal Claw[42] - DinTal Claw提供一键安装版本,用户无需懂代码或配置环境变量,双击即可运行,旨在接管用户繁杂的工作流[43] - 公司以此对比市场上可能需要花费500元寻求安装服务的复杂智能体,突出其产品的便捷性与生产力价值[44]
GAN之父Ian Goodfellow病后归来,剑指高效世界模型
机器之心· 2026-03-07 19:20
文章核心观点 - 文章提出,构建具备动作条件能力的多模态世界模型,是实现高级AI(如具身AGI)的关键路径,而利用符号化表示(如代码、自然语言)和游戏虚拟世界的数据,是构建此类模型在数据效率和计算效率上更具优势的最佳方法[5][19][20] 世界模型的定义与重要性 - **世界模型的概念**:世界模型是一种能够表示环境动态变化和因果结构的模型,在强化学习框架中,它用于近似环境的状态转移函数,预测在特定状态下执行动作后的下一个世界状态[8] - **世界模型的作用**:借助世界模型,AI可以进行预测、规划、推理和行动,而无需每次都通过与真实世界直接交互来观察后果[9] - **构建世界模型的目标**:是为了实现能够释放巨大经济价值的AI能力,帮助人们摆脱不受欢迎的工作,其核心在于获得在多模态环境中进行因果推理的能力,这是通向具身AGI最重要的核心能力之一[12] 当前模型的局限与新的路径 - **纯像素世界模型的局限**:以生成式视频模型(如Sora)为代表的基于像素的世界模型,虽然能生成高质量视觉内容,但未必能真正捕捉世界的因果结构,且在速度和成本上效率较低,可能出现物理理解错误[13] - **人类认知的启示**:人类依赖认知工具(如自然语言、数学符号)对世界进行高效抽象和因果表达,这比通过原始感官数据完整重建世界更高效[15] - **新路径的优势**:利用符号化表示(如代码、自然语言)作为抽象层,可以让模型将表示能力集中在真正影响决策的世界要素上,在数据和计算效率上都更具优势,并能有效支持对长时间跨度任务的预测与推理[15][16] 数据来源与可扩展性 - **现有数据的不足**:互联网上虽有海量视频数据,但记录行动本身及其结果、能帮助模型理解行动后果的数据非常稀缺[18] - **更具效率的数据来源**:利用软件抽象构建多样化的合成世界(如游戏虚拟世界)是更具数据效率和计算效率的训练路径,这些环境通过键盘、鼠标等接口,能自然积累同时包含行动与观测的数据[18][19] - **商业化驱动的飞轮效应**:从数字世界(如游戏)开始构建世界模型,能够形成商业自我持续发展的路径,明确的参与激励(如娱乐)和可扩展的数据采集接口能让数据自然积累,持续推动模型能力提升[19][20] 模型设计的关键原则 - **设计应围绕策略展开**:世界模型的设计应当围绕希望从中学习到的策略来展开,而非追求单一的世界表示形式[22] - **需满足的关键属性**:无论用于虚拟还是现实世界,一个优秀的世界模型需要优先满足在长时间尺度上保持空间和物理状态的一致性,并能真实反映行动带来的后果等关键属性[22] - **最终愿景**:目标是构建一种在完全成熟形态下,不仅能够生成环境,还能用于训练和控制任何具身智能体(无论在虚拟还是现实世界中)的模型[20]
如何训练VLA?丰田研究院发布史上最大实验规模「保姆级」教程
机器之心· 2026-03-07 19:20
研究概述 - 丰田研究院与清华大学联合发布了一份关于大型行为模型训练的系统性研究,旨在为视觉-语言-动作模型的训练提供数据与策略的“避坑指南” [2][3] - 该研究进行了大规模实验验证,使用了4000小时的机器人-人类操作数据、5000万个视觉-语言样本,训练了89个不同的策略模型,并进行了58000次仿真评估和2835次真机测试 [2] 核心方法论:协同训练 - 研究的核心是协同训练方法,主张让模型同时从目标机器人数据和其他异构数据模态中学习,以提升泛化能力,而非仅依赖昂贵的机器人数据 [4] - 研究系统地探索了五种协同训练数据模态和三种训练策略,以寻找最佳训练“配方” [6][8] 协同训练数据模态 - **标准视觉-语言数据**:包含VQA、图像描述等,提供常识、空间推理和物体定位能力 [10] - **机器人轨迹的语言标注**:包括基于规则的脚本生成和利用GPT-5生成的富语义描述,提供显式的语义监督 [10] - **跨具身机器人数据**:来自Open X-Embodiment等数据集,包含不同形态机器人的数据,引入多样化的物理交互先验 [10] - **人类视频**:利用海量第一视角视频,通过提取“潜在动作”或利用GPT-5生成语言标注来利用 [10] - **离散机器人动作Token**:将连续动作压缩为离散Token,探究动作离散化建模的有效性 [10] 训练策略 - **单阶段协同训练**:将目标机器人数据与协同训练数据混合,进行联合训练 [10] - **两阶段-仅首阶段协同**:第一阶段使用协同数据进行预训练,第二阶段仅使用目标机器人数据进行微调 [10] - **两阶段-全协同**:第一阶段使用协同数据预训练,第二阶段微调时继续保留协同数据以缓解灾难性遗忘 [10] 模型架构 - 研究采用了VLM + Action Flow Transformer的架构,通过一个特殊的Observation Encoding Token来压缩视觉语言特征 [8] - 实验证明,这种压缩的单token表征方式,比使用复杂的全量特征在泛化性上更强 [8] 实验结果:有效模态与策略 - **有效模态(红榜)**:引入“多样的视觉-语言数据”和“跨具身机器人数据”能显著提升模型对分布外场景、未见任务及语言指令跟随的适应能力 [14] - **最有效的数据类型**:“标准视觉-语言数据”、“VLM生成的机器人数据标注”以及“人类视频的语言标注”效果最为显著,这三者本质上都属于多样的视觉-语言数据,证明增强VLM基座的视觉-语言理解能力能直接转化为更强的机器人策略 [15] - **数据模态的最佳使用阶段**:“标准视觉-语言数据”和“人类视频的语言标注”在全阶段加入都能带来收益;“机器人轨迹的语言标注”和“跨具身机器人数据”主要在“第一阶段”发挥作用 [16] - **协同训练的核心价值**:无论引入何种协同训练数据,对于训练集中已见过的任务,性能基本维持不变,其核心价值在于提升“泛化性” [17] 实验结果:无效或有限模态 - **离散动作Token(黑榜)**:协同训练实验中并未带来统计学意义上的显著提升 [24] - **具体问题**:使用FAST Token协同训练甚至会降低模型的泛化性;从视频中提取的Latent Actions仅在目标机器人数据匮乏时有效,一旦机器人数据量增加,其收益便迅速递减 [24] 组合模态与性能提升 - 将所有有效模态组合训练得到的模型,在各项指标上全面超越了仅用机器人数据训练的模型 [19] - 在真实世界的语言指令跟随任务中,平均完成率提升了45.3%;在仿真环境的未见任务中,成功率提升了36.4% [21] - 协同训练还提升了模型的表征质量与快速适应能力,仅使用200条演示数据微调,经过协同训练的模型就能迅速掌握全新的长程灵巧操作任务 [21] 对VLM主干网络的影响 - 有效的协同训练能够帮助策略模型中的VLM主干网络保留甚至增强通用的视觉语言理解能力 [23] - 经过协同训练的模型不仅在通用视觉语言基准上保留了能力,甚至在空间推理等维度上优于原始的VLM权重 [26] - 这证明一个保持了世界理解能力的VLM主干是构建高性能机器人策略的基础 [27] 关于思维链的探索 - 研究尝试让模型在输出动作前显式生成从协同训练数据中学到的中间推理步骤 [30] - 结果发现,与仅将思维链内容作为辅助训练目标相比,显式思维链条件化并没有带来性能提升,表明对于物理操作任务,协同训练带来的隐式推理已经足够 [31] 研究深度与作者 - 论文还包含了关于模型架构的详细消融实验、超参数的精细调节以及统计学上的严谨验证 [33] - 本研究的第一作者是清华大学交叉信息研究院的博士生林凡淇,该工作是在丰田研究院LBM团队实习期间完成的 [32]
CVPR 2026 | AI寒武纪时刻?字节世界模型新作,仅靠视觉学习真实世界知识
机器之心· 2026-03-07 19:20
模型概述与核心突破 - 豆包大模型团队与北京交通大学联合提出通用视觉世界模型VideoWorld 2,其核心观点是首次在业界实现无需依赖语言模型,仅通过浏览视频数据即可认知和掌握真实世界中的复杂知识[2][4] - 该模型旨在解决现有AI(如Sora 2、Veo 3、Wan 2.2)难以从真实世界视频中学习知识的挑战,特别是难以捕捉复杂的动态变化、空间关系及物理规律等非语言化知识[2][7] - VideoWorld 2仅通过“视觉信息”学习,使机器掌握推理、规划和决策等复杂能力,其论文已入选顶级会议CVPR 2026[2][4][6] 技术原理与架构创新 - 模型成功的关键在于提出了一种动态增强型潜动态模型(dLDM),其核心创新是将真实世界视频中的复杂外观与任务核心动作进行解耦,防止模型过拟合到相机抖动、光影变化等无关视觉细节[4][13][16] - dLDM架构包含一个MAGVITv2风格的编码器-解码器结构以及一个预训练的视频扩散模型(VDM),编码器将视频动态变化压缩为紧凑的潜在编码,VDM则负责将潜在编码渲染为视频[16][17] - 通过引入VDM作为外观渲染器,潜在编码得以专注于紧凑、可泛化的动作信息,同时利用解码器进行辅助重建并阻断梯度回传,从而稳定训练并提升模型对长时序复杂动态的捕捉能力[16][18] 性能表现与实验结果 - 在长达1分钟的复杂手工制作任务(如折纸、搭积木)测试中,VideoWorld 2的成功率远高于Sora 2、Veo 3和Wan 2.2等最先进技术,成功率提升超过70%,而后几种模型几乎无法完成此类任务[4][10] - 模型具备强大的技能泛化能力,能够将学习到的技能迁移至多种未见场景,并实现跨环境的多任务机器人操控[4][21] - 在潜在空间分析中,VideoWorld 2提取的编码对于跨环境(如仿真环境CALVIN与真实环境BRIDGE)的相似机械臂运动表现出更显著的聚类趋势,证明其能更好地提取跨场景共性,学习泛化性策略[23][25] 应用场景与数据基础 - 研究构建了两个实验环境进行评估:视频手工制作和视频机器人操控[8][9] - 手工制作视频环境包含多种场景下的精细动作与环境变化(如纸张不规则形变、视角切换与遮挡),视频时长达分钟级别并包含多个连续操作步骤,是评估模型复杂知识学习能力的理想测试场[8] - 机器人任务环境用于考察模型在理解控制规则和长程规划方面的能力[9] 发展前景与行业意义 - 该研究探索了AI直接从真实视频中学习复杂任务知识的边界,揭示了视觉能力是推动智能飞跃式发展的重要途径,对于构建能够自主感知、推理与行动的通用智能体具有指向性意义[4][26] - 尽管面向真实世界的视频知识学习与技能泛化仍存在很大挑战,但VideoWorld 2展示了从视频数据中学习更多样、更复杂任务技能的潜力[5][26] - 目前,该项目的代码与模型已开源[6]
Claude两周挖出火狐浏览器22个漏洞、14个高危!安全研究的游戏规则该变了?
机器之心· 2026-03-07 12:20
文章核心观点 - AI 正以极快的速度从根本上改变安全研究的运作方式,其自动化漏洞发现能力使代码库在AI扫描面前变得“透明”[2][4] - 以Claude Opus 4.6为例,AI在两周内发现22个Firefox浏览器漏洞,其中14个为高危级别,这几乎相当于Mozilla公司2025年修复的全部高危漏洞的五分之一,效率相当于整个安全团队的季度工作量[1][3] - 尽管AI在漏洞发现方面展现出强大能力,但其在漏洞利用(exploit开发)方面的能力目前仍远弱于发现能力,且成本高一个数量级[19] 从模型评测到安全合作 - Anthropic为测试Claude Opus 4.6,构建了基于Firefox历史CVE的复杂数据集,旨在创建更困难、更贴近真实世界的评估环境[9][10] - 选择Firefox作为测试目标是因为其代码库复杂、是全球测试最充分的开源项目之一,对AI发现新型漏洞的能力构成严峻考验[10] - 在测试中,模型首先成功复现了相当高比例的历史漏洞,随后被要求寻找Firefox当前版本中的新漏洞,以证明其真实发现能力[11] - 在专注于JavaScript引擎的测试中,Claude Opus 4.6仅用20分钟就发现了一个Use-After-Free内存安全漏洞,并在验证期间又发现了另外50个崩溃输入样本[12] - 最终,Anthropic扫描了近6000个C++文件,向Mozilla提交了总计112份独立漏洞报告,其中包含高危和中危漏洞,大多数问题已在Firefox 148中修复[13] 从发现漏洞到开发利用代码 - Anthropic进一步测试了Claude开发漏洞利用程序(exploit)的能力,要求其为已发现的漏洞开发能执行恶意代码的攻击工具[15] - 在运行数百次实验、消耗约4000美元API费用后,Claude仅成功利用了两个漏洞[17] - 测试结果表明,Claude发现漏洞的能力远强于利用漏洞的能力,且发现漏洞的成本比开发exploit低一个数量级[19] - 尽管成功案例少,但AI能自动生成浏览器exploit(尽管非常原始且仅在移除部分安全机制的测试环境中有效)的事实,仍凸显了其潜在风险[20] AI驱动的网络安全未来 - AI辅助漏洞利用开发的早期迹象,凸显了防御者加速“发现与修复”流程的极端重要性[24] - Anthropic分享了在分析中总结的技术和流程最佳实践,特别是开发了“任务验证器”工具,该工具能为AI Agent提供实时反馈,显著提高其输出质量[24][26] - 一个优秀的补丁Agent至少需要验证两件事:漏洞是否已被真正消除,以及程序的预期功能是否得以保留[24] - Anthropic构建了能自动测试建议修复后原始Bug是否仍能被触发,并独立运行测试套件以捕捉功能回归的工具[25]
破解大模型「无效并行推理」:Parallel-Probe问世,并行推理效率提升35.8%
机器之心· 2026-03-07 12:20
核心观点 - 研究团队提出了一种名为Parallel-Probe的Training-Free并行推理控制算法,旨在解决大模型在并行推理(Parallel Thinking)过程中存在的计算资源浪费问题 [2] - 该算法通过系统性分析发现,并行推理并非“算得越多越好”,全局共识常提前稳定,而少数长尾路径却持续占用大量资源,成为效率瓶颈 [2] - Parallel-Probe通过基于共识的早期停止和基于偏差的分支剪枝两大机制,在不牺牲核心准确率的前提下,显著提升了推理效率 [2][13] 技术原理与发现 - 研究通过引入2D Probing技术,系统性刻画了在线并行推理的全局动态性,揭示了三大底层特征 [8] - 特征一:非单调缩放,即准确率并非随算力投入单调增加,而是取决于“宽度”与“深度”的精细平衡 [12] - 特征二:路径长度不均,并行分支的生成长度差异极大,计算资源往往被少数“长尾”路径占据 [12] - 特征三:共识提早稳定,全局共识往往在所有分支结束前就已达成,平均共识达成率仅为0.31 [12] - 现有并行推理方法(如多数投票)的缺陷在于各推理分支彼此独立,即使大部分分支已达成共识,系统仍需等待所有冗余分支完成,导致效率低下 [5] 算法与性能 - Parallel-Probe是一种模型无关、即插即用的方法,可直接适配各种现成的开源或闭源大语言模型 [9][11] - 算法核心机制一:基于共识的早期停止,周期性提取各分支中间结果,一旦探测到全局多数答案在连续几个周期内保持稳定,便终止整组推理 [13] - 算法核心机制二:基于偏差的分支剪枝,实时监控每条路径,对显著偏离当前全局趋势的异常路径进行剔除,将资源集中在更有潜力的路径上 [13] - 实验表明,该算法能显著减少无效计算,将推理延迟降低35.8%,总token成本降低25.8% [2] - 在多个基准测试(AIME24, AIME25, HMMT25)和不同规模的基础模型(Qwen2-0.6B, 1.7B, 4B, 8B)上,Parallel-Probe在性能、成本效率和延迟效率之间建立了更优的平衡点,系统性地优于现有的ESC和SC等基准方法 [14] 基础设施与贡献 - 研究团队推出了名为SCOUT(顺序与并发离线利用测试床)的平台,实现了推理生成与控制策略的解耦,允许开发者在极低开销下模拟各种缩放策略,极大提升了测试效率 [15][16] - 相关代码、论文及Online Judge平台均已开源,可供行业研究使用 [6][16][18]
谢赛宁也玩MC?开源全新世界模型生成多人一致的游戏视角
机器之心· 2026-03-07 12:20
AI研究与游戏环境 - 电子游戏是AI领域发展的重要推动力,其构建的完整世界和易于理解的规则,可用于训练人工智能对物理世界的理解、智能体交互以及构建世界模型[1] - 在视觉相关AI研究中,《GTA》和《我的世界》是两座绕不开的“大山”,分别代表真实世界风格和虚拟自由风格[2] - 谢赛宁团队将世界模型的研究方向转向了《我的世界》[3] Solaris模型与核心贡献 - Solaris是谢赛宁团队开发的首个多人视频世界模型,能够同时生成多个玩家之间保持一致的第一视角视频[5] - 该模型的核心贡献之一是团队完全自主设计并构建的多人数据采集系统SolarisEngine,因为现有平台仅针对单人设定而设计[7] - SolarisEngine是一个可扩展的框架,支持在《我的世界》等游戏中进行协调的多智能体交互和同步视觉捕捉,由1260万帧协调的《我的世界》游戏游玩数据创建[7] 数据采集系统与数据集 - 研究团队从零开始搭建了SolarisEngine数据采集系统,因为市面上没有现成的系统可以用来采集真实的多人游戏数据[11] - 该系统以Mineflayer为基础,构建了通信层以支持机器人协作,并创建了一个涵盖建造、战斗、移动、采矿等核心交互任务的任务类型库[14] - 通过将控制机器人与摄像机机器人配对,并利用自定义服务端插件实现同步,系统解决了视觉画面提取并与动作对齐的问题[15] - 利用SolarisEngine,团队采集了首个带有动作标注、适用于训练世界模型的多人《我的世界》数据集,总计包含9240个任务回合,总计1264万帧[16][17] 模型架构与技术特点 - Solaris是一种可控的视频扩散模型,能够在给定各玩家历史观察与动作的条件下,联合预测多名玩家的未来观察结果[19] - 模型结合了流匹配与扩散强迫进行训练,其中每个玩家及每个时间步都会采样独立的噪声水平,这使得模型在学习对各玩家观察流进行去噪的同时,保持玩家间的一致性[19] - 模型基于MatrixGame 2.0构建,并进行了三项关键改进以支持多人模式:扩展动作空间、引入多人自注意力层以实现玩家间信息交换、以及添加可学习的玩家ID嵌入[20] - 该架构通过在序列维度上进行视觉交错来实现多人建模,多人信息通过一个共享的自注意力模块进行交换[22] 评估方法与实验结果 - 研究团队创建了Solaris Eval数据集,通过7个独特的、不参与训练的真值任务回合,来测试移动、定位、一致性、记忆和建造五种多人协作能力[23][24][26][28] - 在定量比较中,Solaris模型在多个评估类别中表现优于对比方法“帧拼接法”[27][29] - 具体数据:在“定位”能力上,Solaris的VLM评分为62.50,显著高于“帧拼接法”的53.13和“无预训练Solaris”的29.17;在“建造”能力上,Solaris的VLM评分为20.83,而其他两种方法均为0.00;在“一致性”能力上,Solaris的VLM评分为71.35,高于“帧拼接法”的53.11[29] - 尽管“帧拼接法”在“移动”评估中VLM评分(77.08)略高于Solaris(68.23),但定性分析发现该方法在面临“无操作”动作时会出现动作幻觉[27]
14B规模竟也能单卡实时生成视频?多亏这个强大的开源底座
机器之心· 2026-03-07 12:20
行业技术趋势 - 春节期间Seedance 2.0爆火,再次将视频生成推上风口[1] - AI视频生成社区共识正愈发清晰:SOTA视频生成能力正快速向以Diffusion Transformer(DiT)为核心的统一范式收敛,模型比拼从基础画质堆料转向更高层级的语义理解深度与多模态协同效率[6] - 视频生成领域正迎来属于自己的“视觉版LLaMA时刻”,一个高性能、低成本且自主可控的视频大模型底座正加速演化为产业侧可复用的视频生成基础设施[13][14] 字节跳动Helios模型 - 字节跳动携手北大、安努智能和Canva共同开源了具备实时生成能力的视频模型Helios家族,包含Helios-Base、Helios-Mid与Helios-Distilled三个版本,全面覆盖T2V、I2V、V2V及交互式生成任务[1] - Helios模型以14B参数量实现高达19.5 FPS的单卡生成速度,做到了“质量”与“速度”齐飞[1] - 项目发布首日即实现对昇腾NPU的Day-0级别支持,并同步兼容Diffusers、vLLM-Omni、SGLang-Diffusion等主流推理框架[2] - Helios成功登顶Hugging Face Daily Papers,在GitHub上发布一两天后star数已超过520[3] - Helios模型的核心开发团队是北京大学袁粒课题组,该模型与团队之前开源的Open-Sora Plan(OSP)项目技术栈高度同源,与UniWorld-OSP2.0存在三分之一到二分之一的代码复用[3] - Helios是对其核心技术的一次有效验证,性能比OSP团队此前基于UniWorld-OSP2.0开发的OSP-RealTime 14B更胜一筹[4] 北京大学UniWorld-OSP2.0模型 - Open-Sora Plan团队推出的UniWorld-OSP2.0是业界首个开源的超百亿级(21B)视频生成大模型,也是首个实现“双原生”(昇腾原生及自回归+Diffusion混合架构)统一范式的大模型体系[6] - 在VBench-I2V基准测试中,UniWorld-OSP2.0在多项关键指标上表现优越,其整体表现已稳步进入开源阵营第一梯队[9] - 具体在VBench-I2V基准上,UniWorld-OSP2.0(14B)在主体一致性(96.21)、背景一致性(97.71)、运动平滑度(98.47)、动态程度(46.10)、美学成像质量(66.55)等指标上超越Wan2.1等模型[10] - Open-Sora Plan项目已累计获得约1.2万GitHub star和千万级下载量,多次登上Trending榜单,在实际代码活跃度上进入开源视频模型第一梯队[11] - 目前已有包括字节、腾讯WXG、阿里达摩院、小红书、哔哩哔哩等多家团队基于该框架展开二次开发,海外多家AI公司亦同步跟进[14] - 团队宣布将进一步开源12类风格化数据集及完整模型权重[14] UniWorld-OSP2.0技术架构与创新 - 整体架构由三大核心组件构成:因果变分自编码器(Causal VAE)、VLM增强的多模态条件模块、以及扩散Transformer(DiT)主干网络,这套“VAE+VLM+DiT”架构构成了其强大性能的基石[19] - 一大核心技术优势是FlashI2V机制,旨在解决图像生成视频(I2V)中的“条件图像泄漏”问题,该问题会导致生成视频动作僵硬或画面崩坏[20][21] - FlashI2V通过两个关键设计协同发力:潜空间偏移(Latent Shifting),通过修改流匹配分布隐式整合条件图像信息,减少去噪器过度依赖;傅里叶引导(Fourier Guidance),通过傅里叶变换提取图像高频特征以校准细节[27] - FlashI2V使得模型在多项I2V关键指标上成功超越了Wan2.1,并取得了最低的域外FVD[30] - 两大主要创新:一是引入冻结的预训练VLM(如7B参数的Qwen2.5-VL)作为多模态特征提取器,并通过轻量级Adapter与DiT对齐,大幅提升对细粒度信息的控制精度[33][34][35][36];二是推出I2SV(图像到风格化视频)范式,构建了包含12种典型艺术风格的数据集,实现一步输出时间连续且符合语义的风格化视频[38][40] - 在MMMU、MM-vet等视觉理解基准测试中,具备VLM加持的UniWorld-OSP2.0取得了优秀成绩(如MMMU 58.6, MM-vet 67.1)[37] OSP-RealTime 14B与实时生成 - 袁粒课题组基于UniWorld-OSP2.0训练了OSP-RealTime 14B模型(Helios系列底层的核心技术),在单块昇腾Atlas A3系列产品上把文生视频帧率拉到了10 FPS,成为第一个真正接近“交互式视频生成”的开源级扩散架构[42] - OSP-RealTime 14B将长视频生成重新定义为无限的视频续写任务,通过时间维噪声latent的拼接策略,在窗口切换时保持运动连续性,实现时间上的无限延展[43][44] - 在生成加速上做了三个关键优化:将噪声latent的帧数从21帧降到9帧,实现平方级算力节省;采用多尺度分辨率策略,先低分辨率生成大结构再逐步细化;通过DMD蒸馏将扩散推理步数从50步压缩到4步[47] - 工程优化包括:采用特征缓存方案(Latents Cache),预计算并存储引导词特征,使多轮迭代训练时间缩短约30%,并释放20%的显存资源;模型全程在昇腾Atlas A3系列产品上完成训练与推理,深度融合了MindSpeed-MM套件的分布式训练等原生特性[49] - OSP-RealTime 14B让14B参数规模的模型进入实时区间,为互动视频、生成式游戏场景、实时虚拟世界等应用提供了算力基础[50] 生态与产业意义 - 支撑OSP系列项目的算力引擎指向了一套庞大的国产化算力生态——鲲鹏与昇腾算力[7] - 北京大学鲲鹏昇腾科教创新卓越中心的赋能和算力支持,使这些开源项目得以成为现实[6] - UniWorld-OSP2.0在昇腾算力平台上跑通了工业级视频生成闭环,依托昇腾底座定义了视频生成的“公共基础设施”[52] - 该项目为以昇腾为核心的国产智算生态提供了一份高价值的工程落地手册,解决了底层通信算子的精度误差与非并行切分层的推理崩溃隐患,开发者无需从零训练高耗能组件即可获得成熟工具链[52]
成本下降 90%后,Figure 的下一步是机器人「自己造自己」?
机器之心· 2026-03-07 10:30
文章核心观点 - 公司正将其人形机器人的核心技术栈从传统手写代码全面转向全栈端到端神经网络架构,并已实现全身强化学习控制,目标是从“房间尺度自主”向更大范围、未见环境中的持续自主运行推进 [5][6][10] - 公司通过设计优化、供应链管理和垂直整合等策略,已将其最新机器人型号的成本降低了90%,并制定了明确的规模化生产路径,目标年产5万台 [12] 01. Figure 为何删除十万行代码? - 公司正将机器人控制栈从手写代码全面转向全栈神经网络,早期系统曾有“几十万行”C++代码,在Helix 2阶段移除了剩余的约109,000行C++代码 [6] - 转向全栈神经网络的原因是,依赖代码启发式方法无法覆盖人形机器人所需的全身协调、操作与场景变化 [6] - 公司通过Keurig咖啡制作等连续任务验证了神经网络在双臂人形机器人上的有效性,这推动了整个技术栈向神经网络迁移 [7][8] - 在Helix 2中,公司集成了一个完全学习得到的全身强化学习控制器(内部称为System Zero,S0),实现了全身控制的神经网络化,而不再仅是上半身 [9] - 技术重点在于实现实时闭环控制,控制频率约在200Hz或“几百Hz”量级,使机器人能在环境变化中持续完成感知、推理和动作输出,而非执行预先录制的动作 [10] - 公司当前能力被概括为“房间尺度自主”(room-scale autonomy),下一步目标是从“一个房间”推进到“完整家庭”,并最终进入“未见过的家庭环境” [10] - 衡量系统成熟度的关键指标是人类介入频率,即机器人在连续任务中对人工协助的依赖程度 [11] 02 . 成本降了90%后,Figure下一步是年产5万台? - 公司通过设计优化、供应链管理和垂直整合等策略,已将其最新机器人型号Figure 03的成本降低了90% [12] - 公司制定了明确的规模化生产目标,计划实现年产5万台机器人的产能 [12] 03 . 进入家庭之前,Figure还要先跨过哪些商业化门槛? - 公司认为机器人从工厂环境进入家庭应用仍需时间,需要先克服一系列商业化门槛 [4] - 商业化路径包括在商业场景中实现持续运行、通过机队共享积累数据,以及将机器人引入内部制造产线等布局 [12]