通用具身智能体 - 财报，业绩电话会，研报，新闻

通用具身智能体

搜索文档

锦秋基金被投Manifold AI发布通用交互世界模型，让智能体具备实时未来预测能力｜Jinqiu Spotlight

锦秋集· 2026-02-26 11:31

公司及产品介绍 - 锦秋基金于2025年领投了Manifold AI（流形空间）的天使轮，并在天使+轮继续追加投资，该基金是一家12年期的AI Fund，以长期主义为核心投资理念，积极寻找具有突破性技术和创新商业模式的通用人工智能初创企业 [4] - Manifold AI（流形空间）基于自研的世界模型构建具有通用理解和交互能力的具身智能体 [2] - 公司近日发布了名为WorldScape的通用交互世界模型，该模型成为当前主流世界模型评测worldscore榜单排名第一的实时世界模型 [5][9][40] WorldScape模型核心优势 - WorldScape是目前少数能够在四个核心维度上同时取得领先表现的交互式世界模型 [11] - 优势一：提供全面领先的交互体验，通过统一的动作—世界状态建模框架，同时支持空间导航与物体操作，避免了多模块拼接带来的不一致问题 [11] - 优势二：具有更稳定、可信的三维世界结构，在训练过程中显式引入三维几何感知的空间表示与约束，有效缓解了长时生成中常见的几何漂移与结构崩塌问题 [12] - 优势三：在实时生成下保持高视觉质量，通过结构化生成与高效训练策略，在单张GPU上实现接近实时（6–16 FPS）的交互式生成，并在成像质量、运动平滑度等视觉指标上位居前列 [13] - 优势四：具备“记忆”的世界，通过几何感知的世界状态记忆机制，使模型能够在不同时间步之间共享和更新信息，这是区分“视频生成模型”和“世界模型”的关键 [14] 核心技术：时空一致性 - WorldScape层次化地从训练和推理设计入手，增强生成内容在时间和空间上的一致性 [16] - 采用多任务学习范式，将三维几何先验深度融合进模型的“认知”，构建几何约束的生成框架 [19] - 训练过程同时受流匹配损失与三维几何信号（深度和3D高斯泼溅）的互补监督，通过联合优化总体损失函数对生成内容的场景结构与空间关系形成强约束 [20] - 通过端到端的3D重建支路任务，强制模型在生成每一帧时都遵循严谨的空间物理逻辑，从而大幅减小空间拓扑结构的畸变 [21] 核心技术：高效长序列一致性建模 - 针对长视频生成中显存爆炸与长期一致性难以兼顾的痛点，提出了一种基于KV缓存的优化策略 [24] - 该策略利用相机轨迹先验，通过三级分层架构（永久锚点、全局记忆池、局部滑动窗口）实现子线性的显存复杂度 [24] - 结合相机外参矩阵，通过几何相似度评分，优先提取与当前视角最相关的场景记忆，确保模型在移动拍摄时能精准“回想起”之前出现过的物体 [25] - 通过门控去重与全局剪枝，实时评估新信息的“惊喜度”，主动保留难以被现有记忆重建的视觉特征，剔除冗余信息，在有限的显存预算下扩展场景容量 [26] 核心技术：通用交互控制 - WorldScape提出统一交互感知条件建模机制，解决了现有模型往往只支持单一控制模式（如只支持移动、语言或操控某类物体）的问题 [29] - 支持摄像机轨迹控制，采用Plücker embedding表示摄像机轨迹，将每一帧的相机参数编码为结构化空间表示，然后通过轻量Adapter注入到扩散Transformer中，使模型能精确建模WASD移动、QERF旋转、任意视角轨迹等条件信号 [30] - 支持手部动作控制，将手部动作转换为姿态视频，与初始帧拼接后输入模型，实现接触、抓取、操控等操作，在一个世界模型中统一了导航与操作 [31] 核心技术：实时交互 - WorldScape采用基于Self Forcing的非对称蒸馏架构实现实时交互 [34] - 先训练一个完整统一交互可控的双向注意力扩散模型，再应用分布匹配蒸馏，蒸馏成按逐个视频chunk进行生成的因果自回归扩散模型 [34] - 通过基于滑动窗口的自回归去噪来减弱Self Forcing的严格因果性，允许不同chunk在去噪过程中相互关注，从而使不同chunk衔接处的相机运动更加平滑 [34] - 模型可在单张GPU上实时生成832×480分辨率视频 [9] 能力评估与行业地位 - 在WorldScore基准的官方排行榜中，WorldScape是综合排名第一的实时模型 [40] - 实验结果表明，WorldScape在视觉质量、交互响应、三维空间一致性、长期记忆能力以及单卡实时生成像素吞吐率等多个关键维度上实现均衡领先 [40] - 具体指标显示：WorldScape在成像质量上得分为0.685，运动平滑度为0.986，主体质量为0.891，背景一致性为0.923，轨迹准确性为0.717，记忆对称性为0.686 [38] - 这一结果表明，模型规模并非获得高水平世界生成能力的唯一决定因素，通过合理的时空建模与控制机制设计，实时模型同样可以在复杂多场景设定下取得强竞争力 [40] 总结与展望 - WorldScape模型突破了已有工作在通用性、实时性等方面的不足，通过空间一致性增强的自回归蒸馏框架，兼容不同类型的动作注入模块 [42] - 该模型在保证高交互效率的同时，维持稳定的动作跟随能力，有望成为支撑通用具身智能体的空间智能基座 [42] - 世界模型的愿景是为智能体打造一个无限且真实的“虚拟实验室”，通过在内部模拟环境的演化，使智能体可以在虚拟世界中进行无限制的探索、学习与决策，而无需昂贵的真实世界试错 [7]

世界模型

通用具身智能体

Artificial Intelligence

WorldScape

世界模型

通用具身智能体

Artificial Intelligence

WorldScape

震撼，英伟达新模型能打遍几乎所有游戏

机器之心· 2025-12-21 12:21

文章核心观点 - 英伟达发布并开源了名为NitroGen的通用游戏AI基础模型，该模型能够通过观看游戏视频帧直接输出真实手柄操作信号，具备跨1000余款不同类型游戏的零样本游玩能力，并可通过少量微调快速适应新游戏，其技术架构源于机器人模型，旨在作为构建通用具身智能体的重要基础[3][4][5][6][8][12][35] 模型概述与核心组件 - NitroGen是一个完整的通用大模型，以游戏视频帧为输入，输出真实手柄操作信号，天然适配所有支持手柄的游戏[4][8] - 模型设计融合三项关键要素：互联网规模的视频-动作数据集、多游戏基准评测环境、统一的视觉-动作策略模型[13] - 模型由三个核心组件构成：1) 多游戏基础智能体（通用视觉-动作模型）；2) 通用模拟器（统一游戏交互接口）；3) 互联网规模数据集（目前最大、最丰富的开源游戏数据集之一）[15][16][17] 数据集详情 - 数据集来源于40,000小时的公开游戏视频，覆盖1,000余款游戏，并自动提取生成了对应的动作标签[17][24] - 数据覆盖范围广泛：846款游戏拥有超过1小时的数据，91款游戏拥有超过100小时的数据，15款游戏累计数据量超过1,000小时[25] - 从游戏类型分布看，动作RPG占比最高，占总时长的34.9%；平台跳跃类占18.4%；动作冒险类占9.2%[26] - 数据通过从带有“手柄操作叠加显示”的游戏视频中，使用分割模型自动检测并提取手柄显示区域，转换为“专家级动作标签”来构建[18][19][21] 模型性能与实验结果 - 实验表明，NitroGen在3D动作游戏战斗、2D平台跳跃高精度操作、程序生成世界探索等多种场景中均表现出较强能力[28] - 使用5亿参数的统一模型在完整数据集上训练，在未进行任何额外微调的情况下，能够在多种视觉风格和游戏类型的游戏中完成非平凡的任务[30] - 模型能有效迁移到新游戏，在相同任务设定下，其任务成功率相比从零开始训练的模型最高可实现52%的相对提升[32] 战略意义与行业影响 - NitroGen被视为构建通用型具身智能体的起点，其能力聚焦于“玩家直觉式运动控制”，目标是打造能适应由无数模拟环境构成的“多元宇宙”中所有可能物理规则的智能体[34][35] - 电子游戏具备完整的世界和交互体系，是实现通用游戏操作的重要模拟环境，掌握此能力是迈向操作机器人进行真实世界交互的关键一步[35] - 英伟达已开源发布该模型的数据集、评测套件及模型权重，以推动通用具身智能体方向的进一步研究[36] - 该技术预示未来机器人学可能成为具身AGI巨大潜在空间中的一个子集，最终或可通过自然语言提示来请求机器人“游戏手柄”[37][38]

北大发布 ManualVLA：首个长程「生成–理解–动作」一体化模型，实现从最终状态自主生成说明书并完成操纵

机器之心· 2025-12-18 17:08

研究背景与挑战 - 当前视觉-语言-动作模型在机器人场景理解与操作上展现出通用性，但在需要明确目标终态的长时序任务中，难以兼顾高层规划与精细操控 [2] - 长周期任务面临两大核心难题：一是需要执行精确操作以严格对齐预定义最终状态；二是需要将长周期规划与细粒度控制有效集成，同时保持对多样化现实环境的泛化能力 [9] - 现有依赖人工制作说明书或人类演示视频的分层方法，在泛化到未见过的最终目标状态方面存在局限，难以在系统复杂度、部署成本和泛化性之间取得平衡 [9] ManualVLA 方法概述 - 该模型由北京大学、香港中文大学与至简动力团队提出，旨在解决长时序任务中规划与执行的割裂问题 [3] - 核心创新是构建了全新的「生成–理解–动作」一体化模型，让模型学会自己生成多模态操作说明书，再按说明书去执行动作 [5][12] - 模型摒弃了将高层次规划与动作生成拆分的传统分层方案，构建了全新的通用基础模型 Mixture-of-Transformers 架构，在同一模型中统一多专家模块，实现多模态生成与动作执行的紧密协同 [5] 核心技术：架构与思维链机制 - 模型基于 MoT 架构，集成了「规划专家」和「动作专家」两个模块，实现了多模态手册生成和动作执行之间的连贯协作 [14] - 引入了「说明书思维链」推理机制，该机制通过显式与隐式两条路径影响动作生成 [15] - 显式路径将规划专家预测的目标位置以视觉提示形式叠加在当前图像上，构成带有明显操作区域提示的「提示图」，直接指导动作专家 [19] - 隐式路径将手册生成时产生的内部特征通过专门设计的注意力掩码传递给动作专家，在潜在空间中提供持续的隐式引导 [19] - 消融实验表明，去掉显式或隐式路径中的任一路径都会显著降低长任务中的成功率，说明两者结合才能兼顾精度与稳健性 [19] 三阶段训练策略 - **第一阶段**：基于互联网机器人数据集，筛选与装配和重排相关的轨迹，构建超过 40 万条示例的预训练集，只更新动作专家，学习抓取、搬运和放置技能 [20] - **第二阶段**：利用基于三维高斯表示的数字孪生工具，对乐高板、积木和常见物体进行三维重建，在虚拟空间中合成上万帧带有精确标注的手册数据，用于训练规划专家 [20][23] - **第三阶段**：在真实双臂平台上通过遥操作采集专家示范轨迹，对规划与动作两个专家进行联合微调，使模型在真实环境中的规划–执行闭环更贴合物理世界 [21] 实验性能：真机与仿真 - **真机实验**：在 Franka 双臂平台上测试了 2D 乐高组装、3D 乐高组装和物体重新排列三个长周期任务 [24] - **手册生成质量**：规划专家在 300 个未见过的测试样本上生成了高质量的中间图像，例如 2D 乐高组装的 PSNR 达 29.01，物体重新排列的 FID 分数为 24.46，2D 乐高组装的 MAE 分数为 3.23，证明了生成图像的真实性、保真度和位置预测的精确性 [24][27] - **动作生成成功率**：在所有三个真实世界长周期任务中均取得了最高成功率，相比最强的分层基线，最终任务完成率提高了 15% 到 30%，平均成功率高出 32% [7][28] - **仿真实验**：在 RLBench 的 10 个仿真任务上取得了 70% 的平均成功率，超越了 SOTA 方法 π0 的 63% [31][32] 消融与泛化能力 - 消融实验证明，说明书中所有模态信息和隐式思维链推理对于解决长周期、目标明确的操作任务是不可或缺的，两者结合才能达到最佳性能 [33] - 模型在未见过的背景、物体形状和光照变化下表现出鲁棒的泛化能力，例如在背景变化下任务成功率为 0.65，仅下降 23%，优于基线模型的下降 25% [37]

星动纪元端到端原生机器人大模型ERA-42亮相，引领具身大模型进入灵巧操作时代

IPO早知道· 2024-12-24 10:56

星动纪元原生机器人大模型ERA-42 - 世界范围内首个真正的五指灵巧手具身大模型，开启具身大模型的通用灵巧操作时代 [6] - 仅通过同一个具身大模型实现五指灵巧手像人手一样使用多种工具完成上百种灵巧复杂操作任务 [5] - 模型不需要预编程技能，基于泛化和自适应性，能在不到2小时内通过少量数据学会新任务 [5] - 具备预测能力、泛化能力、自适应能力和规模化能力，初步体现"Scaling效应" [6] - 结合全新硬件平台，可快速实现具身智能体软硬件协同进化和商业化落地 [6] 星动XHAND1硬件平台 - 自研五指灵巧手拥有12个主动自由度，采用纯电驱方式，实现全自主五指关节驱动 [8] - 每个手指配备高分辨率(>100点)触觉阵列传感器，提供精确三维力触觉和温度信息 [8] - 单手最大握力达80N，负载可达25kg，展现高性能作业能力 [8] - 协同ERA-42大模型为实现复杂灵巧操作任务奠定基础 [8] 应用前景 - 通用人形机器人任务通用性和泛化性将大幅提升 [9] - 结合复杂地形行走奔跑能力及上下肢协同作业能力，潜在应用场景更加多元化 [9] - 推动原生通用具身智能体的产业化落地 [9]