Workflow
零样本泛化
icon
搜索文档
速递|矩阵超智发布新一代旗舰级人形机器人,迈入“理解并适应物理世界”的新阶段
Z Potentials· 2026-01-10 11:49
文章核心观点 - 矩阵超智公司正式推出第三代全能旗舰级人形机器人MATRIX-3,标志着人形机器人从“执行预设指令”迈入“理解并适应物理世界”的新阶段,为规模化、实用化铺平道路 [1] - MATRIX-3是一款安全、自主、可泛化的物理智能机器人,能够执行类似人类的任务,并准备好从专业场景进入人类日常生活 [1] - 公司现已开放针对特定行业合作伙伴的早期体验计划,并预计于2026年启动首批试点部署 [12] 产品定位与意义 - MATRIX-3是人形机器人走向成熟应用的关键里程碑,构建了一个真正为理解并作用于物理世界而生的智能体 [12] - 产品哲学是让机器智能以最自然、最安全的方式融入人类的物理空间,旨在延伸人类能力、承担重复性劳动,而非复制人类 [12] - 为商业服务、制造业、物流、医疗辅助及未来家庭服务奠定了全新的软硬件平台标准 [8] 核心技术突破与优势 - **仿生设计与感知新生**:首次将仿生肤质与高维触觉深度融合,使机器人获得接近人类的物理交互直觉 [4] - 机身覆盖首创的3D立体织物仿生肤质,内嵌分布式传感网络,能缓冲意外接触并感知接触位置与力度 [9] - 指尖集成高灵敏度触觉传感器阵列,可感知0.1 N的压力变化,结合视觉系统形成“眼看”与“手触”互补的视触觉感知系统 [9] - **灵巧操控与拟人步态**:通过“灵犀之手”与“超能关节”,实现了前所未有的操作精度与自然移动能力 [5] - 灵犀之手为全新设计的27维自由度灵巧手,结合键绳驱动技术,实现极致轻量化与精准控制 [10] - 自然步态基于大规模人类运动捕捉和视频数据开发的通用运动控制模型,动力核心是一体化直线关节 [10] - **认知内核与零样本泛化**:搭载的全新神经网络具备强大的零样本学习能力,使机器人能快速适应未知任务与复杂环境 [5] - 核心突破在于强大的零样本任务泛化能力,无需针对特定任务进行海量数据训练,便能通过基础物理规律理解和简单指示快速学习 [11] - 在数据规模和质量驱动下,实现了通用智能操作模型,能够自主规划抓取策略、避障路径并实时调整力度与姿态 [11] 公司背景与愿景 - 矩阵超智公司致力于研发和制造世界上领先、实用的人形通用机器人 [13] - 公司愿景是创造一个由人工智能机器人承担繁重、危险和重复性工作的未来,从而解放人类创造力 [13] - 团队来自于全球头部人工智能、人形机器人和自动驾驶公司 [13]
Vbot Lab:有生命力的具身智能“行为基础大模型”
具身智能之心· 2026-01-06 08:32
文章核心观点 - 现有四足机器人(机器狗)普遍缺乏“灵性”和“生命力”,其核心问题在于传统控制范式采用“一个动作一个策略”的模式,导致动作切换生硬,难以适应真实、连续的人机交互场景 [4][6][9] - 为解决此问题,公司提出了一套全新的“四足行为基础模型”范式,旨在通过构建统一动作隐空间、利用海量非结构化数据以及引入残差动力学适配技术,赋予四足机器人连续、流畅、富有表现力且能零样本泛化的通用运动能力,使其真正融入生活 [10][11][34] 现有四足机器人的局限性 - **动作模式单一且割裂**:传统四足控制擅长单一任务的稳健执行,主流做法是“一个动作一个策略”(如后空翻、跳高、作揖各自单独训练),导致动作之间的自然衔接被忽视 [6][7] - **缺乏连续性与灵性**:单一动作模式使机器人动作转换生硬,难以展现连续、流畅且富有情感表达力的复杂行为,失去了生物体应有的灵性 [9] - **与真实场景需求脱节**:在真实环境与人一起活动的场景中,用户更在意一起活动的连续性和稳定性,而非某个单项动作的极限指标 [8] 四足行为基础模型解决方案 - **核心范式**:提出一套全新的四足行为基础模型范式,将最前沿的全身运动追踪技术系统化迁移到四足平台,打通从高维数字资产到实体物理环境的高保真落地路径 [11] - **三大核心要点**: 1. **海量非结构化数据注入**:构建高效的动作重定向管线,深度集成3A游戏与影视动画中的大规模、非结构化动作资产,并引入动作设计师编排的原创素材,协同艺术表现力与工程可落地性 [11] 2. **统一动作隐空间**:依托条件变分自编码器等生成式架构,将成千上万种动作模态压缩至连续隐空间,实现运动原语的解耦与融合,为单一通用策略提供统一表达 [11] 3. **残差动力学适配**:引入残差动力学适配技术,弥补虚拟艺术动作与真实物理环境之间的动力学鸿沟,确保单一通用策略的鲁棒性 [11] 技术实现路径 - **第一步:构建跨域动作数据集** - **突破**:构建了行业首个跨域四足动作数据集,解决了四足领域长期缺乏高质量动作数据集的瓶颈 [13][14] - **方法**:以数字动作资产为规模化底座,融合动作设计师创作编排的素材,形成覆盖广、风格丰富的动作谱系,并建立面向运动学与动力学一致性的重定向框架,解决异构映射难题 [16] - **第二步:算法迁移与通用策略学习** - **技术迁移**:将人形机器人最前沿的全身运动追踪技术栈适配并优化至四足构型,摒弃“一个任务一个策略”的传统强化学习范式 [22] - **通用策略训练**:分为两个阶段: 1. **通用策略**:通过运动学解析提取参考轨迹,并引入动力学可行性过滤机制,确保生成轨迹具备可执行的物理基础 [23] 2. **基于残差学习的仿真到现实适配**:采用“基础策略网络+残差策略网络”的双层控制架构。基础网络负责生成富有生命力的姿态语义;残差网络作为适配器,在真实数据回放驱动下训练,专注于处理高频非线性扰动,消除仿真与现实间的差距 [25][27] - **第三步:跨模态动作合成** - **目标**:在通用策略与统一隐空间基础上,探索多模态输入对机器人行为的驱动能力,实现“闻歌起舞” [29] - **音频驱动编舞框架**:提出音频-动作映射框架,利用预训练潜空间的流形连续性,将音频信号实时转化为机器人运动轨迹 [29] - **具体实现**: 1. **风格映射**:实时提取输入音频的梅尔频谱与能量特征,通过轻量级网络将其投影为潜空间中的轨迹序列,实现从“音乐情绪”到“动作语义”的自动映射 [32] 2. **时序对齐**:引入动态时间缩放系数,通过节拍追踪算法提取音频相位信息,实时调制策略网络输入相位,使运动节律与音频信号保持稳定对齐,实现真正的生成式编舞 [33] 方案成果与意义 - **打通技术链路**:该行为基础模型方案成功打通了从“数字艺术”到“实体物理”的具身智能链路 [34] - **赋予新能力**:机器人不再仅被动执行避障或行走,而是获得了零样本的即兴表现能力,在保持高动态运动天赋的同时,赋予了机器狗如生物般灵动、多变的通用行为能力 [34]
统一视觉多模态!港科大团队发布视频生成模型,加速真实世界理解
具身智能之心· 2025-12-17 08:05
文章核心观点 - 由港科大、港中文、清华大学和快手可灵团队提出的统一多模态多任务视频生成模型UnityVideo,通过联合训练多种视觉模态(如深度图、光流、骨骼、分割掩码等),显著提升了模型对物理世界的理解能力、生成视频的质量与可控性,并展现出强大的零样本泛化能力 [1][4][10][13] 模型动机与核心观察 - 现有视频生成模型大多局限于单一RGB视频学习,限制了模型对物理世界的全面理解 [9] - 核心观察:当模型同时学习多种视觉模态时,其在RGB视频生成任务上的收敛速度显著加快,最终性能也明显提升 [10] - 不同视觉模态提供了互补的监督信号,联合学习使模型能真正开始“理解”物理世界的运作规律 [12] 技术创新 - **动态任务路由**:在单个架构中无缝统一支持三种训练范式:条件生成、模态估计和联合生成 [16][17][18] - **动态噪声调度策略**:每个训练迭代随机选择一种训练模式并对相应token施加不同噪声,避免了灾难性遗忘,并设置了不同任务的采样概率以平衡学习进度 [20][21] - **模态切换器**:包含两个互补设计 - 上下文学习器:通过为不同模态注入特定文本提示,让模型在语义层面理解当前处理的模态 [23] - 模态自适应切换器:在架构层面为每种模态学习独立的调制参数,实现即插即用的模态选择能力 [25][26][27] - **渐进式课程学习策略**:采用两阶段训练,先在单人场景数据上训练像素对齐的模态建立基础,再引入所有模态和多样化场景数据 [29] 数据集与评估基准 - 构建了包含130万个多模态视频样本的OpenUni数据集以支持统一训练范式 [31] - 构建了包含3万个样本的UniBench评估基准,其中200个高质量样本来自Unreal Engine渲染,提供了ground truth深度和光流 [31] 实验结果:定量性能 - **文本生成视频**:在所有指标上均获得最佳结果,背景一致性达97.44%,美学质量达64.12% [33][35] - **可控生成**:在动态程度上表现卓越,达到64.42%,远超其他方法 [33][35] - **模态估计**:在视频分割任务上mIoU达到68.82%,在深度估计上Abs Rel仅为0.022,显著优于专门的单任务模型 [33][35] 实验结果:定性优势与消融验证 - **定性优势**:在物理现象理解、可控生成质量、模态估计精度和泛化能力上均展现出优势 [38][39][40] - **多模态互补性验证**:相比单模态训练,统一多模态训练在成像质量和整体一致性上获得更大增益,证明了互补监督信号的相互增强作用 [41][42][43] - **多任务训练必要性**:统一多任务训练能够恢复并超越单独训练可控生成任务导致的性能下降,证实了任务间的协同效应 [44][46] - **架构设计有效性**:上下文学习器和模态切换器各自都能有效提升性能,结合使用时能获得额外的显著增益 [47] 用户研究与泛化能力 - **用户研究**:在物理质量、语义质量和整体偏好三个维度上均获得最高评分,物理质量得分达到38.50%,显著超过商业模型Kling1.6的10.15%和HunyuanVideo的24.15% [49][50] - **零样本泛化**:模型在“two persons”的分割任务上训练后,能够自然地泛化到未见过的“two objects”场景 [52][55] - **跨模态知识迁移**:随着模型学习更多模态,RGB视频中的运动理解和语义响应都得到了改善,跨模态注意力交互逐渐增强 [56][58][62] 行业意义与启示 - 提升模型能力不仅仅依赖于增大参数量和数据量,更重要的是如何组织和利用多样化的学习信号 [62] - 视觉模型可以通过统一多种模态和任务来涌现更强的世界理解能力,正如LLMs通过统一多种文本任务涌现出推理能力 [62] - 简单堆叠不同模态不够,需要精心设计的机制来让不同模态真正互相促进 [63] - 评估需要多维度,更关键的是模型获得了跨任务、跨模态的泛化能力和更深层的世界理解 [63] - 为构建真正理解物理世界的视觉大模型奠定了坚实基础,展示了AI向通用智能演进的清晰路径 [64][65]
混元3D开源端到端全景深度估计器,代码+精选全景数据已上线,在线可玩
量子位· 2025-10-14 12:08
文章核心观点 - 腾讯混元3D团队提出了一种名为DA的全景深度估计器,该模型具备高精度、强大的零样本泛化能力以及完全端到端的特性 [2] - 该技术旨在解决全景深度估计领域因数据稀缺和球面畸变导致的泛化能力差和效率低下的核心挑战 [1][10] - 通过创新的数据扩充引擎和SphereViT模型架构,DA在多个基准测试中实现了最先进的性能,其关键指标AbsRel比最强的零样本方法平均提升38% [23][24] 背景与挑战 - 全景图提供360°×180°的沉浸式视角,是AR/VR和沉浸式图像生成等应用的关键视觉表示 [5][6] - 高质量的全景深度信息对于3D场景重建、物理模拟和世界模型等高级应用至关重要 [6] - 行业面临的主要挑战包括全景深度数据稀缺导致模型零样本泛化能力有限,以及全景图固有的球面畸变使得许多现有方法效率不理想 [1][10] 核心贡献:数据扩充 - 公司开发了一个数据管理引擎,将透视样本转换为高质量的全景数据,以扩展数据规模 [11] - 该引擎通过透视到等距矩形投影和全景外推技术,生成“完整”的全景图,解决了模型因缺乏全局背景和球面畸变差异而性能不佳的问题 [12] - 此引擎创造了约543,000个全景样本,将总样本数从约63,000扩展到约607,000,实现了约10倍的数据扩充,显著提升了模型的零样本性能 [14] 核心贡献:模型架构与训练 - 公司提出了SphereViT模型架构,通过计算球面角并生成球面嵌入,使图像特征能明确关注全景图的球面几何形状,从而有效减轻球面畸变影响 [16][17] - 与标准ViT不同,SphereViT采用交叉注意力机制,将图像特征作为查询,球面嵌入作为键和值,产生可感知畸变的表示 [17] - 模型的训练结合了距离损失和法线损失,前者约束全局精确的距离值,后者促进局部平滑且锐利的几何表面 [18] 实验结果 - 在斯坦福2D3D、Matterport3D和PanoSUNCG等多个数据集上的基准测试表明,DA实现了最先进的性能 [19][23] - 具体而言,DA在关键评估指标上表现优异,例如在斯坦福2D3D数据集上,其AbsRel为7.23,RMSE为14.00,δ1为95.45 [21] - 定性比较显示,由于训练数据量是UniK3D的约21倍,DA展现出更精确的几何预测,并且优于受多视角不一致性限制的MoGev2等方法 [27] 应用场景 - 该技术能有效支持广泛的3D重建相关应用,例如全景多视图重建 [28] - 模型能够根据房屋不同房间的全景图像,重建出全局对齐的3D点云,确保多个全景视图之间的空间一致性 [29]