GigaTrain
搜索文档
世界模型和具身大脑最新突破:90%生成数据,VLA性能暴涨300%|开源
量子位· 2025-12-02 12:59
文章核心观点 - 国产世界模型公司极佳视界发布并开源具身世界模型GigaWorld-0,首次实现VLA模型训练数据中90%由世界模型生成 [3] - 使用GigaWorld-0生成数据训练的VLA模型,在新纹理、新视角、新物体位置三大泛化维度上性能提升近300% [1][3] - 该突破标志着具身智能正式迈入数据高效、高泛化、低成本的新阶段,破解了高质量真实机器人交互数据稀缺的行业瓶颈 [3] GigaWorld-0模型架构与技术突破 - 模型由GigaWorld-0-Video和GigaWorld-0-3D两大协同组件构成,分别负责生成视觉逼真的操作数据和确保几何结构与物理动力学的准确性 [5] - GigaWorld-0-Video采用基于稀疏注意力的Diffusion Transformer作为生成主干,显著降低内存占用与推理延迟 [7][9][10] - 在DiT前馈网络模块中集成混合专家架构,每个视频Token动态路由至多个专家网络,实现细粒度的内容控制 [11][12][13] - GigaWorld-0-3D融合生成式重建技术与可微分物理引擎,提升稀疏观测条件下的场景建模能力并精准复现机械臂交互的动力学行为 [14][16][18] 高效训练框架与性能 - GigaWorld-0是业内首个采用FP8精度端到端训练的世界模型,通过将FP8与稀疏注意力结合,显著降低显存占用与训练成本 [19] - 自研的GigaTrain高效训练框架支持多种先进训练技术,在8×H20等常规硬件上可高效完成微调,并已全面开源 [20] - 在PBench基准测试中,尽管GigaWorld-0仅激活20亿参数,为对比模型中最小,却在整体评分上取得最高性能(Domain Overall Score: 82.07),领先于参数量更大的模型 [23][24][25] 公司背景与行业影响 - 极佳视界是国内首家以世界模型为切入点的物理AI公司,专注于世界模型平台与具身基础模型的双轮闭环 [27] - 公司核心团队拥有顶尖的研究能力和大规模的产业落地经验,技术已应用于自动驾驶、具身智能等多个方向 [27][28] - 公司在11月刚刚完成亿元级A1轮融资,由华为哈勃、华控基金联合投资,这是两个月内连续完成的第三轮融资 [29]