具身智能之心 - 财报，业绩电话会，研报，新闻

具身智能之心

搜索文档

具身智能之心· 2025-11-25 08:03

文章核心观点 - Meta公司推出名为WorldGen的突破性生成式AI系统，能够仅通过一段文本提示生成完整、可交互、可导航的3D世界，覆盖面积达50x50米，并在整个区域内保持风格和几何结构的一致性[12][13][19] - 该技术融合了程序化推理、扩散模型3D生成以及面向对象的场景分解，代表了生成式AI从2D内容创作向复杂3D环境构建的重大跨越[13][17] - WorldGen的输出可直接兼容Unity、Unreal等主流游戏引擎，无需额外转换，展示了在游戏开发、仿真和沉浸式社交环境等领域的巨大应用潜力[22][29] 技术方法与创新 - 系统采用多阶段流程：规划（程序化blockout生成、导航网格提取）、重建（图像到3D基础模型）、分解（场景部件提取）、精修（网格与纹理优化）[21] - 与基于Gaussian Splatting等技术（如World Labs的Marble）相比，WorldGen以网格为基础输出几何结构，原生支持物理模拟、碰撞检测和导航，功能性更强[29] - 传统方法通常从单一视角向外扩展，移动3-5米后质量骤降，而WorldGen能生成50x50米完整纹理化场景并保持一致性[18][19] 应用前景与行业影响 - 该技术有望大幅降低3D内容制作门槛，使普通人无需编写代码即可从文本提示创建虚拟世界，推动内容创作大众化[22][30] - 对游戏开发、技术美术和关卡设计师等工作流程将产生变革，从业者可从手动建模转向使用AI提示词驱动并筛选编辑输出[30][31] - 生成过程算力需求较高，开发者需评估本地与云端渲染能力以确定合适部署方式[31] 当前状态与发展方向 - WorldGen目前仍处于研究阶段，尚未对开发者开放，但已展示出跨行业节省时间和成本的潜力[22] - 未来版本计划支持更大规模世界生成并降低生成延迟，进一步提升实用性[20][22]

Meta Platforms(US:META)

生成式AI

3D世界构建

Artificial Intelligence

Artificial Intelligence

WorldGen

Marble

新国立提出VLA-4D：4D感知VLA模型，实现时空连贯的机器人操作

具身智能之心· 2025-11-25 08:03

文章核心观点 - 提出VLA-4D模型，通过融合3D空间与1D时间信息，将4D感知嵌入视觉-语言-动作模型，旨在解决通用机器人任务中时空连贯操作的瓶颈问题 [2][4][5] - 该模型的核心创新在于双重视空融合，通过4D感知视觉表征和时空动作表征，统一提升机器人操作的视觉推理精细度和动作规划的时间连贯性 [4][5] - 在LIBERO基准测试中，VLA-4D模型在多项任务上取得显著领先性能，平均成功率高达97.4%，远超现有2D、3D及4D模型 [19] 模型提出的背景与动机 - 现有2D VLA模型依赖单帧图像输入，存在视觉推理粗糙和2D-3D坐标不匹配问题，导致动作空间精度不足和时空不连续 [6] - 3D VLA模型虽提升了空间平滑性，但缺乏对时间维度的显式建模，易出现动作卡顿、抖动等时间连贯性问题 [6] - 核心目标是通过融合空间与时间信息，同时增强视觉推理和动作规划的精细度，实现机器人操作的空间平滑性与时间连贯性统一 [4] 核心设计与技术细节 - 整体框架采用双重视空融合，将4D信息嵌入视觉表征用于推理，将时间变量融入动作表征用于规划，通过多模态对齐让大语言模型输出时空连贯的动作指令 [5] - 4D感知视觉表征设计包含3D空间与1D时间编码，以及交叉注意力融合机制，生成兼具语义、几何与时空特性的视觉表征 [7][10] - 交叉注意力融合策略相比拼接和加权策略表现更优，在LIBERO-Spatial任务中成功率高达97.9%，完成时间仅4.1秒 [11] - 时空动作表征在传统空间动作参数基础上新增时间变量Δt，用于调控动作执行节奏，形成完整的时空动作表征 [12] 数据集与训练流程 - 基于LIBERO数据集进行扩展，新增时间标注，最终包含40个子任务、15万组视觉-语言-动作样本，覆盖四大场景 [16] - 采用两阶段训练策略：第一阶段进行4D视觉-语言对齐，第二阶段进行机器人任务微调 [15][22] - 两阶段训练相比单一微调能显著提升性能，在LIBERO-Goal任务中成功率从90.7%提升至97.8% [17][18] 实验验证与性能表现 - 在LIBERO基准测试中，VLA-4D在空间推理、物体理解、目标达成和长时规划任务的成功率分别为97.9%、98.6%、97.8%、94.8%，平均成功率97.4%，完成时间仅5.8秒 [19] - 在零样本任务中仍保持高成功率和短执行时间，证明时空表征具有较强的泛化能力 [19] - 动作轨迹全局平滑、局部速度稳定，无卡顿或抖动，时空规划质量显著优于对比模型 [21] 消融实验与关键发现 - 视觉表征模块中，空间嵌入、时间嵌入、特征融合三者缺一不可，同时启用时空间推理任务成功率从89.4%提升至97.9%，完成时间从5.7秒缩短至4.1秒 [24] - 动作表征模块加入时间参数后，完成时间从5.0秒降至4.1秒，效率显著提升 [27] - 视频输入+4D线索是核心，单图像输入的成功率仅85.9%，验证了视频和4D信息的重要性 [27] - 特征分布分析显示，4D视觉特征形成连续的时空流形，对应的动作特征时空连贯，实现高成功率与短耗时的统一 [25]