Workflow
具身世界模型
icon
搜索文档
欢迎具身世界模型&数采相关方向的大佬加入我们!
具身智能之心· 2025-11-05 17:00
合作招募背景 - 行业对具身世界模型、机器人运控、数据采集相关领域咨询需求旺盛[2] - 相关方向存在较高行业门槛但具备显著价值[2] - 公司旨在与领域专家合作研发课程或实战项目以提供行业见解[2] 合作内容与要求 - 合作聚焦于具身世界模型、运控、数据采集相关课程设计与制作[3] - 期望合作者至少发表一篇CCF-A级别会议论文或拥有1年以上工业界经验[3] - 合作形式灵活可兼职并提供高于行业水平的薪资与资源共享[5]
招募世界模型&人形运控&数采相关的合作伙伴!
具身智能之心· 2025-11-02 12:00
合作招募背景 - 后台收到大量关于具身世界模型、机器人运控、数采的咨询 表明这些是行业内有价值但存在门槛的方向 [2] - 公司期望与领域专家合作研发课程或实战项目 为从业者提供更多见解 [2] 合作内容与形式 - 合作聚焦于具身世界模型、运控、数采相关的课程设计与PPT制作 [3] - 合作形式灵活 可兼职 并提供高于行业水平的薪资和资源共享 [6] 合作伙伴要求 - 期望合作伙伴正在从事具身领域研究 并至少发表一篇CCF-A级别会议论文或拥有1年以上工业界经验 [4]
招募几位具身世界模型相关方向的大佬!
具身智能之心· 2025-10-29 12:00
文章核心观点 - 具身世界模型是一个新兴且具有高产业和研究价值的领域 [1] - 公司正在招募讲师合作开发具身世界模型相关课程 [2][3] 合作内容 - 合作内容包括具身世界模型相关课程设计、PPT制作和内容分享 [4] 招聘要求 - 招聘对象为正在从事具身领域研究的博士及以上学历人员 [5] - 期望候选人至少发表过一篇CCF-A级别会议论文 [5] 待遇说明 - 提供高于行业水平的薪资 [6] - 岗位可兼职 [6]
“WoW”具身世界模型来了!机器人实现从想象预演到动作执行“知行合一”
央视网· 2025-10-26 13:23
模型技术核心 - 模型名称为WoW具身世界模型 由科研团队自主研发 [1][3] - 模型本质是AI模拟人类思考决策时进行想象和预测的模型 能生成符合物理规律的未来预测视频 [5] - 模型实现了从想象预演到动作执行的知行合一能力 指导机器人与真实世界交互 [3] 技术能力与数据 - 模型能够自主1:1复刻视频中的动作姿态 视频是机器人行动前想象出来的预演画面 [3] - 科研团队采集了百万级别真实交互的具身智能数据 [8] - 模型能在非常泛化的真实场景下操作 并高精度模拟水洒在电脑上等极端情况 [8][10] 应用范围与影响 - 模型向全球研究者与开发者开放 [10] - 技术可适配人形 类人形 机械臂等不同本体机器人 [10] - 应用场景覆盖家居 商超 工业 物流等多种领域 [10]
清华大学最新!RoboScape:基于物理信息的具身世界模型,动作可控性提升68.3%
具身智能之心· 2025-07-02 15:44
研究背景与核心问题 - 具身智能领域的世界模型存在物理感知局限,尤其在涉及接触的机器人场景中,生成的视频常出现不真实的物体变形或运动不连续等问题[3] - 现有模型过度依赖视觉令牌拟合,缺乏物理知识 awareness,此前整合物理知识的尝试存在计算复杂、窄域局限或场景级生成困难等问题[3] - 核心问题是如何在统一、高效的框架中整合物理知识[3] 核心方法 - 聚焦机器人操作场景,学习具身世界模型作为动力学函数,基于过去的观测和机器人动作预测下一个视觉观测[4] - 设计了四步处理流程构建含物理先验的多模态具身数据集,包括物理属性标注、视频切片、片段过滤和片段分类[5] - 基于自回归Transformer框架实现帧级动作可控的机器人视频生成,通过时间深度预测和自适应关键点动态学习整合物理知识[5][7][8] 时间深度预测 - 采用双分支协同自回归Transformer(DCT),通过RGB分支和深度分支分别预测,跨分支交互将深度分支的中间特征与RGB特征融合[7] - 损失函数为令牌的交叉熵损失,确保RGB生成保持精确几何结构[7] 自适应关键点动态学习 - 通过自监督追踪接触驱动的关键点动态,隐式编码材料属性,基于运动幅度自适应选择 top-K 活跃关键点[8] - 通过损失强制采样关键点视觉令牌的时间一致性,并引入关键点引导的注意力机制增强关键点轨迹区域的令牌学习[9] 实验验证 - 采用AgiBotWorldBeta数据集的50,000个视频片段,涵盖147项任务和72项技能[13] - 对比4种先进模型,RoboScape在LPIPS(0.1259)、PSNR(21.8533)、AbsRel(0.3600)、δ1(0.6214)、δ2(0.8307)和∆PSNR(3.3435)上均优于基线[12][18] - 消融实验显示移除时间深度学习或关键点动态学习均会导致性能下降,深度学习保障几何一致性,关键点学习对视觉保真度和动作可控性至关重要[14] 下游应用验证 - 在Robomimic Lift任务中,仅用生成数据训练的Diffusion Policy(DP)性能接近真实数据训练结果,成功率随合成数据量增加而提升[16][17] - 在LIBERO任务中,π0模型用生成数据训练后性能超过真实数据训练的基线[17] - 作为政策评估器时,与真实模拟器的Pearson相关系数达0.953,显著高于基线[19] 结论与展望 - RoboScape通过多任务联合训练框架将物理知识高效整合到视频生成中,无需级联外部物理引擎[20] - 未来计划将生成式世界模型与真实机器人结合,进一步验证在实际场景中的表现[21]