Workflow
GenMimic
icon
搜索文档
腾讯研究院AI速递 20251208
腾讯研究院· 2025-12-08 00:01
2. 新增Green Context运行时支持、MPS内存局部性优化分区和静态SM分区,cuBLAS引入双精度单精度模拟提升 FP64矩阵乘法性能; 3. 开发者工具增强包括Tile核函数性能分析、编译时修补支持,数学库针对Blackwell架构带来显著性能提升。 https://mp.weixin.qq.com/s/lDlVLpFHWwd-HE3Muaa-kQ 生成式AI 二、谷歌Titans新架构亮相,RNN极速响应+Transformer性能 一、英伟达CUDA Toolkit 13.1 正式发布,20 年最大一次更新 1. 英伟达发布CUDA Toolkit 13.1,这是20年来最大更新,核心是基于tile的编程模型CUDA Tile,抽象化张量核心 等专用硬件; 3. DeepMind CEO Hassabis预测2030年AGI必至,强调需1-2个Transformer级突破,Titans被视为谷歌继 Transformer后的首个重大突破。 https://mp.weixin.qq.com/s/2RYtqVeyIIo5UNADWRyusg 三、Gemini 3 深度思考模式上线,推理能力再突破 ...
Yann LeCun离开Meta后首篇论文?使用了宇树机器人做研究
机器之心· 2025-12-06 12:08
研究核心观点 - 伯克利、纽约大学和约翰・开普勒林茨大学的研究人员提出名为GenMimic的新方法,使人形机器人能够零样本模仿AI生成视频中的人类动作,即使视频存在噪声或变形,机器人也能提取核心动作逻辑并在物理世界中复现 [1] - 该研究是首个使人形机器人能够执行由视频生成模型生成动作的通用框架,并在仿真和真实世界实验中验证了其可行性 [4] 研究方法与框架 - 研究提出一个基于4D重建的两阶段流程:第一阶段从生成视频中提取并重定向SMPL参数到机器人关节空间,第二阶段通过新的GenMimic跟踪策略输出物理上可执行的关节角度 [15][17][18] - 方法采用加权关键点跟踪奖励和对称损失增强策略鲁棒性,使策略能选择性关注任务关键点(如末端执行器)并利用人体对称性应对生成视频中的噪声 [22][23][25][26] - 训练使用对称正则化和选择性加权的3D关键点奖励,尽管仅在现有动作捕捉数据上训练,却能泛化到充满噪声的合成视频 [4] 数据集构建 - 研究团队创建了名为GenMimicBench的合成人类动作数据集,包含428个由Wan2.1和Cosmos-Predict2视频生成模型创建的视频,涵盖广泛的主体、环境和动作类型 [8][9][11] - 数据集包含217个使用Wan2.1生成的多视角室内结构化视频,以及211个使用Cosmos-Predict2生成的模拟YouTube风格的自然场景视频,旨在评估策略在视觉和动作分布偏移下的零样本泛化能力 [11][12][13] 实验表现与结果 - 在仿真实验中,GenMimic方法在GenMimicBench数据集上显著优于基线模型,其教师模型获得了86.77%的成功率,远高于BeyondMimic的23.81%和TWIST的2.69% [30][31] - 在真实世界实验中,研究团队将策略部署在23自由度的宇树G1人形机器人上,推演了43个动作,对于原地动作(如挥手、伸展)视觉成功率高达1.0,但涉及下半身运动(如步进、转身组合)的动作成功率较低,在0.20至0.60之间 [29][32][33][34] - 仿真训练在IsaacGym中进行,样本量超过15亿,使用了四个NVIDIA RTX 4090 GPU,部署使用单个NVIDIA 4060移动版GPU [29]