Workflow
VPP模型
icon
搜索文档
重磅!揭秘机器人界「Sora」,完成1000+任务的“硬件密码”
机器人大讲堂· 2025-05-16 17:49
核心观点 - 清华大学叉院ISRLab与星动纪元联合推出开源AIGC生成式机器人大模型VPP(Video Prediction Policy),被誉为机器人界的"Sora",引领机器人从数字世界迈向物理世界 [1] - VPP模型具备视频预测策略、高频执行、跨本体学习和可靠透明性等核心优势 [1] - 星动XHAND1作为行业首创关节全直驱仿人五指灵巧手平台,为VPP模型提供硬件支持,已能完成超1000个任务 [2] 星动XHAND1技术优势 - 全直驱技术:配备12个全主动自由度,单指实现10次点击/秒,最大负载25kg,最大握力80N [2][5] - 可反驱性:提升机器人容错率,增强VPP模型在复杂环境中的鲁棒性 [7] - 高功率密度与耐用性:采用高功率密度空心杯电机和驱动器,使用寿命远超同类产品 [8] - 全方位全链遥操作:支持Apple Vision Pro、Manus手套等设备,实现人类操作策略的高效学习 [11] - 充分解耦:关节独立控制优化,提升数据采集和算法开发效率 [16] - 高兼容性:支持ROS2/ROS1、Ubuntu系统,适配x86/ARM架构 [17] 性能验证与应用 - 在Real-World Dexterous Hand任务中实现67%的真机测试成功率 [26] - 电流力控技术显著降低强化学习及sim-to-real算法开发中的现实差距(Gap) [20] - 配备270°环绕指尖高精度触觉传感(精度0.01N),是目前唯一支持触觉传感仿真的全驱灵巧手 [22][23] - 与同类产品相比,在力控精度和复杂操作泛化能力方面表现突出 [29] 未来发展 - 计划与更多机器人大模型深度协同,实现硬件-算法联合迭代升级 [29] - 结合VLA与AIGC技术进行融合创新,拓展应用边界 [29] - 积极拓展开源生态,吸引开发者共建多场景应用库 [29]
AI动态汇总:英伟达Llama-Nemotron模型表现优异,小米Mi-BRAG智能引擎亮相
中邮证券· 2025-05-14 21:08
根据提供的研报内容,以下是量化模型与因子的详细总结: 量化模型与构建方式 1. **模型名称:Llama-Nemotron** - **模型构建思路**:通过神经架构搜索(NAS)和垂直压缩技术优化推理效率,结合知识蒸馏和强化学习提升模型推理能力[14][15][16] - **具体构建过程**: 1. **神经架构搜索阶段**:使用Puzzle框架进行块级局部蒸馏,构建Transformer模块库,通过混合整数规划(MIP)求解器选择最优配置 $$ \text{MIP目标函数:} \min \sum_{i=1}^{n} c_i x_i \quad \text{s.t.} \quad Ax \leq b $$ (其中$c_i$代表模块计算成本,$x_i$为选择变量)[16][17] 2. **FFN融合技术**:识别连续FFN块并替换为更宽的并行层,减少序列深度[19][20] 3. **知识蒸馏与预训练**:使用Llama 3.1-405B-Instruct作为参考模型恢复质量损失[21] 4. **监督微调**:采用带推理轨迹的合成数据训练,构建"推理开关"指令响应机制[22][23] 5. **强化学习**:采用GRPO算法进行14万H100小时的STEM领域训练[24] - **模型评价**:在GPQA-Diamond基准测试中实现57.1%准确率,推理效率较DeepSeek-R1提升30%[15][23][26] 2. **模型名称:VPP(Video Prediction Policy)** - **构建思路**:基于AIGC视频扩散模型开发两阶段学习框架,解决机器人动作预测与执行问题[36][38] - **具体构建过程**: 1. **第一阶段**:视频扩散模型学习预测性视觉表征,提取单步去噪的中间层特征[40] 2. **第二阶段**:通过Video Former和DiT扩散策略生成动作指令,控制频率达50Hz[38][40] 3. **多本体适配**:直接学习不同机器人/人类视频数据,消除动作维度限制[41] - **模型评价**:在Calvin ABC-D测试中任务完成长度达4.33(满分5.0),真机成功率67%[42][44] 模型的回测效果 1. **Llama-Nemotron模型** - GPQA-Diamond准确率:57.1%(5-shot CoT)[53] - MMLU Pro准确率:77.2%(5-shot CoT)[53] - 推理延迟:较基线降低40%[16][20] 2. **VPP模型** - Calvin ABC-D任务长度:4.33/5.0[42] - 真机操作成功率:67%[42] - 预测频率:6-10Hz,控制频率50Hz[40] 量化因子与构建方式 1. **因子名称:FFN Fusion效率因子** - **构建思路**:通过前馈网络融合技术提升Transformer计算利用率[19][20] - **具体构建**: $$ \text{融合效率}=1-\frac{T_{\text{原始}}}{T_{\text{融合后}}} $$ 其中$T$代表序列计算步骤数,实测提升多GPU环境吞吐量28%[20] 2. **因子名称:视频扩散预测置信度** - **构建思路**:量化单步去噪特征包含的未来信息量[40] - **具体构建**: $$ \text{置信度}=\frac{\|F_{t+1}-F_{\text{pred}}\|}{\|F_{t+1}\|} $$ ($F$为特征向量,实测150ms预测窗口准确率达92%)[40][41] 因子的回测效果 1. **FFN Fusion效率因子** - 计算利用率提升:28%[20] - 跨GPU通信开销降低:35%[20] 2. **视频扩散预测置信度** - 动作预测准确率:92%[40] - 错误率衰减速度:每帧降低15%[41] 注:部分模型(如Mi-BRAG、NetMaster)因缺乏量化构建细节未列入,测试结果均来自原文基准数据集[53][42]