具身智能之心 - 财报，业绩电话会，研报，新闻

具身智能之心

搜索文档

具身智能之心· 2025-07-27 17:37

核心观点 - LOVON框架通过整合大语言模型(LLMs)、开放词汇视觉检测和语言-运动映射模型，解决了足式机器人在动态非结构化环境中长程多目标导航的难题[4][6] - 该框架在仿真环境中成功率(SR)达1.00，训练效率比同类最优模型提升240倍(1.5小时vs 360小时)[19] - 具备"即插即用"特性，兼容Unitree Go2/B2/H1-2等主流机器人平台，在真实世界实现开放世界适配、多目标追踪等四大突破[21][24] 技术架构三大核心模块 - LLM任务规划器：可拆解复杂指令为连续子任务(如"先跑向椅子，再靠近行人")并动态调整顺序[18] - 开放词汇视觉检测：识别范围从背包/盆栽到汽车/宠物等非预定义类别目标[18] - 语言-运动模型(L2MM)：将文字指令直接转化为精确运动向量，实现"说走就走"的精准控制[18] 抗干扰设计 - 拉普拉斯方差滤波技术：通过清晰度特征分析过滤模糊帧，使有效检测帧比例提升25%[12] - 自适应执行逻辑：目标丢失时自动切换搜索模式，新指令可无缝衔接，外力干扰下快速重规划[15] 性能表现仿真测试 - 在停车场/城市街道/雪地村庄等场景中： - 成功率(SR)1.00，超越EVT(0.94)和TrackVLA(1.00)[19] - 训练时间1.5小时，效率较TrackVLA(360小时)提升240倍[19] - 平均性能得分499.75，接近满分500[20] 真实场景 - 开放世界适配：可识别汽车至背包等不同尺寸目标[24] - 多目标追踪：连续完成"找椅子→找行人→找背包"任务无中断[24] - 动态鲁棒性：在螺旋楼梯/杂草丛等复杂地形稳定跟踪移动目标[24] - 抗干扰能力：目标移动或碰撞后能快速重新锁定[24] 应用价值 - 打破传统机器人导航的场景限制，推动家庭服务/工业巡检/野外科研等领域的实际应用[21][23] - 通过"通用框架+轻量化部署"设计理念，加速实验室技术向商业化落地转化[23]

足式机器人开放世界全域目标追踪

大语言模型（LLMs）

Robotics

LOVON (Legged Open-Vocabulary Object Navigator)

足式机器人开放世界全域目标追踪

大语言模型（LLMs）

Robotics

LOVON (Legged Open-Vocabulary Object Navigator)

重磅！清华×生数发布机器人通用大模型Vidar，高效泛化复杂物理操作达SOTA水平

具身智能之心· 2025-07-27 17:37

核心观点 - Vidar模型是全球首个基于通用视频大模型实现视频理解能力向物理决策系统性迁移的多视角具身基座模型，通过少样本泛化能力实现从虚拟到真实世界的关键跨越[2][4] - 该模型创新性地构建了支持机器人双臂协同任务的多视角视频预测框架，仅需20分钟机器人真机数据即可快速泛化到新机器人本体，数据需求仅为行业领先方法的1/80至1/1200[4] - Vidar通过解构具身任务执行范式，利用"海量通用视频-中等规模具身视频-少量机器人特定数据"的三级数据金字塔，实现了视觉-语言模态和动作模态的完全解耦[8] 技术突破跨本体泛化 - 突破传统VLA模型需要海量多模态数据的限制，解决动作数据稀缺和机器人本体不统一两大难题[7] - 通过统一观测空间、75万条双臂机器人数据预训练和20分钟目标机器人微调的三阶段方法，实现少样本泛化[14] - 具身预训练使Vidu2.0在主体一致性(0.565→0.855)、背景一致性(0.800→0.909)和图像质量(0.345→0.667)三个维度显著提升[13] 逆动力学模型 - 提出任务无关动作(Task-Agnostic Action)概念，实现三大优势：数据易采集、跨任务泛化、无需人类监督[15] - 开发ATARA方法实现10小时自动化采集即可解决跨本体问题，AnyPos模型使动作预测准确率提升51%，任务重放成功率接近100%[16][18] - 掩码逆动力学模型架构能自动捕捉机械臂相关像素，实现跨背景高效泛化[24] 性能表现 - 在16种常见机器人操作任务上成功率远超基线方法，尤其在未见任务和背景上展现突出泛化能力[27] - 视频预测与真机执行结果高度一致，能准确完成语义理解、双臂协作等复杂任务[29] - 测试时扩展(Test-Time Scaling)技术提升模型在实际应用中的视频预测表现和可靠性[13] 技术背景 - 基于生数科技视频大模型Vidu的技术同源创新，延续雷达感知隐喻突出虚实结合能力[31] - 采用多模态生成模型架构达到SOTA水平，强化对物理世界认知反哺数字内容创作[31] - 团队核心来自清华大学TSAIL实验室，在ICML、IJCAI等顶会发表多篇论文，获多项国家级荣誉[33][36] 应用前景 - 突破多任务操作和环境变化应对能力瓶颈，为服务机器人在居家、医院、工厂等复杂环境应用奠定基础[29] - 架起虚拟算法演练到真实自主行动的关键桥梁，推动AI在物理世界的实际服务能力[29] - 通过具身视频基座模型实现虚拟与现实的深度交互，提升人类与机器人的协同生产力[31]