Workflow
具身智能之心
icon
搜索文档
港科大等提出LOVON:足式机器人开放世界全域目标追踪新范式!
具身智能之心· 2025-07-27 17:37
核心观点 - LOVON框架通过整合大语言模型(LLMs)、开放词汇视觉检测和语言-运动映射模型,解决了足式机器人在动态非结构化环境中长程多目标导航的难题[4][6] - 该框架在仿真环境中成功率(SR)达1.00,训练效率比同类最优模型提升240倍(1.5小时vs 360小时)[19] - 具备"即插即用"特性,兼容Unitree Go2/B2/H1-2等主流机器人平台,在真实世界实现开放世界适配、多目标追踪等四大突破[21][24] 技术架构 三大核心模块 - LLM任务规划器:可拆解复杂指令为连续子任务(如"先跑向椅子,再靠近行人")并动态调整顺序[18] - 开放词汇视觉检测:识别范围从背包/盆栽到汽车/宠物等非预定义类别目标[18] - 语言-运动模型(L2MM):将文字指令直接转化为精确运动向量,实现"说走就走"的精准控制[18] 抗干扰设计 - 拉普拉斯方差滤波技术:通过清晰度特征分析过滤模糊帧,使有效检测帧比例提升25%[12] - 自适应执行逻辑:目标丢失时自动切换搜索模式,新指令可无缝衔接,外力干扰下快速重规划[15] 性能表现 仿真测试 - 在停车场/城市街道/雪地村庄等场景中: - 成功率(SR)1.00,超越EVT(0.94)和TrackVLA(1.00)[19] - 训练时间1.5小时,效率较TrackVLA(360小时)提升240倍[19] - 平均性能得分499.75,接近满分500[20] 真实场景 - 开放世界适配:可识别汽车至背包等不同尺寸目标[24] - 多目标追踪:连续完成"找椅子→找行人→找背包"任务无中断[24] - 动态鲁棒性:在螺旋楼梯/杂草丛等复杂地形稳定跟踪移动目标[24] - 抗干扰能力:目标移动或碰撞后能快速重新锁定[24] 应用价值 - 打破传统机器人导航的场景限制,推动家庭服务/工业巡检/野外科研等领域的实际应用[21][23] - 通过"通用框架+轻量化部署"设计理念,加速实验室技术向商业化落地转化[23]
重磅!清华×生数发布机器人通用大模型Vidar,高效泛化复杂物理操作达SOTA水平
具身智能之心· 2025-07-27 17:37
核心观点 - Vidar模型是全球首个基于通用视频大模型实现视频理解能力向物理决策系统性迁移的多视角具身基座模型,通过少样本泛化能力实现从虚拟到真实世界的关键跨越[2][4] - 该模型创新性地构建了支持机器人双臂协同任务的多视角视频预测框架,仅需20分钟机器人真机数据即可快速泛化到新机器人本体,数据需求仅为行业领先方法的1/80至1/1200[4] - Vidar通过解构具身任务执行范式,利用"海量通用视频-中等规模具身视频-少量机器人特定数据"的三级数据金字塔,实现了视觉-语言模态和动作模态的完全解耦[8] 技术突破 跨本体泛化 - 突破传统VLA模型需要海量多模态数据的限制,解决动作数据稀缺和机器人本体不统一两大难题[7] - 通过统一观测空间、75万条双臂机器人数据预训练和20分钟目标机器人微调的三阶段方法,实现少样本泛化[14] - 具身预训练使Vidu2.0在主体一致性(0.565→0.855)、背景一致性(0.800→0.909)和图像质量(0.345→0.667)三个维度显著提升[13] 逆动力学模型 - 提出任务无关动作(Task-Agnostic Action)概念,实现三大优势:数据易采集、跨任务泛化、无需人类监督[15] - 开发ATARA方法实现10小时自动化采集即可解决跨本体问题,AnyPos模型使动作预测准确率提升51%,任务重放成功率接近100%[16][18] - 掩码逆动力学模型架构能自动捕捉机械臂相关像素,实现跨背景高效泛化[24] 性能表现 - 在16种常见机器人操作任务上成功率远超基线方法,尤其在未见任务和背景上展现突出泛化能力[27] - 视频预测与真机执行结果高度一致,能准确完成语义理解、双臂协作等复杂任务[29] - 测试时扩展(Test-Time Scaling)技术提升模型在实际应用中的视频预测表现和可靠性[13] 技术背景 - 基于生数科技视频大模型Vidu的技术同源创新,延续雷达感知隐喻突出虚实结合能力[31] - 采用多模态生成模型架构达到SOTA水平,强化对物理世界认知反哺数字内容创作[31] - 团队核心来自清华大学TSAIL实验室,在ICML、IJCAI等顶会发表多篇论文,获多项国家级荣誉[33][36] 应用前景 - 突破多任务操作和环境变化应对能力瓶颈,为服务机器人在居家、医院、工厂等复杂环境应用奠定基础[29] - 架起虚拟算法演练到真实自主行动的关键桥梁,推动AI在物理世界的实际服务能力[29] - 通过具身视频基座模型实现虚拟与现实的深度交互,提升人类与机器人的协同生产力[31]
群核科技发布3D高斯语义数据集,给机器人装上“空间大脑”
具身智能之心· 2025-07-26 18:45
3D高斯语义数据集InteriorGS - 公司发布全球首个适用于智能体自由运动的大规模3D高斯语义数据集InteriorGS,包含1000个3D高斯语义场景,涵盖超80种室内环境 [2] - 该数据集首次将3D高斯技术引入AI空间训练领域,结合自研空间大模型能力,兼具真实感与语义性 [5] - 数据集已在HuggingFace、Github发布,全球开发者可下载使用 [5] 3D高斯技术应用 - 3D高斯溅射技术凭借"扫描即可重建场景"优势,已在文物保护、空间设计等领域应用 [4] - 公司工程师利用该技术成功还原杭州一座60多年老照相馆空间,引发广泛关注 [4] - 公司搭建"3D高斯重建+空间大模型+物理仿真"训练数据生成新路径,可快速完成场景重建并赋予语义逻辑 [5] 空间智能平台布局 - 公司SpatialVerse平台积累海量可交互三维数据与物理仿真工具,其InteriorNet数据集为全球最大室内场景认知深度学习数据集 [7] - 平台目标是成为空间智能领域的"ImageNet",为AIGC、XR、具身智能等领域提供训练基础 [7] - 公司开源空间理解模型SpatialLM曾登上Hugging Face趋势榜前三,获谷歌与斯坦福联合研究论文引用 [7] 行业合作与影响 - 公司已与智元机器人、银河通用、穹彻智能等具身智能企业达成合作 [7] - 公司首席科学家提出Sim2Real是当前最高效的具身智能训练范式,计划联合行业推进"现实-虚拟-现实"范式 [8] - 通过3D高斯语义数据集发布和机器人大赛,吸引全球开发者参与技术发展 [8]
具身智能之心求职交流群来啦!!!
具身智能之心· 2025-07-26 18:45
应广大粉丝的要求,我们开始正式运营具身相关的求职社群了。社群内部主要讨论相关具身产业、公司、产品 研发、求职与跳槽相关内容。如果您想结交更多同行业的朋友,第一时间了解产业。欢迎加入我们! 具身智能之心求职与行业交流群成立了! 微信扫码添加小助理邀请进群,备注昵称+具身求职; ...
开源!智元机器人正式发布首个具身智能操作系统参考框架:“智元灵渠OS”
具身智能之心· 2025-07-26 18:45
行业动态 - 2025世界人工智能大会主论坛以"技术-合作-普惠"三层递进结构展开,汇聚全球AI顶尖专家探讨AI未来发展[1] - 具身智能成为大会焦点,智元机器人作为唯一具身智能代表亮相[1] - 行业正从工具属性向伙伴关系跨越,人机协作将突破传统边界并在工业、家庭、服务等场景创造新价值[2][3] 公司技术突破 - 智元机器人发布业界首个具身智能操作系统参考框架"智元灵渠OS"开源计划[1][3] - 灵犀X2人形机器人展示"本体+运动/交互/作业智能"能力,肢体动作丝滑流畅且能自主生成高质量问答[2] - 机器人具备理解、预判、协同能力,现场演示中展现出拟人化表达与动态交互[2] - 操作系统采用"分层开源、共建共享"模式,底层基于已开源的高性能中间件AimRT[4] 产品技术架构 - 灵渠OS底层提供分布式群体实时通信、硬件抽象等基础服务框架[4] - 上层开放智能体服务框架,支持交互、作业、运动等智能基座模型的标准化对接[4] - 配套丰富工具链,涵盖开发调试、仿真验证、部署管理、数据录制等能力[4] - 系统将于2025年第四季度开始逐步开源[4] 行业定位 - 灵渠OS定位为具身智能产业生态基石,类比PC时代的Windows和移动互联网时代的鸿蒙[4] - 系统承上启下,南向适配多样化具身硬件、北向支撑丰富智能应用[4] - 公司已开源高性能中间件AimRT,将持续增强基础操作系统并开源智能体服务框架和工具链[4] 公司愿景 - 致力于打造有生命的科技,构建有温度、有价值、可信赖的人机协作生态[3] - 以开放姿态引领行业协同发展,为具身智能规模化商业落地注入动能[5] - 计划与产业界开源共建具身智能操作系统生态,聚力突破智能化提升、群体协同、云边端融合等技术挑战[4]
弗吉尼亚大学提出Moving Out:实现物理世界人机无缝协作!
具身智能之心· 2025-07-25 15:11
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Xuhui Kang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 写在前面&出发点 在物理世界中,人类协作时能快速适应物体的物理属性(如大小、形状、重量)和环境约束(如狭窄通 道、受力要求),这种能力对机器人等具身智能体与人类高效协作至关重要。然而,现有研究多聚焦于离 散空间或任务层面的人机协作,简化了交互动态,难以应对物理接地场景中连续状态-动作空间的复杂性、 多样的物理约束及人类行为的多样性(Figure 1)。 例如,AI-AI协作可通过自博弈实现良好性能,但这类智能体往往难以适应人类伙伴的多样且不可预测的行 为,尤其是在物理场景中,人类动作的微小变化(如抬升角度、施加的力)都可能显著影响结果。因此, 亟需一个能仿真物理交互和多样协作场景的基准,以及相应的方法来提升智能体的适应性和泛化能力。 核心创新点 主要工作 Moving Out环境设计 基于2D物理仿真平台Magic ...
正式开课啦!具身智能目标导航算法与实战教程来了~
具身智能之心· 2025-07-25 15:11
目标驱动导航技术概述 - 具身导航是具身智能的核心领域,涉及语言理解、环境感知、路径规划三大技术支柱,目标驱动导航通过赋予机器人自主决策能力成为最具代表性的方向 [2] - 目标驱动导航要求智能体在陌生三维环境中仅凭目标描述(坐标、图片、自然语言)自主完成环境探索与路径规划,实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁 [2] - 技术落地需解决语义解析(识别空间特征与视觉属性)、环境建模(构建空间拓扑)、动态决策(避开移动障碍)等挑战,依赖计算机视觉、强化学习与3D语义理解的交叉突破 [2] 产业化应用场景 - 终端配送场景中,美团无人配送车通过动态路径重规划在复杂城市环境执行任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署 [3] - 医疗、酒店及餐饮场景中,嘉楠科技、云迹科技、擎朗智能的商用服务机器人以及美国Aethon公司的TUG系列实现药品、文件和餐食自主配送 [3] - 人形机器人领域,宇树科技Unitree系列通过Habitat预训练完成基础导航任务,智元机器人集成目标驱动导航模块,特斯拉Optimus展示端到端操作能力 [3] 技术演进与生态发展 - Habitat仿真生态完整记录技术迭代轨迹,评测体系从点导航(PointNav)扩展至图像导航(ImageNav)、目标导航(ObjectNav)及移动抓取任务 [4] - 技术突破包括视觉预训练模型提升特征泛化能力,分布式强化学习框架(DDPPO)使PointNav任务SPL指标显著提升,大语言模型解决开放词汇导航难题 [4] - 当前技术梯度明显:PointNav和闭集ObjectNav接近人类表现,开放词汇物体导航和动态障碍物场景仍面临重大挑战 [4] 三代技术路线迭代 - 第一代端到端方法基于强化学习与模仿学习框架,在点导航与闭集图片导航任务中SPL指标逼近人类表现 [5] - 第二代模块化方法通过显式构建语义地图分解任务,利用预训练视觉语言模型(如CLIP)实现跨模态语义对齐,零样本目标导航任务成功率显著提升 [5] - 第三代LLM/VLM融合方法引入大语言模型知识推理能力,生成语义指导的探索策略,并通过视觉语言模型提升开放词汇目标匹配精度 [7] 技术挑战与学习路径 - 目标驱动导航需综合自然语言处理、计算机视觉、强化学习和场景图知识,领域论文数量繁多且碎片化,入门难度高 [9] - Habitat生态研究缺乏高质量文档,学习过程中需结合实战完成闭环但缺乏系统指导 [9] - 课程设计聚焦三大核心:快速入门核心技术栈、构建领域研究框架、理论结合实践完成算法复现与部署 [10][11][12] 课程体系架构 - 第一章系统构建理论基础与技术谱系,对比分析三代技术演进路径(端到端训练、模块化架构、LLM/VLM融合) [16] - 第二章深度解构Habitat仿真平台技术架构,实践内容包括RGB/Depth相机配置、物理属性参数化及NavMesh路径规划算法调试 [17][28] - 第三至五章分别解析端到端导航(ZSON/PIRLNav框架)、模块化导航(SemExp/VLFM路径)、LLM/VLM驱动系统(InstructNav/3Dmem模型)的算法设计 [19][21][23] - 大作业要求复现VLFM算法并探索实机部署,涵盖占据地图构建、边缘探索点生成、值地图设计及仿真到真实场景迁移 [25][29] 行业应用与人才需求 - 目标学员包括机器人抓取领域从业人员、具身智能研究者、计算机视觉/自动驾驶转行者,需具备Python/PyTorch基础及3060以上显卡算力 [33] - 课程培养目标涵盖Habitat仿真开发能力、零样本导航技术落地、Sim2Real部署流程掌握,匹配科研与工业应用需求 [33]
开发者福利!一台机器搞定人形运控、强化学习、VLN/VLA
具身智能之心· 2025-07-25 15:11
产品概述 - TRON1是一款专为教育科研设计的一体化研究平台,支持验证人形运动控制、强化学习、VLN任务、VLA任务等多种功能[1] - 采用双足、双点足和双轮足"三合一"模块化设计,可快速切换、自由组合,一机支持多形态算法研发[1] - 一套产品可同步验证点足运动控制、双足人形运动控制和轮式运动控制,实现"买一得三"[1] 版本与功能 - 提供基础版本和EDU版本,EDU版本支持二次开发和外设加装[4] - 标准版不配置RGBD相机,EDU版配有RGBD相机并提供SDK和内置接口供二次开发[24] - 支持外设加装机械臂、深度相机、激光雷达等组件,扩展感知、操作和语音交互功能[6][11][13][18] 技术参数 硬件配置 - 感知拓展套件配备NVIDIA Ampere架构GPU,157 TOPS稀疏算力,16GB LPDDR5内存,256GB固态存储[16] - 语音交互套件搭载Jetson Orin NX模组,支持360°拾音,最大拾音距离4m,支持普通话和英语[19] - 机械参数:尺寸≤392mm x 420mm x 845mm,净重≤20kg,材质为铝合金+工程塑料[26] - 电气参数:48V供电,240Wh电池,续航≥2小时,支持快速换电[26] 性能指标 - 运动速度:点足/双足<1m/s,轮足最高速度≥5m/s[26] - 负载能力:约10kg(极限15kg),最大爬坡角度≥15°,最大落差高度15cm[26] - 关节参数:额定扭矩30Nm,峰值扭矩80Nm,峰值转速15rad/s[28] 开发支持 - 支持C++和Python两种开发语言,提供完善的SDK和开发文档[6][33] - 兼容NVIDIA Isaac、Mujoco、Gazebo等主流仿真平台,Sim2Real差距小[9] - 提供数据可视化工具、关节控制函数、仿真平台等开发者工具[28] - 配套丰富的使用教程,涵盖开箱、遥控、拓展开发、校准等全流程[29][37] 应用场景 - 仿人形步态开发、强化学习论证[6] - 移动操作任务(如VLA),支持"单臂+双足"或"单臂+轮足"模式[11] - 三维建图、重定位、导航及动态避障等感知任务[13] - 语音交互开发,适用于教育科普、导览解说等场景[18] - 复杂地形运动、移动操作+机械臂等测试场景[20][21]
准备扩大具身团队了,拉一些人搞点事.......
具身智能之心· 2025-07-25 15:11
行业发展趋势 - 具身智能领域发展迅速,多家明星公司准备上市 [1] - 早期产业需要共同努力,技术孤立不利于整体发展 [1] - 公司期望汇聚全行业人才,推动行业进步 [1] 具身项目合作 - 计划在北京、上海、深圳、广州、杭州、武汉建立研发团队 [3] - 每个城市招募10人左右,要求具备2年以上具身算法和机器人研究经验 [3] - 承接横向、纵向项目及企业咨询,支持兼职 [3] 具身教育研发与咨询服务 - 邀请领域专家开发在线课程、企业咨询和辅导业务 [4] - 需求方向包括大模型、多模态、强化学习、机器人运动规划等 [4] - 目标是为行业输出优质教程 [4] 人才要求 - 期望候选人为博士及以上学历(包括在读) [5] - 工业界需具备2年以上研发经验 [5] 待遇与资源 - 提供大比例分红和全行业资源共享 [6] - 支持兼职或全职加入 [6] 联系方式 - 通过扫码咨询负责人,备注“具身智能之心+老师咨询” [7]
NVIDIA最新!ThinkAct:复杂的具身任务中实现少样本适应、长时程规划
具身智能之心· 2025-07-24 17:53
核心观点 - ThinkAct提出了一种双系统框架,通过强化视觉潜在规划将高层推理与低层动作执行连接起来,显著提升了复杂具身AI任务中的少样本适应、长时程规划和ego修正能力 [4][9] - 该方法通过动作对齐视觉奖励(目标奖励和轨迹奖励)引导MLLM生成具身推理planning,并将其压缩为视觉planning潜变量,为下游动作模型提供条件 [14][17][18] - 在机器人操作和具身推理基准测试中,ThinkAct表现优于现有方法,如在SimplerEnv上比基准动作模型DiT-Policy最高提升16.9%,在LIBERO基准上以84.4%成功率位居榜首 [25][26] 方法架构 双系统设计 - 高层推理系统:MLLM生成具身推理planning,通过强化学习(GRPO)优化,奖励函数结合目标完成度(r_goal)和轨迹一致性(r_trail) [12][19][20] - 低层执行系统:基于Transformer的动作模型以视觉planning潜变量为条件,实现异步"慢思考-快控制"执行模式 [21][22] 关键技术 - 动作对齐视觉反馈:目标奖励(式1)评估起始/结束位置匹配度,轨迹奖励(式2)通过DTW距离规范轨迹分布 [17] - 强化微调:采用GRPO算法,从M组响应中选择最优解,KL散度约束防止模型偏离原始分布 [19] - 潜变量压缩:将文本推理抽象为紧凑的视觉planning潜变量,捕捉时空规划意图 [20][23] 性能表现 定量结果 - 机器人操作: - SimplerEnv-Google-VM任务中Pick Coke Can子任务达到92%成功率,比Magma提升8.3% [25] - LIBERO-Long任务成功率70.9%,显著优于CoT-VLA(69%)和DiT-Policy(57.6%) [25] - 具身推理: - EgoPlan-Bench2总体得分48.2%,超越GPT-4V(32.6%)和Qwen2.5-VL*(45.7%) [27] - RoboVQA的BLEU-4得分52.4%,比次优方法高4.4分 [27] 定性优势 - 长时程规划:将"拿起书放入后部隔间"分解为3个子任务,可视化轨迹显示gripper严格遵循推理planning [30] - Ego修正:在物体掉落场景中,通过视频context识别故障并生成重新抓取的修正planning [37] 创新价值 - 行业突破:首次实现强化学习驱动的视觉-语言-动作联合推理,解决端到端模型在长时程规划中的局限性 [6][7] - 技术复用性:潜变量设计兼容不同动作模型(如Diffusion Policy),支持跨平台部署 [21][23] - 数据效率:仅需10个演示样本即可在新环境(LIBERO-Spatial)实现9.5%的少样本性能提升 [35]