具身智能之心
搜索文档
四足机械狗+单臂,低成本开启你的具身学习之旅
具身智能之心· 2025-08-29 12:00
产品定位与核心功能 - Xdog是一款低成本多功能四足机械狗与机械臂集成开发平台 专为具身智能开发者设计 涵盖机器狗二次开发、仿真强化学习及sim2real迁移部署等技术栈 [1] - 平台已实现语音控制、目标识别与跟踪、机械臂自主抓取、强化学习步态控制等核心功能 覆盖具身智能下肢控制大部分技术模块 [2] - 系统基于ROS1开发 支持TCP语音控制、键盘控制、视觉控制及强化自主运动等多种交互方式 [2][15] 硬件配置参数 - 机械狗主体尺寸25cm×20cm×30cm 重7kg 采用Allwinner H616主控芯片(4核1.6GHz) 配备4G内存与32G存储 [3][4][11] - 单腿3自由度 采用连杆传动 支持WIFI/蓝牙通信 配备千兆以太网/USB2.0/Micro-USB等开发接口 [5] - 电池能量93.24Wh 综合续航120分钟 最大前进速度7.2公里/小时 最大旋转速度450度/秒 [5][11] - 机械臂采用20KG总线舵机 配备9-12.6V驱动板及12V/7A电源适配器 抓取范围0.4m(基座周围) 正上方极限抓取高度0.85m [6][7][12] 感知与视觉系统 - 深度相机采用主动双目红外+结构光技术 深度输出分辨率1280×800@30fps 工作距离0.2-10m(最佳精度0.2-4m) [14] - 深度精度达0.5mm(@0.5m)/1.0mm(@1.0m)/5.0mm(@2.0m) RGB摄像头支持1080p@30fps全局快门 [14] - 支持USB 3.0 Type-C接口 兼容Windows/Linux/Android系统 提供Orbbec SDK/OpenNI 2/ROS驱动包 [14] 软件与开发支持 - 开发语言以Python为主 推荐使用2080ti及以上GPU及i7以上CPU进行推理和二次开发 [16][24] - 集成主流大模型实现低延迟高准确性语音交互 支持sim2real与real2sim双向迁移 具备MuJoCo仿真环境映射能力 [17][18] - 提供目标识别算法实现机械臂与机械狗协同跟随 支持ACT模仿学习框架及强化学习步态控制 [19][20][21] 课程体系与技术支持 - 课程包含即插即用系统配置、ROS基础、MuJoCo仿真、IsaacGym环境部署、强化学习算法(PPO/DreamWaQ)、YOLO目标识别等26个模块 [22][23] - 教学团队由5名专家组成 涵盖硬件设计、视觉算法、强化学习等专业领域 包括港大博士生提供技术支持 [22] - 交付周期为付款后3周内 提供1年售后服务期 视频与源码在硬件确认收货后立即提供 [25][26]
具身智能之心人形机器人交流群成立啦~
具身智能之心· 2025-08-29 12:00
行业交流平台 - 具身智能和人形机器人领域建立专业交流群 促进技术合作与信息共享 [1] - 交流群面向人形运控 VLA模型 数据采集 硬件开发等相关技术方向的专业人士 [1] - 加入需通过微信助理审核 备注昵称和人形关键词方可获得入群资格 [2]
Long-VLA:西湖大学与阿里达摩院联合打造,全球首个支持长周期操作的端到端VLA模型
具身智能之心· 2025-08-29 12:00
技术背景与问题识别 - 视觉语言动作模型(VLA)利用大规模多模态数据成为机器人学习重要方法 但在多任务连续执行时效果显著下降 主要由于子任务衔接不稳定导致误差累积[2] - 现有技术分为三类:端到端统一模型在短时任务高效但长时任务表现不佳 任务分解方法缺乏子任务协调导致状态漂移 模块化方法与VLA统一学习范式冲突难以扩展[3] 核心创新与方法论 - 提出首个针对长时任务的端到端VLA模型Long-VLA 引入阶段感知输入掩码机制 将子任务划分为移动阶段和交互阶段[2] - 通过二进制掩码动态调整视觉模态输入:移动阶段屏蔽机械臂相机视角关注全局空间线索 交互阶段屏蔽静态全局相机视角聚焦局部精细感知[6] - 在统一架构内实现任务分解优势 保持端到端特性避免数据切割和训练碎片化 同时解决子任务衔接问题[4][6] 实验验证与性能表现 - 在优化后的L-CALVIN模拟环境中 任务长度提升至连续十个子任务 Long-VLA在D→D与ABCD→D场景均显著超越基线[8] - 真实场景测试显示 在Sorting和Cleaning两类长时任务中 随机位置、光照变化和视觉干扰条件下均显著优于基线[10] - 平均任务长度提升显著:在HULC基线上从2.65提升至3.30(增加0.65) 在MDT基线上从4.11提升至4.81(增加0.7)[13] 技术普适性与行业影响 - 该方法对HULC、MDT等其他方法具有普适性 可简单迁移到其他模型中 证明实际应用价值[12] - 首次实现端到端训练和长时适应性平衡 为机器人长时任务执行奠定基础 促进实际应用落地[14]
今晚直播|星海图 X Hugging Face!开源生态如何引领具身智能的未来?
具身智能之心· 2025-08-29 08:05
开源生态与具身智能发展 - 开源生态通过开发者社区和开放数据集加速具身智能技术落地 [1] - Hugging Face与星海图合作探索开源模型与开放世界数据集 [1] - 行业伙伴包括百度风投、知乎、小红书科技等共同参与生态建设 [2] 行业合作与活动 - Hugging Face联合创始人Thomas Wolf与星海图首席科学家赵行将进行深度对谈 [3][9] - 直播主题为开源生态如何引领具身智能未来 [6] - 活动时间为8月29日19:00 [4][10]
传统SLAM的定位导航和具身目标导航有什么区别?
具身智能之心· 2025-08-29 08:03
目标驱动导航技术概述 - 具身导航的核心领域涉及语言理解、环境感知和路径规划三大技术支柱 [2] - 目标驱动导航是具身导航中最具代表性的方向 通过赋予机器人自主决策能力 [2] - 要求智能体在陌生三维环境中仅凭目标描述即可自主完成环境探索与路径规划 [2] 技术实现原理 - 系统需要实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁 [2] - 需自主完成语义解析 环境建模以及动态决策 [2] - 背后凝聚计算机视觉 强化学习与3D语义理解的交叉突破 [2] 产业化应用现状 - 在终端配送场景中与社交导航算法结合 使机器人具备应对动态环境和人际交互能力 [3] - 美团无人配送车通过动态路径重规划在复杂城市环境中执行递送任务 [3] - Starship Technologies的园区配送机器人已在欧美高校和社区部署 [3] - 医疗 酒店及餐饮场景中 嘉楠科技 云迹科技 擎朗智能的商用服务机器人已实现药品 文件和餐食的自主配送 [3] - 美国Aethon公司的TUG系列有效提升服务响应效率 [3] 人形机器人适配升级 - 宇树科技Unitree系列通过Habitat预训练完成基础导航任务 [3] - 智元机器人在工业场景中集成目标驱动导航模块 [3] - 特斯拉Optimus展示"取放电池"等端到端操作能力 [3] - 搭载目标驱动导航系统的人形机器人正加速向家庭服务 护理及工业物流领域渗透 [3] 技术发展历程 - 基于Habitat仿真的具身导航生态完整记录领域技术迭代轨迹 [4] - 自2020年CVPR提出点导航基准以来 评测体系逐步扩展至图像导航 目标导航及移动抓取任务 [4] - 形成覆盖空间认知到任务执行的闭环 [4] 关键技术突破 - 视觉预训练模型提升特征泛化能力 [4] - 分布式强化学习框架使PointNav任务SPL指标显著提升 [4] - 大语言模型通过跨模态对齐解决部分开放词汇导航难题 [4] 当前技术梯度 - PointNav和闭集ObjectNav接近人类表现 [4] - 开放词汇物体导航和动态障碍物场景仍面临重大挑战 [4] - Meta AI提出的Sim2Real迁移框架为仿真训练到真实部署提供方法论参考 [4] - CMU与Stanford等机构持续推动动态环境下的语义地图更新技术 [4] 第一代端到端方法 - 基于强化学习与模仿学习框架 [5] - 设计网络结构以对齐目标描述与实时观测 [5] - 优化奖励函数与监督信号设计加速模型收敛 [5] - 增强数据多样性以提升泛化能力 [5] - 在点导航与闭集图片导航任务中取得突破性进展 [5] - 部分方法的SPL指标已逼近人类表现 [5] 第二代模块化方法 - 通过显式构建语义地图将任务分解为自主探索与目标定位两个子任务 [7] - 探索阶段依赖先验导航规则生成候选路径 [7] - 匹配阶段利用预训练视觉语言模型实现跨模态语义对齐 [7] - 在零样本目标导航任务中展现显著优势 [7] - 在未见物体场景下成功率提升明显 [7] 第三代LLM/VLM融合方法 - 引入大语言模型的知识推理能力 [9] - 在探索阶段生成语义指导的探索策略 [9] - 通过视觉语言模型的跨模态对齐能力提升开放词汇目标匹配精度 [9] - 当前研究重点在于设计场景表征接口 [9] - 将3D环境特征转化为LLM可解析的上下文格式 [9] - 在开放词汇目标导航任务中实现对未知类别的有效识别 [9]
FlowVLA:破解 VLA 模型 “物理失真” 难题,机器人世界建模再升级
具身智能之心· 2025-08-29 08:03
核心观点 - FlowVLA模型通过视觉思维链(Visual CoT)原则解决传统VLA世界模型的根本缺陷,将动态运动与静态外观解耦,显著提升长时程预测的物理合理性和下游任务样本效率 [1][8][36] - 模型在单自回归Transformer中统一外观与运动推理,采用"帧→光流→帧"的两阶段结构化预测流程,避免像素复制陷阱并增强物理动态理解 [9][12][14] - 实验验证显示,FlowVLA在LIBERO和SimplerEnv基准测试中达到最先进性能,长时程任务成功率提升显著,低数据场景下样本效率优势达55% [20][22][30] 技术架构创新 - 引入视觉思维链(Visual CoT)原则,强制模型先预测中间光流编码运动动态,再基于光流生成未来帧,实现动态与外观学习的解耦 [8][12][14] - 采用共享分词方案,将2通道光流场转换为RGB类图像,通过相同VQ-GAN分词器处理光流与原始帧,保持参数效率和架构简洁性 [9][15] - 两阶段训练范式:预训练阶段从无动作视频学习通用物理规律,微调阶段适配机器人控制任务,损失函数仅针对动作令牌计算 [15][16][19] 性能表现 - LIBERO数据集平均成功率88.1%,超越所有对比模型,其中长时程任务成功率72.6%较基线提升显著 [20][21] - SimplerEnv数据集平均成功率74.0%,在视觉偏移场景(如堆叠积木任务62.5%)表现优异,验证对真实环境变化的强适应性 [22][23] - 低数据场景下峰值成功率比基线高55%,仅用1000训练步数即超越基线峰值性能,样本效率优势显著 [30][32] 关键组件验证 - 消融实验显示:移除Visual CoT结构使成功率下降至64.0%,移除光流监督降至69.5%,证明核心设计必要性 [33][34] - 定性分析表明FlowVLA预测结果符合物理规律(无机械臂消失或物体运动异常),且与语言指令语义对齐 [24][26][29] - 统一分词方案和交错序列格式贡献49.4%基础性能,分组序列结构对整体效果有关键影响 [33][34] 行业价值定位 - 突破传统VLA模型端到端学习局限,提供动态优先的世界模型构建范式,为通用机器人开发奠定物理推理基础 [35][36] - 解决预训练被动观测知识与策略学习主动控制知识的领域差距,显著降低下游任务微调成本和收敛时间 [7][10][30] - 光流预测提供任务无关的低层物理理解,可作为高层控制基础,弥补现有具身推理方法在物理动态建模方面的不足 [35][36]
对话逐际动力张巍:造机器人很容易,关键是用起来
具身智能之心· 2025-08-29 08:03
公司定位与使命 - 公司定位为技术平台型公司,旨在提供机器人底层本体和运控能力,目标是"让天下没有难落地的机器人"[2][7][80] - 公司希望成为具身智能行业的"英伟达",提供一个底层平台,让不同领域的开发者能够基于此平台打造应用方案和产品[3][4][87] - 公司的终极目标是打造具身智能的Agentic OS,相当于人形机器人的"Windows"操作系统[8][108][154] 技术核心与优势 - 公司认为机器人落地的核心难点在于控制(大脑和小脑),而非硬件本体,硬件制造比造汽车和飞机容易[5][34][35] - 公司核心技术优势在于AI化的小脑能力,该能力在全球处于行业领先地位,是实现人形机器人运动控制的关键[5][37][39][53] - 运动控制的小脑AI化是近一两年才逐渐成熟的技术,这使得人形机器人的实现成为可能[38][39] 产品战略与路线图 - 公司发展路线分三步走:首先将双足人形机器人做到功能丰富、运动流畅;其次使其易编程,能用自然语言调用动作;最终目标是长出生态,形成操作系统[8][151][152] - 公司最新推出的全尺寸人形机器人LimX Oli定价为15.8万元,在同类产品中具有价格竞争力,公司通过自研关键部件来控制成本[114][116][118] - 公司产品战略强调差异化,专注于将双轮足机器人的能力做到全球第一,避免在四轮足等竞争激烈的领域内卷[94][95][97] 商业模式与客户 - 公司商业模式是服务三类客户:创新者、开发者与系统集成商,自身定位为技术提供方,不直接涉足最终行业应用[72][73][76] - 公司通过提供API、SDK和仿真环境来降低开发门槛,让开发者无需精通底层控制即可快速调起机器人动作[82][83][112] - 公司商业成功的核心指标是用户粘性和使用时长,而非单纯的销售数量,注重产品是否真正为用户创造价值[135][137] 行业观点与发展趋势 - 公司认为机器人形态将呈现四类共存:机器臂、上半身人形机器人、机器腿以及完整人形机器人,不会出现一种形态完全替代另一种的情况[30][31][33] - 行业发展的关键变量是AI技术的进步,尤其是大脑模型的成熟,将最大程度地发挥人形机器人作为载体的价值[41][42][110] - 短期内机器人应用将以B端为主,如巡检、搬运、安防等可控场景,大规模进入家庭可能还需要七到十年的时间[139][140][141] 数据策略与研发重点 - 公司采用多元数据配方策略,综合利用真机、仿真和互联网视频数据,并强调高效获取数据是关键,而非盲目追求数据量[65][67][70] - 公司研发资源投入侧重于技术产品化和商业化落地,对于尚在探索阶段的"找开关"式研究投入相对较少[49][50][123] - 公司认为在机器人领域,最好的创新往往由公司而非高校完成,因为工程能力在现代创新中占比巨大[18]
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-28 16:36
具身智能技术社群成立 - 行业成立具身智能之心技术交流群 重点关注视觉语言导航 视觉语言动作 遥操作 扩散策略 强化学习 仿真到现实迁移 多模态大模型 运动控制 目标导航 建图定位等技术方向[1] - 行业社群面向机构及学校研究人员开放 需通过指定联系方式备注机构名称 个人姓名及研究方向完成入群申请[2][3]
助力收割offer,这个具身领域的黄埔军校不简单......
具身智能之心· 2025-08-28 16:36
社区发展现状 - 具身智能社区目前拥有近2000名成员 目标在未来2年内扩大到近万人规模[1] - 社区提供视频 图文 学习路线 问答和求职交流等综合服务[1] - 社区已与多家具身机器人公司合作开发教程 促进本体功能拓展[1] 社区核心价值 - 社区提供实用问题解答 包括设备使用 数据采集和模型部署等技术支持[1] - 社区完成产业 学术 求职和问答等多领域闭环 提供前沿研究解决方案[2] - 社区梳理近30+技术路线 缩短用户检索时间 并邀请数十位一线产业界和工业界嘉宾答疑[2] 技术内容覆盖 - 社区涵盖数据采集 灵巧手 VLA模型 VLN模型 多传感器融合 机器人操作系统等13个技术目录[5] - 具体技术点包括RoboTwin 2.0数据生成器 BridgeVLA模型真机性能提升32% 以及Spec-VLA推测解码框架等[5] - 社区汇总40+开源项目 60+数据集 以及行业主流仿真平台[13] 学习资源体系 - 社区提供16个技术学习路线 包括具身感知 强化学习 VLN VLA 多模态大模型等方向[13] - 学习资源覆盖机器人导航 动力学 路径规划 视觉控制等多个基础领域的PDF书籍[23] - 社区汇总触觉感知最新综述 传感器应用 多模态算法集成和数据集等前沿内容[47] 行业生态连接 - 社区连接国内外知名高校实验室和头部公司 包括斯坦福 清华 智元机器人 优必选等机构[13] - 汇总国内外具身智能公司 涉及教育 宠物 工业 救援 物流 交互和医疗等多个方向[18] - 提供机器人零部件品牌汇总 包括芯片 激光雷达 相机 IMU和底盘等制造商信息[25] 就业与商业机会 - 社区建立岗位内推机制 与多家具身公司合作 第一时间对接求职者简历[5] - 社区提供行业研报汇总 帮助了解大模型和人形机器人行业发展与工业落地情况[20] - 社区提供投资与项目对接服务 挖掘行业商业机会[15]
具身智能之心B端和C端培训老师招募来啦~
具身智能之心· 2025-08-28 09:20
业务模式 - 公司开展B端和C端培训业务 B端主要面向企业和高校及研究院所 C端面向学生和求职人群[1][3] - 业务内容包括制定课程大纲和制作课程材料[3] 技术方向 - 培训内容涵盖VLA VLN 遥操作 Diffusion Policy 强化学习 VLA+RL sim2real 多模态大模型 仿真 运动控制 目标导航等前沿技术领域[2] 人才要求 - 要求博士及以上学历(包含在读)[3] - 需具备2篇A会或一区以上期刊/会议发表或2年及以上工业界经验[3] 合作方式 - 通过微信平台进行业务咨询(微信号:oooops-life)[4] - 提供高于行业水平的酬金待遇[1]