具身智能之心
搜索文档
作为华为展台唯一机器人企业,它的实力究竟有多强?
具身智能之心· 2025-08-03 00:02
公司亮相世界人工智能大会 - 戴盟机器人作为具身智能技术领先企业参加2025世界人工智能大会(WAIC 2025),主题为"智联世界,共创未来"[2] - 公司成为华为生态展台唯一参展的机器人企业,展示基于华为云平台的技术实践[4] - 展台吸引大量观众驻足体验,Sparky 1机器人瞬时响应与无时延表现成为热门打卡点[6] 技术创新与突破 - 推出全球首款VTLA(视觉-触觉-语言-动作)具身操作大模型Daimon One,创新引入触觉感知技术[8] - 突破传统VLA模型局限,通过多模态输入直接预测动作输出,实现端到端闭环[8] - 加入华为云初创生态,利用华为云平台部署服务器试点和虚拟仿真环境[8] 产业合作与生态建设 - 正式加入中国移动具身智能产业合作计划,联合宇树、智元等生态伙伴推动产业化[9] - 作为视触觉传感技术代表参与具身智能技术突破,推动机器人从"能动"到"能用、可用、好用"[9] 产品商业化成果 - 展示多款核心产品包括DM-Tac W视触觉传感器、DM-Hand1五指灵巧手等[11] - DM-Tac W具备高灵敏触觉感知能力,成为行业标杆并获央视报道[13][14] - 穿戴式遥操作数据采集系统DM-EXton系列及人形机器人Sparky1展现商业化水平[11] 技术产业化突破 - 公司孵化于香港科技大学,专注触觉感知与灵巧手研发,由王煜教授领衔[15] - 独创单色光图案追踪视触觉传感器技术,突破厚度、算力和耐用性难题[15] - 实现"全球最薄"视触觉传感器产业化,率先完成国内商业化[15]
VLA-OS:NUS邵林团队探究机器人VLA做任务推理的秘密
具身智能之心· 2025-08-02 00:02
新加坡国立大学VLA-OS研究 - 首次系统解构机器人VLA模型任务规划与推理机制 提出任务规划表征与模型范式的统一对比框架 [2] - 构建包含10,000条多模态轨迹的标注数据集 覆盖2D/3D视觉、仿真/现实环境、单/双臂操作等多样化场景 [25][29] - 设计三大可组合VLA范式:ActionOnly-VLA、Integrated-VLA、Hierarchical-VLA 实现公平对比 [23] 技术架构创新 - 采用Qwen 2.5 LLM基座构建0.5B-7B参数VLM家族 配合DINO+SigLIP混合视觉编码器 [20] - 开发标准化动作头与规划头模块 支持KV Cache提取技术实现三大范式灵活组合 [22] - 创新性定义语言/视觉/目标图像三种规划表征 建立32x32网格化空间语义标注体系 [26][30] 核心研究发现 - 视觉规划表征相比语言规划成功率提升13.2% 推理速度提高100倍 [43][58] - Hierarchical-VLA范式展现最强泛化能力 任务分解准确率比Integrated-VLA高4.5% [52][55] - 模型规模超过1B参数时性能下降 在5,000条数据场景下0.5B模型最优 [62][64] 行业应用指南 - 推荐视觉表征与目标图像规划为主 语言规划为辅的混合方案 [68] - 资源充足时优先选择Hierarchical-VLA 资源受限采用隐式Integrated-VLA [68] - 确认任务规划预训练有效性 但需注意持续学习中的遗忘问题 [67][73]
MuJoCo教程来啦!从0基础到强化学习,再到sim2real
具身智能之心· 2025-08-02 00:02
具身智能技术发展 - 具身智能正在全面崛起,重新定义人类与机器的关系,从理解语言指令到在复杂环境中灵活移动和精确操作物体 [1] - 全球顶尖科技公司如Tesla、Boston Dynamics、OpenAI、Google等都在竞相布局具身智能领域 [1] - 具身智能将彻底改变制造业、服务业、医疗健康、太空探索等多个行业 [1] MuJoCo技术优势 - MuJoCo是连接虚拟世界与现实世界的重要桥梁,为机器人学习提供高保真、高效率的训练环境 [4] - 通过MuJoCo,研究者可以构建高度逼真的虚拟机器人和环境,使AI系统在仿真中进行数百万次试验和学习,仿真速度比现实时间快数百倍 [6] - MuJoCo采用先进的接触动力学算法,精确模拟机器人与环境的复杂交互,支持高度并行化计算和多种感知模态 [6] - MuJoCo已成为学术界和工业界的标准工具,Google、OpenAI、DeepMind等科技巨头都在使用 [8] 具身智能实战教程 - 课程采用项目驱动的学习方式,涵盖从物理仿真原理到深度强化学习、机器人控制理论到Sim-to-Real迁移技术的完整知识体系 [9] - 课程设计六个层次递进的实战项目,包括智能机械臂控制、视觉引导抓取系统、强化学习驱动的运动技能等 [11][16] - 每个项目都配有详细的中文指导文档、参考代码和调试技巧,并来自中国机器人企业的实际应用场景 [30] 课程结构与学习目标 - 课程分为六个学习模块,每周有明确的学习目标和实践项目 [15] - 学习模块包括MuJoCo基础、高级建模与传感器集成、强化学习与智能决策、机器人控制理论、多智能体系统与交互学习、Sim-to-Real迁移 [17] - 完成课程后,学员将熟练掌握MuJoCo各项功能、强化学习核心算法和机器人控制理论,具备完整的项目开发经验和创新能力 [32][33] 行业应用与前景 - 具身智能技术将在工厂精密装配、医院手术协助、家庭服务、危险环境救援等多个场景中发挥革命性作用 [1] - 课程设计的实战项目直接对接产业需求,帮助学员快速适应行业发展趋势 [30] - 掌握MuJoCo和具身智能技术将使学员成为该领域的复合型人才,具备技术开发和团队协作的核心能力 [33]
准备扩大具身团队了,欢迎加入我们......
具身智能之心· 2025-08-02 00:02
具身智能行业发展 - 具身智能领域发展迅速,多家明星公司准备上市,行业处于快速发展阶段 [1] - 早期技术孤立和闭塞不利于产业发展,公司鼓励行业积极交流并致力于搭建汇聚人才的平台 [1] - 公司成立一周年后计划邀请更多行业大佬加入,共同推动行业进步 [1] 具身项目合作 - 公司正在北京、上海、深圳、广州、杭州、武汉建立项目研发团队,承接横向、纵向项目及企业咨询 [3] - 每个城市计划招募约10名具身领域学术与工程专家,需具备2年以上具身算法和机器人研究经验 [4] - 合作形式灵活,可兼职参与 [3] 具身教育研发与咨询服务 - 公司邀请具身领域专家共同开发在线课程、企业咨询及辅导业务 [5] - 重点招募方向包括大模型、多模态、强化学习、机器人运动规划、触觉感知等12个技术领域 [5] - 参与者需具备博士及以上学历或2年以上工业界研发经验 [6] 合作待遇 - 提供大比例分红和全行业资源共享机会 [7] - 支持兼职或全职合作模式 [7] 联系方式 - 通过扫码咨询负责人,需备注"具身智能之心+老师咨询" [8]
机器人不只会抓和放!北大x银河通用「世界-动作模型」赋能全面泛化的非抓握技能
具身智能之心· 2025-08-02 00:02
文章核心观点 - 北京大学与银河通用机器人公司联合提出自适应性【世界-动作】模型DyWA,旨在解决机器人非抓握操作中的复杂物理交互问题,该模型通过协同学习系统动力学和精细操作策略,显著提升泛化能力[4] - DyWA模型采用联合建模动作与未来状态的方法,使机器人具备"想象力",同时引入动力学自适应机制,从历史观测中推理隐含物理属性,实现自适应物理交互[9][10][11] - 该模型仅依赖单视角点云输入,通过大规模域随机化仿真训练后,可实现从仿真到真实机器人的零样本迁移,在多种复杂场景下展现全面泛化能力[12][18][22][24] 非抓握操作挑战 - 非抓握操作涉及连续接触、多变摩擦力等复杂物理交互,微小摩擦变化可导致完全不同的运动轨迹[6] - 现实感知系统面临单视角点云严重遮挡、多视角设置昂贵等问题,已有方法假设的多视角输入和位姿追踪模块在现实中难以部署[7] - 传统物理建模方法依赖精确的物体质量、摩擦系数等难以获取的参数,而现有学习方法缺乏对潜在动力学属性的建模能力[6] DyWA核心方法 - 采用teacher-student框架,将全知信息训练的教师策略蒸馏给仅接收点云输入的学生模型,同时预测动作带来的未来状态[9] - 引入动态适应模块,通过分析历史观测序列推理隐含物理属性,并通过FiLM机制调控世界模型中间特征[10][11] - 设计上仅依赖单个深度相机获取的点云输入,通过大规模物理参数随机化训练实现零样本迁移[12] 实验结果 - 在仿真benchmark中,DyWA在已知状态(三视角)、未知状态(三视角)和未知状态(单视角)三种设置下均显著优于基线方法,成功率超过80%[15][16] - 真机实验显示DyWA对物体几何形状和质量分布均具有泛化能力,能将未见过物体推到目标位姿,成功率接近70%[18] - 可适应各种摩擦面,在高摩擦瑜伽垫和低摩擦塑料板上都能维持操作鲁棒性,并展现强大的闭环自适应能力[22][24] 应用协同 - DyWA可与抓取策略及视觉语言大模型(VLM)协同工作,先通过非抓握操作调整物体姿态,再由抓取策略完成任务,提升复杂场景整体成功率[25]
大话一下!具身里面视觉语言导航和目标导航有什么区别?
具身智能之心· 2025-08-01 18:30
机器人导航技术演变 - 技术路线从传统建图定位导航发展到基于大模型方案的导航,后者分为视觉语言导航(VLN)和目标导航两类 [1] - VLN是"听懂指令走对路",目标导航是"看懂世界自己找路",代表从被动执行到主动探索的跃迁 [1][7] 视觉语言导航(VLN)技术架构 - 任务包含理解语言指令、感知环境、规划运动策略三方面,系统由视觉语言编码器、环境历史信息表征、动作策略模块构成 [2] - 主流范式采用预训练视觉语言模型,利用LLM进行指令拆解和任务拆分 [2] - 序列决策过程中,隐式端到端方法用隐变量累积历史信息,显式端到端方法采用拓扑图/BEV语义地图等建模环境 [4] - 策略网络学习从数据标注转向LLM先验知识蒸馏,数据增强是关键 [4] 目标导航技术特征 - 需在陌生环境中仅凭目标描述(坐标/图片/自然语言)自主完成探索与路径规划 [5] - 需实现语义解析(识别空间特征与视觉属性)、环境建模(构建空间拓扑)、动态决策(避障)等复合能力 [7] 商业落地现状 - 终端配送领域:美团无人车实现动态路径重规划,Starship Technologies在欧美高校社区部署配送机器人 [9] - 服务领域:嘉楠科技、云迹科技、擎朗智能的机器人实现药品/文件/餐食配送,美国Aethon公司TUG系列投入应用 [10] - 人形机器人领域:宇树科技Unitree通过Habitat预训练,智元机器人集成工业导航模块,特斯拉Optimus展示端到端操作能力 [10] 行业人才需求 - 导航技术被公认为具身智能最先落地的子领域,相关岗位年薪达七位数 [10] 技术学习挑战 - 需融合自然语言处理、计算机视觉、强化学习、图神经网络等多领域知识,存在知识碎片化与入门门槛高的问题 [11]
加入智源!具身大模型研究员岗位开放 (社招、校招、实习均可)
具身智能之心· 2025-08-01 08:03
岗位职责 - 负责具身智能大模型(VLA大模型或分层架构)的研究和开发 [3] - 设计并优化模型架构 完成数据处理 训练与真机部署工作 [3] - 调研具身智能领域前沿技术 跟踪业内大模型最新进展 探索技术应用可能性 [3] 职位要求 - 计算机科学 人工智能 机器人 自动化 数学等相关领域硕士及以上学历 [3] - 精通Python 具备深度学习基础 熟悉TensorFlow PyTorch等框架 [3] - 具备大模型研究经验 深入理解主流视觉与语言大模型 有预训练 微调 部署经验 [3] - 具备机器人控制经验 具身模型训练与部署经验者优先 [3] - 学习能力 英语水平 动手能力 团队协作能力优秀 [3] - 在机器人 NLP CV顶会发表论文者优先(RSS ICRA CVPR等)[3] 招聘范围 - 社招 校招 实习生岗位均开放 [3]
都说强化+VLA才是未来?相关工作汇总来啦
具身智能之心· 2025-08-01 08:03
视觉-语言-动作(VLA)模型与强化学习(RL)结合的新范式 - 视觉-语言-动作(VLA)模型与强化学习(RL)结合成为极具前景的新范式,能充分发挥环境试错交互和预收集次优数据的双重优势 [2] 无环境离线RL训练 - MoRE研究通过无环境离线RL训练提升四足机器人VLA模型的可扩展性,论文发表于ICRA2025 [3] - Q-Transformer通过自回归Q函数实现可扩展的离线强化学习,论文发表于2023年 [3] 有环境在线RL训练 - ReinboT通过在线RL增强机器人视觉-语言操作能力,论文发表于ICML2025 [5] - GeRM采用混合专家(MoE)架构构建通用四足机器人模型,项目已开源,论文发表于IROS2024 [5] - 离线Actor-Critic RL可扩展至大型模型,论文发表于ICML2024 [5] 基于仿真器的研究 - OctoNav致力于通用具身导航研究,项目已开源 [6] - TGRPO通过轨迹分组相对策略优化微调VLA模型 [6] - SimpleVLA-RL提供简化版VLA-RL实现,项目已开源 [6] - RFTF利用时序反馈进行具身智能体微调 [6] - VLA-RL通过可扩展RL实现通用机器人操作,项目已开源 [6] - RIPT-VLA采用交互式后训练方法改进VLA模型,项目已开源 [6] - iRe-VLA通过在线RL改进VLA模型,论文发表于RAL2025 [6] - Policy Agnostic RL支持任意类别和骨干网络的离线/在线RL微调,项目已开源 [6] - FLaRe通过大规模RL微调实现自适应机器人策略,论文发表于ICRA2025 [6] 基于真实世界的研究 - DYNA-1模型在性能和产品化方面取得突破,由Dyna公司开发 [9] - ConRFT通过一致性策略强化VLA模型微调,项目已开源 [9] - RLDG通过RL实现通用机器人策略蒸馏,项目已开源 [9] - Hume在VLA模型中引入系统2思维,项目已开源 [9] - 通过价值引导改进机器人基础模型,项目已开源 [9] RL对齐训练 - GRAPE通过偏好对齐实现机器人策略泛化,论文发表于ICLR2025 workshop [11] - SafeVLA通过约束学习实现VLA模型安全对齐,项目已开源 [12]
科研论文这件小事,总是开窍后已经太晚......
具身智能之心· 2025-07-31 14:28
科研开窍与论文发表策略 - 科研"开窍"的核心在于尽早行动,将发论文作为贯穿硕士生涯的核心目标而非最后冲刺的任务 [1] - 典型"开窍晚"类型包括被动等待导师安排、过度追求完美、畏难拖延和低估论文周期 [1] - 从idea到论文接收周期通常需半年至一年,审稿被拒会显著延长周期 [1] 时间规划与关键节点 - 研一暑假开始投入可获近2年时间打磨1-2篇高质量论文,包含完整投稿周期 [2] - 研二下学期启动则有效时间不足1年,需同时应对课程/实习/毕业设计的多重挤压 [2] - 研一暑假被定位为进入科研状态和产出初步结果的黄金窗口期 [3] 科研方法论 - 建议采用迭代式科研模式:先完成再完美,从小目标如复现经典论文开始 [4] - 鼓励快速试错,将初步结果整理投稿至workshop或低级别会议以获取审稿反馈 [4] - 人工智能领域顶级工作多通过持续迭代打磨产生 [4] 目标管理与资源获取 - 入学首学期需明确毕业要求(SCI/CCF等),掌握领域主流期刊会议分类标准 [3] - 建议主动与导师沟通研究方向,模糊想法也可作为起点 [3] - 提供300+导师精准匹配系统,可根据研究方向/目标期刊筛选3-5位候选导师 [11] 论文辅导服务内容 - 覆盖选题至中稿全流程,包括创新思路/代码实验/论文润色/投稿策略 [7] - 提供基础课程帮助零基础学员,6个月可完成小论文产出 [11] - 优秀学员可获得名校推荐信及阿里达摩院/华为诺亚等企业内推机会 [12] 服务形式与保障 - 采用1v1在线授课+微信群答疑模式,配备班主任全程督学 [11][12] - 提供预收定金试听机制,不满意可更换导师或退款 [13] - 价格体系按期刊分区差异化定制,需填写咨询表获取详细报价 [13]
科研只需要这一台!GeoScan S1:最高性价比3D激光扫描仪(支持3DGS)
具身智能之心· 2025-07-31 14:28
产品介绍 - GeoScan S1是一款轻量化设计的手持三维激光扫描仪,具备一键启动功能,提供高效实用的三维解决方案 [1] - 采用多模态传感器融合算法,实现厘米级精度的三维场景实时重构,适用于多种作业领域 [1] - 每秒生成十万级点云,测量距离达70米,360°水平视角覆盖,支持5万平米以上的大场景扫描 [1][20] - 可选配3D高斯数据采集模块,实现高保真实景还原,支持跨平台集成,配备高带宽网口及双USB 3.0接口 [1] - 设备自带手持Ubuntu系统,集成多种传感器,手柄集成了电源,可为雷达、摄像头及主控板供电 [1] 团队背景 - 由同济大学刘春教授团队和西北工业大学产业化团队合作开发,基于多年科研和行业积累,经过上百个项目验证 [3] 传感器配置 - 集成RTK、3D激光雷达、9DOF IMU、双广角相机、深度相机、x86计算单元等丰富传感器资源 [8] - 激光雷达采用25°倾斜角度安装,兼顾多个方位,无需反复采集 [10] - 双广角相机与深度相机结合激光雷达,实现远距精准测距、近场细节补全及复杂环境适应性 [12] - 支持微秒级数据同步,采用硬件IO同步触发,同步精度达微秒级 [16][23] 技术参数 - 系统参数:支持三维点云地图动态构建、色彩融合、实时预览,最大扫描面积5万平米 [15] - 点云数量:每秒生成20万点,支持彩色点云输出,导出格式包括pcd、las、plv等 [15][20] - 精度:相对精度优于3cm,绝对精度优于5cm [15] - 尺寸:14.2cm * 9.5cm * 45cm,重量1.3kg(不含电池),1.9kg(含电池) [15] - 续航时间:约3-4小时,电池容量88.8Wh,功率25W [15] 软件功能 - 支持设备采集结果数据保存,包括点云文件(.pcd)和.bag文件 [28] - 提供快速建图程序、彩色点云建图程序、录包程序等功能 [28][29] - 支持RTK功能,需填写IP地址、端口号、用户名、密码等信息 [29] - 可选配3D高斯采集功能,通过广角鱼眼相机进行3DGS数据采集 [29] 应用场景 - 支持跨平台集成,适配无人机、无人车、机械狗、人形机器人等多种负载平台 [31] - 适用于写字楼、停车场、工业园区、隧道、森林、矿场等复杂室内外场景 [33] - 可选配3D高斯模块,实现高保真实景还原,将真实世界以数字化形式完整复刻 [37] - 在地理信息数据采集、城市规划、灾害监测等领域提供精准基础信息 [39] 售价说明 - 基础版本售价19800元,深度相机版本23800元 [44] - 3DGS在线版本39800元,3DGS离线版本67800元 [44] - 购买后1年内提供售后服务 [45]