具身智能之心 - 财报，业绩电话会，研报，新闻

具身智能之心

搜索文档

具身智能之心· 2025-08-03 00:02

公司亮相世界人工智能大会 - 戴盟机器人作为具身智能技术领先企业参加2025世界人工智能大会(WAIC 2025)，主题为"智联世界，共创未来"[2] - 公司成为华为生态展台唯一参展的机器人企业，展示基于华为云平台的技术实践[4] - 展台吸引大量观众驻足体验，Sparky 1机器人瞬时响应与无时延表现成为热门打卡点[6] 技术创新与突破 - 推出全球首款VTLA(视觉-触觉-语言-动作)具身操作大模型Daimon One，创新引入触觉感知技术[8] - 突破传统VLA模型局限，通过多模态输入直接预测动作输出，实现端到端闭环[8] - 加入华为云初创生态，利用华为云平台部署服务器试点和虚拟仿真环境[8] 产业合作与生态建设 - 正式加入中国移动具身智能产业合作计划，联合宇树、智元等生态伙伴推动产业化[9] - 作为视触觉传感技术代表参与具身智能技术突破，推动机器人从"能动"到"能用、可用、好用"[9] 产品商业化成果 - 展示多款核心产品包括DM-Tac W视触觉传感器、DM-Hand1五指灵巧手等[11] - DM-Tac W具备高灵敏触觉感知能力，成为行业标杆并获央视报道[13][14] - 穿戴式遥操作数据采集系统DM-EXton系列及人形机器人Sparky1展现商业化水平[11] 技术产业化突破 - 公司孵化于香港科技大学，专注触觉感知与灵巧手研发，由王煜教授领衔[15] - 独创单色光图案追踪视触觉传感器技术，突破厚度、算力和耐用性难题[15] - 实现"全球最薄"视触觉传感器产业化，率先完成国内商业化[15]

VLA-OS：NUS邵林团队探究机器人VLA做任务推理的秘密

具身智能之心· 2025-08-02 00:02

新加坡国立大学VLA-OS研究 - 首次系统解构机器人VLA模型任务规划与推理机制提出任务规划表征与模型范式的统一对比框架 [2] - 构建包含10,000条多模态轨迹的标注数据集覆盖2D/3D视觉、仿真/现实环境、单/双臂操作等多样化场景 [25][29] - 设计三大可组合VLA范式：ActionOnly-VLA、Integrated-VLA、Hierarchical-VLA 实现公平对比 [23] 技术架构创新 - 采用Qwen 2.5 LLM基座构建0.5B-7B参数VLM家族配合DINO+SigLIP混合视觉编码器 [20] - 开发标准化动作头与规划头模块支持KV Cache提取技术实现三大范式灵活组合 [22] - 创新性定义语言/视觉/目标图像三种规划表征建立32x32网格化空间语义标注体系 [26][30] 核心研究发现 - 视觉规划表征相比语言规划成功率提升13.2% 推理速度提高100倍 [43][58] - Hierarchical-VLA范式展现最强泛化能力任务分解准确率比Integrated-VLA高4.5% [52][55] - 模型规模超过1B参数时性能下降在5,000条数据场景下0.5B模型最优 [62][64] 行业应用指南 - 推荐视觉表征与目标图像规划为主语言规划为辅的混合方案 [68] - 资源充足时优先选择Hierarchical-VLA 资源受限采用隐式Integrated-VLA [68] - 确认任务规划预训练有效性但需注意持续学习中的遗忘问题 [67][73]

MuJoCo教程来啦！从0基础到强化学习，再到sim2real

具身智能之心· 2025-08-02 00:02

具身智能技术发展 - 具身智能正在全面崛起，重新定义人类与机器的关系，从理解语言指令到在复杂环境中灵活移动和精确操作物体 [1] - 全球顶尖科技公司如Tesla、Boston Dynamics、OpenAI、Google等都在竞相布局具身智能领域 [1] - 具身智能将彻底改变制造业、服务业、医疗健康、太空探索等多个行业 [1] MuJoCo技术优势 - MuJoCo是连接虚拟世界与现实世界的重要桥梁，为机器人学习提供高保真、高效率的训练环境 [4] - 通过MuJoCo，研究者可以构建高度逼真的虚拟机器人和环境，使AI系统在仿真中进行数百万次试验和学习，仿真速度比现实时间快数百倍 [6] - MuJoCo采用先进的接触动力学算法，精确模拟机器人与环境的复杂交互，支持高度并行化计算和多种感知模态 [6] - MuJoCo已成为学术界和工业界的标准工具，Google、OpenAI、DeepMind等科技巨头都在使用 [8] 具身智能实战教程 - 课程采用项目驱动的学习方式，涵盖从物理仿真原理到深度强化学习、机器人控制理论到Sim-to-Real迁移技术的完整知识体系 [9] - 课程设计六个层次递进的实战项目，包括智能机械臂控制、视觉引导抓取系统、强化学习驱动的运动技能等 [11][16] - 每个项目都配有详细的中文指导文档、参考代码和调试技巧，并来自中国机器人企业的实际应用场景 [30] 课程结构与学习目标 - 课程分为六个学习模块，每周有明确的学习目标和实践项目 [15] - 学习模块包括MuJoCo基础、高级建模与传感器集成、强化学习与智能决策、机器人控制理论、多智能体系统与交互学习、Sim-to-Real迁移 [17] - 完成课程后，学员将熟练掌握MuJoCo各项功能、强化学习核心算法和机器人控制理论，具备完整的项目开发经验和创新能力 [32][33] 行业应用与前景 - 具身智能技术将在工厂精密装配、医院手术协助、家庭服务、危险环境救援等多个场景中发挥革命性作用 [1] - 课程设计的实战项目直接对接产业需求，帮助学员快速适应行业发展趋势 [30] - 掌握MuJoCo和具身智能技术将使学员成为该领域的复合型人才，具备技术开发和团队协作的核心能力 [33]

准备扩大具身团队了，欢迎加入我们......

具身智能之心· 2025-08-02 00:02

具身智能行业发展 - 具身智能领域发展迅速，多家明星公司准备上市，行业处于快速发展阶段 [1] - 早期技术孤立和闭塞不利于产业发展，公司鼓励行业积极交流并致力于搭建汇聚人才的平台 [1] - 公司成立一周年后计划邀请更多行业大佬加入，共同推动行业进步 [1] 具身项目合作 - 公司正在北京、上海、深圳、广州、杭州、武汉建立项目研发团队，承接横向、纵向项目及企业咨询 [3] - 每个城市计划招募约10名具身领域学术与工程专家，需具备2年以上具身算法和机器人研究经验 [4] - 合作形式灵活，可兼职参与 [3] 具身教育研发与咨询服务 - 公司邀请具身领域专家共同开发在线课程、企业咨询及辅导业务 [5] - 重点招募方向包括大模型、多模态、强化学习、机器人运动规划、触觉感知等12个技术领域 [5] - 参与者需具备博士及以上学历或2年以上工业界研发经验 [6] 合作待遇 - 提供大比例分红和全行业资源共享机会 [7] - 支持兼职或全职合作模式 [7] 联系方式 - 通过扫码咨询负责人，需备注"具身智能之心+老师咨询" [8]

机器人不只会抓和放！北大x银河通用「世界-动作模型」赋能全面泛化的非抓握技能

具身智能之心· 2025-08-02 00:02

文章核心观点 - 北京大学与银河通用机器人公司联合提出自适应性【世界-动作】模型DyWA，旨在解决机器人非抓握操作中的复杂物理交互问题，该模型通过协同学习系统动力学和精细操作策略，显著提升泛化能力[4] - DyWA模型采用联合建模动作与未来状态的方法，使机器人具备"想象力"，同时引入动力学自适应机制，从历史观测中推理隐含物理属性，实现自适应物理交互[9][10][11] - 该模型仅依赖单视角点云输入，通过大规模域随机化仿真训练后，可实现从仿真到真实机器人的零样本迁移，在多种复杂场景下展现全面泛化能力[12][18][22][24] 非抓握操作挑战 - 非抓握操作涉及连续接触、多变摩擦力等复杂物理交互，微小摩擦变化可导致完全不同的运动轨迹[6] - 现实感知系统面临单视角点云严重遮挡、多视角设置昂贵等问题，已有方法假设的多视角输入和位姿追踪模块在现实中难以部署[7] - 传统物理建模方法依赖精确的物体质量、摩擦系数等难以获取的参数，而现有学习方法缺乏对潜在动力学属性的建模能力[6] DyWA核心方法 - 采用teacher-student框架，将全知信息训练的教师策略蒸馏给仅接收点云输入的学生模型，同时预测动作带来的未来状态[9] - 引入动态适应模块，通过分析历史观测序列推理隐含物理属性，并通过FiLM机制调控世界模型中间特征[10][11] - 设计上仅依赖单个深度相机获取的点云输入，通过大规模物理参数随机化训练实现零样本迁移[12] 实验结果 - 在仿真benchmark中，DyWA在已知状态(三视角)、未知状态(三视角)和未知状态(单视角)三种设置下均显著优于基线方法，成功率超过80%[15][16] - 真机实验显示DyWA对物体几何形状和质量分布均具有泛化能力，能将未见过物体推到目标位姿，成功率接近70%[18] - 可适应各种摩擦面，在高摩擦瑜伽垫和低摩擦塑料板上都能维持操作鲁棒性，并展现强大的闭环自适应能力[22][24] 应用协同 - DyWA可与抓取策略及视觉语言大模型(VLM)协同工作，先通过非抓握操作调整物体姿态，再由抓取策略完成任务，提升复杂场景整体成功率[25]

具身智能

非抓握操作

机器人

DyWA（Dynamics - adaptive World Action Model）

具身智能

非抓握操作

机器人

DyWA（Dynamics - adaptive World Action Model）

大话一下！具身里面视觉语言导航和目标导航有什么区别？

具身智能之心· 2025-08-01 18:30

机器人导航技术演变 - 技术路线从传统建图定位导航发展到基于大模型方案的导航，后者分为视觉语言导航(VLN)和目标导航两类 [1] - VLN是"听懂指令走对路"，目标导航是"看懂世界自己找路"，代表从被动执行到主动探索的跃迁 [1][7] 视觉语言导航(VLN)技术架构 - 任务包含理解语言指令、感知环境、规划运动策略三方面，系统由视觉语言编码器、环境历史信息表征、动作策略模块构成 [2] - 主流范式采用预训练视觉语言模型，利用LLM进行指令拆解和任务拆分 [2] - 序列决策过程中，隐式端到端方法用隐变量累积历史信息，显式端到端方法采用拓扑图/BEV语义地图等建模环境 [4] - 策略网络学习从数据标注转向LLM先验知识蒸馏，数据增强是关键 [4] 目标导航技术特征 - 需在陌生环境中仅凭目标描述(坐标/图片/自然语言)自主完成探索与路径规划 [5] - 需实现语义解析(识别空间特征与视觉属性)、环境建模(构建空间拓扑)、动态决策(避障)等复合能力 [7] 商业落地现状 - 终端配送领域：美团无人车实现动态路径重规划，Starship Technologies在欧美高校社区部署配送机器人 [9] - 服务领域：嘉楠科技、云迹科技、擎朗智能的机器人实现药品/文件/餐食配送，美国Aethon公司TUG系列投入应用 [10] - 人形机器人领域：宇树科技Unitree通过Habitat预训练，智元机器人集成工业导航模块，特斯拉Optimus展示端到端操作能力 [10] 行业人才需求 - 导航技术被公认为具身智能最先落地的子领域，相关岗位年薪达七位数 [10] 技术学习挑战 - 需融合自然语言处理、计算机视觉、强化学习、图神经网络等多领域知识，存在知识碎片化与入门门槛高的问题 [11]

Starship Technologies园区配送机器人

Starship Technologies园区配送机器人

加入智源！具身大模型研究员岗位开放 (社招、校招、实习均可)

具身智能之心· 2025-08-01 08:03

岗位职责 - 负责具身智能大模型（VLA大模型或分层架构）的研究和开发 [3] - 设计并优化模型架构完成数据处理训练与真机部署工作 [3] - 调研具身智能领域前沿技术跟踪业内大模型最新进展探索技术应用可能性 [3] 职位要求 - 计算机科学人工智能机器人自动化数学等相关领域硕士及以上学历 [3] - 精通Python 具备深度学习基础熟悉TensorFlow PyTorch等框架 [3] - 具备大模型研究经验深入理解主流视觉与语言大模型有预训练微调部署经验 [3] - 具备机器人控制经验具身模型训练与部署经验者优先 [3] - 学习能力英语水平动手能力团队协作能力优秀 [3] - 在机器人 NLP CV顶会发表论文者优先（RSS ICRA CVPR等）[3] 招聘范围 - 社招校招实习生岗位均开放 [3]

具身智能

大模型

人工智能

具身智能大模型（VLA大模型或者分层架构）

具身智能

大模型

人工智能

具身智能大模型（VLA大模型或者分层架构）

都说强化+VLA才是未来？相关工作汇总来啦

具身智能之心· 2025-08-01 08:03

视觉-语言-动作(VLA)模型与强化学习(RL)结合的新范式 - 视觉-语言-动作(VLA)模型与强化学习(RL)结合成为极具前景的新范式，能充分发挥环境试错交互和预收集次优数据的双重优势 [2] 无环境离线RL训练 - MoRE研究通过无环境离线RL训练提升四足机器人VLA模型的可扩展性，论文发表于ICRA2025 [3] - Q-Transformer通过自回归Q函数实现可扩展的离线强化学习，论文发表于2023年 [3] 有环境在线RL训练 - ReinboT通过在线RL增强机器人视觉-语言操作能力，论文发表于ICML2025 [5] - GeRM采用混合专家(MoE)架构构建通用四足机器人模型，项目已开源，论文发表于IROS2024 [5] - 离线Actor-Critic RL可扩展至大型模型，论文发表于ICML2024 [5] 基于仿真器的研究 - OctoNav致力于通用具身导航研究，项目已开源 [6] - TGRPO通过轨迹分组相对策略优化微调VLA模型 [6] - SimpleVLA-RL提供简化版VLA-RL实现，项目已开源 [6] - RFTF利用时序反馈进行具身智能体微调 [6] - VLA-RL通过可扩展RL实现通用机器人操作，项目已开源 [6] - RIPT-VLA采用交互式后训练方法改进VLA模型，项目已开源 [6] - iRe-VLA通过在线RL改进VLA模型，论文发表于RAL2025 [6] - Policy Agnostic RL支持任意类别和骨干网络的离线/在线RL微调，项目已开源 [6] - FLaRe通过大规模RL微调实现自适应机器人策略，论文发表于ICRA2025 [6] 基于真实世界的研究 - DYNA-1模型在性能和产品化方面取得突破，由Dyna公司开发 [9] - ConRFT通过一致性策略强化VLA模型微调，项目已开源 [9] - RLDG通过RL实现通用机器人策略蒸馏，项目已开源 [9] - Hume在VLA模型中引入系统2思维，项目已开源 [9] - 通过价值引导改进机器人基础模型，项目已开源 [9] RL对齐训练 - GRAPE通过偏好对齐实现机器人策略泛化，论文发表于ICLR2025 workshop [11] - SafeVLA通过约束学习实现VLA模型安全对齐，项目已开源 [12]

科研论文这件小事，总是开窍后已经太晚......

具身智能之心· 2025-07-31 14:28

科研开窍与论文发表策略 - 科研"开窍"的核心在于尽早行动，将发论文作为贯穿硕士生涯的核心目标而非最后冲刺的任务 [1] - 典型"开窍晚"类型包括被动等待导师安排、过度追求完美、畏难拖延和低估论文周期 [1] - 从idea到论文接收周期通常需半年至一年，审稿被拒会显著延长周期 [1] 时间规划与关键节点 - 研一暑假开始投入可获近2年时间打磨1-2篇高质量论文，包含完整投稿周期 [2] - 研二下学期启动则有效时间不足1年，需同时应对课程/实习/毕业设计的多重挤压 [2] - 研一暑假被定位为进入科研状态和产出初步结果的黄金窗口期 [3] 科研方法论 - 建议采用迭代式科研模式：先完成再完美，从小目标如复现经典论文开始 [4] - 鼓励快速试错，将初步结果整理投稿至workshop或低级别会议以获取审稿反馈 [4] - 人工智能领域顶级工作多通过持续迭代打磨产生 [4] 目标管理与资源获取 - 入学首学期需明确毕业要求（SCI/CCF等），掌握领域主流期刊会议分类标准 [3] - 建议主动与导师沟通研究方向，模糊想法也可作为起点 [3] - 提供300+导师精准匹配系统，可根据研究方向/目标期刊筛选3-5位候选导师 [11] 论文辅导服务内容 - 覆盖选题至中稿全流程，包括创新思路/代码实验/论文润色/投稿策略 [7] - 提供基础课程帮助零基础学员，6个月可完成小论文产出 [11] - 优秀学员可获得名校推荐信及阿里达摩院/华为诺亚等企业内推机会 [12] 服务形式与保障 - 采用1v1在线授课+微信群答疑模式，配备班主任全程督学 [11][12] - 提供预收定金试听机制，不满意可更换导师或退款 [13] - 价格体系按期刊分区差异化定制，需填写咨询表获取详细报价 [13]

科研只需要这一台！GeoScan S1：最高性价比3D激光扫描仪（支持3DGS）

具身智能之心· 2025-07-31 14:28

产品介绍 - GeoScan S1是一款轻量化设计的手持三维激光扫描仪，具备一键启动功能，提供高效实用的三维解决方案 [1] - 采用多模态传感器融合算法，实现厘米级精度的三维场景实时重构，适用于多种作业领域 [1] - 每秒生成十万级点云，测量距离达70米，360°水平视角覆盖，支持5万平米以上的大场景扫描 [1][20] - 可选配3D高斯数据采集模块，实现高保真实景还原，支持跨平台集成，配备高带宽网口及双USB 3.0接口 [1] - 设备自带手持Ubuntu系统，集成多种传感器，手柄集成了电源，可为雷达、摄像头及主控板供电 [1] 团队背景 - 由同济大学刘春教授团队和西北工业大学产业化团队合作开发，基于多年科研和行业积累，经过上百个项目验证 [3] 传感器配置 - 集成RTK、3D激光雷达、9DOF IMU、双广角相机、深度相机、x86计算单元等丰富传感器资源 [8] - 激光雷达采用25°倾斜角度安装，兼顾多个方位，无需反复采集 [10] - 双广角相机与深度相机结合激光雷达，实现远距精准测距、近场细节补全及复杂环境适应性 [12] - 支持微秒级数据同步，采用硬件IO同步触发，同步精度达微秒级 [16][23] 技术参数 - 系统参数：支持三维点云地图动态构建、色彩融合、实时预览，最大扫描面积5万平米 [15] - 点云数量：每秒生成20万点，支持彩色点云输出，导出格式包括pcd、las、plv等 [15][20] - 精度：相对精度优于3cm，绝对精度优于5cm [15] - 尺寸：14.2cm * 9.5cm * 45cm，重量1.3kg（不含电池），1.9kg（含电池） [15] - 续航时间：约3-4小时，电池容量88.8Wh，功率25W [15] 软件功能 - 支持设备采集结果数据保存，包括点云文件（.pcd）和.bag文件 [28] - 提供快速建图程序、彩色点云建图程序、录包程序等功能 [28][29] - 支持RTK功能，需填写IP地址、端口号、用户名、密码等信息 [29] - 可选配3D高斯采集功能，通过广角鱼眼相机进行3DGS数据采集 [29] 应用场景 - 支持跨平台集成，适配无人机、无人车、机械狗、人形机器人等多种负载平台 [31] - 适用于写字楼、停车场、工业园区、隧道、森林、矿场等复杂室内外场景 [33] - 可选配3D高斯模块，实现高保真实景还原，将真实世界以数字化形式完整复刻 [37] - 在地理信息数据采集、城市规划、灾害监测等领域提供精准基础信息 [39] 售价说明 - 基础版本售价19800元，深度相机版本23800元 [44] - 3DGS在线版本39800元，3DGS离线版本67800元 [44] - 购买后1年内提供售后服务 [45]