具身智能之心
搜索文档
一些项目合作,待遇open~
具身智能之心· 2025-10-13 12:02
公司业务与定位 - 公司是国内具身智能领域的优秀创作平台 业务集在线教育 线下培训 企业咨询 企业宣传服务 硬件研发销售 解决方案为一体 [3] - 公司致力于为行业提供优质的内容输出和教育方案 [4] - 公司主要业务方向包括技术服务 培训 课程开发与科研辅导等 [1] 行业现状与公司目标 - 行业处于新兴阶段 存在许多需要探索和克服的困难 增加了企业和个人的研发与学习成本 [1] - 公司期望通过自身努力为行业带来价值 减少企业和个人的研发与学习成本 从而推动整个行业的发展 [1] - 公司收到越来越多来自合作伙伴和中小公司的诉求 期望在方案与数据采集 技术升级 企业培训等多个方向上获得赋能 [1] 合作与招聘方向 - 公司面向全球具身智能领域从业者发出合作邀请 寻求在技术服务 培训 课程开发与科研辅导等多个领域展开合作 [1] - 公司将提供高额的酬金与丰富的行业资源以吸引合作伙伴 [2] - 合作与招聘的主要技术方向包括但不限于 VLA VLN Diffusion Policy 强化学习 VLA+RL 遥操作 动捕 sim2real 多模态大模型 仿真 运动控制 端到端 3D感知等 [5] - 岗位主要面向具身课程开发 方案研发 硬件研发 培训合作 B端客户主要面向企业 高校及研究院所 C端面向学生及求职人群 [6]
你的第一套具身科研平台来了,高性价比+代码开发方便
具身智能之心· 2025-10-13 12:02
产品定位与目标客群 - 产品为面向具身智能科研领域的轻量级高性价比机械臂 Imeta-Y1 [1][2] - 目标用户为学生、教育工作者及机器人领域初学者,旨在帮助其低成本、高效率完成算法验证与项目开发 [2] 核心产品优势 - 提供全流程开源工具链与代码示例,覆盖从数据采集到模型部署的全过程 [3][17] - 支持Python与C++双语言接口,兼容ROS1与ROS2,并提供URDF模型以实现仿真与真机无缝切换 [3][18][19] - 提供快速响应的售后支持,承诺24小时内响应 [3][19] - 融合高精度运动控制、低功耗设计与开放软硬件架构,支持仿真到真机的无缝联调 [5] - 支持视觉、力控等多模态数据融合,兼容TensorFlow、PyTorch等主流框架 [17][32] - 提供完整的开源软件开发工具包(SDK),包含驱动程序、API接口及示例代码 [26] 机械臂核心性能参数 - 本体重量为4.2千克,额定负载为3千克,具备6个自由度 [8][19] - 工作半径为612.5毫米,重复定位精度达到±0.1毫米 [8][19] - 供电电压为24V,控制器为PC,材质为铝合金,通讯方式采用CAN [8][19] - 各关节运动范围及最大速度均有详细规格,例如J1关节运动范围为-165°至165°,最大速度为180°/秒 [8][19] 应用场景与兼容性 - 其紧凑型结构与模块化接口适用于嵌入式AI与机器人学习平台的开发 [6] - 目前已适配的相机包括Realsense D435系列和奥比中光DCW2 [46] - 已开源适配的算法模型包括lerobot和ACT,未来计划适配robotwin、pi0等 [46] - 算法训练与推理对硬件要求相对亲民,例如ALOHA ACT算法在GeForce RTX 4060显卡上即可运行 [46] 交付与售后 - 产品交付周期为1至2周 [44] - 提供半年质保(非人为损坏),质保期后售后服务按市场价收费 [45] - 产品为单臂销售,不支持无理由退货或测试 [46]
多机器人协作不再「慢半拍」!ReCA破解具身智能落地效率瓶颈
具身智能之心· 2025-10-13 08:02
文章核心观点 - 当前协同具身智能系统面临高昂的时间延迟和低下的协作效率等核心瓶颈,阻碍了其从实验室走向现实应用 [2] - 研究团队推出的ReCA集成加速框架通过算法、系统、硬件的跨层次协同优化,旨在实现智能体“实时、高效地完成”任务 [4][5] - ReCA框架在保证任务成功率的前提下,实现了平均5-10倍的端到端任务加速,并将任务成功率平均提升了4.3% [25][28] - 该研究为具身智能领域提供了从“能用”到“好用”的跨越路径,并为下一代机器人“大脑”+“小脑”的设计提供了可行方案 [33] 当前系统性能瓶颈 - 系统严重依赖基于LLM的模块进行高阶规划和智能体间通信,每一步行动都可能涉及多次LLM的顺序调用,导致高昂的规划与通信延迟 [7] - 随着智能体数量增加,去中心化系统面临通信轮次爆炸性增长,而中心化系统则因单一规划者难以处理复杂协同导致任务成功率急剧下滑,存在有限的可扩展性问题 [9] - LLM生成的高阶计划需要被精确翻译成底层的控制指令,底层执行的效率和鲁棒性直接关系到任务成败,存在底层执行的敏感性 [11] ReCA框架的优化方案 - 在算法层面,通过部署本地化微调的开源LLM摆脱对外部API的依赖,并采用规划指导下的多步执行模式,一次性生成可指导连续多步动作的高阶计划,大幅减少LLM调用频率 [15][16] - 在系统层面,引入分层协作规划模式,在小范围“簇”内采用中心化规划,在“簇”之间采用去中心化通信,并设计长短时记忆分离的双重记忆结构以提升规划连贯性 [20][21] - 在硬件层面,采用异构硬件系统,用GPU处理高阶规划,并为低阶任务设计专用硬件加速器,其定制化的A-Star处理单元相较于GPU实现取得了4.6倍速度提升和281倍能效改进 [23][31] 性能评估结果 - 在任务步骤仅增加3.2%的情况下,实现了平均5-10倍的端到端任务加速,将原本需要近一小时的复杂任务缩短至20分钟内完成 [25] - 在大幅提升速度的同时,任务成功率平均提升了4.3%,证明了效率与性能可以兼得 [28] - 在12个智能体的大规模协作场景下,ReCA能保持80-90%的高成功率,而基线系统的成功率已跌至70%以下,展现出卓越的可扩展性 [29] 行业影响与未来展望 - ReCA推动了领域研究范式的转变,使延迟、效率和可扩展性成为衡量具身智能系统的核心指标,加速其在家庭服务、智能制造等场景的落地 [33] - 该框架为GPU处理高阶规划、硬件加速器处理底层任务的异构计算模式提供了范本,指明了软硬协同释放效能提升的未来方向 [33] - 效率提升将解锁机器人管家团队、灾难救援现场协同、自动化科学实验室等实时协作应用场景的想象力,推动具身智能从实验室走向真实世界 [34]
统一高效VLA+RL训练平台RLinf-VLA!
具身智能之心· 2025-10-13 08:02
核心观点 - RLinf-VLA是清华大学推出的首个面向具身智能的大规模强化学习框架,提供了一个统一、高效的平台用于视觉语言动作模型与强化学习的研究 [2] - 该框架的核心特点是“快”、“多”、“好”,系统级优化使吞吐量比基线平台提升2.27倍,支持大规模多任务训练,单个模型在130个任务中成功率高达98.11% [2] - 框架旨在解决当前VLA+RL研究中存在的算法设计分析不全面、基础设施上手难度高、算力昂贵等开发困境 [3] 系统设计 - 框架具有“统一”特性,支持LIBERO和ManiSkill两类典型仿真器,支持OpenVLA和OpenVLA-OFT两种主流模型,并支持PPO和GRPO两种强化学习算法 [5] - 框架具有“高效”特性,系统层面通过YAML文件可灵活切换3种分配模式,吞吐量提升高达2.27倍,算法层面引入了轻量化critic、轨迹长度归一化等优化设计 [5] - 针对不同仿真器的资源需求特点,框架提供了共享式、分离式、混合式三类GPU调度模式,并在混合式中支持细粒度流水设计,以优化资源调度减少GPU空闲 [6][7] - 在ManiSkill仿真器中,OpenVLA模型采用混合式细粒度流水调度模式(k=2)展现了最佳吞吐,吞吐量加速达1.61倍至1.88倍 [7][43] - 在LIBERO仿真器中,OpenVLA-OFT模型的最佳调度模式是共享式,其训练速度比基线快1.34倍至2.27倍 [44] 算法设计 - 框架定义了VLA模型输出的三个粒度:Token-level、Action-level和Chunk-level,并支持两种优势函数计算粒度和三种对数概率计算粒度 [12][14] - 在PPO算法中,基于动作级(action-level)的价值估计优于基于块级(chunk-level)的估计,且部分重置(partial resets)可显著提升采样效率 [9][17] - 在GRPO算法中,轨迹长度归一化与动作掩码是稳定训练的关键,框架还设计了过滤机制,可加速策略收敛并提升模型性能 [9][25][29] - 对于PPO算法,框架采用了轻量化的Critic模型设计,与Actor策略共享大部分参数以减少GPU资源占用 [21] 性能表现 - 在ManiSkill的25个pick&place任务中,经过训练的模型成功率相较于基础模型提升幅度在45%至70%,其中PPO算法表现更稳定,OpenVLA-OFT模型达到97.66%的成功率 [31][35] - 在LIBERO所有的130个任务中,采用GRPO算法训练的单个OpenVLA-OFT模型成功率高达98.11%,在部分任务组中成功率超过99% [40] - 在训练数据分布外的泛化能力测试中,OpenVLA模型也表现出色,成功率优于对比基线 [34][35] - 真机实验表明,在Franka机械臂上部署的OpenVLA模型展现出零样本泛化能力,其任务成功率显著优于基于SFT训练的策略 [45][46]
有臂有手还带主动视觉?全球首款桌面级灵巧手机械臂BeingBeyond D1震撼发布
具身智能之心· 2025-10-13 08:02
点击下方 卡片 ,关注" 具身智能 之心 "公众号 在具身智能蓬勃发展的今天,高校与科研机构对兼具性能与性价比的机器人平台需求愈发迫切。然而,传 统工业机械臂不仅价格高昂、动辄数十万元,还面临开发复杂、维护困难、算法与模型配套缺失等诸多瓶 颈,严重限制了科研创新的落地效率。 为打破这一局限, BeingBeyond正式发布全球首款桌面级灵巧手机械臂——D1 。它将"机械臂 + 灵巧手 + 主动视觉系统"三大核心功能集于一体,高性价比价格 ,打造高集成度的一体化平台 ,真正实现具身智能 的即刻上手。 D1不仅拥有强大的硬件能力,更搭载自研VLA大模型 Being-H0 ,覆盖 从数据采集、模型训练到部署落地 的完整链条 ,开箱即用,开源灵活,为科研人员提供一站式、低门槛的具身智能研究平台。 灵活模块化设计,功能强大、扩展无限 D1机械臂,不止是"灵巧",更是为科研量身打造的全能平台。它采用高度模块化架构,拥有19个自由度 (6臂 + 2头 + 11手),其中14个为主动自由度,5个为被动联动自由度,真正实现从感知到操控的全流程覆 盖。 模块解耦、接口标准,随装随用、随拆随换,是科研与教学的理想选择。 机械臂模块 ...
宇树科技2025发布的R1人形机器人荣登美国《时代周刊》2025年度最佳发明
具身智能之心· 2025-10-12 00:02
宇树科技行业荣誉 - 公司R1人形机器人荣登美国《时代周刊》2025年度最佳发明 代表行业发展新高度 [4] - 公司创始人王兴兴被评选为2025年度AI领域最具影响力100人 [4] - 公司被评选为2025年度全球100大最具影响力企业 [4] 具身智能行业社区与资源 - 具身智能之心知识星球是国内首个具身智能开发者社区 关注领域包括数据集、仿真平台、VLA、VLN、大模型、强化学习等 [8] - 社区汇总近30+学习路线、40+开源项目、近60+具身智能相关数据集 [8] - 社区汇集近200家公司和机构进行学术和产业交流 [9] 具身智能行业技术社群 - 具身智能之心社群覆盖大模型、VLN、VLA、Diffusion Policy、足式机器人、规划控制等方向 [13] - 社群拥有近60+技术交流群 面向学校/公司等不同背景的开发者 [13]
光会“看”和“说”还不够,还得会“算”!Tool-Use+强化学习:TIGeR让机器人实现精准操作
具身智能之心· 2025-10-12 00:02
文章核心观点 - 公司提出TIGeR框架 旨在解决当前视觉语言模型在机器人操作中缺乏精确几何量化能力的关键痛点 通过工具调用和强化学习使AI模型能从定性感知转向定量计算 [2] - TIGeR框架的技术路线具有前瞻性 与最新发布的Gemini Robotics 1.5所强调的Agentic Tool Use方向一致 [3] - 在多项空间理解基准测试中 TIGeR的表现超越了包括Gemini-2.5-Pro和GPT-4o在内的主流模型 并在真机测试中完成了其他模型无法胜任的高精度操作任务 [11][16] TIGeR框架的技术优势 - 实现精确定位 通过集成深度信息和相机参数 能将如“上方10厘米”的指令精确转换为三维坐标 达到普通视觉语言模型无法实现的操作精度 [7] - 支持多视角统一推理 在多镜头场景下可将各视角信息合并 并在统一的世界坐标系中进行场景构建和推理 [7] - 具备透明可解释性 模型的每一步推理过程清晰可见 包括工具调用 参数输入和结果输出 便于调试优化并增强操作可信度 [7] TIGeR的训练方法与数据 - 采用两阶段训练流程 第一阶段通过监督学习使用大规模数据集教授基础工具使用方法和推理链 第二阶段通过创新的分层奖励机制进行强化学习 精细打磨模型使用工具的准确性和过程完美度 [8] - 为训练构建了TIGeR-300K大规模高质量数据集 包含30万个样本 覆盖各类核心任务 其构建结合了模板化生成以保证规模和基础问题解决能力 以及利用大模型改写以增强泛化性和应对真实世界复杂指令 [10][13] 性能表现与基准测试 - 在CV-Bench基准的2D-Rel 3D-Depth 3D-Dist任务上分别达到93.85% 96.33% 95.17%的准确率 均超过对比模型 [10][14] - 在BLINK基准的Depth和Spatial任务上分别达到91.94%和86.01%的准确率 [10][14] - 在RoboSpatial基准的M.V. Conf. Comp. Cont.任务上分别达到60.15% 82.11% 82.86% 32.79%的准确率 在EmbSpatial和Q-Spatial++任务上分别达到80.82%和70.30%的准确率 [10][14]
对刚入门具身的同学来说,试错成本确实有点高......
具身智能之心· 2025-10-12 00:02
社区定位与价值主张 - 社区定位为国内首个具身全栈社区,旨在打造超大的具身与机器人社区,满足初学者学习和进阶需求[13] - 核心价值在于降低行业进入门槛,解决学习者缺乏完整知识体系和试错成本高的问题[1] - 社区致力于在成员求职时提供职位内推和辅导,升学时提供信息和选择建议[1] 社区资源与内容体系 - 汇总近30+技术路线,覆盖从benchmark、综述到学习入门路线,旨在缩短用户检索时间[4] - 整理近40+开源项目、近60+具身智能相关数据集以及行业主流仿真平台[14] - 提供超过15个专项学习路线,包括具身智能感知、交互、强化学习全栈、VLN、VLA/VLA、Diffusion Policy等[14][15][43][63] - 汇总机器人导航、概率机器人、动力学与运动学、路径规划、视觉控制等多个方向的PDF书籍供基础学习[27] - 针对具身感知、触觉感知、导航、大模型、机械臂抓取等领域的开源数据集进行了汇总[37] 行业覆盖与产学研链接 - 社区成员来自斯坦福大学、加州大学、清华大学、ETH等国内外知名高校实验室,以及智元机器人、优必选、小米等具身机器人头部公司[14] - 汇总了国内外具身智能高校实验室,供成员读研、申博、博后参考[18][19] - 汇总了国内外各类具身相关机器人公司,涉及教育、宠物、工业、救援、物流、交互、医疗等方向[22] - 汇总了大模型、人形机器人等行业相关研报,帮助成员了解行业发展与工业落地情况[24] - 汇总了机器人行业知名零部件制造厂商,涉及芯片、激光雷达、相机、IMU、底盘等品牌[29] 专家网络与互动机制 - 邀请了数十位活跃在一线产业界和工业界的具身领域嘉宾,成员可随时提问并获得答疑解惑[4] - 社区提供圆桌论坛、直播等活动,分享从本体、数据到算法的行业动态与问题[4] - 成员可在社区内自由提问,无论是工作选择还是研究方向选择都能得到解答[75] - 社区与近2000名同学、200家具身公司与机构共同交流产业、学术、工程落地等话题[78] 职业发展支持 - 与多家具身公司建立岗位内推机制,可第一时间将成员简历送至心仪公司[6] - 分享多家头部具身机器人公司的招聘岗位信息[7] - 为入门者整理技术栈和路线,为从业者提供产业体系和项目方案[8][10]
港中文(深圳)冀晓强教授实验室全奖招收博士/博士后
具身智能之心· 2025-10-12 00:02
研究内容与方向 - 实验室聚焦人工智能控制理论、具身智能控制及强化学习控制等核心研究方向[11] - 致力于深度融合控制论、人工智能、机器人学、高性能计算及大数据等基础科学[13] - 开展人工智能与智能系统领域的基础理论与原创性研究[13] 任职要求与候选人背景 - 博士后需已获得或即将获得控制科学与工程、人工智能、机器人、计算机科学等相关专业博士学位[2] - 博士研究生需已获得或即将获得计算机科学、数据科学、自动化等相关专业硕士学位或优秀学士学位[3] - 硕士研究生需已获得或即将获得计算机科学、数据科学、自动化等相关专业本科学位[5] - 候选人需对控制理论、人工智能、机器人学有浓厚科研兴趣并具备扎实数学和编程基础[4] 通用技能与加分项 - 熟悉CLIP、BLIP、LLaVA等多模态大模型及其应用[6] - 熟悉VAE、Transformer、BERT等经典模型并具备实现与调试能力[7] - 具备出色算法设计与编程能力,熟悉Linux,掌握C++/Rust等高性能语言者更佳[8] - 了解LLaMA、Qwen等大语言模型架构,具有无监督预训练、SFT、RLHF等实践经验者优先[9] - 曾在IJRR、ICRA、IROS、RSS等机器人顶会或ICML、NeurIPS、ICLR等AI顶会发表论文者优先[12] - 拥有顶尖竞赛经历或知名企业核心AI项目主导经验者优先[12] 导师与实验室资源 - 实验室导师冀晓强教授为香港中文大学(深圳)理工学院助理教授,主持多项国家级及省市级科研项目[13] - 实验室在IEEE Transactions on Automatic Control、Automatica等顶尖期刊及会议发表论文五十余篇[13] - 实验室提供国际化科研氛围、丰富算力资源及行业合作机会[2] 福利待遇 - 博士后可获得省市生活补助每人每年税前21万元,总额不超过42万元,大学另提供每人每年5万元专项补贴[14] - 博士后符合条件者可申请广东省海外博士后人才支持项目,享受在站补贴税前60万元/2年,出站留粤补贴税前40万元/3年[14] - 博士后可申请各级科研课题资助,出站后深圳市给予30万元科研或创业资助[14] - 博士生可获全奖/半奖,学费全覆盖并额外提供生活津贴,优秀者可申请校长奖学金税后18万/年[15] - 研究型硕士优秀者可额外提供生活津贴,毕业后有转PhD机会[16] 申请流程 - 申请材料需包括个人完整中英文简历、已发表代表作论文及其他证明个人科研能力的材料[19] - 申请邮件需以“姓名-当前所在单位/机构-博士后/博士/研究型硕士申请”为题发送至指定邮箱[17]
具身智能迎来数据革命!它石智航发布WIYH数据集,比特斯拉Optimus领先半年
具身智能之心· 2025-10-11 18:00
行业核心问题与解决方案 - 主流大模型预训练依赖的互联网数据和仿真数据存在质量参差不齐、缺少动作信息、真实性有限及场景泛化难等不足,导致模型难以丝滑迁移到现实世界 [1] - 对人形机器人而言,实现“具身智能”的最大难关并非算法,而是如何获得规模化、真实、可泛化的高质量训练数据,这已成为行业公认的“卡脖子”难题 [1] - 公司发布的全球首个大规模真实世界具身VLTA多模态数据集World In Your Hands,旨在解决上述数据短缺与质量问题,标志着以人为中心的具身数据引擎新范式正式确立 [1] WIYH数据集的核心特征 - 数据集具备四大核心特征:真实(采集源于真实具身任务)、丰富(横跨多个行业与操作技能)、全面(囊括视觉、语言、触觉、动作多模态全真值)及海量(量级上限堪比大语言模型) [3] - 数据采集覆盖酒店洗衣、超市装配、物流作业等多种真实工作场景的人类标准操作流程,解决了“数据量少、质量低、成本高”的问题 [3] - 通过深入真实生活操作场景采集数据,对比业内高成本自建数采工厂,显著提升了数据的真实性、多样性和泛化能力,同时降低数采成本一个数量级以上 [4] WIYH数据集的独特优势 - 在模态完整性上,通过自研采集套件同步获取视觉、力触觉和动作数据,确保多源数据在时间和空间上的精准对齐 [4] - 在数据标注链路上,依托云端基础大模型完成高精度标注,覆盖2D语义、场景深度、操作任务分解等多粒度真值标签,为模型预训练提供全面多维的监督信号 [4] - 该数据集是行业首次将视觉、语言、触觉与动作多模态数据在真实世界大规模跨行业跨任务采集,为未来实现具身基座模型的规模定律奠定了基础 [1] 行业影响与未来展望 - WIYH数据集的发布标志着以人为中心的具身数据新范式确立,让面向真实世界的具身AI World Engine预训练成为可能 [6] - 数据集立足“千行百业”,有望实现“一模千任”,成为通用具身基座模型训练的关键语料和基础设施,推动行业应用从单一任务迈向具备通用操作能力的新阶段 [6] - 公司计划于2025年12月面向行业共享开放该数据集,致力于为行业提供最优质的本体、数据和模型解决方案,以推动开放繁荣的具身智能生态 [6]