Workflow
具身智能之心
icon
搜索文档
近70亿!9月具身机器人领域最新融资情况
具身智能之心· 2025-10-15 09:26
文章核心观点 - 2025年9月机器人与具身智能领域融资活动活跃,多家公司获得大额投资,显示资本市场对该行业的高度关注 [1][2][3][4][5][6] 9月份具身智能与机器人领域融资概况 - 星迈创新完成A+轮融资,专注于高端智能泳池清洁机器人研发,投资方包括美团龙珠、高瓴创投、顺为资本等 [1] - 自变量机器人完成近10亿元A+轮融资,由阿里云和国科投资领投 [2] - 一星机器人完成数亿元种子轮融资,定位为高精数据驱动的智能进化机器人研发商,投资方包括BV百度风投、同创伟业等 [3] 详细融资企业列表分析 - 融资轮次覆盖广泛,从天使轮到B+轮及战略投资均有涉及,表明行业处于从早期到成长期的不同发展阶段 [4][5][6] - 融资金额规模较大,多笔融资达到亿元级别,例如乐学科技天使++轮2亿元、LINKHOU A轮超亿元、Motorevo A轮过亿元等 [4][5] - 部分企业获得大额融资,如Beatbot A+轮融资10亿元,自变量机器人A+轮融资近10亿元,显示出资本对特定赛道的高度押注 [2][5][6] - 融资企业业务多元化,涵盖泳池清洁机器人、人形机器人、工业机器人、核心部件(如关节模组、传感器)、低空经济飞行器等多个细分领域 [4][5][6]
各大顶会对RL和这些工作的结合很青睐~
具身智能之心· 2025-10-14 18:00
强化学习行业重要性 - 强化学习是具身智能机器人领域的核心技术,在人形机器人、四足机器人和机械臂的步态控制、高难度动作学习中发挥关键作用[2] - 强化学习与视觉语言动作模型结合在机械臂控制等学术领域越来越受欢迎,能提升机器人执行任务的效率和流畅度[3][8] - 强化学习技术被广泛应用于产品优化,例如自动驾驶等领域,显示出其跨行业的重要性[1] 行业技术应用现状 - 行业内领先公司如宇树、智元的人形机器人主要通过强化学习完成爬楼梯、爬山、跑步、跳舞、翻跟头等高难度动作训练[2] - 强化学习技术赋予机器人产品适应救援、测量、危险环境等复杂场景的能力,是迈向通用具身智能必须攻克的关键技术[2] - 基于IsaacLab等最新仿真训练环境的强化学习方案成为学术和工业界的前沿趋势[17][18] 行业人才发展挑战 - 强化学习体系庞大且内容繁杂,对研究经验要求高,初学者入门难度极大[5][9] - 缺乏完整学习体系导致研究人员容易处处踩坑,久久不能入门,最终错失发展机会[6][9] - 产出符合顶级会议期刊标准的论文需要在方法论证、实验结果、写作方式等多个模块达到高标准要求[5] 专业培训解决方案 - 针对行业痛点推出14周核心训练加8周论文维护的强化学习论文辅导课程,采用1v6小班教学模式[7][17] - 课程面向硕博生群体,提供每周直播授课、课程录播和专属助教答疑服务[7][17] - 课程设置四足、人形、机械臂三轨并行的研究方向,学员可根据需求选择特定主题[17][18] - 课程目标产出包括论文IDEA确认、项目实现、实验指导、写作润色和初稿形成,瞄准RAL/ICRA/IROS/CoRL等顶级会议期刊[7][11] 课程核心技术内容 - 基于IsaacLab/MuJoCo等最新仿真训练框架,提供SAC/PPO/BC/Diffusion Policy等基线代码[18][22] - 涵盖sim2real/real2sim2real完整技术流程,包括复杂地形鲁棒行走、外推冲击恢复、速度曲线跟踪等关键技术模块[10][22] - 包含视觉语言动作模型与强化学习结合的创新方向,支持多模态感知信息的仿人灵巧操作研究[10][25] - 提供完整的论文写作指导体系,包括结构化论文模板、统一图表体例、补充材料清单和投稿审稿回复辅导[18][24] 课程特色与优势 - 采用科研闭环模式,实现方法-工程-评测-写作-投稿-维护全流程陪跑,每周设置明确任务指标[17][31] - 即使学员没有成熟idea,也能在提供的idea与baseline上迭代出可投论文初稿[16] - 师资来自美国顶尖高校的博士后研究员,具备RSS、ICRA、IROS、RAL等顶级会议期刊的发表和审稿经验[23] - 课程配备真机部署参考代码,支持Unitree/Franka/xArm/云深处/松灵机器人等设备实机环节[26][28]
史上最全robot manioulation综述,多达1200篇!西交,港科,北大等八家机构联合发布
具身智能之心· 2025-10-14 11:50
文章核心观点 - 具身智能是人工智能迈向通用智能的关键前沿,其核心在于机器人操作技术,该技术正经历从基于规则到融合大语言模型和多模态模型的范式转变 [3][4] - 一篇由多机构学者联合撰写的综述论文系统性地梳理了机器人操作领域,提出了统一的理解框架,涵盖硬件基础、任务数据、控制框架及泛化研究,旨在推动机器人从“执行任务”到“理解与学习任务”的演进 [4][6][7] 机器人操作领域综述概览 - 该综述使用17张图、15张表格和超1000篇参考文献,构建了机器人操作的全景图谱,内容覆盖硬件与控制基础、任务与数据体系、高低层控制框架及跨本体与跨模态的泛化研究 [4][6] - 论文扩展了传统的“高层规划—低层控制”框架,高层规划纳入语言、代码、运动、可供性与三维表示,低层学习控制则提出基于训练范式的新分类法,包含输入建模、潜表征学习和策略学习三个核心部分 [6][9][13] 机器人硬件与控制范式演进 - 机器人硬件从机械手、机械臂发展到移动机器人平台,控制范式从基于经典算法(如RRT、MPC)演进到基于学习的方法(如强化学习/模仿学习) [14] - 机器人模型的分类方式及其验证流程构成了评估体系,反映了领域技术栈的成熟度 [14] 仿真器、基准与数据集 - 综述整理了多个主流仿真器与基准,例如MetaWorld(80物体、50任务)、CALVIN(40M演示数据)、Maniskill2(2144物体、20任务)等,覆盖从基础操作到灵巧操作、移动操作等多种任务类型 [15][18] - 数据集类型包括抓取数据集、单/跨具身仿真器基准、轨迹数据集及具身问答数据集,支持多样化的机器人操作研究与验证 [17] 高层规划与低层控制框架 - 高层规划被扩展至语言、代码、运动、可供性和3D表示,凸显其在语义决策中的作用,例如通过大语言模型生成任务计划或代码 [21][24] - 低层学习控制提出三层结构分类法:输入建模(处理输入数据)、潜表征学习(构建可迁移表示)、策略学习(生成精准动作),为控制策略研究提供系统化视角 [22][23] 机器人操作核心瓶颈 - 领域面临两大瓶颈:数据采集与利用(涉及人类示教、合成数据生成、众包收集等途径)以及系统泛化能力(包括环境、任务和跨具身泛化) [27][28] - 数据利用方法涵盖数据扩展、选择重加权、检索与增强技术,而泛化挑战的解决方案旨在提升机器人对未知场景的适应能力 [27][28] 未来研究方向 - 未来重点方向包括构建通用“机器人脑”实现认知与控制、突破数据瓶颈以 scalable 生成利用数据、强化多模态感知提升复杂物体交互、确保人机共存安全推动真实世界应用 [32][34]
最近面向具身科研级的硬件好像越来越多了......
具身智能之心· 2025-10-14 08:02
行业现状与商业模式 - 当前大量机器人公司,包括元老级公司和新兴具身智能公司,其产品均面向科研场景,业务涉及高校 [1] - 教育场景的落地模式主要包括提供科研本体、组织赛事、线下基地建设和学科建设等 [1] - 行业内存在明显的错位竞争,公司分别专注于提供灵巧手、完整机器人本体、视觉系统(眼睛)或具身大脑等不同环节 [1] 社区资源与平台服务 - 社区已完成产业、学术、求职、问答交流等多个领域的闭环,提供问题解决方案和前沿研究思路 [3] - 社区汇总了超过30种技术路线,涵盖基准测试、综述和学习路径,以缩短用户检索时间 [4] - 社区邀请了数十位来自产业界和学术界的具身智能领域专家,提供答疑解惑服务 [4] - 社区与近2000名成员及200家公司和机构建立了联系,提供学术进展、工业应用和交流机会 [76] - 社区汇总了40多个开源项目、60多个数据集以及行业主流仿真平台 [13] 技术研究与发展方向 - 技术研究覆盖数据采集、灵巧手、VLA模型、VLN模型、多传感器融合、分层感知操作、机器人操作系统、协同感知、机器人模型、Sim2Real泛化、具身世界模型、触觉感知、大模型规划推理、模型加速与微调等多个领域 [5] - 具体技术议题包括机器人仿真与数据采集平台、人形机器人模仿学习、VLA在抓取与规划中的应用、VLA+RL方法、sim2real挑战、分层决策与端到端方案比较等 [4] - 社区为不同基础的学习者提供了从入门到进阶的多种学习路线,包括具身智能感知、交互、强化学习、VLN、VLA、多模态大模型、Diffusion Policy等 [13][14] 行业生态与基础设施 - 社区汇总了国内外具身智能领域的高校实验室和机器人公司,涵盖教育、宠物、工业、救援、物流、交互、医疗等多个方向 [13][19] - 基础设施资源包括行业研报、机器人相关书籍、零部件品牌(芯片、激光雷达、相机、IMU、底盘等)、ToF与3D相机厂家、数据采集方案、开源数据集和仿真平台等 [16][19][21][24][25][27][29][31][33][35][37]
马斯克从英伟达挖人做AI游戏!第一步:研发世界模型
具身智能之心· 2025-10-14 08:02
xAI入局世界模型 - 马斯克的xAI公司已正式进入世界模型研发领域,加入与Google DeepMind、Meta、英伟达等巨头的竞争 [2][7][8] - 为增强实力,xAI于2024年夏季从英伟达挖来多名资深研究员,包括Zeeshan Patel和Ethan He [2][9][16] 核心人才引进 - Zeeshan Patel于2024年5月硕士毕业于UC伯克利,研究方向为深度学习、生成模型和物理人工智能,此前曾在英伟达研究院从事生成式世界模型研究 [10][11] - Ethan He本科毕业于西安交通大学,在CMU获得计算机视觉硕士学位,其Google Scholar被引数高达8495,在加入xAI前于英伟达从事MoE模型、多模态模型和世界模型研究 [12][13][15][16] - 两位研究员均参与了英伟达Omniverse平台的核心开发工作,该平台是全球最成熟的物理一致性仿真系统之一 [18][19][20] 世界模型的战略意义与技术路径 - 世界模型被视为实现AGI(通用人工智能)的核心底座,其目标是让AI系统真正理解和推理物理3D世界,而不仅限于文本处理 [23][24][26] - xAI计划将英伟达在图形与物理模拟领域的积累(如Omniverse技术)应用到自家的世界模型体系中 [21][22] - 世界模型的应用前景广泛,可驱动AI游戏、智能体、自动驾驶乃至具身智能机器人 [38][39] 游戏领域作为首要落地场景 - xAI入局世界模型后的首批落点可能是电子游戏,团队正尝试让AI自动生成自适应、逼真的3D场景,并能根据玩家行为实时变化 [30][31] - 马斯克设下目标,计划在2026年底前推出一款由世界模型驱动的AI生成游戏 [3][32] - 为达成目标,xAI正在组建全模态团队(Multimodal Team),并公开招聘“电子游戏导师”(Video Games Tutor),时薪45–100美元,旨在向模型讲解游戏机制与设计逻辑 [33][34][35][36] 马斯克AI帝国的协同效应 - xAI的使命是“让AI理解宇宙的本质”,世界模型是实现该目标的关键路径 [37] - xAI、特斯拉、Neuralink、X平台之间可能形成协同效应:xAI研发模型,特斯拉提供机器人和自动驾驶数据,Neuralink提供脑机接口,X平台则作为社交与实时反馈渠道 [40][41]
ICLR 2026惊现SAM 3,分割一切的下一步:让模型理解「概念」
具身智能之心· 2025-10-14 08:02
SAM 3 技术发布与背景 - 一篇匿名论文“SAM 3: SEGMENT ANYTHING WITH CONCEPTS”登陆ICLR 2026,引发广泛关注,外界普遍猜测其为Meta公司“Segment Anything”系列的正式续作[3][5] - SAM系列发展节奏清晰,SAM 1于2023年4月发表并获得ICCV最佳论文提名,SAM 2于2024年7月发表,SAM 3的登场符合一年一度的更新节奏[6][7][8] - 该工作被定义为一个更高级的任务:可提示概念分割(Promptable Concept Segmentation, PCS),其核心是识别原子视觉概念[9] SAM 3 核心技术突破 - SAM 3实现了从“手动一个个点出来”到“告诉模型一个概念,它帮你全部找出来”的升级,用户可通过简短名词短语、图像范例或两者组合来指定视觉概念并分割所有实例[9][12][13] - 模型在论文提出的新基准SA-Co上性能比之前系统提升至少2倍,在LVIS数据集上零样本掩码平均精度达到47.0,超越之前最佳纪录38.5[13] - 模型处理效率高,在单个H200 GPU上处理一张有超过100个物体的图像仅需30毫秒[13] - 针对PCS任务的固有模糊性问题,公司在数据收集、指标设计和模型训练等多个阶段进行了系统化处理,并允许用户通过添加优化提示来消除歧义[19] 数据、架构与基准测试 - 研究构建了人机协同数据引擎,成功标注了包含400万独特短语和5200万掩码的高质量训练数据,以及包含3800万短语和14亿掩码的合成数据集[20] - 模型采用双编码器-解码器Transformer架构,是一个具有图像级识别能力的检测器,通过与跟踪器和内存模块相结合可应用于视频领域[19] - 本文创建了用于PCS任务的Segment Anything with Concepts(SA-Co)基准测试,涵盖124K张图像和1.7K视频中的214K独特概念,其概念数量超过现有基准测试集50倍以上[24] 实验性能表现 - 在零样本设置下,SAM 3在LVIS掩码任务上表现显著更好,在开放词汇SA-Co/Gold数据集上的CGF分数是最强基线OWLv2的两倍[27][28] - 在ADE-847、PascalConcept-59和Cityscapes上进行的开放词汇语义分割实验显示,SAM 3的表现超越了强大的专家型基线APE[29] - 在小样本自适应方面,SAM 3在10-shot设置下实现了当前最优性能,超过了Gemini的上下文提示以及目标检测专家模型[30] - 在物体计数任务中,SAM 3不仅实现了良好的物体计数准确率(如CountBench上MAE为0.11,Acc为95.6),还提供了大多数MLLM无法提供的对象分割功能[32][33] - 在视频分割任务中,SAM 3的表现远超基线,在大多数基准测试中比SAM 2取得了显著改进,对于交互式图像分割任务,SAM 3在平均mIoU方面优于SAM 2[33][34][35]
LightVLA:你的VLA真的可以又强又快!
具身智能之心· 2025-10-14 08:02
LightVLA技术核心与创新 - 提出一种面向视觉-语言-动作模型的可微分token剪枝框架,旨在解决资源受限平台上的计算开销难题 [2] - 采用自适应、性能驱动的视觉token剪枝方法,生成动态查询以评估token重要性,并使用Gumbel softmax实现可微分token选择 [2] - 框架无需依赖启发式参数且不引入额外可训练参数,使其能够兼容现代推理框架 [2] 性能表现与效率提升 - 在LIBERO基准测试中,LightVLA在计算量和延迟上分别降低59.1%与38.2%,同时任务成功率提升2.6% [3][8] - 该方法在多种任务中均优于不同VLA模型及现有token剪枝方法,以显著降低的计算开销实现了更高的成功率 [3] - 实现了效率与性能的双重提升,任务成功率提升至97.4% [8] 技术意义与行业影响 - 该研究是首个将自适应视觉token剪枝应用于VLA任务并同步优化效率与性能的工作 [3] - 标志着向高效、强大且实用的实时机器人系统迈出关键一步 [3] - 首次打破了“效率与性能不可兼得”的魔咒 [8]
一些项目合作,待遇open~
具身智能之心· 2025-10-13 12:02
公司业务与定位 - 公司是国内具身智能领域的优秀创作平台 业务集在线教育 线下培训 企业咨询 企业宣传服务 硬件研发销售 解决方案为一体 [3] - 公司致力于为行业提供优质的内容输出和教育方案 [4] - 公司主要业务方向包括技术服务 培训 课程开发与科研辅导等 [1] 行业现状与公司目标 - 行业处于新兴阶段 存在许多需要探索和克服的困难 增加了企业和个人的研发与学习成本 [1] - 公司期望通过自身努力为行业带来价值 减少企业和个人的研发与学习成本 从而推动整个行业的发展 [1] - 公司收到越来越多来自合作伙伴和中小公司的诉求 期望在方案与数据采集 技术升级 企业培训等多个方向上获得赋能 [1] 合作与招聘方向 - 公司面向全球具身智能领域从业者发出合作邀请 寻求在技术服务 培训 课程开发与科研辅导等多个领域展开合作 [1] - 公司将提供高额的酬金与丰富的行业资源以吸引合作伙伴 [2] - 合作与招聘的主要技术方向包括但不限于 VLA VLN Diffusion Policy 强化学习 VLA+RL 遥操作 动捕 sim2real 多模态大模型 仿真 运动控制 端到端 3D感知等 [5] - 岗位主要面向具身课程开发 方案研发 硬件研发 培训合作 B端客户主要面向企业 高校及研究院所 C端面向学生及求职人群 [6]
你的第一套具身科研平台来了,高性价比+代码开发方便
具身智能之心· 2025-10-13 12:02
产品定位与目标客群 - 产品为面向具身智能科研领域的轻量级高性价比机械臂 Imeta-Y1 [1][2] - 目标用户为学生、教育工作者及机器人领域初学者,旨在帮助其低成本、高效率完成算法验证与项目开发 [2] 核心产品优势 - 提供全流程开源工具链与代码示例,覆盖从数据采集到模型部署的全过程 [3][17] - 支持Python与C++双语言接口,兼容ROS1与ROS2,并提供URDF模型以实现仿真与真机无缝切换 [3][18][19] - 提供快速响应的售后支持,承诺24小时内响应 [3][19] - 融合高精度运动控制、低功耗设计与开放软硬件架构,支持仿真到真机的无缝联调 [5] - 支持视觉、力控等多模态数据融合,兼容TensorFlow、PyTorch等主流框架 [17][32] - 提供完整的开源软件开发工具包(SDK),包含驱动程序、API接口及示例代码 [26] 机械臂核心性能参数 - 本体重量为4.2千克,额定负载为3千克,具备6个自由度 [8][19] - 工作半径为612.5毫米,重复定位精度达到±0.1毫米 [8][19] - 供电电压为24V,控制器为PC,材质为铝合金,通讯方式采用CAN [8][19] - 各关节运动范围及最大速度均有详细规格,例如J1关节运动范围为-165°至165°,最大速度为180°/秒 [8][19] 应用场景与兼容性 - 其紧凑型结构与模块化接口适用于嵌入式AI与机器人学习平台的开发 [6] - 目前已适配的相机包括Realsense D435系列和奥比中光DCW2 [46] - 已开源适配的算法模型包括lerobot和ACT,未来计划适配robotwin、pi0等 [46] - 算法训练与推理对硬件要求相对亲民,例如ALOHA ACT算法在GeForce RTX 4060显卡上即可运行 [46] 交付与售后 - 产品交付周期为1至2周 [44] - 提供半年质保(非人为损坏),质保期后售后服务按市场价收费 [45] - 产品为单臂销售,不支持无理由退货或测试 [46]
多机器人协作不再「慢半拍」!ReCA破解具身智能落地效率瓶颈
具身智能之心· 2025-10-13 08:02
文章核心观点 - 当前协同具身智能系统面临高昂的时间延迟和低下的协作效率等核心瓶颈,阻碍了其从实验室走向现实应用 [2] - 研究团队推出的ReCA集成加速框架通过算法、系统、硬件的跨层次协同优化,旨在实现智能体“实时、高效地完成”任务 [4][5] - ReCA框架在保证任务成功率的前提下,实现了平均5-10倍的端到端任务加速,并将任务成功率平均提升了4.3% [25][28] - 该研究为具身智能领域提供了从“能用”到“好用”的跨越路径,并为下一代机器人“大脑”+“小脑”的设计提供了可行方案 [33] 当前系统性能瓶颈 - 系统严重依赖基于LLM的模块进行高阶规划和智能体间通信,每一步行动都可能涉及多次LLM的顺序调用,导致高昂的规划与通信延迟 [7] - 随着智能体数量增加,去中心化系统面临通信轮次爆炸性增长,而中心化系统则因单一规划者难以处理复杂协同导致任务成功率急剧下滑,存在有限的可扩展性问题 [9] - LLM生成的高阶计划需要被精确翻译成底层的控制指令,底层执行的效率和鲁棒性直接关系到任务成败,存在底层执行的敏感性 [11] ReCA框架的优化方案 - 在算法层面,通过部署本地化微调的开源LLM摆脱对外部API的依赖,并采用规划指导下的多步执行模式,一次性生成可指导连续多步动作的高阶计划,大幅减少LLM调用频率 [15][16] - 在系统层面,引入分层协作规划模式,在小范围“簇”内采用中心化规划,在“簇”之间采用去中心化通信,并设计长短时记忆分离的双重记忆结构以提升规划连贯性 [20][21] - 在硬件层面,采用异构硬件系统,用GPU处理高阶规划,并为低阶任务设计专用硬件加速器,其定制化的A-Star处理单元相较于GPU实现取得了4.6倍速度提升和281倍能效改进 [23][31] 性能评估结果 - 在任务步骤仅增加3.2%的情况下,实现了平均5-10倍的端到端任务加速,将原本需要近一小时的复杂任务缩短至20分钟内完成 [25] - 在大幅提升速度的同时,任务成功率平均提升了4.3%,证明了效率与性能可以兼得 [28] - 在12个智能体的大规模协作场景下,ReCA能保持80-90%的高成功率,而基线系统的成功率已跌至70%以下,展现出卓越的可扩展性 [29] 行业影响与未来展望 - ReCA推动了领域研究范式的转变,使延迟、效率和可扩展性成为衡量具身智能系统的核心指标,加速其在家庭服务、智能制造等场景的落地 [33] - 该框架为GPU处理高阶规划、硬件加速器处理底层任务的异构计算模式提供了范本,指明了软硬协同释放效能提升的未来方向 [33] - 效率提升将解锁机器人管家团队、灾难救援现场协同、自动化科学实验室等实时协作应用场景的想象力,推动具身智能从实验室走向真实世界 [34]