具身智能之心 - 财报，业绩电话会，研报，新闻 - Reportify

具身智能之心

搜索文档

一起创造价值！具身智能之心招募运营和销售的同学了（全职&实习）

具身智能之心· 2025-12-18 17:30

公司业务与招聘概况 - 公司正在招聘具身智能与AI领域的运营和销售岗位，共开放4个职位，包括2个全职和2个实习岗位 [1] - 工作地点位于上海，薪资范围开放 [1] - 招聘方为“具身智能之心”，业务方向聚焦于自动驾驶、具身智能、机器人、大模型等领域 [1] 自媒体运营岗位详情 - 该岗位负责科技自媒体平台的全方位运营，覆盖平台包括小红书、Bilibili、公众号、视频号及社群 [1] - 核心职责包括提升各平台粉丝数量与用户活跃度、运营社群、推广在线课程及其他教育产品，并负责视频剪辑、海报制作及直播宣传等工作 [2] - 岗位要求候选人具备公众号等自媒体平台运营经验、一定的推广销售能力，并熟悉办公软件及视频制作软件 [2] 产品销售岗位详情 - 该岗位负责教育产品的销售，产品线涵盖课程、论文辅导、求职辅导及硬件等 [2] - 核心职责包括销售平台课程、硬件及其他配套教育产品，维护客户关系、反馈产品问题，并与运营团队协作以提升月咨询量和销售额 [3] - 岗位要求候选人具备在线产品销售经验、线下产品推广能力，并熟悉办公软件及大模型使用 [3] 联系方式 - 有意者可通过添加指定微信“峰哥”（oooops-life）以咨询更多职位详情 [4]

VLA工作正在呈现爆发式增长.......

具身智能之心· 2025-12-18 17:30

行业技术发展现状与趋势 - 视觉语言动作模型算法正在爆发式增长，许多框架和工具帮助VLA模型实现更加泛化的性能 [2] - 数据和采集设备逐渐多元化，百万级的开源数据陆续开放，评测标准逐渐统一，预示着产业化可能很快到来 [2] - 作为核心模块，VLA将会覆盖更多场景应用，下游合作伙伴会越来越多，更多优秀人才将陆续加入 [2] - 近2年来，从ACT到OpenVLA，再到π0、π0.5、π0.6，各类新方法层出不穷，性能越来越高 [7] - 基于强化学习的优化方案让VLA模型性能越来越丝滑 [7] - 开源本体多种多样，能够支持各类研究需求，例如机械臂有SO-100、双臂操作有openarm、移动操作也有XLeRobot等 [7] 行业面临的挑战与痛点 - VLA模型难以调试，数据采集麻烦，对正在从事或入门该领域的从业者构成挑战 [3] - 领域过于注重硬件本体，即使是算法也极其依赖硬件，只看论文而无真机实验难以了解实际效果 [4] - 真实数据采集需要借助遥操、VR、全身动补等硬件方式，仿真和互联网数据在泛化性能上得不到保证 [5] - 许多具身公司坚持“真机数据”路线，但真机采集的数据并不好用，且一轮采集周期耗时很久 [5] - 一些算法在真机上效果不佳，难以分析原因 [9] - 将数据、VLA模型、训练优化、部署一整套任务打通，对很多初学者来说非常困难，有人踩坑半年也无法真正入门 [10] - 对于π0、π0.5、GR00T这类模型，无论是数据采集还是模型训练都存在很多“技巧” [11] - 对于更新快速的技术路线，如何有效学习VLA难倒了相当多的人，即使手上有真机也不知如何使用 [16] VLA模型落地的核心模块 - **数据采集**：目前主要有基于模仿学习和强化学习的采集方法，模仿学习包括遥操作、VR、全身动捕捉，机械臂+VLA领域更多采用前两种 [13] - **VLA的训练**：真机部署前通常需要仿真调试，在真机数据不足时，仿真和sim2real尤为重要 [14] - **VLA的训练**：模型训练技巧关键，如何微调模型、如何在小数据量下实现好结果都是挑战，许多模型存在机械臂运动准但夹爪夹不好或运动误差大的问题 [14] - **VLA的训练**：ACT算法相对简单易出效果，而π0和π0.5则很难训练，对细节和技巧要求高，强化学习优化模型也非常考验经验 [14] - **VLA模型的部署**：模型训练后需进行“瘦身”，具身模型参数量一般较大，即使2B规模对边缘芯片部署挑战也很大 [15] - **VLA模型的部署**：轻量化操作如量化、蒸馏必不可少，需在保证性能的同时最小化参数量 [15] 相关培训课程内容概述 - 课程涵盖机械臂硬件、数据采集、VLA算法、VLA评测、仿真、主流VLA模型部署、VLA+世界模型、各类真机实验、具身产业讲解等 [19] - 课程大纲共九章，包括VLA基础与概括、机械臂及训练平台、数据集获取、VLA模型部署与真机实战、仿真环境与工具链搭建、模型轻量化与蒸馏、VLA与世界模型融合架构、VLA评测及能力提升、VLA趋势与产业落地 [22][23][24][25][26][27][28] - 真机实战部分详细讲解GR00T N1/N1.5系列模型、π0/π0.5/π0-fast模型以及ACT模型的部署，包括环境配置、核心代码、训练推理和真机效果 [25][26][30] - 仿真环境部分介绍主流平台，并包含Isaac Lab环境部署、功能使用、场景搭建以及仿真与真机联动实战 [26] - 模型轻量化部分涵盖量化与蒸馏技术介绍，以及VLA模型量化蒸馏实战，包括SmolVLA实例分析 [26] - 课程面向正在具身领域求职需要实战项目的同学、VLA领域入门进阶同学、从事具身智能研究的各阶段学生、希望从传统领域转行进入具身的同学以及对领域感兴趣的其他人员 [36] - 课程对硬件有建议配置：推理建议3060及以上，训练建议2张以上3090ti，也可自租云服务器资源 [37] - 购买课程的学员将获赠一套SO-100机械臂 [29] - 课程于2025年12月30日正式开课，持续至2026年2月25日 [41]

《面向实战与求职的VLA小班课》

SO-100机械臂

《面向实战与求职的VLA小班课》

SO-100机械臂

全球首条！具身智能机器人在宁德时代电池产线实现规模化落地

具身智能之心· 2025-12-18 12:00

核心观点 - 全球首条实现人形具身智能机器人规模化落地的新能源动力电池PACK生产线在宁德时代投入运行标志着具身智能在智能制造领域取得里程碑式突破 [2] - 人形机器人“小墨”成功替代了长期依赖人工的高压、高风险、柔性要求高的电池包最终测试工序实现了效率、质量与安全性的显著提升 [2] - 该成果是产业链协同的产物由宁德时代生态企业研发并搭载公司自研电池为具身智能机器人的规模化部署奠定了基础未来公司将以此为基础深化智能制造与产业协同 [5] 技术突破与应用成效 - 机器人搭载先进的端到端视觉-语言-动作模型具备强大的环境感知与任务泛化能力能自主应对来料位置偏差等不确定性并实时调整 [2] - 机器人具备柔性操作能力在插拔柔性线束时可动态调节力度确保连接可靠且不损伤部件 [2] - 在实际运行中机器人插接成功率稳定在99%以上作业节拍已达到熟练工人水平 [2] - 机器人不仅能自主检测线束连接状态并上报异常以降低不良品率还能在作业间隙主动切换至巡检模式 [4] - 面对多型号电池连续生产任务机器人单日工作量实现了三倍提升且一致性与稳定性表现卓越 [4] 行业影响与未来规划 - 被替代的EOL与DCR工序具有“多品种、小批量、高柔性”特点长期依赖人工操作存在高压打火风险及效率与质量不稳定等问题 [2] - 公司联合多个部门深入产线调研将实际场景需求转化为工程技术指标制定了兼具前瞻性与落地可行性的开发方案 [5] - 未来公司将以此次成功落地为起点全面提升PACK线的自动化及智能化水平 [5] - 公司将持续深化智能制造与绿色动力的产业协同推动具身智能大模型在更广泛场景中应用助力全球零碳战略目标实现 [5]

宁德时代(SZ:300750)

机器人制造

人形具身智能机器人“小墨”

新能源动力电池

机器人制造

人形具身智能机器人“小墨”

新能源动力电池

EVOLVE-VLA：VLA模型测试时训练，突破模仿学习瓶颈

具身智能之心· 2025-12-18 08:07

研究背景与动机 - 当前主流的视觉-语言-动作模型采用监督微调训练范式，存在高标注成本和脆弱的轨迹记忆两大根本性局限[2] - 监督微调范式适配新任务需收集数百条演示数据，成本随任务数量线性增长，难以扩展到通用机器人场景[5] - 模型仅模仿演示轨迹，无法泛化到训练分布外的场景，执行出现偏差容易导致任务彻底失败，缺乏错误恢复能力[5] - 人类掌握操作技能的核心是通过实践学习，这与静态模仿学习形成对比，让模型在部署阶段通过环境交互实现持续学习成为关键方向[2] 核心挑战 - 测试时训练的核心障碍是缺乏Oracle奖励信号，即训练时的模拟器真值成功信号在部署时不可用[3] - 直接使用朴素的进度估计器会产生噪声信号，可能误导政策优化，在长视野任务中噪声累积会严重影响学习效果[3] 核心创新点与方法框架 - 提出测试时自主反馈机制，用预训练的进度估计器替代Oracle奖励，提供密集、连续的反馈信号，解决测试时无监督信号的问题[4] - 设计噪声信号驯服策略，包括累积进度估计和渐进式视野扩展两大核心机制[4] - 累积进度估计通过区间里程碑采样、增量进度计算和累积聚合，将噪声点估计平滑为稳定可靠的反馈信号[6] - 渐进式视野扩展分阶段逐步增加最大探索视野，让模型先掌握简单子任务，再衔接复杂长视野任务，提升对估计误差的鲁棒性[6] - 首次实现零样本跨任务迁移，在无需任务特定演示的情况下，让模型通过自主探索适配新任务[6] 实验设置与核心结果 - 实验基准数据集为LIBERO，包含Spatial、Object、Goal、Long四个任务套件共40个任务[15] - 基础模型为OpenVLA-OFT，进度估计器为预训练的VLAC，评估指标为任务成功率[15] - 相比监督微调基线平均成功率89.2%，EVOLVE-VLA提升6.5%至95.8%[16] - 在各任务套件中表现一致提升：Spatial提升4.1%、Object提升7.3%、Goal提升6.0%[18] - 长视野任务提升最为显著，达8.6%，成功率从85.8%提升至94.4%[18] 低数据场景与跨任务泛化 - 在仅使用1条演示数据的1-shot预训练场景下，基线成功率仅43.6%，EVOLVE-VLA提升17.7%至61.3%[19] - 长视野任务提升22.0%，Object任务提升29.9%，验证了框架对降低数据收集成本的作用[20] - 在跨任务泛化测试中，将仅在LIBERO-Long上预训练的模型直接部署到LIBERO-Object，无测试时训练时成功率为0%，经自主探索后成功率达20.8%，实现零样本跨任务迁移[21][22] 消融实验与定性分析 - 累积进度估计机制相比朴素2帧对比方法，成功率从88.3%提升至91.3%，且仅需32次奖励调用，兼顾效果与效率[21] - 在密集奖励基础上添加渐进式视野扩展，成功率从91.3%提升至94.4%，获得额外3.1%增益[23] - 通过测试时训练，模型展现出演示数据中不存在的错误恢复、状态适应和策略创新等涌现能力[27] - 存在失败案例，主要原因为进度估计器与环境成功标准存在语义错位，导致奖励黑客或误判[33] 技术贡献与行业意义 - 该工作将视觉-语言-动作模型从静态模仿推向自主进化，为通用模型发展提供了新范式[32] - 证明通过环境交互实现持续学习是突破数据依赖与泛化瓶颈的关键，为真实世界部署的自适应机器人奠定了基础[32] - 提出基于进度估计器的自主反馈方案，解决了测试时无Oracle奖励的关键问题[34] - 在LIBERO基准上验证了框架有效性，实现了长视野任务+8.6%、1-shot场景+22.0%的性能提升，以及0%到20.8%的跨任务泛化突破[34]

视觉-语言-动作（VLA）模型

测试时训练（TTT）

累积进度估计

渐进式视野扩展

零样本跨任务迁移

视觉-语言-动作（VLA）模型

测试时训练（TTT）

累积进度估计

渐进式视野扩展

零样本跨任务迁移

复旦&港大等团队！WholeBodyVLA：面向全身移动操作控制的VLA框架

具身智能之心· 2025-12-18 08:07

文章核心观点 - 由复旦、港大等团队提出的WholeBodyVLA框架，是首个实现大范围人形机器人端到端移动-操作的系统之一，通过统一潜在动作学习和面向移动-操作的强化学习策略，解决了现有方法在“操作感知型移动”方面的不足，在AgiBot X2机器人上的实验表明，其性能比现有基线方法提升21.3% [4][5][12] 现有方法的不足与核心挑战 - 现有模块化或端到端方法无法规划和执行能主动创造操作前提条件（如接近、调整姿态）的移动，而是将移动和操作视为独立阶段，限制了机器人的工作空间 [2][3] - 核心挑战在于“操作感知型移动”，以及两个根本问题：人形机器人遥操作数据稀缺，以及现有强化学习控制器的精度和稳定性有限 [4][6] WholeBodyVLA提出的解决方案 - **统一潜在动作学习**：设计了一个学习框架，使视觉语言动作系统能够从低成本、无动作标签的第一视角人类视频中学习移动-操作知识，以缓解数据稀缺问题 [4][6][8] - **面向移动-操作的强化学习策略**：提出采用简化离散指令接口的LMO策略，专门优化前进、转弯、下蹲等核心移动-操作动作的准确性和稳定性，以解决低层执行不可靠的问题 [4][10] - **高效数据采集**：设计了仅需单操作员和单目相机的低成本、高效人类第一视角数据采集流程，以扩充数据集 [4][19] WholeBodyVLA方法细节 - **分离的潜在动作模型**：由于移动和操作视频的视觉变化模式不同，分别训练了用于操作的LAM和用于移动的LAM，再联合监督VLA训练，以避免性能不佳 [17][18] - **VLA训练与执行**：VLA基于视觉和语言指令，通过交叉熵损失联合预测两种潜在动作，轻量级解码器将其映射为机器人特定的上肢关节角度和移动指令，再由LMO策略转换为下肢力矩执行 [19] - **LMO策略设计**：采用仅依赖本体感受状态的紧凑观测空间，以及明确启停语义的离散指令接口，并通过两阶段课程学习和参考塑形来优化精度与稳定性 [20][21][22][24] 实验验证与性能 - **任务设置**：在AgiBot X2机器人上评估了三个综合任务：装袋、装箱和推车，以评估双臂协同、下蹲精度、转弯准确性和重载稳定性 [26][27] - **性能对比**：在三个任务的平均得分上，WholeBodyVLA达到78.0%，显著高于模块化设计的64.0%、GR00T w/ LMO的42.0%和OpenVLA-OFT w/ LMO的56.7% [31] - **消融实验**：移除统一潜在学习会导致成功率下降38.7%；使用基于速度的RL控制器变体成功率低24%；分离LAM设计优于共享单一LAM [31][32][36] 技术贡献验证 - **无标签视频的贡献**：使用人类第一视角视频进行潜在预训练能显著提升性能并减少对遥操作数据的依赖，使用超过50%人类视频预训练的模型，仅用25条遥操作轨迹微调即可匹配使用较少视频但需200条轨迹微调的模型性能 [35] - **LMO的贡献**：LMO策略有效解决了基于速度控制器常见的绊倒、路径偏移等问题，在扩展任务（如不平坦地形、长多步序列）中表现出更高的可靠性 [36] - **泛化能力**：框架在更具挑战性的场景中（如不平坦地形遍历、长时程多步序列、日常移动-操作活动）均保持性能优势，展现出强大的泛化能力和可扩展性 [38]

SIGGRAPH 2025：摩尔线程赢3DGS挑战赛大奖，LiteGS全面开源

具身智能之心· 2025-12-18 08:07

文章核心观点 - 摩尔线程在SIGGRAPH Asia 2025的3DGS重建挑战赛中凭借自研的LiteGS技术获得银奖，证明了其在下一代图形渲染技术3D Gaussian Splatting领域的算法实力和软硬件协同优化能力 [1] - 3DGS是一项革命性的3D场景表示与渲染技术，相比传统NeRF，能在保持画质的同时将渲染效率提升数百至上千倍，并成为具身智能等前沿领域的关键基础技术 [4][7] - 摩尔线程通过开源其3DGS基础库LiteGS，展示了从底层GPU系统到高层算法的全栈优化能力，在训练效率和重建质量上树立了新的性能标杆，并计划在开发者大会上进一步探讨该技术如何赋能未来 [20][24][28] 3DGS技术概述与行业意义 - 3D Gaussian Splatting是2023年提出的革命性3D场景表示与渲染技术，以可参数化的3D高斯分布为核心，实现了画质、效率与资源占用的卓越平衡 [4] - 与传统NeRF相比，3DGS在保持逼真渲染质量的前提下，将渲染效率提升数百至上千倍 [4] - 该技术在光线追踪、VR/AR实时渲染、多模态融合等方向展现出极强的适应性与扩展性 [4] - 3DGS以其高保真、快速优化和轻量级结构，为具身智能构建准确的世界模型提供了可靠支撑，正逐渐成为该领域的关键基础技术之一 [7] - 3DGS已成为全球学术界与产业界竞相投入的研究方向，受到SIGGRAPH Asia等权威机构的高度关注 [8] SIGGRAPH Asia 2025 3DGS挑战赛详情 - 挑战赛要求参赛团队在60秒内，基于提供的真实终端视频序列、存在误差的相机轨迹及终端SLAM点云，完成高质量的3DGS重建 [10] - 比赛以PSNR（重建质量）与重建速度为综合评价指标 [12] - 比赛结果及数据集已向全球公开 [14] 摩尔线程参赛表现与技术成果 - 摩尔线程AI团队以“MT-AI”参赛，在重建精度与效率上取得均衡表现，最终获得二等奖（银牌） [17] - 根据成绩表，摩尔线程（MT-Al）的平均PSNR为27.58，重建耗时为34秒 [18] - 公司自主研发了3DGS基础库LiteGS，首次实现了从底层GPU系统、中层数据管理到高层算法设计的全链路协同优化 [21] - 在GPU系统层面，创新提出基于“One Warp Per Tile”原则的“Warp-Based Raster”新范式，大幅降低梯度计算开销 [22] - 在数据管理层，引入“聚类-剔除-压缩”流水线，显著提升数据局部性 [22] - 在算法设计层，采用像素不透明度梯度方差作为致密化核心判据，精准识别欠拟合区域 [22] - 通过协同优化，LiteGS在达到与当前质量最优方案同等水平时，可获得高达10.8倍的训练加速，且参数量减少一半以上 [25] - 在相同参数量下，LiteGS在PSNR指标上超出主流方案0.2–0.4 dB，训练时间缩短3.8至7倍 [31] - 针对轻量化模型，LiteGS仅需原版3DGS约10%的训练时间与20%的参数量，即可实现同等质量 [31] 开源与未来展望 - 摩尔线程已将LiteGS在GitHub平台全面开源，以推动三维重建与渲染技术的开放协作与持续演进 [27] - 公司此次获奖被视作准确把握全球技术发展趋势并引领未来图形计算技术方向的战略体现 [28] - 摩尔线程计划于2025年12月20日-21日在首届MUSA开发者大会上设立技术专题，深入探讨3DGS等图形智能技术如何塑造未来，赋能具身智能等前沿领域 [28]

计算机图形学

3D Gaussian Splatting（3DGS）

计算机图形学

3D Gaussian Splatting（3DGS）

VGGT4D：无需训练，实现4D动态场景重建

具身智能之心· 2025-12-18 08:07

研究背景与问题 - 以VGGT、DUSt3R为代表的3D基础模型在静态场景重建中表现出色，但在处理包含移动物体（如行人、车辆）的动态4D场景时，性能显著下降，动态物体的运动会干扰背景几何建模并导致严重的相机位姿漂移 [6] - 现有解决方案面临两类挑战：一是计算或训练成本高，依赖繁重的测试时优化或需要在大规模4D数据集上进行微调；二是依赖外部先验，需要引入光流、深度估计或语义分割等额外模块，增加了系统复杂性 [14] 核心洞察与方法论 - 研究团队提出核心设想：能否在不进行额外训练的前提下，直接从预训练的3D基础模型中挖掘出4D感知能力 [7] - 通过对VGGT注意力机制的可视化分析，发现VGGT的不同网络层对动态区域表现出截然不同的响应模式，表明VGGT虽然是基于静态假设训练的，但其内部实际上已经隐式编码了丰富的动态线索 [8][10] - VGGT4D的核心贡献在于提出了一套无需训练的注意力特征挖掘与掩膜精修机制，该方法深入特征流形内部，利用Gram矩阵和梯度流实现了高精度的动静分离 [12] 技术细节：潜在运动线索的挖掘与解耦 - 研究团队分析了标准注意力图的局限性，由于Query和Key向量来自异构的投影头，其特征分布存在天然的分布间隙，导致Cross-Attention主要响应语义对齐，而运动引起的微小特征扰动容易被掩盖 [15] - 为解决此问题，VGGT4D引入了自相似性Gram矩阵来替代，通过在同构潜在分布内计算相似度，使运动引起的方差成为主导信号，模型通过在时间窗口内聚合不同层级的统计矩（均值S与方差V），构建了动态显著性场 [15] - 为了解决Attention Map分辨率不足导致的边界模糊问题，VGGT4D引入了投影梯度感知精修，该方法利用3D点几何投影残差关于3D坐标的梯度（依赖于投影雅可比矩阵和深度图的空间梯度）所包含的强边界信息，在动态物体边缘处呈现显著高频响应，从而实现对动态掩膜的亚像素级锐化 [17] - 在推理阶段，VGGT4D提出了一种分布内早期掩膜策略：仅在浅层抑制动态Token的Key向量，这种设计既在早期切断了动态信息对深层几何推理的影响，又保证了深层Transformer Block依然在其预训练的特征流形上运行，从而保证了位姿估计的鲁棒性 [19] 实验验证：动态物体分割性能 - 在动态物体分割任务上，VGGT4D在DAVIS-2016和DAVIS-2017数据集上均达到了最优性能，即使没有经过任何4D特定的训练，仅基于预训练的VGGT模型即可取得优异结果 [21] - 具体数据：在DAVIS-2016数据集上，VGGT4D的JM指标为62.12，JR指标为76.80，FM指标为56.04，FR指标为67.49；在DAVIS-2017数据集上，JM为56.45，JR为65.62，FM为51.09，FR为56.85 [22] - 定性分析表明，基线方法如Easi3R的掩码较为粗糙且遗漏细节，DAS3R倾向于过度分割并渗入静态背景，MonST3R则常常分割不足，而VGGT4D生成的掩码更加准确且边界更加清晰 [23] 实验验证：相机位姿估计 - 原始VGGT已经是一个非常强大的基线，其自身就优于MonST3R、DAS3R等许多专门的4D重建方法，表明VGGT的预训练隐式地使其对动态物体具有一定的鲁棒性，但这种鲁棒性并不完美 [25] - VGGT4D在所有数据集上均持续改进了VGGT基线，例如在VKITTI数据集上，VGGT4D的ATE（绝对轨迹误差）仅为0.164，而MonST3R高达2.272 [25] - 在极具挑战性的长序列Point Odyssey基准测试中，VGGT4D在所有指标上均取得了最佳结果，同时保持了高度效率，许多其他4D方法由于内存不足错误甚至无法在该500帧序列上运行 [26] - 具体数据：在Point Odyssey上，VGGT4D的ATE为0.019，RTE为0.009，RRE为0.290，均优于FastVGGT（0.026, 0.017, 0.380）和原始VGGT（0.022, 0.015, 0.344） [27] 实验验证：4D点云重建质量 - 在DyCheck数据集上的评估显示，VGGT4D在所有重建指标（准确度、完整度和距离）上均取得了最佳性能 [28] - 与VGGT基线相比，中位准确度误差从0.009降低到0.004，平均距离从0.150降低到0.123，这证明了该方法不仅实现了精准的动静分离，更能实质性提升几何重建质量 [28] - 具体数据：VGGT4D的位姿估计ATE为0.010，RTE为0.007，RRE为0.374；重建准确度均值为0.022，中位数为0.004；完整度均值为0.051，中位数为0.012；距离均值为0.123，中位数为0.050 [29] 研究结论与意义 - VGGT4D提出了一种无需训练的新范式，成功将3D基础模型的能力扩展至4D动态场景 [32] - 该工作证明了通过合理挖掘模型内部的Gram相似度统计特性，可以有效解耦动态与静态信息，这不仅为低成本的4D重建提供了新思路，也展示了基础模型在零样本迁移任务中的潜力 [32]

4D动态场景重建

3D 基础模型

4D动态场景重建

3D 基础模型

具身智能的数据困境？简智正以闭环飞轮推进解决

具身智能之心· 2025-12-17 18:00

行业核心痛点与共识 - 高质量真机数据是决定具身智能模型能力上限的关键，但当前行业面临高质量真机数据极度匮乏的困境[3] - 模仿学习（如看视频）必要，但真正掌握技能，真机数据是关键[3] - 仿真、人类视频等替代数据存在核心能力妥协，唯有真实、海量的物理世界交互数据才是通往通用机器人智能的必经之路[6] - 传统数据采集方案存在显著短板：Aloha设备两班倒每天仅产生4-5小时有效数据，要达到规模化数据集（如Gen-0）规模需500套同类设备同时运转，实操难度大[6] - 视频数据训练的模型缺乏真实场景实操经验，传统遥操和UMI数采方案则存在成本高、部署难或数据质量参差不齐的问题[6] 公司核心理念与战略 - 公司核心理念是“具身智能源于人、回归人”[3] - 公司采用全栈自研的“产品+产线”双轨战略，搭建“人类技能数字化 - 云端AI数据治理 - 机器人应用”的完整闭环[3] - 公司推出Gen Data 1+x产品矩阵，旨在从源头打通物理世界与数字世界的数据壁垒[7] 数据采集解决方案：Gen Das - Gen Das是一款无感可穿戴采集设备，以“头+手”为核心交互触点，瞄准“夹抓类”核心技能[9] - 设备重量仅470g，开机即用，贴合人体自然曲线设计，便于长时间操作以捕捉真实动作反馈[9] - 设备性能参数针对解决采集难题：指尖、指腹覆盖超过30000个触觉检测点，最小压感仅7g[12]；搭配毫秒级、亚毫米级的关节追踪[17]；采用全栈自研优化的ISP图像处理与CMOS传感器[17]；具备“双手协同”“手眼协同”高精度坐标对齐技术，时间误差小于1ms，轨迹误差小于1cm[17]；具备将数据体积压缩至原大小2%的超强压缩能力，可实现分钟级快速上传[17] 技能落地与硬件闭环：Gen Controller - Gen Controller作为技能落地端，与Gen Das采用同构设计，理论上可实现人类技能向机器人终端的快速迁移[14] - 该设计旨在构建“源于人的采集”到“回归人的应用”的硬件闭环，解决数据与应用脱节的行业通病[14] 数据处理与治理体系 - 具身智能领域存在Scaling Law（数据规模与模型能力正相关），需要高效的数据治理体系[15] - 公司通过两大核心引擎（Gen Matrix与Gen ADP）解决海量数据转化为模型“优质燃料”的难题[15] 数据智能平台：Gen Matrix - Gen Matrix是数据智能平台中枢，承担“迭代发动机”角色[18] - 功能包括：根据模型需求对海量数据进行定制化清洗、自动切片标注、环境重建；对模型结果进行评测并自动生成二次数据需求，形成“采集-处理-评测-再采集”的智能循环[18] - 具备高精准还原能力，轨迹真值误差小于1cm[18] 数据产线：Gen ADP - Gen ADP是具身智能数据产线，旨在实现千万人员技能数据化，部署灵活，可快速在家庭、工厂、医疗等场所落地[19] - 目标为实现“低成本、高效、高保真、自动闭环”的数据生产[19] - 从效率看，采集后2小时内即可向模型提供新鲜、高质量的加工数据，大幅短于传统几天甚至几周的周期[23] - 目前该产线每日高质量数据产出量超过10万clips，数据时长增长超1万小时且仍在持续加速[23] - 数据显示，平均3-6秒即可从真实家庭中完成一条高质量数据的收集[22] 公司融资与数据资产 - 公司成立仅4个月，已累计完成3轮融资，融资金额超2亿元，是细分赛道融资进展最快的企业之一[24] - 融资历程：种子轮由BV百度风投领投，Momenta、九识智能、星海图跟投；种子+轮由速腾聚创领投，BV百度风投跟投；天使轮由顺为资本领投，初心资本、BV百度风投超额跟投[24] - 公司已积累超百万小时真实场景数据，覆盖家庭、工业、医疗等领域的500余种技能场景[24] 团队与技术壁垒 - 核心成员多来自Momenta、理想汽车、华为、斯坦福、Deepmind等头部企业与科研机构，在数据处理、算法研发、硬件工程等领域具备深厚积累[26] - 不少成员曾在智驾领域取得过行业突破性成果，其经验可为具身智能数据技术研发提供参考[26] 市场前景与商业化 - 具身智能整体市场预计从2025年的44亿美元飙升至2030年的230亿美元，年复合增长率高达39%[27] - 具身数据服务市场增速更快，预计到2031年全球市场规模将达到67亿美元[27] - 公司已与30余家行业头部具身智能企业建立深度合作关系，业务覆盖全球市场[28] - 公司海外收入占比超70%[28]

Gen Data 1+x产品矩阵

Gen Data 1+x产品矩阵

支持pi0与pi0.5部署！现在又适配了Lerobot框架了

具身智能之心· 2025-12-17 11:50

产品定位与目标市场 - 公司推出一款名为Imeta-Y1的轻量级高性价比机械臂，专门面向具身智能科研领域，旨在解决该领域硬件选择中价格高昂或难以使用的问题 [2][3] - 该产品主要目标用户为学生、教育工作者以及刚踏入机器人领域的开发者，旨在帮助他们以低成本、高效率的方式完成算法验证与项目开发 [3] 核心功能与近期进展 - 该机械臂近期成功适配Lerobot，实现了夹取方块并精准放入胶带圈的流畅操作，配套代码将正式开源 [1] - 产品提供从数据采集、模型训练到推理部署的全流程开源工具链和代码示例，支持视觉、力控等多模态数据融合，兼容TensorFlow、PyTorch等主流框架，实现端到端智能算法落地 [4][18][37] - 产品支持Python和C++双语言接口，并兼容ROS1与ROS2，提供URDF模型，可实现仿真与真机的无缝切换 [4][19][20] 硬件性能参数 - 机械臂本体重量为4.2公斤，额定负载为3公斤，拥有6个自由度，工作半径为612.5毫米，重复定位精度为±0.1毫米 [9][20][21] - 供电电压为24V，采用CAN通讯方式，控制方式支持轨迹跟踪、示教和API [9][20] - 各关节运动范围与最大速度详细：J1轴为-165°至165°，速度180°/s；J2轴为-180°至0°，速度180°/s；J3轴为0°至180°，速度180°/s；J4轴为-95°至86°，速度220°/s；J5轴为-90°至90°，速度220°/s；J6轴为-150°至150°，速度220°/s [9][22] 软件与开发生态 - 公司提供完整的开源软件开发工具包（SDK），包含驱动程序、API接口、示例代码与文档 [30][31] - 提供URDF模型，支持Gazebo等主流仿真环境与真机实时联动，用户可在仿真中验证算法后一键部署至物理设备，以降低开发风险与调试成本 [18][23] - 后期计划陆续升级更新VLA、VA相关的源码，新老客户均可享受升级 [20] 配套服务与支持 - 公司提供24小时快速售后响应服务 [4][20] - 产品交付周期为1至2周，提供半年质保（非人为损坏），质保期后按市场价支付售后费用 [49][50] - 支持批量采购，并提供基于该产品的项目开发与教学培训支持 [20] 适配与兼容性信息 - 机械臂已适配的相机包括Realsense D435系列和奥比中光DCW2 [51] - 目前已开源适配的算法模型有Lerobot和ACT，Robotwin、pi0等模型将逐步适配并开源给用户 [51] - 对于硬件配置要求，运行SDK和MoveIt等工具对电脑配置要求不高，但适配的ALOHA ACT算法在NVIDIA GeForce RTX 4060显卡上即可进行训练和推理 [51]

Imeta - Y1轻量级机械臂

Imeta - Y1轻量级机械臂

最近具身界的一些进展......

具身智能之心· 2025-12-17 11:50

行业动态与趋势 - 融资方面，下半年本体零部件公司融资金额增大、公司数量增多，除明星公司外，创业公司也带着订单来融资 [2] - 量产方面，多家公司试点逐步推进，头部人形机器人开始探索工业级产品部署 [2] - 产品设计方面，机械臂产品设计逐渐收敛，移动操作和人形机器人在结构与尺寸上持续创新，行业普遍在压低成本，供应链管理能力成为后期竞争关键 [2] - 模型泛化方面，基于强化学习的优化思路增强了模型泛化能力，相关工具箱日益完善，真机部署变得更加便利 [3] - 部署方面，地瓜机器人推出S600助力边缘侧部署，Thor开始应用于人形机器人与移动操作，2000T以上算力逐渐成为参考配置 [4] 社区资源与内容 - 社区已搭建包含技术路线分享、直播、问答、求职、赛事等多个版块的交流平台，形成了产业、学术、求职的闭环 [6] - 社区提供持续的直播分享，包括圆桌论坛，内容涵盖本体、数据到算法，探讨行业现状与待解决问题 [8] - 社区为入门者整理了完整的技术学习路线 [10] - 为已从事相关研究的成员提供有价值的产业体系与项目方案 [14] - 社区与多家具身公司建立岗位内推机制，可第一时间对接企业 [16] - 社区汇总了国内外知名高校的具身智能实验室，供深造参考 [19] - 社区汇总了国内外各类具身相关机器人公司，涉及教育、宠物、工业、救援、物流、交互、医疗等多个方向 [22] - 社区汇总了大模型、人形机器人等行业相关研报，以便了解行业发展与工业落地情况 [24][25] - 社区汇总了机器人导航、概率机器人、动力学与运动学等多个方向的PDF书籍供基础学习 [27][28] - 社区汇总了机器人行业知名的零部件制造厂商，涉及芯片、激光雷达、相机、IMU、底盘等 [30] - 社区汇总了机器人仿真、抓取、控制、感知等多个领域的开源项目，助力快速上手 [32] - 社区汇总了国内外知名ToF厂家、相关产品、技术手册与综述 [34] - 社区汇总了数据采集方案与开源数据集，涵盖遥操、动作捕捉、AR等领域 [36][38] - 社区汇总了通用及真实场景机器人仿真平台 [40] - 社区汇总了强化学习、视觉语言模型与强化学习结合等主流方案与应用 [40][43] - 社区汇总了具身感知、交互、导航、多模态大模型理解与生成、模型微调与量化、大模型部署等详细技术路线与资源 [42][45][47][49][51][53][55][57][59][61][63][65][67][70][72][74] - 社区内部成员可自由提问交流，并获得来自产业界和学术界嘉宾的解答 [76] 社区规模与构成 - 社区已有近3000名具身领域成员，包括来自斯坦福大学、加州大学、清华大学、上海交大等国内外知名高校实验室，以及智元机器人、有鹿机器人、优必选、小米等近200家机器人头部公司与机构的成员 [16][86]

地瓜机器人S600

地瓜机器人S600