具身智能之心 - 财报，业绩电话会，研报，新闻 - Reportify

具身智能之心

搜索文档

具身智能之心论文辅导正式推出了，国内最专业的师资来啦！

具身智能之心· 2025-12-12 15:59

公司业务与服务 - 公司正式推出具身智能之心论文辅导服务，提供专业师资支持 [1] - 公司服务覆盖大模型、视觉语言模型、机器人技术等多个前沿研究方向，包括VLA、强化学习、3DGS等 [1] - 公司提供论文全流程指导、实验指导以及申博指导等服务 [4] - 公司服务范围涵盖从顶级会议期刊到毕业设计等多种论文级别，包括CCF-A/B/C类会议、SCI各分区、EI等 [5] 市场表现与成果 - 公司辅导的论文中标率很高，已有多篇被CVPR、AAAI、ECCV等顶级会议和期刊收录 [4] - 公司根据不同论文级别设定不同的辅导价格 [4] 客户咨询与联系 - 公司支持带课题或研究方向进行咨询 [2] - 客户可通过指定微信联系公司进行更多咨询或获取论文辅导内容 [2][6][7]

具身智能之心论文辅导

具身智能之心论文辅导

大摩预测了25家人形机器人公司将主导行业，没有宇树、智元

具身智能之心· 2025-12-12 15:59

摩根士丹利报告核心观点 - 摩根士丹利发布报告预测25家人形机器人企业将主导该行业其中中国有7家企业上榜[2] - 报告名单的侧重点并非常规理解的整机制造商而是隐藏在背后的关键“零部件/模组供应商” 包括AI芯片、视觉传感器、精密执行器和电源管理芯片等领域的公司[3][4] - 报告认为这些基础部件供应商是人形机器人发展浪潮中沉默却关键的基石[4] 上榜企业名单与领域分布 - 报告列出了25家全球公司涵盖综合科技、半导体、软件、电子制造、汽车智能解决方案、激光雷达等多个细分领域[2] - 中国上榜的7家企业具体为：百度（综合）、阿里巴巴（综合）、地平线机器人（汽车智能解决方案）、均胜电子（汽车智能解决方案）、科大讯飞（智能翻译）、德赛西威（电子制造）、禾赛科技（激光雷达）[2][3] - 全球其他代表性公司包括英伟达（美国/半导体）、ARM（英国/软件）、三星电子（韩国/半导体）、意法半导体（欧洲/半导体）、英飞凌（德国/半导体）等[2] 报告引发的行业讨论 - 报告名单未包含宇树、智元等国内知名的人形机器人整机制造商引发了部分从业人员对其“专业性”的质疑[4] - 报告选择标准强调核心基础部件供应商的重要性而非终端产品制造商[3][4] - 目前中国国内已形成近150家人形机器人创业公司无论行业是否存在泡沫或泡沫多大基础部件都被视为刚需[4]

人形机器人

视觉传感器

人形机器人

视觉传感器

GLaD：知识蒸馏将3D几何先验注入VLA模型，任务成功率突破94%

具身智能之心· 2025-12-12 09:22

研究背景与核心问题 - 视觉-语言-动作模型是具身智能的关键技术，能让机器人根据视觉和语言指令生成动作 [2] - 现有模型大多依赖2D视觉编码器，擅长语义对应但缺乏对深度、物体位姿等3D空间信息的编码能力 [2] - 此缺陷导致模型在操作任务中注意力分配错误，无法精准定位相关物体，影响任务完成精度 [2] 解决方案：GLaD框架 - 核心思路是通过知识蒸馏将3D几何先验注入VLA模型，使其同时具备语义理解和空间推理能力 [4] - 该框架无需依赖额外的深度传感器或3D标注 [4] - 整体架构分为几何蒸馏模块和分阶段训练策略两部分 [7] 几何蒸馏模块设计 - 模块核心是通过将LLM视觉token的隐藏状态与几何感知教师模型的特征对齐，实现几何知识深度融合 [9] - 训练采用组合损失函数，同时优化动作预测和几何对齐 [10] - 动作预测使用交叉熵损失，几何对齐使用MSE损失，通过超参数平衡两者权重 [10] 分阶段训练策略 - 第一阶段为几何蒸馏预训练：基于Bridge数据集，在8张A100 GPU上训练45个epoch（约9天），学习率5e-7 [12] - 第二阶段为下游任务微调：针对LIBERO等任务，采用LoRA进行参数高效微调，在8张A100 GPU上训练60k步，学习率3.5e-5 [12] - 训练中使用冻结的VGGT作为教师网络，从视觉观测中推断3D几何属性 [11] 实验数据集与基准 - 预训练选用Bridge数据集，因其多样化操作演示可让模型学习基础视觉-运动技能，且计算效率高 [13] - 评估使用LIBERO基准，包含130个语言条件化操作任务，分为SPATIAL、OBJECT、GOAL、LONG四个套件 [17] - 引入LIBERO-PRO基准，通过物体、位置、语义、任务四类扰动来检验模型是“记忆”还是“理解”任务 [17] 核心实验结果 - 在LIBERO基准上，GLaD平均成功率达94.1%，超过使用相同预训练数据的UniVLA的92.5% [14] - GLaD在OBJECT套件上表现最优，成功率达97.4% [14] - 在LIBERO-PRO的物体扰动场景下优势显著：在GOAL套件成功率81%，UniVLA为62%；在LONG套件成功率54%，UniVLA为47% [16] - 在特定任务如"Put(bowl, plate)"中，成功率差距达60个百分点（GLaD 84% vs UniVLA 24%） [16] 消融实验与关键设计验证 - 几何编码器选择：VGGT相比PI3编码器，在SPATIAL套件成功率提升29.8个百分点（95.0% vs 65.2%），整体平均成功率94.1%远超PI3的86.1% [25] - 特征对齐层：对齐LLM最终层（32层）相比对齐24层，在OBJECT套件成功率提升6.8个百分点（97.4% vs 90.6%） [25] - 几何融合策略：LLM表征空间的晚期融合相比视觉特征空间的早期加权融合，平均成功率提升10.1个百分点（94.1% vs 84.0%） [25] - 注意力图分析定性佐证了上述结论，GLaD能精准聚焦任务目标 [22] 关键讨论与结论 - GLaD通过几何对齐，使模型同时掌握“物体是什么”和“物体在何处”，这是其在OBJECT套件取得高成功率的核心原因 [23] - 消融实验证实，LLM最终层的晚期对齐方案显著优于早期融合，可实现任务自适应的几何-语义整合 [26] - LIBERO-PRO结果体现不对称鲁棒性：GLaD对物体外观扰动抗性强，但对位置扰动提升有限，验证了几何特征能让模型锚定空间结构而非表面视觉特征 [26] - 整体上，GLaD框架在LIBERO基准取得94.1%的平均成功率，在物体扰动场景中表现出显著鲁棒性，且无需额外3D标注或传感器，为高性能VLA模型构建提供了新范式 [28]

视觉-语言-动作（VLA）模型

视觉-语言-动作（VLA）模型

被拒≠失败！这些高影响力论文都被顶会拒收过

具身智能之心· 2025-12-12 09:22

Waymo的AI战略与知识蒸馏 - Waymo近期发布深度博客，阐述了其以Waymo基础模型为核心的AI战略[1] - 谷歌首席科学家Jeff Dean在社交媒体上分享了该博客，并重点介绍了Waymo使用的蒸馏方法，该方法与创建Gemini Flash模型的思路类似，旨在基于更大模型创建可机载运行的高计算效率模型[1] 同行评审制度的历史局限性 - 回顾AI发展史，许多支撑起万亿级产业的基石技术在最初问世时，都曾被顶级学术会议拒之门外[6] - 同行评审制度虽为质量守门人，但在面对过于超前或离经叛道的研究时，存在系统性认知滞后，包括简单性陷阱、范式惯性和对理论严谨性的过度要求[41] - 科学发展的非线性表明，同行评审善于识别错误，但往往拙于鉴别天才，真正决定研究生命力的是其解决问题的能力与时间检验[43] 曾被拒稿的里程碑式技术与论文 LSTM (长短期记忆网络) - 论文《Long Short-Term Memory》于1996年被NIPS会议拒稿[7][8] - 在当时神经网络寒冬的背景下，其门控机制被认为参数过多、过于复杂且缺乏生物学合理性[9] - 该论文目前引用量已超过139,707次，并在2010年代随算力与数据爆发，于语音识别和机器翻译中展现出统治级表现[8][10] SIFT (尺度不变特征变换) - David Lowe提出的SIFT算法在1997年和1998年先后被ICCV和CVPR会议拒稿[12] - 拒稿理由是算法被认为过于繁琐、不够优雅，不符合当时学术界对严密数学推导的偏好[12] - 该算法最终以海报形式发表，统治计算机视觉领域长达15年，其论文引用量超过27,389次[13][16] Dropout - Geoffrey Hinton团队关于Dropout的论文在2012年投稿NIPS时被拒[17] - 评审认为随机“删除”神经元的方法过于激进、缺乏数理逻辑，并将作者使用的生物学隐喻视为不够科学的工程技巧[17] - 该技术后来成为AlexNet赢得ImageNet比赛的关键，论文引用量超过60,231次，并获得了NeurIPS时间检验奖[17][21] Word2Vec - Tomas Mikolov等人（包括Jeff Dean）关于Word2Vec的论文在首届ICLR会议上被“强烈拒绝”[20][22] - 评审意见尖锐，认为工作“不科学”、“定义模糊”，且过度关注工程优化而缺乏理论解释[20] - 作者通过开源代码使其迅速普及，成为NLP领域基石，论文引用量超过50,855次，并在2023年获得NeurIPS时间检验奖[20][22] 知识蒸馏 (Knowledge Distillation) - 由Geoffrey Hinton、Oriol Vinyals和Jeff Dean合著的论文在2014年被NeurIPS拒稿，理由是其“不太可能产生重大影响”[3][4][31] - 评审未能认识到“暗知识”概念的深远意义，即知识隐含在错误类别的概率分布中[25] - 该论文最终在研讨会上发表，开启了模型压缩领域，目前引用量已超过28,600次，并成为大模型落地的重要方法[4][27][31] YOLO (You Only Look Once) - 论文《You Only Look Once: Unified, Real-Time Object Detection》在2015年被ICCV会议拒稿[29][32] - 在R-CNN系列主导的时代，评审因其定位精度（mAP）不如当时最优方法而拒绝，忽视了其实现45 FPS实时检测的速度突破[29] - YOLO系列已成为工业界最受欢迎的检测框架，其论文引用量超过69,782次[30][32] RoBERTa - 论文《RoBERTa: A Robustly Optimized BERT Pretraining Approach》在投稿ICLR 2020时被拒[34] - 评审认为其新颖性和技术贡献有限，只是证明了“仔细调参”和“更多数据”的有效性[34] - 该工作成为后续NLP研究的标准基线，论文引用量超过23,479次，揭示了优化训练细节的实战价值[34] Mamba - 论文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》在ICLR 2024的评审中折戟[35][38] - 评审认为与其前作相比增量不足，且未能在所有任务上全面超越Transformer[37] - 尽管被拒，该架构在社区引发巨大反响，基于Mamba的变体大量涌现，成为2024年最具影响力的架构创新之一，论文引用量已超过6,799次[38][39] 跨领域的启示与案例 - 即使是阿尔伯特·爱因斯坦关于引力波的论文也曾被《Physical Review》送审并收到尖锐的匿名评审意见，尽管该意见后来被证实指出了论文中的一个错误[44][47] - 这些案例表明，一项研究的最终价值取决于其解决问题的能力及历史回响，而非短暂的评审决定[47] - 许多具有深远影响的研究者，包括图灵奖和诺贝尔奖得主，都曾经历过论文被拒[48]

NeurIPS'25! AutoSeg3D：在线完成任意3D分割，只需1张4090

具身智能之心· 2025-12-12 09:22

文章核心观点 - 提出了一种名为AutoSeg3D的新型在线3D实例分割框架，其核心创新在于将任务重构为持续的实例跟踪问题，通过引入长时记忆、短时记忆和空间一致性学习三个协同模块，有效解决了现有视觉基础模型辅助方法中的碎片化、过分割和跨帧身份不一致问题，在保持实时效率的同时显著提升了分割精度，并已在多家公司进行技术转化落地 [2][3][7][8] 前沿与背景 - 当前具身智能和自动驾驶领域的研究常需大规模算力，但本文介绍的具身场景点云实例分割方向是一个资源需求相对较低且有真实落地潜力的研究方向，仅用1张NVIDIA 4090显卡即可完成顶会论文工作 [2] - 该技术方向并非仅为“水论文”，其研究成果已开始在两家公司进行技术转化并切实落地 [2] - 在线、实时且细粒度的3D实例分割是具身智能感知体系的关键底座，对机器人在动态复杂环境中的持续理解与交互至关重要 [4] - 传统离线3D实例分割方法存在延迟高、内存压力大的问题，而现有的在线方法虽借助SAM等视觉基础模型提升了效率，但缺乏对实例级时序表征的显式维护，导致碎片化与过分割问题在跨帧中被放大，仅依赖后处理无法根本解决 [4] 方法创新 - **任务重构**：将在线3D实例分割从传统的逐帧分割再拼接范式，重新表述为一个持续的实例跟踪问题，强调为每个实例维护可持续演化的表征 [7] - **长时记忆模块**：维护一个有界的轨迹库，结合置信度门控的亲和矩阵与匈牙利匹配策略，以近乎恒定的计算开销实现长时遮挡后的身份恢复 [3][8][12] - **短时记忆模块**：通过距离感知的跨帧注意力机制，在相邻帧间快速更新和增强实例嵌入，注入即时上下文并抑制背景噪声 [3][8][13] - **空间一致性学习**：在训练阶段采用一对多碎片监督增强模型对低质量掩码的鲁棒性；在推理阶段联合2D外观和3D几何一致性对高亲和度碎片进行自适应合并，从源头缓解过分割 [3][8][10][13] 实验效果 - **在ScanNet200数据集上的性能**：当使用SAM作为2D分割前端时，AutoSeg3D的AP达到45.5，较当前最新工作ESAM的42.2提升了3.3个点；AP50达到66.7，提升了3.0个点；AP25达到81.0，提升了1.4个点 [14][15] - **使用轻量前端FastSAM时**：AutoSeg3D的AP达到46.2，较ESAM-E的43.4提升了2.8个点；AP50达到67.9，提升了2.5个点；AP25达到81.7，提升了0.8个点，同时保持了10.1 FPS的实时吞吐率 [14][15] - **在ScanNet数据集上的跨数据集评测**：AutoSeg3D的AP达到43.4，较ESAM的41.6提升了1.8个点；AP50达到62.5，提升了2.9个点；AP25达到77.4，提升了2.2个点 [15][16] - **在SceneNN数据集上的跨数据集评测**：AutoSeg3D的AP达到33.1，较ESAM的30.3提升了2.8个点；AP50达到52.6，提升了5.0个点 [16] - **在3RScan数据集上的跨数据集评测**：以ScanNet200为训练源时，AutoSeg3D的AP达到16.0，较ESAM的14.1提升了1.9个点；使用FastSAM时，AP达到16.8，较ESAM-E的13.9提升了2.9个点 [17] 结论与意义 - 提出的以跟踪为中心的轻量化框架，在多个基准数据集上实现了新的精度水平，同时保持了实时效率，证明了其有效性和泛化能力 [18] - 该工作为在线3D实例分割提供了一个新的研究视角和有效的解决方案，支撑具身智能在真实环境中的落地应用 [3][4][18]

在线3D实例分割

在线3D实例分割

AAAI 2026 Oral | 机器人也能“看人学活”？一次示范就能学会新任务！

具身智能之心· 2025-12-12 09:22

研究背景与问题 - 从人类示范中学习是机器人执行任务的一种潜力巨大的方式但现有方法通常依赖粗对齐的视频对只能学习全局或任务级别的特征忽略了复杂操作和泛化所需的细粒度帧级动态信息[3] - 现有模型在已见任务上表现良好但面对人类展示的从未见过的新任务时表现不佳原因在于主流方法依赖粗糙的人机视频对齐机器人只能大概知道人在干什么却不知道人手具体如何动作[8] - 数据不够精细导致模型学不到关键动作细节许多方法将整段视频压缩成固定长度向量丢失了细节使得模型无法理解动作间的微小差别从而缺乏真正的泛化能力[8] 解决方案与核心创新 - 复旦大学和上海创智学院提出了一种范式转变将细粒度的人机动作对齐视为一个条件视频生成问题[3] - 核心创新是让机器人看着人类做然后脑补出自己应该怎么做即直接生成一段对应的机器人操作视频该方法要求模型逐帧预测机器人下一步如何移动从而在生成过程中学会动作细节和理解操作逻辑[8] - 为支持该方法研究团队引入了一个全新的第三人称数据集H&R 该数据集包含2,600段通过VR远程操控系统采集的精准同步的人类和机器人动作视频涵盖4类基础任务和6类复杂长程任务[3][9] Human2Robot技术框架 - 该方法分为两个阶段第一阶段是视频预测机器人看到人类操作时模型直接生成一段机器人应该如何动作的视频模型先学会生成单帧再进阶训练整个视频以掌握完整的动作演化过程[12][13][14] - 视频预测模型包含三个关键组件 Spatial UNet负责捕捉机械臂形状和手部动作等关键信息 Spatial-Temporal UNet负责理解动作连贯性并学会逐帧预测的时间关系 Behavior Extractor负责提取人手的位置、速度和方向等运动线索[15] - 第二阶段是动作解码由于视频渲染速度慢不适合实时操作因此只取一次去噪后的中间特征这些特征已包含机械臂下一步的位置、动作趋势和物体相对关系然后训练一个动作解码器来输出机器人的关节角或位姿[16][21] 实验结果与性能 - 在已见任务上 Human2Robot方法在所有任务上均取得最高成功率对比基线方法DP、XSkill和VPP Human2Robot保持超过10–20个百分点的优势[20] - 具体数据表明在Push & Pull任务上Human2Robot成功率为100% 在Pick & Place任务上为90% 在Rotation任务上为90% 平均成功率为93%[19] - 引入KNN推断的Human2Robot在所有任务上仍优于各基线方法相比完整版本 KNN策略仅带来约10–20%的成功率下降处于可接受范围内[20] 泛化能力评估 - 该方法能够实现对新的位置、物体、实例甚至全新任务类别的一次性泛化对于一个没见过的任务只需要给一段人类完成任务的视频即可让机器人完成这个任务[4] - 在六类泛化设置中 Human2Robot在位置、外观、实例与背景变化下均保持领先并能完成组合任务与全新任务而XSkill与VPP在后两者上均失败[27] - 泛化优势被认为源于H&R数据集提供的明确人机动作对应关系以及视频条件提供的细粒度动态信息这使得策略具备了跨任务泛化能力[27] 消融研究与有效性验证 - 测试了直接从人类视频预测机器人动作的方式该方法平均成功率仅为23% 动作执行抖动明显对抓取等关键行为不敏感说明仅依靠人类视频推断机器人动作映射较为困难[25] - 为验证视频生成预训练的必要性设计了未进行预训练的变体结果显示该方法几乎无法完成任务最简单的推拉任务成功率仅为20% 抓取放置任务仅为10% 证明视频预训练对于建立动作先验至关重要[26] - 可视化分析表明仅经过一步去噪的预测已包含足够的动作信息可有效支持后续的动作规划 30步去噪结果与真实机器人视频高度一致验证了所提出视频预测模型架构的有效性[24]

具身智能之心求职与内推服务正式对外啦！

具身智能之心· 2025-12-11 17:33

行业招聘与人才服务 - 具身智能行业有近50家主流公司正在招聘人才 [1] - 招聘服务覆盖校招、社招及实习等多种职位类型 [1] - 服务旨在帮助求职者第一时间获取高薪且靠谱的岗位机会 [1] 求职者关注的核心问题 - 求职者普遍关注各公司的薪资结构 [3] - 求职者关心公司的技术发展路线与职位上升通道 [3] - 求职者希望了解具身智能行业未来的发展前景 [3] - 求职者会评估工作内容与自身性格的匹配度 [3]

职位内推服务

职位内推服务

只用SO-100可以完成π0和π0.5的效果吗？

具身智能之心· 2025-12-11 17:33

文章核心观点 - 文章指出视觉语言动作模型在从理论到实际部署的落地过程中存在显著障碍包括开源模型难以复现效果、训练与部署脱节、以及缺乏系统性的实战指导 [2][4][10] - 文章旨在推广一门名为《面向实战与求职的VLA小班课》的课程该课程宣称是国内首个系统性解决VLA落地难题的实战课程提供从硬件、数据采集、算法训练到真机部署的全栈教学 [10][12][15] VLA模型落地的主要挑战 - **开源模型复现困难**：GR00T、π0等模型虽已开源但依据开源代码难以展示出良好的演示效果 [2] - **训练与部署脱节**：训练过程像炼丹损失函数虽已降低但部署到实体机器人进行推理时任务常失败且原因难以定位 [2] - **世界模型应用模糊**：业界讨论世界模型已一年多但学习者不清楚如何在训练和推理中实际应用 [2] - **全流程打通门槛高**：将数据、VLA模型、训练优化、部署整套流程打通对初学者非常困难有人踩坑半年仍无法入门或取得好效果 [4] - **模型训练存在大量“技巧”**：特别是π0、π0.5、GR00T这类模型在数据采集和模型训练环节存在许多未公开的细节与技巧 [4] VLA落地的关键模块与难点 - **数据采集**：主要方法包括基于模仿学习的遥操作、VR、全身动捕捉在机械臂+VLA领域更多采用前两种如何采集高质量数据及实现仿真到现实的转换是关键难点 [5][6] - **模型训练**：真机部署前需进行仿真调试在真机数据不足时使用Mujoco、Isaac Gym等框架进行仿真与Sim2Real尤为重要 [7] - **训练技巧至关重要**：如何微调模型、如何在小数据量下取得好结果是核心许多学习者训练的模型存在机械臂运动不准、夹爪控制不好或运动误差大的问题 [7] - **算法选择影响效果**：ACT等算法相对简单易出效果而π0和π0.5则非常难训练对细节和技巧要求高强化学习优化模型也极具挑战性 [7] - **模型部署与轻量化**：具身模型参数量大即使是2B规模的模型对边缘芯片部署挑战也很大需通过量化、蒸馏等轻量化操作在保证性能的同时最小化参数量 [9] 课程解决方案与内容 - **课程定位**：该课程由具身智能之心平台联合业内VLA专家开发是国内首个面向实战与求职的VLA小班课旨在解决技术更新快、学习困难的问题 [10] - **课程内容全面**：课程涵盖机械臂硬件、数据采集、VLA算法、评测、仿真、主流VLA模型部署、VLA+世界模型、各类真机实验以及具身产业讲解 [12] - **课程硬件配套**：购买课程即赠送一套SO-100机械臂包含示教臂和执行臂 [17] - **讲师背景**：讲师为某机器人公司VLA高级研究员拥有5年以上机器人行业实战经验精通具身智能全栈技术并在顶级期刊发表学术论文10余篇 [20] 课程面向人群与要求 - **目标学员**：包括正在具身领域求职需要实战项目的同学、VLA领域需要进阶的学习者、从事具身智能研究的各学历层次学生、希望从传统CV、机器人或自动驾驶转行的人员以及对领域感兴趣的其他人员 [22] - **硬件与基础要求**：建议推理使用RTX 3060及以上显卡训练建议2张以上RTX 3090 Ti 也可自租云服务器学员需具备一定的Python和PyTorch基础 [22] 课程学习收获与安排 - **学后收获**：学员将掌握真机调试与数据采集、各类VLA算法在真机上的部署、对VLA模型量化有深入了解、对具身产业落地有清晰认识简历可获得足够项目支撑学完可达1-2年以上算法工程师经验水平 [25] - **开课时间**：课程于2025年12月30日正式开课共分九章持续至2026年2月25日 [23][26]

VLA模型部署

《面向实战与求职的VLA小班课》

VLA模型部署

《面向实战与求职的VLA小班课》

全球首个！灵巧手真实世界具身数采引擎Psi-SynEngine来了

具身智能之心· 2025-12-11 12:02

公司核心业务与战略定位 - 公司专注于通用具身智能、视觉语言动作大模型以及灵巧操作算法等前沿技术，致力于打造业界领先的通用操作智能体 [2][16] - 公司的战略选择是做通用灵巧操作，认为灵巧手与人手形态差异最小，数据迁移效率最高 [6] - 公司已成功推出行业内首个端到端强化学习具身模型 Psi R0、R0.5 及 R1，成为行业内率先实现长程任务的具身模型研发企业 [16] 数据采集方案 Psi-SynEngine 的发布与意义 - 公司发布全球首个具身原生人类数据采集方案 Psi-SynEngine，标志着其全自研的真实世界具身数据引擎正式启动 [3] - 该方案从根本上突破了行业数据采集的困境，直接采集一线作业人员在真实工作中的操作数据，覆盖物流、工厂、商超、酒店和家庭等真实场景，无需二次迁移 [5] - 该方案的发布标志着公司基于人类真实操作数据的具身智能新范式正式确立，意味着向真实世界的具身 AI 大模型预训练拥有了可规模化的可能 [14] Psi-SynEngine 的技术构成与优势 - 方案包含便携式外骨骼触觉手套数采套装、大规模 in the wild 数采数据管线、基于世界模型和强化学习的跨本体数据迁移模型 [3] - 相比传统方案具有三大优势：1) 成本低，数据获取成本仅为真机遥操方案的 10%；2) 多模态高自由度，能完整采集触觉、视觉、动作、语言的操作数据；3) 便携性强，可大规模并行采集，效率极高 [7][11] - 自主研发的外骨骼触觉手套定位精度最高能达到亚毫米级别，可完整采集手部和手臂的全部自由度及全手触觉信息，同时不影响正常操作 [9] - 核心技术护城河在于解决了人手与灵巧手之间的跨本体差异，通过基于世界模型、强化学习和触觉模态对齐的解决方案，有效弥合 embodiment gap，提升模型泛化性和成功率 [10] 数据集 Psi-SynNet-v0 的特征与规划 - 同步发布覆盖视觉、语言、触觉、动作的大规模真实世界多模态数据集 Psi-SynNet-v0 [3] - 该数据集具备四大核心特征：1) 数据多样性强，覆盖多行业、多场景、多物体与多技能；2) 模态覆盖全面；3) 数据规模海量，量级达到大语言模型同级水平；4) 自闭环已验证，已在多个落地产业中完成闭环验证 [12] - 公司已迅速构建出上万小时规模的 Psi-SynNet-v0 数据集，并计划于明年突破百万小时量级，这将是全球最大的灵巧操作数据集 [14] 行业痛点与现有方案局限 - 数据问题是困扰整个具身智能领域的痛点 [5] - 行业现有数据采集方案存在三大局限：1) 仿真环境数采存在 Sim-to-Real 差距，调参与场景搭建成本高；2) 机器人遥操数采难以规模化，成本高效率低；3) UMI设备数采（双夹爪）存在本质局限，无法满足精细操作需求，根据美国劳工部数据，工厂内 98.7% 以上的工序都需要双手多指协同完成 [11] 硬件、平台与数据闭环体系 - 公司构建了完整的硬件与平台体系，包括专为数采设计的外骨骼触觉手套、支持大规模数据处理的自建管线与平台，并配合自研大模型完成高精度数据标注和后处理，形成完整的数据生产闭环 [9] - 数据体系已在公司多个落地产业中完成闭环验证，确保所采集数据能够高度匹配算法需求，并持续推动模型迭代 [12]

Psi - SynEngine

Psi - SynNet - v0

Psi - SynEngine

Psi - SynNet - v0

连场景都做？这家给智元机器人造大脑的公司4个月融了3个亿

具身智能之心· 2025-12-11 12:02

公司概况与融资 - 公司为星源智机器人，成立不到半年，已完成超亿元人民币天使+轮融资，天使轮融资额达2亿元 [1] - 公司由北京智源研究院孵化，在北京亦庄注册，目标是让机器人理解物理世界并自主行动 [2] - 本轮融资资金将用于具身大脑专业版RoboBrain Pro的研发、垂直行业解决方案拓展及高端人才引进 [1] 核心团队背景 - CEO刘东曾任京东智能驾驶总经理，牵头京东无人配送车全国落地 [2] - 联合创始人穆亚东为北京大学研究员、智源学者，近五年发表具身智能顶会论文30余篇 [2] 核心产品与技术 - 产品体系为“通用大脑”加“算力炸弹” [3] - 推出跨本体具身大脑RoboBrain，同一套AI系统可在机械臂、AGV、人形机器人之间即插即用，无需重复训练 [3] - 该产品已搭载于智元机器人发布的工业级交互式具身作业机器人“精灵G2”上 [3] - 推出T5算力平台，基于NVIDIA Jetson Thor处理器开发，具备2070 TOPS端侧算力，拥有强大的Transformer模型加速能力 [5] - 该算力平台可满足复杂场景下的实时感知、智能决策与精准控制需求，使边缘端能实时推理，成本降低60% [5] 商业化进展与订单 - 与北京亦庄机器人科技园签署三年5亿元战略协议，公司将作为“大脑”供应商入驻园区所有机器人项目 [5] - 与全球最大电动叉车厂商中力机械联合发布“具身装卸”方案，首批交付预计在明年第二季度完成 [5] - 智元机器人作为合作伙伴，在公司天使轮融资中就已参与 [3] 投资逻辑与行业价值 - 公司在短时间内完成了将具身大脑加载到算力平台的工作，覆盖了算法、算力、场景，这体现了其商业化价值 [6]

具身大脑产品

具身大脑专业版RoboBrain Pro

2070 TOPS端侧算力平台

星源智T5算力平台

具身大脑产品

具身大脑专业版RoboBrain Pro

2070 TOPS端侧算力平台

星源智T5算力平台