具身智能之心 - 财报，业绩电话会，研报，新闻 - Reportify

具身智能之心

搜索文档

将再狂揽近6亿融资！机器人Moz1卷入办公室，全力冲刺万亿赛道

具身智能之心· 2025-07-22 14:29

行业动态 - 2025年具身智能赛道迎来爆发式增长，全球科技巨头与初创公司竞相布局[4][5][10] - 谷歌Gemini Robotics、Figure AI、Physical Intelligence等国际玩家在推理、灵巧操作、复杂任务执行方面取得突破[6][8] - 中国具身智能市场同样火热，众多公司涌入万亿级市场，但第一梯队玩家屈指可数[11][12] 公司融资 - 千寻智能在2个月内完成近6亿元PreA+轮融资，由京东领投，中网投、浙江省科创母基金等跟投[15] - 2024年2月成立至今已完成多轮融资，3月获沙特阿美旗下P7领投的5.28亿元Pre-A轮[16][17] - 老股东P7、顺为资本、华控基金等持续加码，显示对发展潜力的认可[17] 技术突破 - 发布首款商用级人形机器人Moz1，具备26个自由度，功率密度比特斯拉Optimus高15%[21][22][24] - 搭载自研端到端VLA模型Spirit v1，70亿参数，基于13000小时数据训练，叠衣服成功率70%-80%[37][39][42] - 创新OneTwoVLA模型实现"边想边做"，复杂任务成功率提升30%，代码与数据已开源[49][50][54] 商业化布局 - 深入能源电池、物流、餐饮等上百个场景调研，形成"场景需求-技术攻关-产品落地-市场反馈"闭环[56][57] - Moz1已应用于办公场景（清洁、收纳等），计划拓展物流、医疗、康养等高附加值领域[58] - 瞄准欧美高人工成本地区海外市场，创始团队具备国际化商业化经验[59][60] 核心竞争力 - VLA模型与硬件协同的差异化技术路线，快速迭代能力领先同行[63][64] - 全球顶尖技术团队，精准场景切入与多场景拓展的商业策略[65][66][67] - 技术、商业、团队、市场无短板，成为具身智能赛道领军者[69][70]

太魔幻了！具身一边是海量岗位，一边是招不到人......

具身智能之心· 2025-07-22 14:29

行业现状与人才供需矛盾 - 具身智能行业面临"有钱招不到人"的困境，尽管公司融资充足且岗位开放多，但实际offer发放审慎，反映出行业进入精打细算的保守发展阶段 [1] - 当前产品成熟度不足（本体/算法/数据），底层技术突破拐点未现，企业更倾向储备核心技术人才（如人形机器人稳定性、数据规模化应用等方向） [1] - 行业洗牌周期预计持续2-3年，企业选择"储备干粮过冬"策略，求职者需技术硬实力与研究方向高度适配 [1] 技术社区资源体系 - 具身智能之心知识星球覆盖国内外40+开源项目、60+数据集及主流仿真平台，提供40+技术学习路线（含强化学习/VLA/Diffusion Policy等16个细分领域） [12] - 社区成员来自斯坦福、ETH、清华等顶尖高校及优必选、小米等头部企业，建立内推机制直通30+具身公司招聘 [12][7] - 技术资源覆盖全产业链： - 硬件端：汇总芯片/激光雷达/IMU等零部件厂商 [25] - 算法端：强化学习/多模态大模型（理解+生成）/VLA模型等17类技术方案 [35][45][47][51] - 应用端：机械臂抓取/四足机器人/sim2real等9大场景 [62][64][59] 行业研究基础设施 - 建立全球实验室/公司数据库：收录斯坦福、港科大等高校实验室及智元机器人、傅里叶机器人等企业 [15][17] - 研报体系覆盖大模型/人形机器人等领域，跟踪30家企业动态 [20][13] - 仿真平台资源包含通用机器人仿真和真实场景仿真两类，配套开源项目助力快速验证 [33][27] 人才发展路径 - 针对入门者：提供机械臂策略学习/机器人导航等基础技术栈，配套PDF书籍（如概率机器人、运动学教材） [8][23] - 针对进阶者：设置触觉感知/视觉语言导航等前沿方向，含传感器应用、多模态算法集成等深度内容 [37][43] - 职业支持：组织产业大佬直播（含顶会专家）、圆桌论坛，实时解答求职/研究方向选择问题 [2][71] 典型应用场景案例 - 机械臂领域：涵盖位姿估计/抓取策略/任务数据表示全流程方案 [62] - 移动机器人：提供双足/四足机器人从仿真到硬件的完整资源 [64] - 复合系统：整合"轮式/四足+机械臂"硬件方案设计指南 [66][67]

人形机器人

人形机器人

各类任务上超越π0！字节跳动推出大型VLA模型GR-3，推动通用机器人策略发展

具身智能之心· 2025-07-22 12:10

GR-3核心能力与定位 - GR-3是字节跳动研发的大型视觉-语言-动作（VLA）模型，旨在推动通用机器人策略发展，能根据自然语言指令、环境观察和机器人状态生成动作序列控制双臂移动机器人 [2] - 模型解决传统机器人"认不全、学不快、做不好"三大痛点，采用"数据驱动+架构优化"双路径设计，既能理解抽象指令又能完成精细操作 [7] - 结合ByteMini双臂移动机器人可完成多样化任务，在各类挑战性任务上超越当前最先进基线方法π0 [2] 技术架构 - 采用端到端VLA架构，分为"感知理解"和"动作生成"两大模块，总参数达40亿，通过KV缓存复用感知结果提升推理速度 [10] - 感知层基于Qwen2.5-VL-3B-Instruct模型处理图像和文本，动作层通过动作扩散Transformer（DiT）控制机器人19个自由度 [13] - 关键创新包括流匹配动作预测、RMSNorm稳定性优化（指令遵循准确率提升30%）和任务状态感知设计 [14] 训练方案 - 采用"三位一体"训练策略：机器人轨迹模仿学习（通过智能调度系统保证数据质量）、视觉语言数据联合训练（新物体识别成功率提升40%）、人类轨迹少样本微调（10条演示数据使新物体操作成功率从57.8%升至86.7%） [15][18][19][23] - 人类VR演示数据采集效率达450条/小时，是传统机器人采集的1.8倍 [23] 硬件载体 - ByteMini机器人具备7自由度机械臂（球形腕关节设计）、全向移动底座+升降机构、RGBD相机系统，续航达10小时以上 [25] - 系统控制优化包括全身柔顺控制和轨迹优化算法，确保动作流畅精准 [26][28] 实验验证 - 通用拾取放置任务：新环境成功率仅比熟悉环境下降5%（基线下降20%），抽象指令理解成功率77.1%（基线40%） [35][38] - 长周期餐桌清理任务：整体进度达89%（基线62%），无效指令识别率97.5%（基线53.8%） [42] - 灵巧衣物操作任务：基础成功率86.7%（基线61%），新衣物适应成功率75.8%（基线42%），主要失败点为衣架滑落（占60%） [43]

通用机器人技术

通用机器人技术

一起做点牛掰的事情！具身智能之心准备招合伙人了.......

具身智能之心· 2025-07-22 11:33

具身智能行业发展 - 具身智能领域发展迅速，多家明星公司准备上市 [1] - 行业需要共同试错和积极交流，平台期望汇聚全行业人才 [1] - 公司成立1周年，计划邀请更多行业大佬加入推动进步 [1] 具身项目合作 - 公司正在北京、上海、深圳、广州、杭州、武汉建立研发团队 [3] - 每个城市计划招募10名左右具身领域专家 [3] - 要求应聘者具备2年以上具身算法和机器人研究经验 [3] - 项目类型包括横向、纵向项目和企业咨询，可兼职参与 [3] 具身教育研发 - 邀请行业专家开发具身教育在线课程 [4] - 重点研究方向包括大模型、多模态、强化学习、机器人运动规划等12个领域 [4] - 应聘者需具备博士及以上学历或2年以上工业界研发经验 [5] 人才待遇 - 提供大比例分红和全行业资源共享 [6] - 工作形式灵活，可兼职或全职 [6] 联系方式 - 可通过扫码咨询负责人，需备注"具身智能之心+老师咨询" [7]

人工智能教育

人工智能教育

NVIDIA最新！GraspGen：基于扩散模型的六自由度抓取生成框架

具身智能之心· 2025-07-21 16:42

核心观点 - GraspGen是一个针对机器人6自由度抓取泛化能力不足问题提出的创新框架，通过将抓取生成建模为迭代扩散过程，结合DiffusionTransformer架构和高效判别器，显著提升了抓取生成能力和适应性 [2] - 该框架采用"生成器上训练"策略大幅提升判别器性能，并通过新发布的大规模模拟数据集（含5300万抓取）实现对不同物体和夹具的适配 [2][9] - 在模拟和真实机器人实验中，GraspGen全面超越基线方法，在单物体场景AUC超过基线48%，在clutter场景任务成功率超过Contact-GraspNet 16.9% [10][13] - 真实机器人实验中整体成功率81.3%，远超M2T2（28%）和AnyGrasp（17.6%），尤其在复杂场景优势明显 [19] 核心方法 - 扩散生成器：将6自由度抓取生成建模为SE(3)空间中的扩散过程，采用DDPM模型计算更快、实现更简单 [4] - 平移归一化：通过数据集统计计算归一化系数，避免人工设置或网格搜索的低效 [4] - 对象编码：采用PointTransformerV3作为骨干网络，相比PointNet++减少5.3mm平移误差，提升4%召回率 [4] - 扩散网络：通过10步去噪生成抓取（远少于图像扩散的数百步），训练损失为预测噪声与真实噪声的L2损失 [5] 判别器设计 - 高效评估：复用生成器的对象编码器，内存使用减少21倍 [7] - 生成器上训练：用生成器生成约7K物体×2K抓取/物体的数据集训练判别器，使其AUC达0.947，显著高于仅用离线数据的0.886 [7][16] 模拟数据集 - 覆盖范围：包含三种夹具（每种约1700万抓取）和36366个网格模型 [11] - 生成方式：每个物体采样2K抓取姿态，通过摇晃测试判断成功 [11] 实验结果 - 单物体场景：在ACRONYM数据集上精度-覆盖率曲线AUC超过基线48% [10] - clutter场景：在100个场景×60任务中，任务成功率和抓取成功率均为最优 [13] - 遮挡鲁棒性：混合训练使模型在完整点云和单视图点云输入下均保持高性能 [14] - 多夹具泛化：在Robotiq-2f-140夹具上AUC达0.68873，远超M2T2的0.24265 [17] 局限 - 依赖深度传感和实例分割质量，对立方体物体表现较差 [21] - 训练需约3K GPU小时（NVIDIA V100），计算成本较高 [21]

机器人「GPT时刻」来了？丰田研究院悄悄做了一场最严谨的VLA验证

具身智能之心· 2025-07-21 16:42

机械臂技术发展 - 传统机械臂功能局限于简单抓取和小任务如制作冰淇淋和咖啡 [2] - 复杂任务如布置餐桌和组装自行车对感知、理解和动作控制协同要求极高 [3] - 视觉-语言-动作（VLA）模型推动机器人整合多模态信息执行复杂任务 [3] 大型行为模型（LBM）突破 - LBM基于扩散模型策略构建，整合视觉、语言和本体感知输入，输出20维动作序列 [18][19] - 在1700小时机器人数据上训练，完成1800次真实评估和47000次模拟部署 [13] - 仅需数百小时多样化数据和少量演示即可显著提升性能 [14] LBM性能优势 - 微调后LBM在"已见任务"上优于单任务基线模型且对分布偏移更具鲁棒性 [31][32] - 在"未见任务"中，微调LBM仅需不到30%任务特定数据即可达到单任务模型效果 [39] - 预训练使LBM用3-5倍更少数据学习新任务且性能随数据量持续提升 [16][43] 实验验证 - 采用Franka Panda FR3双臂平台和最多六个摄像头进行物理和模拟测试 [22] - 评估指标包括成功率（Success Rate）和任务完成度（Task Completion） [26] - 在仿真和现实环境中验证LBM对复杂任务的执行能力 [25][30] 数据规模与效果 - 混合数据集包含468小时双臂数据、45小时模拟数据、32小时UMI数据和1150小时开源数据 [23] - 预训练规模法则显示性能随数据量增加呈稳定上升趋势 [41][42] - 当前数据规模虽未达"互联网级"但已显现显著性能收益 [14]

大型行为模型（LBM）

视觉 - 语言 - 动作（VLA）模型

大型行为模型（LBM）

大型行为模型（LBM）

视觉 - 语言 - 动作（VLA）模型

大型行为模型（LBM）

VLN-PE：一个具备物理真实性的VLN平台，同时支持人形、四足和轮式机器人（ICCV'25）

具身智能之心· 2025-07-21 16:42

视觉-语言导航平台VLN-PE的核心创新 - 推出首个支持人形、四足和轮式机器人的物理真实VLN平台VLN-PE，基于GRUTopia构建，可无缝集成MP3D之外的新场景[3][10] - 平台采用基于RL的控制器API，支持Unitree H1人形机器人、Aliengo四足机器人和Jetbot轮式机器人的物理仿真[13] - 引入90个MP3D场景并手动修复地面间隙，新增10个GRScenes合成家庭场景和3D高斯溅射扫描场景以增强环境多样性[14] 跨具身导航的关键发现 - 现有VLN-CE模型迁移到物理环境时成功率下降34%，暴露伪运动训练与物理部署的差距[15] - 模型性能因机器人类型差异显著，人形机器人表现最佳而四足机器人最差（相机高度0.5米时几乎失效）[36][37] - 联合训练三种机器人数据的模型实现最佳性能，验证跨具身训练的"一劳永逸"潜力[37][39] 多模态与光照条件影响 - 仅依赖RGB的NaVid模型在低光照下成功率下降12.47%，而RGB+深度模型的CMA和RDP表现更稳定[38] - 相机光源(CL)条件下模型性能普遍低于圆盘光(DL)，反光问题导致导航误差增加[38] - 深度信息融合使CMA模型在DL300光照条件下保持85%的基础性能，显著优于纯RGB模型[38] 模型性能对比 - 70亿参数的NaVid模型零样本迁移表现最佳，但存在70%任务片段中过度旋转的问题[29][30] - 扩散模型RDP在3DGS-Lab-VLN数据集上达到30.63%成功率，较NaVid的5.81%提升5倍[31] - 基于地图的VLMaps方法在未见验证集取得20%成功率，证明非端到端方案的可行性[27][24] 数据收集与训练策略 - 使用物理控制器收集的训练数据使模型跌倒率降低8.36%，卡住率减少2.01%[33][34] - 在VLN-PE域内数据微调的Seq2Seq模型性能超越Habitat增强训练的模型，显示仿真过拟合风险[29] - 3DGS场景微调的600万参数小型模型超越NaVid，验证多样化训练分布的价值[30]

视觉-语言导航（VLN）

具身人工智能

跨具身训练

多模态融合

视觉-语言导航（VLN）

具身人工智能

跨具身训练

多模态融合

没发论文？秋招会惩罚每一个本末倒置的研究生！

具身智能之心· 2025-07-21 16:42

就业与科研建议 - 毕业生应校招社招两手抓，注重资源整合与复盘查漏补缺 [1] - 在读学生需主动积累科研成果以增强就业或深造竞争力 [1] - 具身智能之心提供系统性科研辅导课程助力成果产出 [1] 成功案例 - 研二学员在导师散养情况下通过3个月辅导完成SCI论文 [2] 公司背景与优势 - 具身智能之心为国内最大AI技术自媒体平台，覆盖自动驾驶/具身智能/3D视觉等领域 [3] - 拥有300+专职导师，均来自QS前100高校，顶会/子刊发表经验丰富 [3] - 近3年辅导400+学员，中稿率达96% [3] 科研辅导流程 - 12周标准化流程：从选题到投稿分阶段完成（第1周定方向，第2-3周文献综述，第4-6周实验设计，第7-8周初稿，第9-10周修改，第11-12周投稿） [5] 服务解决的问题 - 突破导师放养困境，建立科研思维与完整知识体系 [6] - 系统掌握经典/前沿算法，避免零散学习 [6] - 提升实践能力，实现baseline到论文的深化拓展 [10] 目标用户群体 - 计算机硕博生、职称晋升需求者、AI从业者、考研申博留学生 [11] - 需求涵盖论文产出、科研能力提升、投稿技巧、实验设计等11项具体目标 [11] 服务特色 - 提供个性化1v1指导，覆盖CCF-A/B/C、SCI1-4区、EI会议全类别 [12] - 包含选题至中稿全流程服务，导师实时互动+录播回看+24h答疑 [12][16] - 优秀学员可获名校推荐信或名企（如阿里达摩院、华为诺亚方舟）内推机会 [15] 课程形式与保障 - 班主任全程督学，腾讯会议1v1授课+微信群答疑 [13][16] - 零基础学员通过6个月基础课程可完成小论文 [14] - 精准匹配系统从300+导师中筛选3-5位契合人选 [14] - 预收定金可试听，不满意可更换导师或退款 [15]

一站式科研辅导课程

一站式科研辅导课程

果然！秋招会惩罚每一个本末倒置的研究生！

具身智能之心· 2025-07-21 16:24

就业与科研建议 - 针对毕业生建议校招社招两手抓注重资源整合与查漏补缺 [1] - 在读学生需主动积累科研成果以增强就业或深造竞争力 [1] - 具身智能之心提供系统性科研辅导课程助力成果产出 [1] 公司背景与资源 - 具身智能之心为国内最大AI技术自媒体平台旗下拥有自动驾驶之心等知名IP [3] - 拥有300+专职导师团队均来自全球QS前100高校发表过顶会/子刊论文 [3] - 近3年辅导学员超400名 SCI论文中稿率达96% [3] 科研辅导服务流程 - 12周标准化论文产出流程包含选题至投稿全环节 [5] - 第1周确定3个备选课题第11-12周完成选刊投稿 [5] - 解决导师放养问题帮助建立科研思维与体系化知识 [6] 目标用户群体 - 计算机硕博生需论文创新思路或科研流程指导 [11] - 人工智能从业者需提升竞争力或职称评审材料 [11] - 考研申博群体需增强简历含金量 [11] 服务特色与附加价值 - 提供清北/MIT名校推荐信优秀学员可获实验室实习或名企内推机会 [15] - 精准匹配系统从300+导师筛选3-5位定向辅导 [14] - 1v1在线授课+微信群答疑含录播回看与24小时答疑 [12][16] 课程效果承诺 - 零基础学员通过6个月辅导可产出小论文 [14] - 协助完成模型代码实践与baseline深化拓展 [10] - 覆盖CCF-A/B/C至EI会议全类别论文辅导 [12]

一站式科研辅导课程

一站式科研辅导课程

具身学习专属！硬件结构迭代12版，这款双足机器人平台稳定性提升了300%......

具身智能之心· 2025-07-21 16:24

产品概述 - TRON1是一款专为教育科研设计的一体化研究平台支持验证人形运动控制、强化学习、VLN任务和VLA任务 [1] - 采用双足、双点足和双轮足"三合一"模块化设计可快速切换和自由组合满足不同科研需求 [1] - 一套产品可同步验证点足运动控制、双足人形运动控制和轮式运动控制实现"买一得三" [1] 产品版本 - 提供基础版本和EDU版本 EDU版本支持二次开发和外设加装 [4] - 支持外接各类操作、感知、语音交互组件及GPU等算力资源 [4] 核心功能 - 作为仿人形步态开发平台支持人形运控研究和强化学习论证 [6] - EDU版本可外设深度相机或RGB相机支持目标导航和感知功能开发 [6] - 支持加装机械臂实现VLA功能验证包括导航+抓取 [6][11] - 支持C++和Python两种开发语言降低使用门槛 [6] 技术特性 - 提供完整清晰的URDF模型 Sim2Real差距小支持NVIDIA Isaac、Mujoco、Gazebo等主流平台 [9] - 可集成激光雷达+深度相机预调最优安装方案支持三维建图、重定位、导航及动态避障 [13] - 搭载英伟达NX高算力模组支持语音唤醒和控制功能增强拟人感和场景适应力 [18] 硬件配置 - 感知拓展套件配备NVIDIA Ampere架构GPU 提供157 TOPS(稀疏)/78 TOPS(稠密)AI算力 [16] - 采用8核Arm Cortex-A78AE CPU 16GB LPDDR5内存 256GB固态存储 [16] - 激光雷达支持200000点/秒深度相机分辨率达1280x720 RGB相机分辨率1920x1080 [16] - 标准版和EDU版均采用48V电池供电续航≥2小时支持快速换电 [26] - 最大运动速度：双轮足≥5m/s 双足和双点足<1m/s 最大爬坡角度≥15° [26] 应用场景 - 支持复杂地形运动和移动操作+机械臂任务 [20] - 可用于感知模块的建图、定位、测量和重建 [21] - 适用于语音模块+动作执行场景 [22] 开发支持 - 提供完善的SDK和开发文档支持二次开发 [34] - 支持在线更新软件和模型结构下载 [36] - 提供完整的说明手册和开发指南实现一键部署 [37] - 自验收后提供1年售后服务 [40]