Workflow
具身智能之心
icon
搜索文档
将再狂揽近6亿融资!机器人Moz1卷入办公室,全力冲刺万亿赛道
具身智能之心· 2025-07-22 14:29
行业动态 - 2025年具身智能赛道迎来爆发式增长,全球科技巨头与初创公司竞相布局[4][5][10] - 谷歌Gemini Robotics、Figure AI、Physical Intelligence等国际玩家在推理、灵巧操作、复杂任务执行方面取得突破[6][8] - 中国具身智能市场同样火热,众多公司涌入万亿级市场,但第一梯队玩家屈指可数[11][12] 公司融资 - 千寻智能在2个月内完成近6亿元PreA+轮融资,由京东领投,中网投、浙江省科创母基金等跟投[15] - 2024年2月成立至今已完成多轮融资,3月获沙特阿美旗下P7领投的5.28亿元Pre-A轮[16][17] - 老股东P7、顺为资本、华控基金等持续加码,显示对发展潜力的认可[17] 技术突破 - 发布首款商用级人形机器人Moz1,具备26个自由度,功率密度比特斯拉Optimus高15%[21][22][24] - 搭载自研端到端VLA模型Spirit v1,70亿参数,基于13000小时数据训练,叠衣服成功率70%-80%[37][39][42] - 创新OneTwoVLA模型实现"边想边做",复杂任务成功率提升30%,代码与数据已开源[49][50][54] 商业化布局 - 深入能源电池、物流、餐饮等上百个场景调研,形成"场景需求-技术攻关-产品落地-市场反馈"闭环[56][57] - Moz1已应用于办公场景(清洁、收纳等),计划拓展物流、医疗、康养等高附加值领域[58] - 瞄准欧美高人工成本地区海外市场,创始团队具备国际化商业化经验[59][60] 核心竞争力 - VLA模型与硬件协同的差异化技术路线,快速迭代能力领先同行[63][64] - 全球顶尖技术团队,精准场景切入与多场景拓展的商业策略[65][66][67] - 技术、商业、团队、市场无短板,成为具身智能赛道领军者[69][70]
太魔幻了!具身一边是海量岗位,一边是招不到人......
具身智能之心· 2025-07-22 14:29
行业现状与人才供需矛盾 - 具身智能行业面临"有钱招不到人"的困境,尽管公司融资充足且岗位开放多,但实际offer发放审慎,反映出行业进入精打细算的保守发展阶段 [1] - 当前产品成熟度不足(本体/算法/数据),底层技术突破拐点未现,企业更倾向储备核心技术人才(如人形机器人稳定性、数据规模化应用等方向) [1] - 行业洗牌周期预计持续2-3年,企业选择"储备干粮过冬"策略,求职者需技术硬实力与研究方向高度适配 [1] 技术社区资源体系 - 具身智能之心知识星球覆盖国内外40+开源项目、60+数据集及主流仿真平台,提供40+技术学习路线(含强化学习/VLA/Diffusion Policy等16个细分领域) [12] - 社区成员来自斯坦福、ETH、清华等顶尖高校及优必选、小米等头部企业,建立内推机制直通30+具身公司招聘 [12][7] - 技术资源覆盖全产业链: - 硬件端:汇总芯片/激光雷达/IMU等零部件厂商 [25] - 算法端:强化学习/多模态大模型(理解+生成)/VLA模型等17类技术方案 [35][45][47][51] - 应用端:机械臂抓取/四足机器人/sim2real等9大场景 [62][64][59] 行业研究基础设施 - 建立全球实验室/公司数据库:收录斯坦福、港科大等高校实验室及智元机器人、傅里叶机器人等企业 [15][17] - 研报体系覆盖大模型/人形机器人等领域,跟踪30家企业动态 [20][13] - 仿真平台资源包含通用机器人仿真和真实场景仿真两类,配套开源项目助力快速验证 [33][27] 人才发展路径 - 针对入门者:提供机械臂策略学习/机器人导航等基础技术栈,配套PDF书籍(如概率机器人、运动学教材) [8][23] - 针对进阶者:设置触觉感知/视觉语言导航等前沿方向,含传感器应用、多模态算法集成等深度内容 [37][43] - 职业支持:组织产业大佬直播(含顶会专家)、圆桌论坛,实时解答求职/研究方向选择问题 [2][71] 典型应用场景案例 - 机械臂领域:涵盖位姿估计/抓取策略/任务数据表示全流程方案 [62] - 移动机器人:提供双足/四足机器人从仿真到硬件的完整资源 [64] - 复合系统:整合"轮式/四足+机械臂"硬件方案设计指南 [66][67]
各类任务上超越π0!字节跳动推出大型VLA模型GR-3,推动通用机器人策略发展
具身智能之心· 2025-07-22 12:10
GR-3核心能力与定位 - GR-3是字节跳动研发的大型视觉-语言-动作(VLA)模型,旨在推动通用机器人策略发展,能根据自然语言指令、环境观察和机器人状态生成动作序列控制双臂移动机器人 [2] - 模型解决传统机器人"认不全、学不快、做不好"三大痛点,采用"数据驱动+架构优化"双路径设计,既能理解抽象指令又能完成精细操作 [7] - 结合ByteMini双臂移动机器人可完成多样化任务,在各类挑战性任务上超越当前最先进基线方法π0 [2] 技术架构 - 采用端到端VLA架构,分为"感知理解"和"动作生成"两大模块,总参数达40亿,通过KV缓存复用感知结果提升推理速度 [10] - 感知层基于Qwen2.5-VL-3B-Instruct模型处理图像和文本,动作层通过动作扩散Transformer(DiT)控制机器人19个自由度 [13] - 关键创新包括流匹配动作预测、RMSNorm稳定性优化(指令遵循准确率提升30%)和任务状态感知设计 [14] 训练方案 - 采用"三位一体"训练策略:机器人轨迹模仿学习(通过智能调度系统保证数据质量)、视觉语言数据联合训练(新物体识别成功率提升40%)、人类轨迹少样本微调(10条演示数据使新物体操作成功率从57.8%升至86.7%) [15][18][19][23] - 人类VR演示数据采集效率达450条/小时,是传统机器人采集的1.8倍 [23] 硬件载体 - ByteMini机器人具备7自由度机械臂(球形腕关节设计)、全向移动底座+升降机构、RGBD相机系统,续航达10小时以上 [25] - 系统控制优化包括全身柔顺控制和轨迹优化算法,确保动作流畅精准 [26][28] 实验验证 - 通用拾取放置任务:新环境成功率仅比熟悉环境下降5%(基线下降20%),抽象指令理解成功率77.1%(基线40%) [35][38] - 长周期餐桌清理任务:整体进度达89%(基线62%),无效指令识别率97.5%(基线53.8%) [42] - 灵巧衣物操作任务:基础成功率86.7%(基线61%),新衣物适应成功率75.8%(基线42%),主要失败点为衣架滑落(占60%) [43]
一起做点牛掰的事情!具身智能之心准备招合伙人了.......
具身智能之心· 2025-07-22 11:33
具身智能行业发展 - 具身智能领域发展迅速,多家明星公司准备上市 [1] - 行业需要共同试错和积极交流,平台期望汇聚全行业人才 [1] - 公司成立1周年,计划邀请更多行业大佬加入推动进步 [1] 具身项目合作 - 公司正在北京、上海、深圳、广州、杭州、武汉建立研发团队 [3] - 每个城市计划招募10名左右具身领域专家 [3] - 要求应聘者具备2年以上具身算法和机器人研究经验 [3] - 项目类型包括横向、纵向项目和企业咨询,可兼职参与 [3] 具身教育研发 - 邀请行业专家开发具身教育在线课程 [4] - 重点研究方向包括大模型、多模态、强化学习、机器人运动规划等12个领域 [4] - 应聘者需具备博士及以上学历或2年以上工业界研发经验 [5] 人才待遇 - 提供大比例分红和全行业资源共享 [6] - 工作形式灵活,可兼职或全职 [6] 联系方式 - 可通过扫码咨询负责人,需备注"具身智能之心+老师咨询" [7]
NVIDIA最新!GraspGen:基于扩散模型的六自由度抓取生成框架
具身智能之心· 2025-07-21 16:42
核心观点 - GraspGen是一个针对机器人6自由度抓取泛化能力不足问题提出的创新框架,通过将抓取生成建模为迭代扩散过程,结合DiffusionTransformer架构和高效判别器,显著提升了抓取生成能力和适应性 [2] - 该框架采用"生成器上训练"策略大幅提升判别器性能,并通过新发布的大规模模拟数据集(含5300万抓取)实现对不同物体和夹具的适配 [2][9] - 在模拟和真实机器人实验中,GraspGen全面超越基线方法,在单物体场景AUC超过基线48%,在clutter场景任务成功率超过Contact-GraspNet 16.9% [10][13] - 真实机器人实验中整体成功率81.3%,远超M2T2(28%)和AnyGrasp(17.6%),尤其在复杂场景优势明显 [19] 核心方法 - 扩散生成器:将6自由度抓取生成建模为SE(3)空间中的扩散过程,采用DDPM模型计算更快、实现更简单 [4] - 平移归一化:通过数据集统计计算归一化系数,避免人工设置或网格搜索的低效 [4] - 对象编码:采用PointTransformerV3作为骨干网络,相比PointNet++减少5.3mm平移误差,提升4%召回率 [4] - 扩散网络:通过10步去噪生成抓取(远少于图像扩散的数百步),训练损失为预测噪声与真实噪声的L2损失 [5] 判别器设计 - 高效评估:复用生成器的对象编码器,内存使用减少21倍 [7] - 生成器上训练:用生成器生成约7K物体×2K抓取/物体的数据集训练判别器,使其AUC达0.947,显著高于仅用离线数据的0.886 [7][16] 模拟数据集 - 覆盖范围:包含三种夹具(每种约1700万抓取)和36366个网格模型 [11] - 生成方式:每个物体采样2K抓取姿态,通过摇晃测试判断成功 [11] 实验结果 - 单物体场景:在ACRONYM数据集上精度-覆盖率曲线AUC超过基线48% [10] - clutter场景:在100个场景×60任务中,任务成功率和抓取成功率均为最优 [13] - 遮挡鲁棒性:混合训练使模型在完整点云和单视图点云输入下均保持高性能 [14] - 多夹具泛化:在Robotiq-2f-140夹具上AUC达0.68873,远超M2T2的0.24265 [17] 局限 - 依赖深度传感和实例分割质量,对立方体物体表现较差 [21] - 训练需约3K GPU小时(NVIDIA V100),计算成本较高 [21]
机器人「GPT时刻」来了?丰田研究院悄悄做了一场最严谨的VLA验证
具身智能之心· 2025-07-21 16:42
机械臂技术发展 - 传统机械臂功能局限于简单抓取和小任务如制作冰淇淋和咖啡 [2] - 复杂任务如布置餐桌和组装自行车对感知、理解和动作控制协同要求极高 [3] - 视觉-语言-动作(VLA)模型推动机器人整合多模态信息执行复杂任务 [3] 大型行为模型(LBM)突破 - LBM基于扩散模型策略构建,整合视觉、语言和本体感知输入,输出20维动作序列 [18][19] - 在1700小时机器人数据上训练,完成1800次真实评估和47000次模拟部署 [13] - 仅需数百小时多样化数据和少量演示即可显著提升性能 [14] LBM性能优势 - 微调后LBM在"已见任务"上优于单任务基线模型且对分布偏移更具鲁棒性 [31][32] - 在"未见任务"中,微调LBM仅需不到30%任务特定数据即可达到单任务模型效果 [39] - 预训练使LBM用3-5倍更少数据学习新任务且性能随数据量持续提升 [16][43] 实验验证 - 采用Franka Panda FR3双臂平台和最多六个摄像头进行物理和模拟测试 [22] - 评估指标包括成功率(Success Rate)和任务完成度(Task Completion) [26] - 在仿真和现实环境中验证LBM对复杂任务的执行能力 [25][30] 数据规模与效果 - 混合数据集包含468小时双臂数据、45小时模拟数据、32小时UMI数据和1150小时开源数据 [23] - 预训练规模法则显示性能随数据量增加呈稳定上升趋势 [41][42] - 当前数据规模虽未达"互联网级"但已显现显著性能收益 [14]
VLN-PE:一个具备物理真实性的VLN平台,同时支持人形、四足和轮式机器人(ICCV'25)
具身智能之心· 2025-07-21 16:42
视觉-语言导航平台VLN-PE的核心创新 - 推出首个支持人形、四足和轮式机器人的物理真实VLN平台VLN-PE,基于GRUTopia构建,可无缝集成MP3D之外的新场景[3][10] - 平台采用基于RL的控制器API,支持Unitree H1人形机器人、Aliengo四足机器人和Jetbot轮式机器人的物理仿真[13] - 引入90个MP3D场景并手动修复地面间隙,新增10个GRScenes合成家庭场景和3D高斯溅射扫描场景以增强环境多样性[14] 跨具身导航的关键发现 - 现有VLN-CE模型迁移到物理环境时成功率下降34%,暴露伪运动训练与物理部署的差距[15] - 模型性能因机器人类型差异显著,人形机器人表现最佳而四足机器人最差(相机高度0.5米时几乎失效)[36][37] - 联合训练三种机器人数据的模型实现最佳性能,验证跨具身训练的"一劳永逸"潜力[37][39] 多模态与光照条件影响 - 仅依赖RGB的NaVid模型在低光照下成功率下降12.47%,而RGB+深度模型的CMA和RDP表现更稳定[38] - 相机光源(CL)条件下模型性能普遍低于圆盘光(DL),反光问题导致导航误差增加[38] - 深度信息融合使CMA模型在DL300光照条件下保持85%的基础性能,显著优于纯RGB模型[38] 模型性能对比 - 70亿参数的NaVid模型零样本迁移表现最佳,但存在70%任务片段中过度旋转的问题[29][30] - 扩散模型RDP在3DGS-Lab-VLN数据集上达到30.63%成功率,较NaVid的5.81%提升5倍[31] - 基于地图的VLMaps方法在未见验证集取得20%成功率,证明非端到端方案的可行性[27][24] 数据收集与训练策略 - 使用物理控制器收集的训练数据使模型跌倒率降低8.36%,卡住率减少2.01%[33][34] - 在VLN-PE域内数据微调的Seq2Seq模型性能超越Habitat增强训练的模型,显示仿真过拟合风险[29] - 3DGS场景微调的600万参数小型模型超越NaVid,验证多样化训练分布的价值[30]
没发论文?秋招会惩罚每一个本末倒置的研究生!
具身智能之心· 2025-07-21 16:42
就业与科研建议 - 毕业生应校招社招两手抓,注重资源整合与复盘查漏补缺 [1] - 在读学生需主动积累科研成果以增强就业或深造竞争力 [1] - 具身智能之心提供系统性科研辅导课程助力成果产出 [1] 成功案例 - 研二学员在导师散养情况下通过3个月辅导完成SCI论文 [2] 公司背景与优势 - 具身智能之心为国内最大AI技术自媒体平台,覆盖自动驾驶/具身智能/3D视觉等领域 [3] - 拥有300+专职导师,均来自QS前100高校,顶会/子刊发表经验丰富 [3] - 近3年辅导400+学员,中稿率达96% [3] 科研辅导流程 - 12周标准化流程:从选题到投稿分阶段完成(第1周定方向,第2-3周文献综述,第4-6周实验设计,第7-8周初稿,第9-10周修改,第11-12周投稿) [5] 服务解决的问题 - 突破导师放养困境,建立科研思维与完整知识体系 [6] - 系统掌握经典/前沿算法,避免零散学习 [6] - 提升实践能力,实现baseline到论文的深化拓展 [10] 目标用户群体 - 计算机硕博生、职称晋升需求者、AI从业者、考研申博留学生 [11] - 需求涵盖论文产出、科研能力提升、投稿技巧、实验设计等11项具体目标 [11] 服务特色 - 提供个性化1v1指导,覆盖CCF-A/B/C、SCI1-4区、EI会议全类别 [12] - 包含选题至中稿全流程服务,导师实时互动+录播回看+24h答疑 [12][16] - 优秀学员可获名校推荐信或名企(如阿里达摩院、华为诺亚方舟)内推机会 [15] 课程形式与保障 - 班主任全程督学,腾讯会议1v1授课+微信群答疑 [13][16] - 零基础学员通过6个月基础课程可完成小论文 [14] - 精准匹配系统从300+导师中筛选3-5位契合人选 [14] - 预收定金可试听,不满意可更换导师或退款 [15]
果然!秋招会惩罚每一个本末倒置的研究生!
具身智能之心· 2025-07-21 16:24
就业与科研建议 - 针对毕业生建议校招社招两手抓 注重资源整合与查漏补缺 [1] - 在读学生需主动积累科研成果以增强就业或深造竞争力 [1] - 具身智能之心提供系统性科研辅导课程助力成果产出 [1] 公司背景与资源 - 具身智能之心为国内最大AI技术自媒体平台 旗下拥有自动驾驶之心等知名IP [3] - 拥有300+专职导师团队 均来自全球QS前100高校 发表过顶会/子刊论文 [3] - 近3年辅导学员超400名 SCI论文中稿率达96% [3] 科研辅导服务流程 - 12周标准化论文产出流程 包含选题至投稿全环节 [5] - 第1周确定3个备选课题 第11-12周完成选刊投稿 [5] - 解决导师放养问题 帮助建立科研思维与体系化知识 [6] 目标用户群体 - 计算机硕博生 需论文创新思路或科研流程指导 [11] - 人工智能从业者 需提升竞争力或职称评审材料 [11] - 考研申博群体 需增强简历含金量 [11] 服务特色与附加价值 - 提供清北/MIT名校推荐信 优秀学员可获实验室实习或名企内推机会 [15] - 精准匹配系统从300+导师筛选3-5位定向辅导 [14] - 1v1在线授课+微信群答疑 含录播回看与24小时答疑 [12][16] 课程效果承诺 - 零基础学员通过6个月辅导可产出小论文 [14] - 协助完成模型代码实践与baseline深化拓展 [10] - 覆盖CCF-A/B/C至EI会议全类别论文辅导 [12]
具身学习专属!硬件结构迭代12版,这款双足机器人平台稳定性提升了300%......
具身智能之心· 2025-07-21 16:24
产品概述 - TRON1是一款专为教育科研设计的一体化研究平台 支持验证人形运动控制、强化学习、VLN任务和VLA任务 [1] - 采用双足、双点足和双轮足"三合一"模块化设计 可快速切换和自由组合 满足不同科研需求 [1] - 一套产品可同步验证点足运动控制、双足人形运动控制和轮式运动控制 实现"买一得三" [1] 产品版本 - 提供基础版本和EDU版本 EDU版本支持二次开发和外设加装 [4] - 支持外接各类操作、感知、语音交互组件及GPU等算力资源 [4] 核心功能 - 作为仿人形步态开发平台 支持人形运控研究和强化学习论证 [6] - EDU版本可外设深度相机或RGB相机 支持目标导航和感知功能开发 [6] - 支持加装机械臂 实现VLA功能验证 包括导航+抓取 [6][11] - 支持C++和Python两种开发语言 降低使用门槛 [6] 技术特性 - 提供完整清晰的URDF模型 Sim2Real差距小 支持NVIDIA Isaac、Mujoco、Gazebo等主流平台 [9] - 可集成激光雷达+深度相机 预调最优安装方案 支持三维建图、重定位、导航及动态避障 [13] - 搭载英伟达NX高算力模组 支持语音唤醒和控制功能 增强拟人感和场景适应力 [18] 硬件配置 - 感知拓展套件配备NVIDIA Ampere架构GPU 提供157 TOPS(稀疏)/78 TOPS(稠密)AI算力 [16] - 采用8核Arm Cortex-A78AE CPU 16GB LPDDR5内存 256GB固态存储 [16] - 激光雷达支持200000点/秒 深度相机分辨率达1280x720 RGB相机分辨率1920x1080 [16] - 标准版和EDU版均采用48V电池供电 续航≥2小时 支持快速换电 [26] - 最大运动速度:双轮足≥5m/s 双足和双点足<1m/s 最大爬坡角度≥15° [26] 应用场景 - 支持复杂地形运动和移动操作+机械臂任务 [20] - 可用于感知模块的建图、定位、测量和重建 [21] - 适用于语音模块+动作执行场景 [22] 开发支持 - 提供完善的SDK和开发文档 支持二次开发 [34] - 支持在线更新软件和模型结构下载 [36] - 提供完整的说明手册和开发指南 实现一键部署 [37] - 自验收后提供1年售后服务 [40]