Workflow
具身智能之心
icon
搜索文档
灵御智能遥操TeleAvatar机器人开始交付啦!
具身智能之心· 2025-09-21 12:01
公司商业化进展 - 公司宣布进行具身智能遥操作机器人TeleAvatar的首批多客户交付,标志着产品商业化及市场拓展取得实质性突破 [2] - 首台TeleAvatar(型号001)正式交付锡港沪机器人灵巧智能研究院,同时进行对多家战略客户的首批陆续交付 [2] - 在当日下午进行了首批多台机器人的陆续交付,涵盖包括上海玑域智能科技公司在内的多个重要战略客户,未来数周内将陆续交付十余台机器人 [5] 产品技术与性能 - TeleAvatar是公司自主研发的具身智能遥操作机器人,集成了高精度运动控制、多模态感知融合、低延迟遥操作等核心技术 [5] - 产品具备亚毫米级操作精度,达到国际领先水平,端到端操作延迟低于30毫秒,确保操作实时性 [6] - 产品支持全远程环境交互能力,可实现跨城市跨区域全远程操作,双臂及灵巧末端支持全力控设计,可适应多种复杂操作 [6] - 产品起售价仅7.99万元,具备极高性价比 [6] 客户评价与应用前景 - 锡港沪机器人灵巧智能研究院技术总监许钦桓博士表示,TeleAvatar机器人实现了低延迟、高精度控制与柔顺力控,为落地灵巧操作研究提供了坚实基础 [5] - 上海玑域智能有限公司创始人孙宇先生认为,类人机器人在保障性能的同时兼顾成本控制,以出色的整体投入产出比为大规模部署提供了可行路径 [5] - TeleAvatar的应用领域涵盖科研数采、智能制造、医疗服务、科研探索、应急处理等多个重要行业,为各行业转型升级提供技术支撑 [7] 公司背景与使命 - 公司由清华大学自动化系顶尖团队创立,深耕机器人规划控制与人机交互领域 [10] - 公司使命为打造具身智能实用化标杆,将人类从危险、繁重、无聊的工作中解放出来 [10] - 公司通过人机混合智能技术构建L0-L4全栈进化路径,提供硬件、软件、数据平台全自研解决方案,配合自身L2级机器人自主模型策略,实现人机无缝协作 [10]
具身领域的大模型基础部分,都在这里了......
具身智能之心· 2025-09-21 00:03
社区定位与目标 - 社区旨在打造集视频、图文、学习路线、问答、求职交流为一体的综合类大模型技术社区,为初学者和进阶者提供交流与技术分享平台 [1] - 社区目标是成为大模型前沿技术聚集地,汇集来自国内外知名高校实验室及头部公司的嘉宾,高校包括上交、清华、北京大学等,公司包括阿里千问、美团LongCat、深度求索DeepSeek、字节豆包、百度文心一言、月之暗面Kimi等 [3][68] 核心学习路线与内容 - 社区汇总了大模型全栈学习路线图,核心领域包括RAG、AI Agent和多模态大模型 [3] - RAG学习路线细分为Graph RAG、Knowledge RAG、多模态RAG、Reasoning RAG等8个子领域 [3][9][10][12][14][16][18][20][22][23][24] - AI Agent学习路线涵盖前沿综述、评测、强化学习、多模态Agent、Agent通讯等7个子领域 [25][26][28][30][32][34][35][37][39][41] - 多模态大模型训练路线包括开源数据集、MLLM、VLM、大模型微调、RLHF、MoE等9个技术方向 [42][43][45][47][49][51][53][55][56][57][59] - 社区扩展了大模型量化、部署及推理相关内容,以满足成员部署自有模型的需求 [61][62][63][64] 社区资源与福利 - 社区已邀请40余位学术界和工业界专家,来自国内外知名高校和头部公司 [68] - 成员福利包括第一时间掌握学术进展与工业应用、与行业大佬交流工作与求职问题、获得大模型相关岗位推荐及投资与项目对接机会 [7][70] - 未来计划不定期邀请行业大佬进行直播分享,内容可反复观看,旨在邀请国内外顶尖学术界和工业界专家 [66]
PhysicalAgent:迈向通用认知机器人的基础世界模型框架
具身智能之心· 2025-09-21 00:03
文章核心观点 - 研究团队提出PhysicalAgent框架,旨在解决机器人操控领域的两大瓶颈:视觉-语言-动作模型对任务与平台特定微调的依赖,以及基于世界模型的方法在通用性上的局限 [2] - 该框架的核心思路是利用基础模型承担感知与推理任务,仅保留轻量级机器人适配层负责执行,从而实现跨形态、跨任务的通用操控,并通过迭代修正提升执行鲁棒性 [2] - 框架通过将动作生成重构为条件视频合成,并利用现成的图像-视频基础模型,实现了无需为特定机器人-场景对训练模型,大幅降低了泛化门槛 [6] 出发点与动机 - 当前机器人操控领域存在关键瓶颈,主流视觉-语言-动作模型依赖任务与平台特定微调,更换机器人或环境后鲁棒性显著下降 [2] - 基于世界模型的方法需依赖专门训练的预测模型,且训练数据需精心筛选机器人-场景对,导致通用性受限 [2] 架构设计 - 架构设计的核心原则是感知与推理模块不绑定特定机器人形态,仅需为不同机器人训练轻量级骨骼检测模型,该设计计算开销小、数据需求低 [4] - 视频生成模型具有天然优势,因其预训练了海量多模态数据,已隐含对物理过程、物体交互的理解,且支持API调用,无需本地训练即可快速集成 [4] - 该架构实现了跨形态泛化,同一感知-推理流程能为三种不同形态的机器人生成不同操控任务的视频,无需针对特定机器人重新训练 [4] 视觉语言模型与扩散基世界模型 - 视觉语言模型作为框架的认知核心,通过多次调用实现指令-环境-执行的 grounding,其作用包括任务分解、场景上下文描述、执行监控与修正,并具有模型无关性 [6] - 框架的核心创新是将动作生成重构为条件视频合成,使用现成的图像-视频基础模型,输入机器人当前相机帧与文本指令,生成物理合理的短动作视频 [6] - 与现有方法相比,该框架直接使用通用图像-视频模型,无需为特定机器人-场景对训练模型,具备降低部署成本、支持快速迭代和提供可解释性三大优势 [6] 机器人适配层 - 生成的动作视频需转化为机器人能执行的电机指令,此步骤是框架中唯一需机器人特定适配的部分 [6] - 适配流程包括使用微调后的YOLO11-Pose模型从合成视频的每帧中提取机器人关节关键点,形成40维特征向量/帧,再通过多输出回归器预测低层级电机指令 [11] - 每个新机器人的适配层训练仅需约1000个样本,约30分钟即可收集完成,并支持第三人称与第一视角相机,兼容不同机器人的感知配置 [11] 实验验证:效果与泛化性 - 实验一验证跨形态/感知模态的泛化性,ANOVA分析显示该框架的成功率显著优于基线(F(4,60)=5.04,p=0.0014),且平台对性能无显著影响(F(2,36)=2.01,p=0.1485),证明了其跨形态泛化能力稳定 [12] - 实验二验证物理机器人的迭代执行鲁棒性,两个物理平台的最终成功率均达到80%,通过迭代修正(UR3平均2.25次,G1平均2.75次)有效弥补首次执行的不足,是提升鲁棒性的核心 [12][13]
头部具身智能人形机器人公司最新估值/市值
具身智能之心· 2025-09-20 14:12
编辑丨具身智能之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 头部具身智能人形机器人公司最新估值或市值一览。除了已上市公司外,这里展示的都是已完成或 正在交割的真实估值,未经实际交割、未获交易确认的估值均未列入,单位为人民币。注意,各公 司成立时间和融资阶段差异大。估值高低与技术、商业化水平不能简单划等号。 以下数字仅做参考,如有不足或者遗漏,欢迎后台留言。 Figure AI 2736亿 优必选 555亿 Sklid AI 324亿 Physical Intelligence 170亿 宇树科技 160亿 智元机器人 150亿 Apptronik 144亿 Field AI 144亿 Agility Robotics 126亿 云深处机器人 80亿 傅利叶机器人 80亿 乐聚机器人 80亿 World labs 70亿 Sanctuary AI 70亿 Boston Dynamics 70亿 银河通用 70亿 星海图 70亿 自变量 60亿 ...
英伟达50亿美元入股英特尔,将发布CPU+GPU合体芯片,大结局来了?
具身智能之心· 2025-09-20 00:04
战略合作与投资 - 英伟达投资50亿美元收购英特尔5%股份 每股价格为23.28美元[3][6][7] - 两家公司达成长期战略合作 共同开发多代定制数据中心和PC产品[6][7] - 合作重点为通过NVIDIA NVLink技术整合英伟达AI加速计算与英特尔CPU及x86生态系统[6] 产品与技术整合 - 英特尔将为英伟达定制x86 CPU 集成至英伟达AI基础设施平台[7] - 英特尔将推出集成RTX GPU芯片组的x86系统级芯片(SoC) 支持需要顶级CPU和GPU整合的PC设备[7] - 技术整合目标为将72块GPU与定制CPU结合 创造新型集成笔记本电脑[13] 市场机会与规模 - 黄仁勋预估合作带来年化250亿至500亿美元商机[13] - 笔记本电脑年销量达1.5亿台 新型SoC将瞄准该市场[13] 股价与市场反应 - 消息公布后英伟达股价上涨3.49% 英特尔股价暴涨22.77%[8] - 英特尔当日交易量达5.24亿股 成交额163.86亿美元 总市值1427.70亿美元[8][9] 历史背景与授权 - 英伟达通过此次合作重新获得x86架构授权[17] - 两家公司曾于2006年因x86授权纠纷对簿公堂 最终以英特尔支付15亿美元专利费和解[16] 投资者影响 - 对冲基金态势感知基金因重仓英特尔(第二季度持仓占比20%) 单日盈利超10亿美元[10] - 美国政府持有英特尔约10%股权(成本价20.47美元) 软银以每股23美元认购20亿美元首次发行股票[12] 生产合作可能性 - 市场猜测英伟达可能利用英特尔芯片代工业务 但目前仍依赖台积电[18] - 双方未明确代工合作 强调当前合作聚焦产品开发[18]
从数采方案来看,具身数据的需求有哪些?
具身智能之心· 2025-09-20 00:04
具身智能数据采集行业概览 - 具身智能成为全球焦点 数据采集作为基础模块是算法效果的关键基础[2] - 行业专注于数据采集设备与解决方案 包括硬件设备 软件平台及整体解决方案[3] 国内公司技术布局 星海图 - 自研数采任务管理平台支持任务发布 上传 存储 审核全流程可视化管控[6] - 一站式数据采集链路覆盖任务下发至标注存储全环节 日处理量达PB级别[6] - 兼容rosbag/ARIO/lerobot输出格式 适配ACT/Diffusion Policy等模型[6] - R1 Pro+VR遥操作设备与斯坦福等机构合作 半年部署近百台机器人[6] - 服务覆盖2000平米采集空间 支持100多种场景定制和1000余种动作组合[6] 松灵机器人 - 提供CobotMagic主从遥操作 CobotSpark VR遥操作等高质量数采设备[6] - Pika系列夹爪数采设备具备便携式 低成本采集特性[6] - 服务覆盖数据采集 清洗 标注 管理全链路 助力多模态高精度数据集获取[6] 凡拓 - 构建全链路具身数据处理架构 支持数据清洗至控制指令完整路线[7] - 提供丰富仿真场景 物体资产和机器人模型 辅助多样化训练场景构建[7] - "全模态"数采标注平台开箱即用 提供多模态同步采集工具链[8] 宇树科技 - 采用Intel RealSense D435和LIVOX-MID360 3D激光雷达实现360°探测感知[13] - G1机器人具备3指力控灵巧手 通过力位混合控制实现精细操作[13] - 开源Unitree G1机器人操作数据集 包含采集 算法和模型[13] 智元机器人 - 数据工厂占地4000平方米 搭建5大真实场景环境含3000多种物体道具[13] - 采集200多个任务数据 通过动作捕捉和VR遥操作等方式[13] - AIDEA全栈数据系统包含采集本体 遥操作设备和数据平台三大模块[13] 睿尔曼智能 - 提供高质量3D具身数据集 运用光场扫描和动捕棚采集动态数据[13] - 轻量化双臂机器人满足高动态响应 高负载 低成本数据收集需求[13] 帕西尼科技 - 建设Super EID Factory采集工厂 构建亿级规模OmniSharing DB数据集[13] - 自研"人因"全模态采集系统通过触觉手套 视觉阵列实现物理交互数据捕获[13] - 数据集获98.05分A级评价 数据质量可直接使用[13] 国外公司技术布局 Google DeepMind - 发布BridgeData V2数据集含24种不同环境 划分为4大类场景[12] - 数据涵盖物体操作 环境交互及复杂任务 包括拾取放置 开关门等[12] Tesla Robotics - 组建数百人动作捕捉团队进行数据采集[13] - 通过人类操作员穿戴动捕设备遥控Optimus执行搬运任务[13] Meta AI(FAIR) - 推出RoboSet数据集收集28,500条示范轨迹(9,500条VR遥操作 19,000条动觉示教)[19] - 定义38项日常厨房任务 归纳为12种操作技能类型[19] Boston Dynamics - Atlas人型机器人拥有50个自由度 Atlas MTS拥有29个自由度[19] - 构建端到端语言指令驱动模型 支持长序列操控任务[19] - VR遥操作利用头戴设备 基站 控制器实现沉浸式机器人控制[19] 1X Technologies - 使用EVE人形机器人在家庭和办公室环境执行物品抓取 精细操作等任务[19] - 通过VR远程操作技术引导机器人完成真实场景数据收集[19]
智源牵头举办的具身大模型挑战赛火热报名中!
具身智能之心· 2025-09-20 00:04
编辑丨 BAAI具身智能 点击下方 卡片 ,关注" 具身智能之心 "公众号 2025 第二届中关村具身智能机器人应用大赛 了解更多信息 欢迎大家踊跃报名参赛! 智源具身智能模型能力挑战赛火热报名中! 本届赛事以 「具身引智 · 应用未来」 为主题,打造一个 汇聚尖端技术与产业应用 的舞台。这里不仅是比拼模型实力的竞技场,更是展示创意与才华的舞台。让我们一起突破边界,提升模型能力,推动具身智能 走 出实验室,走进现实世界,创造真正的价值! 未来已来,等你出发! 指导教师荣誉:有机会获得"智源学者"身份,享受专项科研资金支持 10.23 - 10.24 11.02 - 11.16 11.17 - 11.18 决赛 初赛 真机调试与数据采集 资源支持 真机数据采集、标注一站式平台支持 充足的算力支持 机器人本体设备支持 智源专家全程技术指导 场地与环境保障 奖金与荣誉 单暴道奖金 优胜奖(第4-6名) 三等奖 2万 等奖 5万 二等奖 3万 学生选手福利:有机会获得直通智源研究院实习、入职机会 在智源,你将收获: 真机实战:人形机器人、高性能机械臂、移动操作平台等 顶级算力 & 自由科研:享用智源充足的算力与海量数 ...
NeurIPS 2025 | 人类认知对齐的CogVLA,突破VLA效率与性能瓶颈
具身智能之心· 2025-09-19 13:43
文章核心观点 - 视觉-语言-动作模型面临效率困境与语义退化挑战,将高维多模态特征对齐至连续动作空间计算开销巨大[5] - CogVLA提出认知对齐的三阶段稀疏化框架,通过指令驱动路由与稀疏化模拟人类多模态协同机制,在提升效率同时保持高性能[7][8][12] - 该方案在仿真与真实环境实验中均取得领先的性能与效率,成功率高达97.4%,推理速度快2.79倍,训练成本降低2.49倍[18][20] 行业背景与挑战 - 视觉-语言-动作研究在强大预训练VLM推动下快速发展,但高维特征对齐至连续动作空间计算开销巨大,限制大规模部署[5] - 现有VLA效率优化策略主要聚焦大语言模型内部计算优化,忽视视觉、语言与动作间语义耦合,导致感知冗余、指令-语义脱节和动作不连贯问题[6][10] 技术方案与架构 - CogVLA借鉴人类多模态协调机制,采用三阶段渐进式设计:EFA-Routing实现指令驱动视觉聚合,压缩冗余信息[16] - LFP-Routing在语言模型中进行语义感知剪枝,过滤与动作无关的视觉token[16] - CAtten通过跨模态耦合注意力保证语义一致性和动作连贯性,支持并行解码[16] 性能与效率成果 - CogVLA在LIBERO上取得平均97.4%最高成功率,实现8倍视觉压缩倍率[18] - 与OpenVLA相比,推理时间快2.79倍,吞吐量高22.54倍,FLOPs低3.12倍,训练成本降低2.49倍[20] - 在真实环境任务中取得最优子任务成功率和综合成功率,任务完成率高达70%,显著优于其他先进模型[19] 技术优势与创新 - 通过指令驱动路由机制精准聚焦任务相关区域,即使在混乱或模糊场景中也能实现强大视觉基础[21] - CAtten注意力机制结合单向与双向注意力,注入动作意图,充分利用稀疏视觉token,增强逻辑一致性与动作连贯性[14][15]
智平方2026年大规模校园招聘来袭!具身算法/开发/仿真等
具身智能之心· 2025-09-19 08:03
技术实力与产品创新 - 公司是中国端到端VLA技术的最早提出者,发布全球首个全域全身具身大模型GOVLA [2] - 开源全球首个"异构输入+异步频率"VLA模型Fis-VLA,性能超越国际标杆30% [2] - 公司为全球唯二、国内唯一开源机器人模型的创企,技术实力得到硬核验证 [2] - 自研真通用智能机器人AlphaBot(爰宝)系列,两年内迭代三代产品 [2] - 采用一个机器人硬件形态加一个星座大模型,实现多场景、多任务无缝切换 [2] - 机器人搭载GOVLA大模型,具备全域行动、全身协同、长程索性与快速学习核心能力 [2] - 公司投入融合大模型、机器人学与多模态感知的技术革命 [3] 商业应用与市场地位 - 公司依托多场景共同牵引的统一技术平台,打造可持续复利的智能服务 [2] - 公司是国内唯一在多个真实场景实现大规模部署的具身智能企业 [2] - 业务已覆盖汽车制造、半导体、生物科技、公共服务等领域的头部客户 [2] - 公司致力于解决劳动力短缺、高危作业、养老陪护等真实世界难题 [3] 人才招聘与团队文化 - 公司为员工提供期权激励与飞速成长的可能性 [4] - 团队文化扁平化、少官僚、多激情,校招生的想法也能被听见和重用 [5] - 公司寻找2025年1月至2026年7月毕业的海内外院校本科、硕士、博士毕业生 [12] - 对候选人的期望包括好奇心强、学习力高、动手能力MAX、有全局思维、抗压乐观 [12] - 招聘流程包括网申、简历筛选、笔试(部分岗位)、面试、Offer [13] - 算法、工程、产品、硬件、设计、制造六大方向全线开放招聘 [7]
让机器人「不只是走路」,Nav-R1引领带推理的导航新时代
具身智能之心· 2025-09-19 08:03
文章核心观点 - 提出一种名为Nav-R1的新型具身智能基础模型,旨在解决机器人在3D环境中结合感知、推理和行动的核心挑战 [5] - 该模型通过引入大规模推理链数据集Nav-CoT-110K进行冷启动训练,并采用Fast-in-Slow双系统推理范式,显著提升了导航任务的成功率和路径效率 [6][11][14] - 在模拟环境和真实机器人部署的实验中,Nav-R1在多项导航基准测试中的关键指标(如成功率SR和路径效率SPL)相比其他先进方法提升了约8%或更多 [14][17] Nav-R1核心创新 - **Nav-CoT-110K数据集**:构建了包含约11万条Chain-of-Thought推理链轨迹的大规模数据集,用于模型的监督训练阶段,使其在强化学习优化前就具备稳定的推理与行动基础 [6][8] - **三种奖励机制**:设计了格式奖励、理解奖励和导航奖励,分别确保模型输出结构化、语义理解正确以及路径合理高效 [10][15] - **Fast-in-Slow推理范式**:借鉴人类双系统理论,Slow系统(System-2)负责低频、宏观的语义规划和长期目标制定,Fast系统(System-1)负责高频、即时的动作控制和避障,两者异步协调 [11][13][16] 实验性能与效果 - **视觉-语言导航任务**:在R2R-CE Val-Unseen基准上,Nav-R1的成功率(SR)达到74.1%,路径效率(SPL)达到68.8%,显著优于对比方法 [17] - **物体目标导航任务**:在ObjectNav任务中,Nav-R1在真实环境(如会议室、休息室、走廊)的成功率指标(SR)分别达到1.03、1.12和1.02,表现优于其他方法 [19] - **实时性能**:通过云端推理与本地执行结合的架构,Nav-R1在服务器端的推理延迟约为95毫秒,优于仅在本地推理的方法,适合在资源受限的边缘设备上近实时运行 [19][20] 应用场景 - **服务与家庭机器人**:适用于家庭等杂乱环境,能提升机器人穿行、找物及与人交互时的理解能力和执行体验 [31] - **助老与医疗辅助**:在医院、养老院等复杂环境中,能提供安全、可靠的导航服务,并具备语义理解与错误纠正能力 [32] - **增强现实与虚拟现实**:可为AR/VR中的虚拟智能体提供基于物理环境的导航和指路能力 [33] - **工业与危险环境**:其泛化能力和稳健性使其可作为在工厂、矿井或灾害现场执行任务的机器人的基础模块 [34]