具身智能之心 - 财报，业绩电话会，研报，新闻 - Reportify

具身智能之心

搜索文档

腾讯入局具身智能，宇树首批用上“大脑”

具身智能之心· 2025-08-05 08:03

腾讯具身智能战略 - 公司推出具身智能通用外接大脑平台Tairos，以模块化方式提供多模态感知、规划、感知-行动联合模型等能力，不涉足硬件本体、量产及商业化[2][3][8][22] - Tairos平台集成多模态感知算法、规划大模型及开发工具链，首批合作厂商包括宇树、越疆、乐聚等6家机器人企业[6][7][21] - 平台采用标准化接口与SDK，提供仿真环境、数据集及预置模板，支持厂商灵活调用单一模块或完整训练流程[14][15][18][19] Tairos平台技术架构 - 模型层包含三大核心：多模态感知模型（右脑功能，融合图像/语音/触觉）、规划大模型（左脑功能，任务拆解与记忆）、感知-行动联合模型（小脑功能，物理动作映射）[12][13] - 云服务层提供数字孪生仿真平台、三维视觉数据集及可视化开发工具，强调国内首个模块化具身智能软件平台的定位[15][16] - 技术方案采用层次化学习框架SLAP（感知-学习-行动-规划），区别于端到端方案，强化动态环境下的交互能力[37] 腾讯RoboticsX实验室布局 - 实验室2018年成立，聚焦移动、操作、智能决策三大方向，研发成果包括机器狗Max、四腿轮足机器人"小五"等原型[25][27][28] - 技术路线遵循"A2G"方针，探索非人形机器人形态（如轮腿一体化），认为双足形态在人居环境中效率低下[31][32][33] - 战略目标为IDEAS框架（虚实集成世界、技术降门槛等），重点突破养老服务等复杂场景的交互需求[39] 行业合作与趋势洞察 - 公司已调研60家国内机器人企业，认为硬件生态成熟后应专注软件层，通过Tairos与厂商共同优化3D环境认知、物理约束建模等痛点[35] - 具身智能现阶段需补足动态环境理解能力，现有文本描述无法覆盖现实交互需求，需结合仿真环境训练[37] - 行业距离"iPhone时刻"仍有差距，平台发布旨在加速推进至"大哥大时刻"[40]

腾讯控股(HK:00700)

具身智能Tarios平台

人居环境机器人'5号'

具身智能Tarios平台

人居环境机器人'5号'

无界智慧招募操作算法、导航算法、运动控制等方向（社招+实习）

具身智能之心· 2025-08-05 08:03

公司概况 - 无界智慧（Spatialtemporal AI）是一家专注于时空智能与具身智能融合创新的前沿科技企业以自主研发的时空智能技术为核心致力于构建具备多模态感知、自主认知与决策、精准任务执行能力的智能体系统 [1] - 团队成员来自PKU、清华、CASIA、CMU、MBZUAI等顶尖高校及研究机构面向康养与医疗场景公司正在开发"成长型数字家人"陪护机器人深度融合时空感知与环境理解技术 [1] 技术社区生态 - 具身智能之心知识星球是国内首个具身全栈技术社区已完成产业、学术、求职、问答等多领域闭环社区运营注重实效性拒绝华而不实的内容 [6] - 社区汇集斯坦福、ETH、清华等顶尖高校实验室成员以及智元机器人、优必选、小米等头部企业从业者形成产学研一体化交流平台 [19] - 已梳理30+技术路线包括强化学习全栈、VLN/VLA学习路线、多模态大模型、Diffusion Policy等前沿方向覆盖从入门到进阶的全阶段需求 [19] 知识体系架构学术资源 - 汇总40+开源项目与60+具身智能数据集涵盖仿真平台、机械臂控制、机器人导航等应用场景 [19][34][38] - 整理近30家国内外具身智能实验室信息为升学深造提供参考同时收录机器人动力学、运动学等专业书籍PDF资源 [22][30] 产业图谱 - 建立具身智能公司数据库覆盖教育、医疗、工业等细分领域包含零部件供应商品牌名录（激光雷达、IMU等核心部件） [24][32] - 持续更新行业研报跟踪大模型与人形机器人领域的技术商业化进展 [27] 职业发展支持 - 与多家头部企业建立内推机制提供智元机器人、逐际动力等公司的直接简历投递通道 [13] - 开设职业转型指导包括自动驾驶转具身智能的技术栈迁移方案涉及视觉语言导航、端到端导航等过渡方向 [80][82] - 实时分享头部企业招聘信息组织大佬圆桌论坛解决研究方向选择、项目包装等实际问题 [78][79] 技术前沿动态 - 重点追踪VLA模型、触觉感知、sim2real等创新方向汇总Diffusion Policy在机器人任务中的最新应用案例 [58][60][66] - 深度解析多模态大模型技术路线涵盖跨模态理解（视频/3D+文本）与生成（语音/图像+文本）两大体系 [52][54] - 提供四足/双足机器人开源项目全栈资源包括硬件搭建方案与仿真环境部署指南 [71][74]

成长型数字家人陪护机器人

成长型数字家人陪护机器人

Interleave-VLA：首个支持交错图文指令的VLA框架，跨域泛化提升2-3倍

具身智能之心· 2025-08-05 08:03

核心观点 - Interleave-VLA是首个能理解交错图文指令并生成连续动作序列的框架，显著提升机器人操作的灵活性和泛化能力 [2][3] - 通过自动化流程创建了首个大规模真实世界交错具身数据集，包含21万条交互数据和1300万帧图像 [2] - 在仿真和真实机器人实验中，Interleave-VLA的跨域泛化能力比基线模型提升2-3倍，并支持零样本处理手绘草图等图像指令 [3][7] 技术架构与数据集 - 采用模型无关的范式，仅需对现有VLA模型进行最小修改即可实现 [2] - 基于Open X-Embodiment数据集转换纯文本指令为交错图文指令，解决数据缺失问题 [2][7] - 异构数据集和多样化指令图像（包括互联网图像）是其零样本性能的关键 [3] 性能优势 - 支持灵活任务接口，如直接处理用户提供的非结构化图像输入 [3] - 在未知场景或复杂描述任务中表现优于传统纯文本指令模型 [7] - 真机实验中成功验证了域外任务性能提升，具体案例包括手绘草图理解 [3][7] 应用场景 - 适用于需要多模态交互的机器人操作场景，如工业装配或家庭服务 [7] - 可扩展至互联网图像等开放域指令，具备商业化潜力 [3] - 相关技术（如BridgeVLA）已在CVPR竞赛中实现32%的真机性能提升 [10]

视觉-语言-动作（VLA）模型

交错图文指令

视觉-语言-动作（VLA）模型

交错图文指令

具身机器人公司无界智慧招募操作算法、导航算法、运动控制等方向（社招+实习）

具身智能之心· 2025-08-04 18:19

公司概况 - 无界智慧（Spatialtemporal AI）专注于时空智能与具身智能融合创新核心研发方向为多模态感知自主认知与决策精准任务执行的智能体系统 [1] - 团队背景来自PKU 清华 CASIA CMU MBZUAI等顶尖高校及研究机构聚焦康养与医疗场景开发"成长型数字家人"陪护机器人 [1] 行业社区生态 - 具身智能之心知识星球是国内首个具身全栈技术社区覆盖产业学术求职问答闭环提供30+技术路线 40+开源项目 60+数据集资源 [6][19] - 社区成员包括斯坦福加州大学清华上海人工智能实验室等高校以及智元机器人优必选小米等头部企业从业者 [19] - 建立企业内推机制与云深处逐际动力等公司合作直达招聘通道 [13] 技术资源体系学术研究 - 汇总近40+开源项目如机械臂抓取四足机器人仿真 60+数据集涵盖触觉感知导航等方向 [19][34][38] - 梳理强化学习 VLN VLA Diffusion Policy等20+技术路线提供主流仿真平台如Isaac Sim应用方案 [19][42][60] 产业应用 - 分类汇总医疗教育工业等场景的具身机器人公司分析零部件厂商在激光雷达 IMU等供应链环节 [24][32] - 跟踪大模型部署轻量化方法 sim2real迁移等工程化难点分享机械臂抓取位姿估计等量产经验 [64][66][69] 人才发展路径 - 针对入门者设计感知交互等基础学习路线为进阶者提供产业级项目方案如双足机器人控制系统 [14][16][71] - 自动驾驶从业者可通过视觉语言导航端到端控制等技术栈向具身智能领域平滑过渡 [80][82] - SLAM工程师建议结合DL转型或切入强化学习具身感知等高需求方向以提升薪资竞争力 [81][82]

成长型数字家人陪护机器人

成长型数字家人陪护机器人

RAGNet: 从“看得见”到“想得通”，再到“抓得准”的通用机器人之路 (ICCV'25)

具身智能之心· 2025-08-04 09:59

通用抓取技术研究 - 核心观点：机器人需同时具备"功能推理+精细操作"能力以实现开放世界通用抓取香港中文大学等机构联合推出RAGNet数据集与AffordanceNet框架通过语言指令对齐实现复杂场景抓取[3] - 技术突破点： - 数据集创新：RAGNet包含27.3万张图像/180类物体/2.6万条指令覆盖真实场景/机器人平台/第一视角[8] - 标注创新：采用三级指令体系（模板/简单推理/困难推理）示例包括"请分割锤子"到"需要敲钉子的工具"等模糊指令[10] - 模型架构：AffordanceVLM改进LISA模型增加系统提示词与<AFF> token 结合Pose Generator实现3D抓取位姿预测[12] 性能验证 - 零样本检测：在GraspNet novel和3DOI数据集上 AffordanceNet的gloU指标达45.6和37.4 显著超越VLPart+SAM2(40.9)等基线[14] - 真机测试：UR5平台抓取成功率70% 较传统GraspNet(32%)提升118% 在炒锅/螺丝刀等工具上表现突出(80%成功率)[16][17] 行业影响 - 数据价值：提供273k图像+26k指令的开源数据集标注成本降低50%以上支持自动数据采集飞轮[23] - 技术定位：作为VLA框架的3D几何语义前置模块增强感知(RGB-D→3D Mask)与语言理解(三级指令体系)能力[18] - 应用前景：实现从物体分类到功能执行的跨越未来或支持"帮我修书架"等复杂家庭任务自主完成[20]

通用抓取机器人

通用抓取机器人

具身智能之心强化学习交流群来啦！

具身智能之心· 2025-08-04 09:59

行业交流平台 - 行业搭建技术交流与分享平台专注于四足人形机械臂相关运控领域 [1] - 目标群体为从事强化学习技术研究的专业人士 [1] - 通过微信渠道加入交流群需备注特定格式信息 [2]

全球首个体智能安全基准出炉：大模型集体翻车

具身智能之心· 2025-08-04 09:59

具身智能安全研究 - 全球首个针对具身智能体安全性的综合性评测基准AGENTSAFE发布，填补了对抗性安全评测领域的空白[5][6] - 研究团队来自北航、中关村实验室、南洋理工大学等机构，成果荣获ICML 2025多智能体系统研讨会杰出论文奖[3][6] - 团队计划发布数据集、代码和评测沙盒供全球研究者使用[7] AGENTSAFE技术框架 - 基于AI2-THOR平台构建高度仿真的交互式沙盒环境，模拟45种真实室内场景和104种可交互物体[14][15] - 包含9900条危险指令的风险指令数据集，灵感来源于机器人三定律[16] - 引入6种前沿"越狱"攻击手段，如多语言攻击、说服性攻击、嵌套梦境攻击等[16][20] 评测方法与结果 - 采用端到端评测闭环设计，覆盖感知→规划→执行全流程[17][21] - 测试5个主流VLM模型，包括GLM-4V、Qwen2.5、GPT-4o、Gemini和Grok-2[30] - GPT-4o在"伤害人类"指令上拒绝率最高达90%，但"越狱"后暴跌至58.33%[36][39] - Qwen和Gemini对危险指令拒绝率最低，分别为5.11%和4.45%[32] - 所有模型在"越狱"攻击下安全性急剧下降，部分模型会生成完整的危险行动方案[38][40][41] 行业意义 - 具身智能的安全问题从"生成有害内容"升级为"执行危险物理动作"[10] - 现有评测基准多关注任务完成率，缺乏对抗性危险指令评估[11] - 研究表明当前具身智能体安全防护非常脆弱，需通过严格测试才能部署[43][44]

中科院自动化所机器人视觉中的多模态融合与视觉语言模型综述

具身智能之心· 2025-08-04 09:59

多模态融合与视觉语言模型综述 - 系统整合了传统多模态融合策略与新兴视觉语言模型（VLMs），从架构设计、功能特性及适用任务等方面进行比较分析 [5] - 分析范围扩展到新兴应用场景如多模态SLAM、机器人操作和具身导航，展示其在复杂推理和长期任务决策中的潜力 [5] - 总结了多模态系统相对于单模态方法的关键优势，包括增强的感知鲁棒性、语义表达能力、跨模态对齐和高级推理能力 [5] - 对当前用于机器人任务的主流多模态数据集进行深入分析，涵盖模态组合、覆盖任务、适用场景和局限性 [5] 多模态融合技术 - 多模态融合策略分为早期融合、中期融合和晚期融合，各有优缺点 [11] - 编码器-解码器框架通过编码器提取不同模态特征，解码器融合特征产生最终输出 [11] - 注意力机制通过自适应加权能力捕获跨模态特征之间的长距离依赖关系 [11] - 图神经网络通过图结构建模多模态数据，提取和融合不同模态的高级语义表示 [11] 3D目标检测 - 激光雷达和相机融合是3D目标检测中的主要研究方向之一 [11] - 基于雷达和相机、激光雷达和雷达的融合研究也取得进展 [13] - 在nuScenes基准测试中，多模态融合方法显著提高了目标检测的精度和鲁棒性 [72] 导航与定位 - 具身导航依赖于多模态信息在动态和非结构化环境中指导智能体行动 [14] - 具身导航研究主要集中在目标导向导航、指令遵循导航和对话式导航三个方向 [14] - 视觉定位通过多模态融合显著提高了定位的准确性和鲁棒性 [17] SLAM与机器人操作 - 多模态SLAM通过整合异构传感器数据增强环境感知能力 [19] - 视觉-语言-动作模型通过整合视觉感知、语言理解和动作规划为复杂操作任务提供高效框架 [20] - 视觉和触觉的多模态融合对于机器人抓取任务的精度和稳定性至关重要 [21] 视觉语言模型技术演变 - 跨模态预训练通过大规模多模态数据学习视觉和语言之间的深层关联 [23] - 跨模态对齐和表示学习是视觉-语言模型的核心 [26] - Transformer架构已成为深度学习的核心，在自然语言处理、计算机视觉和多模态学习中取得重大进展 [29] 多模态数据集 - 多模态数据集在语义场景理解领域中起关键作用 [43] - 代表性数据集包括nuScenes、Waymo Open Dataset、SemanticKITTI等 [48] - 机器人操作数据集整合了视觉、语言、深度和触觉等多种模态信息 [47] 性能评估 - 定义了一系列关键评估指标，涵盖语义理解、3D目标检测、定位和导航等多个方面 [55] - 在nuScenes基准测试中，多模态融合方法显著优于单模态方法 [71] - 在Room-to-Room基准测试中，多模态预训练方法提高了跨模态对齐能力 [74] 挑战与机遇 - 面临低质量数据、异构性、高效训练和推理以及高质量数据集稀缺等关键挑战 [84] - 未来研究方向包括改进跨模态对齐技术、开发高效的训练和推理策略等 [93] - 自监督学习和合成数据生成是减少对标注数据依赖的重要方向 [66]

多模态融合

视觉语言模型（VLMs）

机器人视觉

Artificial Intelligence

RoboMamba模型

多模态融合

视觉语言模型（VLMs）

机器人视觉

Artificial Intelligence

RoboMamba模型

具身的创业者，赌的是这个市场远远比普通人想的要大......

具身智能之心· 2025-08-03 00:02

具身智能行业发展趋势 - 具身智能技术将渗透出行设备、服务设备、电子设备、陪伴设备及家电领域，实现"具身化"转型[1] - 2025年WAIC展会上展示类人尺寸双足机器人及移动操作机器人，已应用于医疗、工业、服务业及家居场景[1] - 北京、深圳具身公司研发陪跑机器人及情感机器人，覆盖多种尺寸和形态[1] - 自动驾驶汽车向"VLA化"发展，系统可结合导航与视觉语言输入执行复杂指令（如定位最近星巴克）[1] 具身智能应用场景 - 工业机器人实现多任务并行处理，单产线可完成分拣衣物、玩具、汽车零部件等多样化作业[2] - 零售业部署无人超市解决方案，单台机器人可管理100平米超市或200平米餐厅[2] - 搬运机器人替代人工，在堆放整齐度与分类准确度上达到人工水平[2] - 陪伴机器人形态多样化，包括仿生宠物、电子设备及具备陪伴功能的家电[2] 具身智能技术生态 - 行业形成40+开源项目、60+数据集及主流仿真平台的技术资源池[17] - 技术路线覆盖感知（3D视觉/触觉）、交互（抓取/检测）、导航（VLN/VLA）、大模型（理解/生成）等30+方向[17] - 强化学习与Diffusion Policy成为关键技术，支持LLM-based RL及任务应用[40][58] - sim2real技术加速机器人仿真到实体部署的转化[64] 行业人才与社区建设 - 具身智能之心知识星球汇聚斯坦福、清华等高校实验室及智元、优必选等头部企业资源[17] - 社区提供60+数据集汇总、机械臂抓取位姿估计等实战方案，缩短学习路径[17][67] - 建立企业内推机制，对接智驾转具身智能的求职需求[11][78][80] - 行业薪资呈现分化，初创公司强化学习岗位薪资达(N+6k)*15，高于传统SLAM岗位[79][80] 技术转型路径 - 自动驾驶从业者可通过视觉语言导航(VLN)或端到端导航技术切入具身领域[78] - SLAM工程师转向需补充大模型、强化学习技术栈，头部公司更关注DL替代传统算子能力[78][80] - 短期转型建议聚焦具身感知或VLA模型方向，利用仿真平台积累项目经验[77][79]

自动驾驶汽车

服务机器人

工业机器人

陪伴式机器人

自动驾驶汽车

服务机器人

工业机器人

陪伴式机器人

Spec-VLA：首个专为VLA推理加速设计的推测解码框架

具身智能之心· 2025-08-03 00:02

研究背景与动机 - 视觉-语言-动作（VLA）模型通过预训练视觉编码器或视觉语言模型（VLMs）在机器人动作生成任务中取得显著进展，例如OpenVLA等模型展现出高泛化性 [3] - VLA模型面临两大核心挑战：backbone VLMs参数规模庞大导致计算需求激增，以及自回归（AR）解码策略增加解码延迟 [3] - 现有加速方法存在局限，如模型架构重构或任务特定优化需大量资源，早期退出和雅可比解码等方法迁移到VLA时效果有限 [3] - 推测解码（SD）作为无损加速方案，在LLM中证明有效，但直接应用到VLA仅能带来微小速度提升，亟需针对性设计适配VLA的推测解码框架 [3] 核心框架：Spec-VLA - Spec-VLA是首个专为VLA推理加速设计的推测解码框架，核心是引入draft模型与验证模型的协同机制 [4] - draft模型基于融合的文本和视觉特征，通过自回归解码预测动作token，验证阶段采用松弛接受机制保证动作生成成功率 [4] - draft模型采用Llama解码器层，融合特征级和token级损失数据，接收验证模型的隐藏状态、文本嵌入及视觉嵌入 [5] - 验证模型（如OpenVLA）对draft模型生成的多路径token进行并行验证，确保生成质量 [5] 关键机制：松弛接受 - Spec-VLA提出基于动作token相对距离的松弛接受机制，定义松弛阈值量化draft动作token与验证模型预测token的允许距离 [7] - 当两者距离不超过阈值时接受draft token，否则以验证模型预测结果替换并终止后续token验证 [7] - VLA模型将连续动作维度离散为256个bins，映射为256个动作token，token间距离可通过bin ID的绝对差直接计算，几乎无计算开销 [7] 实验验证 - 在LIBERO模拟基准的四个任务集上评估，以微调后的OpenVLA作为验证模型，再生数据集训练draft模型，每个任务进行50次测试 [9] - 直接应用Eagle框架的加速比为1.08×-1.15×，引入松弛接受后加速比提升至1.22×-1.42×，接受长度从2.10提升至2.94，增幅达25%-44% [10] - 松弛阈值增大时接受长度显著提升（各数据集增幅50%-70%），成功率保持稳定，模型性能越好可容忍的松弛阈值越大 [11] - 案例分析显示松弛条件可减少迭代次数，如"将盘子推到炉子前"任务中非松弛条件需4-5次迭代，松弛条件仅需2-3次 [13] - 松弛接受条件下长序列占比显著提升，如LIBERO-Object中长度4的占比从0.56%增至6.22%，增幅11倍 [14] 结论与局限 - Spec-VLA通过适配VLA模型并引入松弛接受机制，实现1.42×的加速，接受长度提升44% [16] - 局限在于实验未在真实世界机器人场景中开展，受验证模型限制未探索动作分块策略 [16]

视觉-语言-动作（VLA）模型

推测解码框架

视觉-语言-动作（VLA）模型

推测解码框架