Workflow
具身智能之心
icon
搜索文档
对话逐际动力张巍:造机器人很容易,关键是用起来
具身智能之心· 2025-08-29 08:03
公司定位与使命 - 公司定位为技术平台型公司,旨在提供机器人底层本体和运控能力,目标是"让天下没有难落地的机器人"[2][7][80] - 公司希望成为具身智能行业的"英伟达",提供一个底层平台,让不同领域的开发者能够基于此平台打造应用方案和产品[3][4][87] - 公司的终极目标是打造具身智能的Agentic OS,相当于人形机器人的"Windows"操作系统[8][108][154] 技术核心与优势 - 公司认为机器人落地的核心难点在于控制(大脑和小脑),而非硬件本体,硬件制造比造汽车和飞机容易[5][34][35] - 公司核心技术优势在于AI化的小脑能力,该能力在全球处于行业领先地位,是实现人形机器人运动控制的关键[5][37][39][53] - 运动控制的小脑AI化是近一两年才逐渐成熟的技术,这使得人形机器人的实现成为可能[38][39] 产品战略与路线图 - 公司发展路线分三步走:首先将双足人形机器人做到功能丰富、运动流畅;其次使其易编程,能用自然语言调用动作;最终目标是长出生态,形成操作系统[8][151][152] - 公司最新推出的全尺寸人形机器人LimX Oli定价为15.8万元,在同类产品中具有价格竞争力,公司通过自研关键部件来控制成本[114][116][118] - 公司产品战略强调差异化,专注于将双轮足机器人的能力做到全球第一,避免在四轮足等竞争激烈的领域内卷[94][95][97] 商业模式与客户 - 公司商业模式是服务三类客户:创新者、开发者与系统集成商,自身定位为技术提供方,不直接涉足最终行业应用[72][73][76] - 公司通过提供API、SDK和仿真环境来降低开发门槛,让开发者无需精通底层控制即可快速调起机器人动作[82][83][112] - 公司商业成功的核心指标是用户粘性和使用时长,而非单纯的销售数量,注重产品是否真正为用户创造价值[135][137] 行业观点与发展趋势 - 公司认为机器人形态将呈现四类共存:机器臂、上半身人形机器人、机器腿以及完整人形机器人,不会出现一种形态完全替代另一种的情况[30][31][33] - 行业发展的关键变量是AI技术的进步,尤其是大脑模型的成熟,将最大程度地发挥人形机器人作为载体的价值[41][42][110] - 短期内机器人应用将以B端为主,如巡检、搬运、安防等可控场景,大规模进入家庭可能还需要七到十年的时间[139][140][141] 数据策略与研发重点 - 公司采用多元数据配方策略,综合利用真机、仿真和互联网视频数据,并强调高效获取数据是关键,而非盲目追求数据量[65][67][70] - 公司研发资源投入侧重于技术产品化和商业化落地,对于尚在探索阶段的"找开关"式研究投入相对较少[49][50][123] - 公司认为在机器人领域,最好的创新往往由公司而非高校完成,因为工程能力在现代创新中占比巨大[18]
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-28 16:36
具身智能技术社群成立 - 行业成立具身智能之心技术交流群 重点关注视觉语言导航 视觉语言动作 遥操作 扩散策略 强化学习 仿真到现实迁移 多模态大模型 运动控制 目标导航 建图定位等技术方向[1] - 行业社群面向机构及学校研究人员开放 需通过指定联系方式备注机构名称 个人姓名及研究方向完成入群申请[2][3]
助力收割offer,这个具身领域的黄埔军校不简单......
具身智能之心· 2025-08-28 16:36
社区发展现状 - 具身智能社区目前拥有近2000名成员 目标在未来2年内扩大到近万人规模[1] - 社区提供视频 图文 学习路线 问答和求职交流等综合服务[1] - 社区已与多家具身机器人公司合作开发教程 促进本体功能拓展[1] 社区核心价值 - 社区提供实用问题解答 包括设备使用 数据采集和模型部署等技术支持[1] - 社区完成产业 学术 求职和问答等多领域闭环 提供前沿研究解决方案[2] - 社区梳理近30+技术路线 缩短用户检索时间 并邀请数十位一线产业界和工业界嘉宾答疑[2] 技术内容覆盖 - 社区涵盖数据采集 灵巧手 VLA模型 VLN模型 多传感器融合 机器人操作系统等13个技术目录[5] - 具体技术点包括RoboTwin 2.0数据生成器 BridgeVLA模型真机性能提升32% 以及Spec-VLA推测解码框架等[5] - 社区汇总40+开源项目 60+数据集 以及行业主流仿真平台[13] 学习资源体系 - 社区提供16个技术学习路线 包括具身感知 强化学习 VLN VLA 多模态大模型等方向[13] - 学习资源覆盖机器人导航 动力学 路径规划 视觉控制等多个基础领域的PDF书籍[23] - 社区汇总触觉感知最新综述 传感器应用 多模态算法集成和数据集等前沿内容[47] 行业生态连接 - 社区连接国内外知名高校实验室和头部公司 包括斯坦福 清华 智元机器人 优必选等机构[13] - 汇总国内外具身智能公司 涉及教育 宠物 工业 救援 物流 交互和医疗等多个方向[18] - 提供机器人零部件品牌汇总 包括芯片 激光雷达 相机 IMU和底盘等制造商信息[25] 就业与商业机会 - 社区建立岗位内推机制 与多家具身公司合作 第一时间对接求职者简历[5] - 社区提供行业研报汇总 帮助了解大模型和人形机器人行业发展与工业落地情况[20] - 社区提供投资与项目对接服务 挖掘行业商业机会[15]
具身智能之心B端和C端培训老师招募来啦~
具身智能之心· 2025-08-28 09:20
业务模式 - 公司开展B端和C端培训业务 B端主要面向企业和高校及研究院所 C端面向学生和求职人群[1][3] - 业务内容包括制定课程大纲和制作课程材料[3] 技术方向 - 培训内容涵盖VLA VLN 遥操作 Diffusion Policy 强化学习 VLA+RL sim2real 多模态大模型 仿真 运动控制 目标导航等前沿技术领域[2] 人才要求 - 要求博士及以上学历(包含在读)[3] - 需具备2篇A会或一区以上期刊/会议发表或2年及以上工业界经验[3] 合作方式 - 通过微信平台进行业务咨询(微信号:oooops-life)[4] - 提供高于行业水平的酬金待遇[1]
斯坦福大学提出RTR框架,让机械臂助力人形机器人真机训练
具身智能之心· 2025-08-28 09:20
文章核心观点 - 提出一种名为RTR的创新软硬件协同系统,通过“教师”机械臂在现实世界中“手把手”地指导“学生”人形机器人进行在线强化学习,以突破人形机器人真机强化学习的瓶颈 [3][5][7] - RTR系统结合了主动物理辅助硬件与高效算法,实现了在真实环境中对机器人策略进行安全、高效的在线微调,显著提升了数据效率和性能 [7][12][14] - 该方法在行走和“荡秋千”两个任务中得到验证,仅需20分钟的真实世界训练即可将仿真预训练的行走策略速度提升一倍,并在20分钟内从零学会周期性摆荡动作 [14][18] 方法 硬件设置 - 硬件系统由“教师”和“学生”两组机器人组成:教师系统核心是带力-矩传感器的UR5六轴机械臂,通过四根弹性缆绳柔性连接学生机器人肩部;学生系统基于拥有30个自由度的开源ToddlerBot人形机器人 [9] 算法设计 - Sim-to-Real过程分为三阶段:首先在大量域随机化仿真环境中训练接受隐变量z输入的控制策略;其次在仿真中优化一个“通用”初始隐变量作为真实世界微调的起点;最后在真实世界冻结策略网络,仅在线优化低维隐变量z以实现高效微调 [10][12] - 使用FiLM层将环境动力学相关的隐变量融入策略网络,其效果优于直接将环境动态变量拼接到策略网络观测中的方法 [10][17] 实验验证 行走任务 - 消融实验表明,能够主动顺应机器人运动的“柔性”机械臂辅助结合从高辅助过渡到零辅助的课程学习策略,其效果优于固定吊架或固定辅助策略 [14] - RTR提出的“微调隐变量”方法在数据效率和最终性能上均优于微调整个策略网络或微调残差网络的基线方法 [14] 荡秋千任务 - 在纯真实环境强化学习任务中,教师机械臂通过实时力反馈感知摆动相位,在适当时机给予帮助或扰动,其效率高于教师仅作为固定吊架的方案 [18] - 整个学习过程从零开始,在20分钟内学会了幅度明显的周期性摆荡动作 [18] 总结与展望 - RTR框架引入了主动力辅助的新范式,其极具扩展性的框架未来可推广至全尺寸人形机器人及其他复杂机器人系统的真实世界强化学习任务中 [16]
EgoTwin :世界模型首次实现具身「视频+动作」同框生成,时间与空间上精确对齐
具身智能之心· 2025-08-28 09:20
技术框架创新 - 提出EgoTwin框架,首次实现第一视角视频与人体动作的联合生成,两者在时间与空间上精确对齐 [2][5] - 采用三通道网络架构,各通道配备独立tokenizer与Transformer模块,跨通道共享权重以减少冗余计算 [11][13] - 基于Head-centric的动作表示将头部设为根节点,直接输出头部6D位姿,使头-相机轨迹一一对应,无需正向运动学推导 [12] 性能突破 - 轨迹对齐误差(TransErr)从1.28米降至0.67米,降幅达48% [7][18][19] - 手部可见性F-score从0.36提升至0.81,增幅达125% [7][18][19] - 在9项评测指标中全面领先基线,包括I-FID从157.86降至98.17,FVD从1547.28降至1033.52 [18][19] 多模态交互机制 - 建立文本-视频-动作双向因果注意力交互机制,实现动作token与视频token的因果循环闭环 [12][14] - 采用异步扩散机制,视频与动作在各自时间轴独立加噪去噪后再交叉通信,保证同步性 [12][16] - 支持T2VM(文本生成视频+动作)、TM2V(文本+动作生成视频)、TV2M(文本+视频生成动作)三种生成模式 [8][16][24] 数据与训练 - 基于Nymeria数据集使用17万段5秒剪辑视频训练,涵盖百余种日常动作 [8][17] - 训练分三阶段:先训练动作VAE,再冻结文本/视频分支训练动作对齐,最后三模态联合微调 [21] - 使用T5-XXL编码文本(226 token)、3D因果VAE处理视频(41帧480×480压缩至9900 token)、自研1D因果VAE处理动作(81帧23关节骨骼压缩至21 token) [20] 应用场景 - 适用于AR/VR、具身智能与可穿戴设备领域,实现视角一致且因果连贯的生成效果 [2][5] - 消融实验证实移除Head-centric标注、双向注意力或异步扩散任一组件均导致一致性指标急剧恶化 [22][23]
启动招募!外滩大会机器人职业技能表演赛等你来战
具身智能之心· 2025-08-28 09:20
赛事信息 - 外滩大会将举办人工智能硬件科创赛 并特设现场机器人职业技能表演赛 由蚂蚁数科承办 [4][5] - 比赛赛道设置包括危境穿越区 精细作业区 紧急救援区 涵盖浓烟障碍地形自适应 装火药插雷管 开关闸火海救援等场景 [5] - 评选规则由现场专家根据任务难度 操作准确度 流畅度 效率 自主性等多维度记分 [5] - 报名截止时间为2025年8月30日 比赛将于2025年9月10日在上海黄浦世博园区举行 [5] 行业应用前景 - 具身智能产业被期待应用于深矿 危楼 火海 山区 工地 医院等场景 为人类解决困难抵御风险 [2] - 行业目标包括让巡检员不必亲临苦寒之地 矿工不必以健康换取生计 消防员不必以血肉对抗高温 [2] 社区与资源 - 具身智能之心知识星球是国内首个具身智能全栈学习社区 汇总近30+学习路线 40+开源项目 近60+数据集 [1][7] - 社区关注方向包括数据集 仿真平台 VLA VLN 具身大脑 大模型 强化学习 机器人抓取控制等 [7][10] - 社群拥有近60个技术交流群 涵盖大模型 机器人 感知融合 规划控制等方向 近200家公司和机构参与交流 [7][10]
英伟达通用机器人芯片来了:AI算力提升7.5倍,宇树、银河通用已搭载
具身智能之心· 2025-08-27 08:04
产品发布与性能参数 - 英伟达正式发布新一代机器人专用芯片Jetson Thor 旨在适配具身智能新算法并支持人形机器人等多种形态[3] - Jetson Thor搭载Blackwell架构GPU AI计算能力达2070 FP4 TFLOPS 是上一代Jetson Orin的7.5倍 功耗130W 能效提升3.5倍[3] - 内存容量提升两倍至128GB 显存带宽273GB/s 支持多实例GPU和14核Arm Neoverse-V3AE 64位CPU[7] - 提供两种配置版本:Jetson T5000(AI性能2070 TFLOPS)和Jetson T4000(AI性能1200 TFLOPS)[7] 技术特性与应用场景 - 专为生成式AI模型推理打造 支持大型transformer模型、视觉语言模型(VLM)及视觉语言动作模型(VLA)的端侧实时运行[7] - 通过FP4精度与推测解码优化可进一步提升性能 支持完整NVIDIA AI软件栈包括Isaac、Metropolis和Holoscan平台[10] - 配套工具支持低延迟与高性能需求 兼容主流生成式AI框架如Cosmos Reason、DeepSeek、Llama、Gemini、Qwen及机器人专用模型Isaac GR00T[8] - 旨在解锁基于端侧的高速传感器数据和视觉推理 帮助人形机器人实现自主观察、移动和决策[5] 产品生态与市场合作 - 开发套件NVIDIA Jetson AGX Thor起售价3499美元(约合2.5万元人民币) 量产模组T5000千片以上单价2999美元(约合2.14万元)[11] - 国内机器人公司宇树科技、银河通用机器人宣布首发搭载Jetson Thor芯片 银河通用机器人Galbot已展示工业场景应用[13] - 联影医疗、万集科技、优必选、众擎机器人和智元机器人等公司宣布首批使用新一代端侧算力[14] - 硬件合作伙伴研华科技、米文动力、天准科技等正在打造成套系统 传感器企业亚德诺半导体、英飞凌等构建相应组件[14] 战略布局与行业愿景 - Jetson Thor补全英伟达端侧AI算力版图 与云端训练平台DGX、仿真平台Omniverse构成完整计算机解决方案[11] - 公司押注机器人、自动驾驶等未来万亿美元级市场 认为自动驾驶汽车和机器人技术结合代表"数万亿美元增长机会"[18] - 面向自动驾驶汽车的Nvidia Drive AGX Thor即将上市 现已开放预订 预计9月开始交付[15] - 英伟达研究人员提出新型混合架构语言模型Jet-Nemotron 在H100 GPU上生成吞吐量较先进开源模型提高53.6倍[15]
转行,拿到了具身岗位的offer!
具身智能之心· 2025-08-27 08:04
社区发展现状与规模 - 具身智能之心知识星球社区已发展成为集视频、图文、学习路线、问答、求职交流为一体的综合类具身社区,目前拥有近2000名成员 [1] - 社区计划在未来2年内将规模扩大到近万人,致力于打造技术分享与交流的聚集地 [1] - 社区与多家具身机器人公司合作开发教程与功能,并计划将相关内容公布到社区以促进行业发展 [1] 社区资源与技术内容 - 社区内部梳理了近30+技术路线,涵盖benchmark、综述和学习入门路线,显著缩短检索时间 [2] - 汇总了40+开源项目、60+具身智能相关数据集及行业主流仿真平台 [18] - 提供多领域技术学习路线,包括具身感知、强化学习、VLA模型、多模态大模型等18个方向 [18] - 社区定期举办圆桌论坛和直播,覆盖本体、数据、算法等领域,分享行业动态 [4] 行业合作与就业服务 - 社区与多家具身公司建立岗位内推机制,为成员提供简历直推服务 [10] - 发布具身智能相关职位招聘信息,如多模态大模型方向月薪40k-80k,强化学习方向月薪40k-80k [11][13] - 汇总国内外具身智能高校和公司信息,为成员提供学术和职业发展参考 [21][23] 技术研讨与创新 - 社区探讨前沿技术问题,包括机器人仿真、VLA模型应用、sim2real泛化等 [2][4] - 分享多项创新研究成果,如Interleave-VLA框架提升跨域泛化2-3倍,BridgeVLA方案提升真机性能32% [4][5] - 覆盖多传感器融合、机器人操作系统、世界模型等多个技术领域 [6][7][9] 成员互动与支持 - 社区为成员提供实用问题解答,包括设备使用、数据采集、模型部署等 [1] - 成员可自由提问工作选择或研究方向问题,并获得行业大佬解答 [77] - 社区内部交流案例显示,成员从自动驾驶转向具身智能领域的技术过渡路径 [78][80]
速度提升3倍,CoT推理助力VLA!ECoT-Lite:融合具身机器人推理改善策略的几种机制
具身智能之心· 2025-08-27 08:04
具身思维链推理(ECoT)方法 - 具身思维链推理(ECoT)通过将机器人动作预测分解为中间推理步骤(如物体位置识别、子任务规划或可操作性预测)来提升策略泛化能力,无需额外收集机器人演示数据 [3] - ECoT方法显著提高策略对新场景、新物体和新任务指令的泛化能力,但伴随训练数据需附带详细推理指令以及推理速度较慢的成本(单次动作预测需几秒钟) [3] ECoT-Lite优化方案 - 提出ECoT-Lite轻量替代方法,包括推理预训练、推理丢弃和推理支架等变体,避免常规链式思维推理的缺点同时保留大部分泛化好处 [6][8] - ECoT-Lite在LIBERO模拟基准上取得最先进性能(准确率约90%),在BridgeData V2评估中超越最先进传统VLA模型10-19%,推理速度从1-1.2Hz提升至3.5Hz以上 [8][54] 性能机制假设与验证 - 假设1(表征学习):推理步骤改善模型内部表征,使策略关注推理要求预测的特征;推理预训练和推理丢弃方法显著提升性能(LIBERO上推理丢弃达89.4%准确率) [24][54][63] - 假设2(学习进程):推理作为隐式学习课程,帮助模型从简单任务逐步过渡到完整动作预测;推理支架方法对基线性能有小幅提升(+2.9%) [26][87] - 假设3(表达能力):增加token序列长度增强模型表达能力;但思考标记(thinking tokens)方法反而降低性能(平均下降3.8%),表明主要好处来自语义推理而非计算资源扩展 [28][88] 实验环境与结果 - 在LIBERO-90和BridgeData V2环境中评估,要求策略超越训练数据泛化;LIBERO-90包含90个任务,BridgeData V2评估包括任务分布内泛化、运动泛化、空间关系和未见物体 [41][42] - 完整ECoT在LIBERO-90上达90.8%准确率,推理丢弃达89.4%,推理预训练达87.1%;在BridgeData V2上,ECoT仍是最优但ECoT-Lite速度提升约3倍 [54][58][61] 方法选择建议 - 完整ECoT最大化性能但推理速度慢(1-1.2Hz);推理丢弃在少任务领域表现优异且支持测试时灵活开启推理;推理预训练在多样化任务领域更有效且不需要成对推理-动作数据 [90][92] - 推荐使用完整ECoT追求最高性能,推理丢弃用于少任务领域或需测试时推理,推理预训练用于多样化任务领域或有无配对数据场景 [92] 局限性 - ECoT-Lite仍需机器人推理训练数据,其提取可能困难且昂贵;策略表达能力可能不是VLA瓶颈,思考标记方法未改善性能 [93] - 实验保持策略架构、训练超参数和推理语料库不变,未来可优化推理预训练以支持跨本体推理迁移,减少对成对数据依赖 [93]