Workflow
具身智能之心
icon
搜索文档
LimX COSA,逐际动力全新发布具身Agentic OS系统
具身智能之心· 2026-01-12 11:36
文章核心观点 - 逐际动力正式发布具身智能体系统LimX COSA,该系统是面向物理世界原生的具身Agentic OS,实现了高阶认知与全身运控的深度融合,使机器人能想、能动、边思考边干活 [1] - COSA系统驱动全尺寸人形机器人Oli,使其成为兼具运动智能和高阶认知的人形智能体,标志着行业从关注模型能力转向关注OS系统能力,从技术Demo主导转向产品交付与体验主导的一大进步 [1][15] COSA系统定位与设计思想 - COSA是连接机器人与物理世界的关键枢纽,旨在以Agent范式打造OS系统,管理模型、技能、记忆等,对齐视觉语言模型与全身运控,实现“大小脑”能力融合,让机器人主动思考、自主干活 [2] - 系统采用自底向上的三层结构:底层为高鲁棒性的全身运动控制基础模型;中层为可组合、可调度各种复杂技能的大小脑融合高阶技能层;顶层为具备交互、记忆与思考的自主认知与决策能力 [4][6] - COSA相当于机器人的“神经系统”,使其从被编程的机器转变为具备理解、记忆、行动与持续适应能力的具身智能体 [8] COSA赋予的核心能力 - **高阶认知与推理**:赋予机器人基于物理逻辑的思考与决策能力,能理解自然语言指令,自主完成复杂任务拆解与规划,并根据环境动态调整,实现多任务并发处理与边思考边行动 [9] - **语义记忆与主动感知**:通过跨时间、跨模态的感知与记忆,赋予机器人对物理世界的持续认知能力,能对环境、对象及交互历史进行语义记忆和建模,并实现从被动接受到主动感知探索的跨越 [11] - **基于实时感知的全身移动操作**:实现高阶智能与运动智能的无缝耦合,使机器人能在复杂环境中保持稳定运动,并在移动中流畅完成操作任务,展现出色的自适应与泛化能力 [13] COSA的行业意义与公司背景 - COSA是一个面向物理世界原生的具身智能体系统,其认知、决策与调度机制以机器人本体与真实物理世界为默认运行环境,运动能力是认知的基础,决策是与环境实时交互的连续过程,旨在推动人形机器人真正落地应用 [15] - 逐际动力是一家AI驱动的人形机器人公司,聚焦全尺寸通用人形机器人,核心技术包括本体硬件设计制造、基于强化学习的小脑全身运动控制、具身大脑模型训练策略,致力于打造具身化多智能体操作系统并推动其广泛应用 [16][17]
最近开源的一个框架,使用各种SOTA技术训练你的VLA模型
具身智能之心· 2026-01-12 11:36
行业痛点与市场缺口 - 行业现有的VLA模型训练工具(如OpenPi、LeRobot)缺乏一站式解决方案,核心能力存在明显缺失,无法满足前沿模型训练需求 [3] - 现有工具不支持异构数据集按可调混合比例进行协同训练,也不支持离散动作训练、VLM与动作解码器间的知识隔离,以及风格强化学习pipeline [3] - OpenPi的PaliGemma中Dropout层仅支持Jax框架,PyTorch版本缺失;LeRobot则缺少完整的checkpoint(缺失文本嵌入) [4] - 整体来看,行业缺少可复现、易访问、可扩展的VLA模型训练工具链,这制约了机器人领域嵌入式AI的科研进展与技术落地 [4] OpenTau框架的核心优化与功能 - 该框架基于LeRobot(PyTorch框架)进行拓展开发,完全兼容LeRobot生态,其所有合规的策略和数据集可直接复用 [5] - 补齐了PaliGemma在PyTorch框架下的Dropout层支持,解决了OpenPi仅Jax框架支持该功能的短板 [5] - 项目统一采用PyTorch框架,降低了跨框架适配带来的研发成本 [6] - 完善了checkpoint,补充了LeRobot缺失的文本嵌入,保证了模型功能的完整性 [7] - 保留了LeRobot多节点/多GPU训练、仿真环境评估的能力,同时新增多项核心训练能力,旨在打造一站式VLA训练工具链 [7] - 重要模块支持异构数据集按可调混合比例进行协同训练 [8] - 更新/新增功能包括:提供离散动作训练能力以加速VLM收敛;实现VLM backbone与动作解码器间的知识隔离;在VLM中加入Dropout层以降低过拟合风险;内置风格的强化学习pipeline [12] - 该框架填补了OpenPi、LeRobot在异构数据集协同训练、离散动作训练、VLM与动作解码器知识隔离、风格RL流水线等核心能力上的空白 [12] - 提供了完整可运行的checkpoint,并基于LeRobot拓展,在兼容其生态的同时补齐核心能力 [12] 开发者资源与社区生态 - 提供了详细的文档指引、本地Notebook示例和谷歌Colab笔记本,方便用户快速上手进行模型训练和评估 [12] - 提供了高成功率的预训练模型checkpoint(如TensorAuto/tPi0.5-libero、TensorAuto/pi05_base),可供用户直接下载使用 [12] - 存在一个名为“具身智能之心知识星球”的社区,自称是国内首个具身智能开发者社区,也是最专业最大的交流平台,关注方向广泛 [14][15] - 该社区汇总了近30条学习路线、40多个开源项目、近60个具身智能相关数据集,并声称有近200家公司和机构参与交流 [15] - 此外,还存在近60个技术交流群,覆盖大模型、VLA、强化学习、机器人仿真等多个方向,供开发者加入交流 [17][18]
一直霸榜的pi0.5,被中国的模型干下来了!!!
具身智能之心· 2026-01-12 08:03
模型性能突破 - 千寻智能团队研发的Spirit v1.5模型在RoboChallenge评测榜上超越此前霸榜的Pi0.5,以66.09的总分和50.33%的成功率夺得总榜第一,而Pi0.5的分数和成功率分别为61.84和42.67% [2][4] - 这是中国具身智能模型首次在性能上超越海外最先进的开源模型,标志着中国在该领域进入全球领先阶段 [2] 传统数据方法的局限性 - 依赖高度“干净”的演示数据是模仿学习的弊病,其对应高昂成本,且存在多样性低和可扩展性受限的问题 [5] - 数据多样性低:采集过程遵循固定指令,导致数据缺乏多样性,例如“擦桌子”的数据集无法让模型学习处理打滑、杂乱表面或光线变化等现实复杂性 [5] - 可扩展性受限:每个新任务都需要精细的设计和质量控制,消耗大量工程资源,限制了数据采集的体量和模型可获得的机器人经验 [5] Spirit v1.5的核心技术特点 - 模型训练不依赖高度精选的“干净”演示数据,避免了因数据过于理想化而限制机器人在开放世界中的泛化能力 [6][7] - 在预训练阶段引入了开放式、多样化的数据采集范式,数据采集以“完成有意义目标”为导向,允许操作中自然串联多个子任务,使模型能接触到遮挡、失败恢复等真实世界复杂性 [8] - 这种基于多样化数据的预训练范式,代表了机器人学习领域摆脱对高度精选数据集依赖的根本性转变 [14] 多样化数据的训练优势 - 消融实验表明,在相同数据规模下,基于多样化数据预训练的模型在新任务上的迁移效率明显高于基于传统演示数据训练的模型,达到相同性能所需的计算资源显著减少 [9] - 多样化数据预训练的模型比干净数据训练的模型具有更快的收敛速度和更好的验证误差 [12] - 模型迁移效率随多样化数据量的增加呈正相关,数据规模扩大能持续降低模型在新任务上的验证误差,表明任务多样性比单任务演示数量更为关键 [13][16] - 使用高多样性、弱控制的数据进行预训练不仅可行,而且显著优于学术界常见的利用“干净”数据的做法 [13]
用低成本复现这几个Git上最受欢迎的VLA任务
具身智能之心· 2026-01-11 11:02
行业痛点与市场需求 - 复现视觉语言动作模型任务面临高成本障碍,可用的机械臂基本价格在1.5万元以上,加上相机等传感器,对自学者或缺乏设备的群体构成硬伤 [3] - 开源低成本机械臂存在使用门槛,初学者在数据采集、模型训练和动作生成方面难以调出效果,导致大量时间浪费在踩坑上 [4][5] - 打通数据采集、VLA模型、训练优化与部署的全流程任务对初学者非常困难,特别是对于π0、π0.5、GR00T等模型,其数据采集和训练存在许多技巧 [5] - 市场存在对低成本完成各类VLA任务的强烈需求,许多学习者希望在预算有限的情况下也能入门该领域 [7] 解决方案与课程产品 - 具身智能之心平台基于SO-100和LeRobot复现了ACT、GR00T、π0、π0.5等方法,旨在解决学习者缺乏真机、真机昂贵以及不知如何上手的问题 [8] - 平台联合业内VLA专家开发了国内首个《面向实战与求职的VLA小班课》,以应对技术更新快、学习难度大的挑战 [9] - 课程内容全面,涵盖机械臂硬件、数据采集、VLA算法、模型评测、仿真、主流VLA模型部署、VLA结合世界模型、各类真机实验以及具身产业讲解 [14] - 该课程被描述为平台最大、最完整的课程,采用软硬结合的方式,旨在提升学习效率 [15] - 课程已正式开课,学员社群内交流活跃,能够为学习过程中遇到的问题提供解答 [16] 课程硬件与师资 - 购买课程的学员将获赠一套SO-100机械臂,包含示教臂和执行臂,通过淘宝购买后直接发货给学员 [18] - 课程讲师为某机器人公司VLA高级研究员,拥有超过5年的机器人行业实战经验,聚焦产学研协同落地,熟练掌握具身智能全栈技术 [21] - 讲师在人形/轮式机器人、机械臂等多种具身本体上有深度实操经验,并在自动控制、机器人领域的IEEE Trans系列、Neural Networks等顶级期刊发表过10篇以上学术论文 [21] 目标人群与课程要求 - 课程面向正在具身领域求职需要实战项目的同学、VLA领域需要进阶的入门者、从事具身智能研究的本硕博学生、希望从传统CV/机器人/自动驾驶转行至具身领域的人员,以及对具身智能感兴趣的其他人员 [25] - 课程对计算资源有明确建议:推理建议使用RTX 3060及以上显卡,训练建议使用2张以上RTX 3090 Ti显卡,学员也可自行租赁云服务器资源 [25] - 学员需要具备一定的Python和PyTorch基础 [25] 学习收获与课程安排 - 完成课程后,学员将掌握真机的调试与数据采集、各类VLA算法在真机上的部署,并对VLA模型的量化有深入了解 [25] - 学员将对具身产业和落地应用有清晰认识,简历上能积累足够多的项目支撑,学完后能达到具备1-2年以上经验的算法工程师水平 [27] - 课程项目经验可直接写入简历,所学技巧可作为面试答案,能帮助学员节省大量自行摸索踩坑的时间 [12] - 课程计划于2025年12月30日开课,后续章节将持续至2026年2月25日 [28] - 课程价格为788元 [29]
不用VLA!从视频生成模型到机器人控制
具身智能之心· 2026-01-11 11:02
文章核心观点 - 提出了一种名为LVP(Large Video Planner)的具身智能新范式,其核心思想是利用视频生成模型进行机器人控制,而非直接输出动作指令[12] - 该方法通过在大规模、多样化的视频数据集上预训练,使机器人模型获得了对物理世界运作规律的通用理解,从而在零样本情况下展现出对未见任务和场景的强大泛化能力[19][47] - 尽管在推理速度和实时控制方面存在局限,但该研究证明了视频生成模型作为通用机器人大脑的潜力,是迈向更智能、更通用机器人的重要一步[44][46] 技术方法与模型架构 - 核心模型LVP是一个拥有140亿参数(14B)的专用视频生成模型[18] - 模型采用“视频即规划”理念,利用视频包含的时空连续性信息,比离散的文本或动作指令蕴含更丰富的知识[19] - 引入了两项关键技术改进以确保生成视频的可执行性:1) **扩散强迫**:一种灵活的训练策略,使模型能根据清晰的第一帧或一段视频上下文稳定预测未来画面[24];2) **历史引导**:一种采样技巧,强制生成的视频严格遵循第一帧(机器人当前视角),保证物理连贯性[26] 训练数据集 - 为训练LVP模型,研究团队构建了名为LVP-1M的数据集,包含约140万个视频片段[29] - 数据来源高度多样化,融合了机器人数据、人类第一视角数据和互联网视频,以提供机器人形态先验、丰富的手物交互细节以及多样化的场景任务[30] - 关键数据清洗步骤包括:用大模型重新生成详细的动作描述、对齐机器人视频与人类视频的时间频率(统一为3秒完成动作)、剔除剧烈镜头晃动以专注于手物交互[34] 从视频到动作的执行流水线 - 设计了一套纯视觉的动作提取流水线,无需额外训练,将生成的视频转化为机器人可执行的动作[32] - 流程分为四步:1) LVP模型生成人类手部完成任务视频[35];2) 使用HaMeR模型对每帧进行3D手部重建[35];3) 使用MegaSAM模型进行4D时空对齐,平滑修正手部轨迹[35];4) 通过重定向算法将人手关节角度映射到机器人灵巧手或二指夹爪上[35] 性能评估与实验结果 - 在硬核的第三方“野外测试”中,LVP成功完成了包括撕胶带、舀咖啡豆等在内的从未见过的任务[38][39] - 与通用视频生成模型(如Wan 2.1, Cosmos)相比,LVP生成的视频在物理接触正确性和任务完成度上遥遥领先,通用模型常出现手穿物体等物理谬误[41] - 与当前最强的机器人视觉-语言-动作模型(如OpenVLA, π0)相比,LVP在零样本泛化能力上表现突出:在任务组A(平行夹爪)的“拾取物体”任务中,LVP成功率为5/10,优于π0的3/10和OpenVLA的0/10[8][43];在任务组C(分布外场景)的“拾取物体”任务中,面对新物体时成功率为4/10,而π0和OpenVLA均为0/10[8][43] 当前局限性与未来方向 - **推理速度慢**:在A100 GPU上生成一个视频计划需要几分钟,目前无法用于实时闭环控制,只能进行开环执行[48] - **依赖开源组件**:动作提取依赖HaMeR和MegaSAM等第三方模型,若组件识别错误会导致执行失败[48] - **开环执行风险**:一旦开始执行,若中途发生意外(如物体滑落),机器人无法像闭环策略那样实时调整[48]
清华和Qwen团队最新!深究VLM如何影响VLA性能?并通过少量新参数转化为VLA策略
具身智能之心· 2026-01-11 11:02
文章核心观点 - 视觉-语言-动作模型是具身智能实现自主操控与环境适应的关键技术框架 其核心价值在于复用成熟视觉-语言模型的通用知识 显著降低开发成本并提升模型的跨场景适应能力 [1][10] - 通过超过100次实验的系统性分析 明确了构建视觉-语言-动作模型的关键影响因素 包括视觉-语言模型骨干选型、辅助任务微调策略以及模块训练策略 并首次明确指出视觉编码器是当前主要的性能瓶颈 [2][11][16] - 视觉-语言-动作模型的发展正从单一范式走向融合 未来将通过“轻量化基础+增强型插件”的自适应架构 平衡效率与性能 加速在家庭服务、工业生产等领域的工程化落地 [19][26] 从视觉-语言理解到具身动作规划的范式转移 - 早期具身智能依赖专用机器人模型 泛化能力受限 当前研究范式已转向利用预训练视觉-语言模型的海量知识来提升动作规划的通用性 [3] - 视觉-语言模型与视觉-语言-动作模型紧密关联 前者提供跨模态理解的“认知基础” 后者则是将理解转化为可执行物理动作的“动作延伸” [3] - 当前研究面临三大核心问题:视觉-语言模型选型与性能关联不明确、辅助任务微调效果未知、以及内部模块作用权重模糊 [3] 视觉-语言模型与视觉-语言-动作模型的差异与统一性 - 核心目标存在本质区别:视觉-语言模型旨在实现跨模态对齐与理解 而视觉-语言-动作模型的目标是将理解转化为机器人可执行的动作序列 [5] - 数学优化目标不同:视觉-语言模型优化表征一致性 视觉-语言-动作模型则需优化动作预测的准确性并考虑物理可行性 [6] - 可通过“VLM4VLA”最小适配框架实现技术统一 该框架在不改变视觉-语言模型主体结构的前提下 引入少于1%的可学习参数将其转化为动作模型 [7][9] 构建视觉-语言-动作模型的必要性与核心组件 - 从泛化视角看 视觉-语言模型提供的先验知识能大幅提升模型跨场景适应能力 从实用视角看 复用成熟模型可显著降低开发成本并加速技术落地 [10] - 实验表明 基于视觉-语言模型初始化的动作模型性能远超从零训练的基线 [10] - 模型性能受三大维度共同影响:视觉-语言模型骨干模型选型、辅助任务微调策略以及模块训练策略 [11] 视觉-语言模型骨干模型选型的影响 - 实验选取了9种主流开源视觉-语言模型 参数规模从1B到30B不等 并在三大基准上进行测试 [12] - 视觉-语言模型的通用能力与其在具身任务中的性能无强关联 例如在通用视觉问答中领先的Qwen2.5VL-7B模型 在部分具身基准上的表现可能不如参数更小的Kosmos-2 [15] - 架构适配性至关重要 专为接地任务优化的模型在部分场景表现好 而侧重通用理解的模型在长序列任务中更具优势 [15] 辅助任务微调策略的影响 - 实验对Qwen2.5VL系列模型进行了7种典型具身辅助任务的微调 发现多数任务微调效果不佳 甚至导致性能下降 [13][20] - 混合通用视觉问答数据与具身数据进行微调的模型性能最接近基线 表明动作模型需要的是广谱的跨模态能力 而非单一具身技能 [20] - 深度图生成、语义分割等生成式辅助任务微调 并未提升动作模型的规划能力 [20] 模块训练策略与视觉编码器的核心瓶颈 - 冻结视觉编码器会导致视觉-语言-动作模型性能大幅下降 例如Paligemma-1模型冻结后 Calvin基准得分从3.506降至0.495 降幅达86% [16][21] - 冻结词嵌入层或语言编码器对性能影响极小 降幅通常小于5% 表明语言理解需求可由预训练能力满足 [16][21] - 视觉编码器的瓶颈源于预训练数据与具身场景数据的域差异 以及不同任务对视觉特征需求的错位 [21] 动作生成范式与优化路径 - 直接映射范式通过“视觉-语言模型跨模态表征+多层感知机动作解码”实现端到端生成 具有轻量化、稳定性强、通用性好的优势 [18][22] - 增强推理范式通过强化视觉-语言模型的具身能力或优化动作生成模块来提升性能 例如向视觉编码器注入控制信息可使Qwen3VL-4B在SimplerBridge基准成功率提升18.1% [19][22] - 未来趋势是范式融合 以直接映射为基础保证效率 在复杂场景引入增强模块提升性能上限 [19] 评估体系的演化与核心指标 - 评估基准正从简单、静态、单一模态场景 向复杂、动态、多模态交互场景演化 以更贴近真实应用 [23][24] - 主流基准包括Calvin ABC-D、SimplerEnv Bridge和Libero-Long 分别侧重于长序列操控、真实-模拟迁移以及多物体交互等不同挑战 [24] - 评估需注意控制随机性、统一实验设置 并重点关注模型在未见过场景的泛化能力 [25][27] 核心技术挑战与未来研究方向 - 当前面临四大挑战:视觉域差异与特征错位、通用能力与具身性能适配难、辅助任务微调有效性边界不明确、以及真实场景落地的公平性与可复现性问题 [27] - 未来研究将聚焦于:视觉模块的域适配技术、构建自适应融合架构、设计专用评估体系以及创新数据与训练策略 [27] - 随着技术进步 视觉-语言-动作模型将推动具身智能从“专用模型”向“通用模型”跨越 加速在多个行业的落地 [26]
打破学科壁垒!400篇参考文献重磅综述,统一调查「人脑×Agent」记忆系统
具身智能之心· 2026-01-11 11:02
文章核心观点 - 一篇由哈工大、鹏城实验室、新加坡国立、复旦、北大联合发布的综述《AI Meets Brain: A Unified Survey on Memory System from Cognitive Neuroscience to Autonomous Agents》首次系统性地将人脑记忆机制与人工智能代理(Agent)的记忆统一审视,旨在为设计真正“类人”的Agent记忆系统奠定理论基石[2] - 该综述横跨认知神经科学与人工智能两大领域,涉猎相关文献共400篇,旨在打破学科壁垒,推动Agent记忆系统的发展[3] 记忆的定义与剖析 - **认知神经科学角度**:记忆是连接过去经验与未来决策的认知桥梁,分为两个阶段:第一阶段快速形成并整合新信息的神经表征,第二阶段对存储的表征进行巩固或检索[6] - **LLM视角**:大语言模型的记忆表现为三种形式:参数记忆(内化在神经网络权重中的知识)、工作记忆(基于上下文窗口的实时推理)和显式外部记忆(如RAG)[7] - **Agent视角**:Agent的记忆是一个动态的认知架构,超越了简单的存储,其核心维度包括结构化存储(将非结构化交互转换为机器可理解的格式)和动态调度(模拟人脑的遗忘与唤醒机制,解决有限注意力与大量存储间的冲突)[7] 记忆的作用 - 在LLM驱动的Agent中,记忆系统充当关键主动组件,旨在实现三大核心作用:突破上下文窗口的限制、构建长期个性化画像、驱动基于经验的推理[10][12] 记忆的分类学 - **基于认知神经科学的分类**:人脑记忆分为短期记忆(临时工作台,容量约4~9个单位信息)和长期记忆(永久档案馆,无严格容量限制);长期记忆进一步分为情景记忆(对个人亲身经历事件的记忆)和语义记忆(对事实、概念和规则的记忆)[15][21] - **Agent的双维度记忆分类**: - **基于性质的分类**:直接对齐人脑,分为情景记忆(存储完整的交互轨迹,提供“How to”的过程性知识)和语义记忆(存储Agent的知识库,提供“What-is”的陈述性知识)[17][20][22] - **基于范围的分类**:分为轨迹内记忆(临时工作区,仅当前任务有效)和跨轨迹记忆(永久存储库,跨越多个任务和生命周期)[17][23][27] 记忆的存储机制 - **认知神经科学中的记忆存储**: - **短期记忆**:存储位置分布在感觉皮层和额顶网络,存储形式包括持续活动和活动-沉默突触连接[28] - **长期记忆**:存储位置涉及海马体(作为索引)和新皮层(作为永久仓库),存储形式包括事件单元和认知地图[28] - **Agent中的记忆存储**:是显式的工程构建,存储位置包括上下文窗口(对应轨迹内记忆)和外挂的记忆库(对应跨轨迹记忆);存储形式包括文本、图结构、参数和隐式表示(高维向量)[31][35] 记忆的管理系统 - **认知神经科学**:记忆管理是一个动态循环,包括记忆形成(编码、巩固、整合)、记忆更新(以预测误差为核心驱动力)和记忆检索(重构性,伴随再巩固过程)[33][34][38][39] - **Agent记忆管理**:形成一个由记忆提取、更新、检索和应用组成的精密闭环[33][38] - **记忆提取**:分为扁平提取、分层提取和生成式提取[41] - **记忆更新**:分为轨迹内更新(如实时过滤噪声)和跨轨迹更新(如引入遗忘机制)[41] - **记忆检索**:分为基于相似度的检索和多因素检索(考虑时间、重要性等因素)[41] - **记忆应用**:分为上下文利用、参数内化等方式[41] Agent记忆系统评测 - 现有的评测基准主要分为两类: - **面向语义的基准**:评估Agent如何构建、维护和利用其内部记忆中的信息状态,例如LoCoMo、MemoryBank等[42][44] - **面向情景的基准**:评估复杂下游应用场景中Agent记忆系统的实际性能增益,例如WebArena、ScienceWorld等[42][44] Agent记忆的安全 - **主要攻击方式**: - **窃取攻击**:利用精心设计的Prompt诱导Agent泄露长期记忆中存储的敏感信息[47] - **投毒攻击**:向记忆库中注入恶意数据以植入后门或进行认知污染,改变Agent行为或使其判断力退化[47] - **防御策略**:包括检索防御(在读取前清洗)、响应防御(在生成回答时监控拦截)和隐私防御(对敏感数据进行匿名化处理)[46][54] 未来展望 - **多模态记忆**:未来的记忆系统需要是全模态的,统一存储与表示文本、图像、音频和视频等多模态信息,使Agent能真正理解物理世界[49][55] - **Agent Skills**:提出“Agent Skills”概念,将指令集、可执行脚本等封装为结构化单元,旨在解决不同Agent间记忆难以移植重用的问题,并探索跨Agent的skills转移和适应机制[50][55]
自动驾驶巨头,63亿购买具身入场券
具身智能之心· 2026-01-10 11:22
核心观点 - 自动驾驶全球知名方案供应商Mobileye宣布进军具身智能领域,计划以63亿美元收购人形机器人公司Mentee Robotics,此举可能预示着自动驾驶与具身智能领域的跨行业交融将越来越频繁 [3][4][10] 行业动态与趋势 - 自动驾驶企业进军物理AI(具身智能)已成为行业趋势,多家领先公司已进行布局 [6] - NVIDIA作为自动驾驶的“军火供应商”,持续推动具身智能相关模型(如GR00T系列)和仿真框架的研发 [7] - 特斯拉很早就开始推进人形机器人Optimus的研发,并强调未来绝大多数利润将来源于人形机器人业务 [8] - Waymo也在积极推进具身大脑的研发 [9] - 2026年开年,小鹏机器人传出今年量产的消息 [9] - 国内主机厂如吉利、比亚迪、上汽、广汽等均已陆续成立或参与投资各类具身机器人公司 [9] 技术融合与协同 - 自动驾驶与具身智能领域在感知、定位、规划等技术栈上具有高度相似性,这是相关公司跨领域布局的基础 [10] - 行业观点形象地比喻为“机器人是长了腿的自动驾驶,而自动驾驶是装了轮子的机器人” [10] - Mobileye此次收购重点关注Mentee Robotics的“real2sim2real”技术栈 [5]
拒绝垃圾数据,如何高效、高质量的采集具身数据?
具身智能之心· 2026-01-10 09:03
行业现状与核心痛点 - 视觉-语言-动作模型是当前具身智能领域的关注焦点,在学术界和工业界均受到高度重视 [1] - VLA模型的性能上限高度依赖于数据采集的质量,高质量遥操作数据是模型有效性的基础 [2] - 行业在复现主流模型时面临数据采集困难的核心挑战,仿真数据与真机存在巨大差距,导致模型在仿真中表现良好但在真机上失效 [3][5] - 专业遥操作设备成本高昂,动辄数万元,对普通学生和初创团队构成门槛 [5] - 从数据采集到模型训练的全链路存在技术断层,例如数据格式与主流框架对齐困难 [5] 课程解决方案与核心亮点 - 课程定位为国内首个具身数采与遥操算法全栈课程,注重实战与手感,旨在帮助学员节省摸索时间 [3] - 课程采用软硬结合方式,同时覆盖MuJoCo仿真环境与真机实操的数据采集 [7][8] - 课程引入自研手持夹爪硬件方案Ringo,以解决遥操作中视角与控制不统一的痛点,实现更精准的TCP坐标转换与重定向 [9][19] - 课程内容设计覆盖从单臂到全身的全场景,包括双臂协同、力反馈采集和全身动捕等复杂任务 [10][12] - 课程基于主流LeRobot框架,教授如何采集符合工业标准的高质量数据集,并涉及源码修改以兼容新硬件 [8][19] 课程详细内容大纲 - **第一章:遥操作概述与基础**:涵盖遥操作技术定义、发展、经典系统架构、核心挑战、数据采集主流方法、开源数据集概览以及VLA模型详解 [6] - **第二章:夹爪遥操算法调试**:基于MuJoCo仿真环境,介绍物理引擎基础、仿真要素,并实现仿真环境下的数据采集 [6][11] - **第三章:关节同构遥操作**:以SO-100硬件系统为例进行真机演示,详解同构映射原理,并深度解析LeRobot框架的驱动与数据采集代码 [6][14] - **第四章:TCP映射遥操作**:作为高阶进阶内容,讲解TCP映射原理,详细介绍自研硬件方案Ringo的结构、传感器选型与组装,并实现基于Ringo的坐标变换、对齐与姿态平滑插值 [6][16][19] - **第五章:复杂遥操作数据采集**:攻克双臂协同中的延迟与视角问题,介绍力反馈数据采集的意义与实现方法 [6][12][19] - **第六章:全身动捕方案**:讲解光学与惯性动捕系统原理、传感器布局设计以及坐标重映射算法 [6][17] 课程安排与面向人群 - 课程采用离线视频教学配合VIP群答疑模式,计划于2026年1月30日开课,预计两个半月结课,课程有效期为1年 [23][24] - 课程章节按计划逐步解锁,从第一章到第六章的解锁时间跨度从1月30日至3月8日 [23] - 目标学员包括具身智能领域求职者、科研院校师生、计划从其他领域转行的开发者以及对机器人DIY感兴趣的硬件发烧友 [26] - 课程旨在使学员成为能完成从硬件组装调试到算法部署全链路的专家,并积累完整的实战项目经验以助力求职 [26]
关于VLA与RL真机部署的种种
具身智能之心· 2026-01-10 09:03
文章核心观点 - 文章围绕具身智能领域视觉语言动作模型的部署挑战展开圆桌讨论,核心观点是模型部署面临从芯片硬件支持到模型轻量化、工程优化的全链路挑战,行业需要在追求模型性能上限与实现高效、低成本边缘部署之间找到平衡 [3][4][9][11] 芯片硬件与部署方案 - 地瓜机器人公司专注于为消费机器人和具身智能场景提供AI芯片及软件方案,其芯片算力覆盖5 TOPS至560 TOPS区间 [4] - 公司已发布两款产品:RDK S100(算力80-120 TOPS,已上市销售)和RDK S600(算力560 TOPS,计划明年发布),后者专为大模型部署优化了工具链 [4] - 模型部署到芯片需经过量化流程,通常将训练用的BF16等浮点模型转换为INT4等低精度定点模型,再通过工具链转换部署,此举牺牲通用性但提升了效率和能效 [4][5] - 对于约7B参数规模的模型,经优化的S600芯片在边缘侧的运行效率(每秒吞吐量)可达主流芯片的2到3倍 [5] 模型规模与发展趋势 - 当前具身智能领域常见模型规模为3B或7B,部分原因是受限于当前技术发展阶段和有限的数据量,更大的模型尚未得到充分发展 [6] - 尽管数据有限,但行业共识是具身智能的基础模型未来仍会向更大规模发展,不过端侧部署不一定需要同等规模,可通过蒸馏等技术将大模型能力迁移至小模型 [7] - 对于强化学习而言,更大的基座模型意味着更高的能力上限,有助于将性能提升曲线拉得更高,但强化学习带来的性能提升更多是相对增量而非绝对性能 [7] - 模型规模增大会带来计算、训练和推理方面的新挑战,行业期待有更大规模的基座模型发布以测试推理能力 [8] 模型轻量化与工程优化 - 模型轻量化不仅是压缩模型尺寸,更核心的是通过工程化手段进行优化,例如对算子进行编译优化、采用特定策略等 [10] - 行业存在两种并行的发展思路:一部分研究者聚焦于不计代价地探索具身大模型的性能上限;另一部分则致力于通过模型小型化或工程优化实现高效部署 [11] - 从算法角度,轻量化路径包括模型蒸馏、量化、压缩以及在算子层面的优化,旨在提升从训练到部署全流程的速度 [12][14] - 具身智能领域的基座模型迭代速度非常快,可能以月为单位更新,这要求整个技术链条(训练、推理、部署)都必须保持高速响应 [13] 全栈自研与行业生态 - 行业内存在追求全栈自研的趋势,即对从软件到硬件的所有模块实现精确把控,以优化整体性能和效率,这一思路在金融科技等领域已有先例 [14][15] - 即使不亲自制造硬件,重视软件性能的公司也会高度关注并优化从训练到部署的每一个环节的速度 [14] - 地瓜机器人的AI加速板与芯片方案,与算法公司的优化工作相结合,共同构成了具身智能模型从云端训练到边缘部署的完整生态 [4][12]