具身智能之心
搜索文档
性能超越GPT和Google,北京人形机器人创新中心开源全球最强具身VLM
具身智能之心· 2025-11-17 08:47
产品发布与核心定位 - 北京具身智能机器人创新中心于2025年11月14日正式发布全球最大规模开源的具身视觉语言模型 Pelican-VL 1.0,宣称其性能超越GPT-5同类模型和Google Gemini系列 [1] - Pelican-VL 1.0作为机器人的“视觉语言大脑”,负责将图像信息转化为可理解的语言指令并规划具体行动步骤,是实现具身智能(让机器人像人类一样感知、决策、执行)的核心技术 [1] 研发机构背景 - 北京人形机器人创新中心(国家地方共建具身智能机器人创新中心)于2023年11月成立,是中国首家省级人形机器人创新中心,由小米机器人、优必选科技、京城机电、中国科学院自动化所等企业共同组建,并于2024年10月10日挂牌为“国家地方共建具身智能机器人创新中心” [5] - 该中心已推出通用机器人母平台“天工”系列,这是全球首个全尺寸纯电驱拟人奔跑的人形机器人,实测奔跑速度达12公里/小时,其结构设计文档、软件开发接口等关键资料已全面开放,已有上百家机构基于此进行二次开发 [5] 核心技术:DPPO训练范式 - Pelican-VL性能突破的核心在于全球首创的DPPO刻意训练范式,该范式通过“观察-练习-纠错-提升”的闭环,让模型能够针对薄弱环节进行高效学习,仅用20万条数据就实现了性能超越,数据用量仅为同类模型(通常需100万至500万条数据)的1/10甚至1/50 [8][9] - 对比实验显示,采用DPPO训练的72B参数模型,在视觉理解准确率上提升20.3%,在动作规划合理性上提升25.1%,同时训练时间缩短40% [14] - DPPO范式的四大本质区别包括:具备元认知能力、错误驱动优化、高效数据利用以及部署后的自进化能力 [10][17] 技术资源与规模 - Pelican-VL的训练基于一个由1000多块A800 GPU组成的专用计算集群,单次完整的模型检查点训练耗费超过50000 A800 GPU-小时的计算资源,相当于单块GPU需连续工作近6年 [15] - 模型提供7B和72B两种参数版本,覆盖终端实时响应与云端复杂任务处理的不同需求,其72B参数版本在规模上优于GPT-5(约50B)和Google Gemini(34B/68B)的同类模型 [23] - 训练数据经过严格筛选和蒸馏,从12个领域提炼出包含数亿token的元数据集,数据更聚焦于具身任务,与任务匹配度高 [24] 性能表现与应用 - 在全球公认的具身智能评估基准测试中,Pelican-VL的综合性能超越GPT-5同类模型15.79%,比Google Gemini系列模型提升19.25% [25] - 在具体任务中表现出色,例如在“无序物体抓取”任务中展现精准的空间推理能力,在“复杂场景交互”任务中能完成包含视觉识别、自然语言沟通和连续动作规划的复合指令 [27] - 模型泛化能力突出,在训练数据未涉及的“沙地行走取物”和“斜坡环境操作”等陌生场景中,任务成功率仍保持在80%以上 [28] 产业生态影响 - Pelican-VL以开源方式发布,意味着全球开发者可免费获取模型代码、训练数据和使用手册进行二次开发,此举有望降低中小企业应用具身智能技术的门槛,加速技术迭代和创新应用落地 [33][34] - 模型与“天工”机器人平台结合,已能控制机器人在跑步机上平稳奔跑、上下楼梯,并通过语音交互完成如“递送红色文件”等复杂任务,展现了其作为VLA系统“大脑”连接视觉、语言与动作的强大能力 [29][32]
4个旷视天才具身创业获投近10亿,阿里独家很瞩目
具身智能之心· 2025-11-17 08:47
融资情况 - 具身智能公司Dexmal原力灵机完成共计近10亿元融资 [2][6] - 最新一轮为A+轮融资,金额达数亿元,阿里巴巴作为独家投资方参与 [3][4][5] - 9月初完成A轮融资,由蔚来资本领投,洪泰基金、联想创投等跟投,老股东超额追投 [5] - 公司成立于2025年3月,成立仅20天便完成2亿元天使轮融资 [8] - 不到一年时间完成三轮融资,筹集资金将主要用于机器人软硬件技术研发与场景落地 [7][9] 公司背景与团队 - 公司专注于具身智能软硬件技术研发与落地,核心团队几乎全部出身于旷视科技,拥有顶尖AI学术背景和十多年规模化落地经验 [12][13][14] - 联合创始人兼CEO唐文斌为旷视科技联合创始人,姚班首届Yao Award金牌得主,曾带领团队在LFW评测中以0.02%优势击败Facebook夺冠 [36][37][39][43] - 联合创始人范浩强为IOI金牌得主、清华姚班高材生,曾为旷视第一个算法研究员,谷歌学术被引数超过1万 [46][47][54] - 创始团队成员周而进为NOI、IOI金牌选手,原旷视12号员工,带队研发人脸识别技术并落地于小米、OPPO等手机解锁场景 [60][61][70][71] - 创始团队成员汪天才为原旷视高级研究员,累计发表顶会顶刊论文30余篇,谷歌学术引用量超6000,曾带领团队夺得多项全球顶赛冠军 [74][75][77] 技术研发与产品 - 公司已发表十余篇AI与具身智能方向顶会论文,推出Real-time VLA与MemoryVLA两个低延迟、长时程机器人操作任务框架 [16][17] - 开源基于PyTorch的VLA工具箱Dexbotic,提供一站式科研工作台,解决模型架构、数据格式不统一等问题 [19][20][22] - 同步开源硬件产品DOS-W1,为模块化、可扩展的数据采集双臂机器人,降低研究门槛并提高数据采集效率 [23][25][27][28] - 联合Hugging Face发布全球首个具身智能大规模真机评测平台RoboChallenge,建立行业评价标准 [30][32] 行业认可与成就 - 公司在ICRA 2025全球机器人视触融合挑战赛中夺得“纯触觉操控”和“触觉传感器设计”两个赛道金牌 [33] - 在CVPR 2025协作智能Workshop的RoboTwin赛事第一轮仿真平台赛中获并列第一成绩 [34] - 团队技术实力通过多项国际顶级赛事奖项得到验证,为产品提供质量背书 [35]
微软&港科对比多种迁移技术!VLA 到底如何有效地继承 VLM 中丰富的视觉-语义先验?
具身智能之心· 2025-11-16 00:03
文章核心观点 - 微软研究院与香港科技大学等团队提出的GrinningFace基准,旨在解决视觉语言动作模型如何有效继承大型视觉语言模型中丰富视觉-语义先验的核心问题 [1] - 该基准通过表情符号桌面操作任务,构建了能分离动作技能与语义识别能力的纯净测试环境,以精准诊断知识迁移效果 [2][4] - 系统实验揭示了VLM先验对VLA泛化能力的关键作用,并指出共训练、潜态动作预测等技术是实现高效知识迁移的关键方向 [7][13][19] GrinningFace基准的设计与目的 - 基准创新性地选择在VLM预训练数据中普遍存在、但机器人数据集中几乎未出现的表情符号作为核心代理,以分离“机器人动作技能”与“VLM先验知识”的贡献 [2] - 任务要求机器人手臂根据语言指令将立方体放置到对应的表情符号卡片上,指令格式为“拿起立方体并放置在 [表情描述] 上” [4] - 基准包含100个训练集表情符号和100个验证集表情符号,确保评估模型的泛化能力 [8] 评估体系与关键指标 - 采用双维度评估体系,将成功率拆分为执行成功率和识别成功率进行单独量化 [5] - 执行成功率反映机器人成功抓取立方体并放置到任意表情卡的概率,用于衡量动作技能掌握程度 [8] - 识别成功率反映机器人选择正确目标表情卡的概率,直接体现VLM先验知识的迁移效果 [8] - 设计了三类测试场景,全面覆盖分布内与分布外泛化评估 [8] 不同微调策略的性能对比 - 全参数微调适配特定任务效果好,但易发生灾难性遗忘,丢失VLM先验知识 [5] - 仅微调动作头能最大程度保留VLM先验,但动作技能学习不足,分布内场景适配差 [5] - LoRA微调能平衡先验保留与动作学习,但知识迁移提升有限,仍有优化空间 [5] 高效知识迁移的关键技术方向 - 共训练技术在VLA训练中加入视觉语言任务,在真实机器人实验中识别成功率达86.7%(26/30) [7][11] - 潜态动作预测将潜态动作作为高阶训练目标,避免模型被低阶信号干扰,识别成功率达80%(24/30) [11][13] - VLM冻结加LoRA预训练能大幅提升识别成功率超过90%,但复杂动作技能适配速度慢 [13] 实验验证与核心发现 - 真实机器人实验与仿真环境结果高度一致,验证了结论的可靠性 [11] - 注意力图谱分析揭示了“VLM先验→预训练对齐→微调优化”的递进式迁移路径 [15] - VLM先验的保留程度直接决定VLA的泛化能力,灾难性遗忘是当前技术的主要瓶颈 [19] 未来研究方向 - 优化参数高效微调技术,提升LoRA等方法的知识迁移效率 [19] - 设计更贴合真实场景的复杂任务,验证迁移技术的规模化应用能力 [19] - 探索多模态先验融合,结合触觉、语音等信息增强VLA的环境适应能力 [19]
李飞飞和LeCun的世界模型之争
具身智能之心· 2025-11-16 00:03
文章核心观点 - AI领域三大力量(李飞飞团队、LeCun、谷歌DeepMind)正以三种截然不同的技术路线进军“世界模型”,分别代表了“世界模型即界面”、“世界模型即模拟器”和“世界模型即抽象引擎”的范式 [3][30][39] - 三种技术路线在应用场景、技术重点和商业化潜力上各有千秋,共同构成了一个从具体到抽象的“世界模型金字塔” [39][47][48] 主要参与者与技术路线 - **李飞飞团队 - Marble模型**:定位为前端资产生成器,通过3D高斯生成流水线,从文本提示直接生成持久、可下载的3D环境,可导出为高斯斑点、Mesh网格或视频 [5][6][16][29] - **LeCun - JEPA模型**:定位为后端预测系统,根植于控制理论和认知科学,专注于构建抽象表征以捕捉世界状态,用于机器人行动前的预判,更像机器人的“大脑” [23][25][26][27] - **谷歌DeepMind - Genie 3模型**:定位为世界模型式视频生成器,从文本提示生成可交互的视频环境,解决了长时一致性问题并支持触发世界事件,如开始下雨或夜幕降临 [31][32][34][35] 技术特点与应用对比 - **Marble**:优势在于高精度的3D资产生成和商业化潜力,尤其适用于游戏和VR开发者的工作流程,可一键导出到Unity [9][21][38] - **Genie 3**:优势在于生成动态、可交互的视频世界,但画面质量和分辨率有限,核心仍是视频逻辑而非物理因果逻辑 [34][35][36][38] - **JEPA**:优势在于对世界本质和因果结构的理解,是机器人理想的训练基地,但无法生成可供人欣赏的视觉画面 [25][27][28][45] 世界模型范式分类 - **世界模型即界面(以Marble为代表)**:关注“世界长什么样”,生成可供人观看与交互的三维空间 [39][41][42] - **世界模型即模拟器(以Genie 3为代表)**:关注“世界怎么变”,生成连续、可控的视频环境供智能体训练 [39][43] - **世界模型即抽象引擎(以JEPA为代表)**:关注“世界的结构是什么”,以高度抽象的潜在变量形式呈现,最适合机器人推理 [39][44][45]
我们的自驾、具身和大模型社区7500人了!
具身智能之心· 2025-11-16 00:03
公司媒体矩阵与社区规模 - 公司运营四个主要技术IP:自动驾驶之心、具身智能之心、大模型之心Tech、3D视觉之心,每个IP均设有付费社区与私域 [2] - 全平台知识星球成员总数已达7500人,计划在未来2年内将自动驾驶之心社区规模扩展至近万人 [2][7] - 已为行业汇总超过100条学习路线,涵盖大模型、自动驾驶、具身智能、机器人、3D视觉、仿真等领域,并举办数百场干货直播 [2] 自动驾驶之心知识星球资源 - 社区为综合类自驾社区,集视频、图文、学习路线、问答、求职交流于一体,目前成员超过4200人 [4] - 技术资源覆盖6大核心板块:国内高校团队与企业介绍、领域会议、数据集与工具、基础入门、算法进阶、实战落地 [8] - 提供7个“100问”系列专题,包括TensorRT模型部署、毫米波雷达融合、车道线检测、规划控制、BEV感知、相机标定、3D&4D毫米波雷达等实战问题解析 [8] 具身智能之心知识星球生态 - 社区定位为具身智能技术交流平台,成员来自斯坦福大学、清华大学、上海交大等国内外知名高校实验室,以及智元机器人、有鹿机器人、优必选等头部机器人公司 [10] - 目前拥有2000名成员,覆盖近200家具身智能公司与机构 [12] 大模型之心Tech知识星球内容 - 社区为综合类大模型社区,提供视频、图文、学习路线、问答、求职交流等内容 [15] - 学习路线涵盖RAG、AI Agent、多模态大模型三大方向,具体包括Graph RAG、多模态Agent、VLM工作汇总、MoE、RLHF等19个细分技术领域 [19] AutoRobo求职星球服务 - 社区专注于自动驾驶、具身智能、机器人方向的求职交流,现有成员近1000人,涵盖地平线、理想汽车、华为、小米汽车等公司员工 [21] - 提供面试题目、面经、行业研报、谈薪技巧、内推公司、简历优化建议等求职支持服务 [23]
超大参数量具身VLM开源:DPPO训练范式,模型性价比天花板!
具身智能之心· 2025-11-16 00:03
模型发布与核心优势 - 北京人形机器人创新中心于2025年11月13日开源了具身智能视觉语言模型Pelican-VL 1.0,该模型覆盖7B和72B两种参数规模,被称为目前最大规模的开源具身多模态大脑模型[1] - 模型在由1000+ A800 GPU组成的集群上训练,单次检查点训练耗费超过50,000 A800 GPU-小时,并从原始数据中蒸馏出包含数亿token的高质量元数据作为训练基石[3] - 在基线基础上性能提升20.3%,超过同级别开源模型10.6%,根据测试其平均性能超越GPT-5和Google Gemini等闭源系列模型,成为目前最强具身性能的开源多模态大模型[3] 创新训练范式DPPO - 模型采用名为DPPO(刻意练习策略优化)的创新训练范式,该范式模仿人类元认知学习方式,通过强化学习探索弱点、生成失败样本,再进行有针对性的监督微调,让模型不断自我纠错和迭代进步[6][8] - DPPO框架包含两个主要阶段:强化学习阶段通过多样化奖励机制和难度过滤自动发现模型薄弱点并快速提升能力;监督微调阶段针对弱点数据进行知识扩展与模式对齐,通过蒸馏和数据构建巩固模型能力[8] - 凭借DPPO训练范式,Pelican-VL实现了性能大幅提升20.3%,在视觉-语言和具身任务上的能力得到持续提高[8][9] 核心能力表现 - 在多模态理解与推理能力方面,模型能同时处理视觉和文本输入,基于场景进行物理推理、空间关系理解和功能预测,例如在封闭厨房或商超场景中能分辨果蔬摆放、柜台位置并据此规划取物和放置动作[9] - 在空间-时间认知方面,模型训练包含数万小时的视频和动态场景问答,使其具备连续时序理解能力,能捕捉物体移动、操作步骤的时间先后关系,从而对复杂连贯的任务序列做出合理推断[13] - 在具身交互能力方面,模型在物体抓取、导航、协作等机器人任务中不仅能理解任务目标,还能输出细化的动作步骤和评估每步可行性,覆盖抓取、导航、人机交互等不同应用场景[13] 基准测试性能 - 在≤100B参数模型对比中,Pelican-VL 72B版本在12个基准测试上的平均得分达到63.8,显著高于其他同级别开源模型,如在PhyX基准上得分为86.4,在Where2Place基准上得分为64.0[18] - 在>100B参数模型对比中,Pelican-VL 72B版本与包括GPT-5、Gemini2.5-Flash、GPT-40等闭源大模型相比,平均得分达到63.8,超过部分闭源模型,在PhyX基准上以86.4分表现最佳[21] - 模型在九个维度的具身智能分类体系评测中,各项指标均匀、均衡且在关键维度上表现突出,显示出全面的能力分布[14][15] 产业影响与竞争优势 - 该开源模型提供了一套“视觉理解→长期规划→物理操作”串联的可复用训练范式,降低了在机器人中使用VLM的门槛,其他实验室或企业可以在此基础上做定制化训练,加速产业落地探索[22] - 与国外闭源模型相比,Pelican-VL在国内开源模型基础上进行预训练,利用少量数据和训练资源即达到相当甚至更好的性能,整体数据利用率达到其他模型的10倍至50倍[27] - 相比于国内同类模型,Pelican-VL平均提升了10%以上的性能,成为国内性能最好的具身智能模型,其开源策略有望促进打破技术闭环与数据孤岛,推动产业链协同的规模化发展[27][28]
北大等团队用“分层小脑+仿真分身”让G1零样本上岗
具身智能之心· 2025-11-15 00:03
文章核心观点 - 北京大学与BeingBeyond研究团队提出的DemoHLM框架,通过分层控制架构与单次演示数据生成技术,有效解决了人形机器人移动操作领域数据成本高、任务泛化差和仿真到现实迁移难的核心痛点 [1][6][20] 技术框架与核心创新 - DemoHLM采用“低层全身控制器+高层操作策略”的分层设计,解耦运动控制与任务决策,低层控制器运行频率50Hz保证全身运动稳定性,高层策略运行频率10Hz侧重长时域规划 [7][12] - 框架关键突破在于仅需1次仿真环境中的人类演示即可自动生成海量训练数据,通过预操作阶段(物体中心坐标系)、操作阶段(本体感知坐标系)和批量合成三步流程,生成数百至数千条成功轨迹 [8] - 技术兼容性强,支持ACT、Diffusion Policy等多种行为克隆算法,在仿真与真实机器人上均表现优异 [14] 实验性能与数据表现 - 仿真实验中,随着合成数据量从100条增至5000条,任务成功率显著提升,例如“PushCube”成功率从52.4%升至89.3%,“OpenCabinet”从18.9%升至67.3% [11] - 在真实Unitree G1机器人上实现零样本迁移,10项任务中“LiftBox”和“PressCube”实现5/5全成功率,“PushCube”和“Handover”达到4/5成功率,复杂任务如“GraspCube”和“OpenCabinet”成功率超60% [16][18] 行业应用价值 - 技术将训练成本从“数百小时真实遥操作”降至“小时级仿真演示”,大幅降低人形机器人在家庭、工业、服务等复杂场景的落地门槛 [17] - 框架无需任务特定设计,1套方案适配多场景,为下一代人形机器人的规模化应用提供重要技术路径,并具备兼容触觉传感器、多相机感知等升级的潜力 [20][23]
SemanticVLA:面向高效机器人操作的语义对齐剪枝与增强方法
具身智能之心· 2025-11-15 00:03
研究背景与问题 - 视觉-语言-动作模型在机器人操作领域取得显著进展,通过预训练视觉语言模型实现从语言到动作的端到端映射 [2] - 现有模型在动态、杂乱环境中部署时受两大瓶颈制约:视觉感知冗余导致计算效率低下,以及指令-视觉语义对齐表层化导致任务接地能力弱 [2][5] 核心创新点 - 提出语义引导双视觉剪枝器,通过指令感知的token过滤和几何感知的聚合,针对性解决视觉冗余问题,同时保留语义对齐 [3] - 设计语义互补分层融合器,跨编码器整合密集补丁特征与稀疏语义token,强化指令语义与空间结构的对齐 [5] - 构建语义条件动作耦合器,重构视觉到动作的映射路径,将7自由度动作重构为语义连贯的动作类型表示 [5] - 实现性能与效率的帕累托最优,在降低训练成本和推理延迟的同时,显著提升任务成功率 [5] 技术框架与设计 - 整体框架输入包含实时视觉观测、机器人本体感受状态和自然语言指令,通过两条并行路径处理视觉输入,形成"稀疏化-融合-动作映射"的端到端pipeline [4] - 语义引导双视觉剪枝器包含指令驱动剪枝器和空间聚合剪枝器,分别处理SigLIP和DINOv2编码器,实现语义对齐的视觉稀疏化 [6][7][10] - 语义互补分层融合器通过密集融合器和稀疏融合器双层机制整合两条视觉路径的互补特征,将视觉token压缩8-16倍 [10] - 语义条件动作耦合器将动作token数量从350减少至150,大幅降低推理开销 [11] 实验结果与性能 - 在LIBERO仿真基准测试中,SemanticVLA在空间推理任务成功率达98.6%,对象泛化任务达99.6%,目标理解任务达97.6%,长视距任务达94.8%,整体成功率97.7% [14] - 训练成本降低3.0倍(从11.7小时降至3.9小时),推理延迟降低2.7倍(从0.240秒降至0.089秒),吞吐量显著提升至89.9 Hz [14] - 在真实场景测试中,长视距任务成功率达77.8%,超越OpenVLA-OFT 22.2个百分点 [14] - 消融实验显示SD-Pruner的双剪枝组合使成功率提升2.1%-5.2%,稀疏化比率8×时实现性能与效率的最优平衡 [14][15]
雷军下铺的兄弟,创业具身智能机器人
具身智能之心· 2025-11-15 00:03
文章核心观点 - 小米原副总裁、技术委员会前主席崔宝秋离职后,正式投身具身智能赛道,创立家庭服务机器人公司,标志着其技术蓝图从“连接万物”的AIoT进化到“改造物理世界”的具身智能[2][4][5] - 崔宝秋的创业选择是当前科技圈显著趋势的缩影,即大模型技术成熟后,AI需要“身体”来感知和改造物理世界,具身智能和机器人成为AI浪潮的“下半场”,吸引了众多具有大厂背景的技术领军人物携资本入场[42][43][47] 人物背景与职业轨迹 - 崔宝秋是雷军在武汉大学时期的“下铺兄弟”,两人曾就“机器能否写作”打赌,雷军认为只要语料库足够庞大,计算机就能“写”出文章[13][18][20] - 崔宝秋于2012年应雷军邀请回国加入小米,历任首席架构师、人工智能与云平台副总裁、集团技术委员会主席等职,组建了小米人工智能与云平台团队,并推动了“云计算-大数据-人工智能”技术路线[14][15][29] - 在小米期间,崔宝秋是“AIoT是小米的第一战略”的坚定推动者,并领导发布了重要AI成果“小爱同学”[7][30] - 2019年2月,小米成立集团技术委员会,崔宝秋挂帅出任主席,旨在应对当时小米手机业务的危机,强化技术立业,其职责包括规划技术方向、预研前沿技术[37][38][39] - 2022年底,崔宝秋在加入小米十年后离职,之后曾出任国内RISC-V芯片公司进迭时空的首席技术顾问,然后才正式进行机器人创业[8][40][41] 行业趋势与竞争格局 - 近一两年,特别是2024-2025年,随着大模型技术趋于成熟,“为AI造‘体’”成为热点,具身智能和机器人赛道承接AI浪潮[42][43] - 该赛道吸引了大量具有大厂背景的创业者,如前华为“天才少年”稚晖君创立的智元机器人,以及前地平线副总裁张玉峰新项目“无界动力”,后者迅速获得红杉、高瓴等机构3亿元天使融资[44][45] - 这些创业者多是过去十年在“大厂”中负责搭建“AI大脑”的核心力量,凭借在AI、大数据和工程化领域的深厚积累,成为资本追逐的焦点[47][48] 市场与业务数据 - 2018年第四季度,小米智能手机出货量遭遇严重下滑,IDC数据显示其出货量为1030万台,市场份额10.0%,较2017年第四季度的1590万台(市场份额13.9%)同比下降34.9%[35][36] - 同期,华为出货量为3000万台,市场份额29.0%,同比增长23.3%;OPPO出货量为2030万台,市场份额19.6%,同比增长1.5%;vivo出货量为1940万台,市场份额18.8%,同比增长3.1%[36]
开箱子,叠毛巾!从零把pi0部署到你的机械臂上吧!
具身智能之心· 2025-11-14 12:00
产品定位与核心价值 - 公司推出一款名为Imeta-Y1的轻量级高性价比机械臂,专为具身智能科研领域的新手和初学者设计 [2][3] - 该产品旨在帮助用户低成本、高效率地完成算法验证与项目开发,目标客户包括学生、教育工作者和机器人领域开发者 [3] - 产品定位为解决具身智能领域硬件选择难题,平衡价格与易用性 [3] 核心产品优势 - 提供全流程开源工具链和代码示例,覆盖从数据采集到模型部署的全部环节,对新手友好 [4][17] - 支持Python和C++双语言接口,兼容ROS1和ROS2,并提供URDF模型,实现仿真与真机的无缝切换 [4][18][19] - 提供24小时快速售后响应,确保用户学习过程顺畅 [4] - 产品融合高精度运动控制、低功耗设计与开放软硬件架构,支持从仿真到真机的无缝联调 [6] - 紧凑型结构与模块化接口适用于嵌入式AI与机器人学习平台的开发 [7] - 后期将陆续升级更新VLA、VA相关源码,新老客户均可享受升级 [19] 机械臂核心性能参数 - 本体重量为4.2公斤,额定负载为3公斤,具备6个自由度 [9][19] - 工作半径为612.5毫米,重复定位精度达到±0.1毫米 [9][19] - 供电电压为24V,控制器为PC,材质采用铝合金 [9][19] - 通讯方式为CAN,控制方式支持轨迹跟踪、示教和API [9][19] - 关节运动最大速度范围为180°/s至220°/s [9][19] 技术生态与工具链支持 - 提供完整的开源软件开发工具包,包含驱动程序、API接口、示例代码与文档 [26] - 支持视觉、力控等多模态数据融合,兼容TensorFlow、PyTorch等主流框架,实现端到端的智能算法落地 [17][32] - 目前已开源适配的算法包括lerobot和ACT,未来将逐步适配并开源robotwin、pi0等模型 [46] - 产品适配的相机包括realsensor D435系列和奥比中光DCW2 [46] 硬件测试与质量保证 - 机械臂通过严格的硬件测试流程,包括精度校准、耐久性、负载性能与稳定性验证 [35] - 非人为损坏情况下提供半年质保,交付周期为1-2周 [44][45]