Unitree G1机器人
搜索文档
只演示一次,机器人就会干活了?北大&BeingBeyond联合团队用“分层小脑+仿真分身”让G1零样本上岗
量子位· 2025-11-13 17:25
文章核心观点 - 研究团队提出DemoHLM框架,通过仅需1次仿真环境中的人类演示即可自动生成海量训练数据,解决人形机器人移动操作领域依赖硬编码、真实数据成本高、跨场景泛化差的核心痛点 [1] 核心挑战与现有痛点 - 人形机器人移动操作面临数据效率低、任务泛化差、Sim-to-Real迁移难三大难题 [3][6] - 传统方法需消耗数百小时真实遥操作数据,且依赖任务特定的硬编码设计,难以满足复杂场景需求 [3][6] - 基于仿真训练的策略常因物理引擎差异和传感器噪声无法在真实机器人上稳定运行 [6] DemoHLM框架技术方案 - 采用分层控制架构,包含低层全身控制器和高层操作策略,解耦运动控制与任务决策 [7] - 低层控制器基于AMO框架优化,运行频率50Hz,负责将高层指令转化为关节力矩并保证机器人平衡 [12] - 高层策略通过视觉闭环反馈向低层发送任务指令,运行频率10Hz,支持ACT、Diffusion Policy等多种行为克隆算法 [12] - 为机器人设计2DoF主动颈部与RGBD相机,通过比例控制器实现视觉追踪稳定,避免物体遮挡导致的感知失效 [7] 单演示数据生成流程 - 关键突破在于无需真实数据,仅用1次仿真遥操作演示即可生成海量多样化训练数据 [8] - 核心流程分三步:预操作阶段采用物体中心坐标系确保末端执行器精准对齐目标;操作阶段切换为本体感知坐标系解决抓取搬运难题;批量合成阶段通过随机初始化位姿自动生成数百至数千条成功轨迹 [8] - 演示采集通过Apple Vision Pro捕捉人类动作并映射到仿真机器人,记录1条成功操作轨迹 [13] - 将演示轨迹拆解为移动、预操作、操作三阶段,并通过坐标系转换实现泛化 [13] 仿真环境实验结果 - 数据量与性能呈正相关,例如PushCube任务成功率从52.4%提升至89.3%,OpenCabinet任务从18.9%提升至67.3% [14] - 算法适配灵活,在ACT、MLP、Diffusion Policy三种算法上均表现优异,其中ACT与Diffusion Policy在LiftBox任务成功率均超96% [14] 真实世界迁移验证 - 在改装后的Unitree G1机器人上实现零样本迁移,10项任务中全成功率任务如LiftBox和PressCube均实现5/5成功 [16][19] - 高稳定任务如PushCube和Handover实现4/5成功,复杂任务如GraspCube和OpenCabinet成功率超60% [19] - 迁移成功的关键在于高层策略通过视觉闭环实时调整指令,抵消仿真与真实的物理差异 [18] 行业应用价值 - 将训练成本从数百小时真实遥操作降至小时级仿真演示,大幅降低行业应用门槛 [20] - 无需任务特定设计,1套框架适配家庭搬运、工业辅助、服务交互等多场景,加速机器人从实验室到真实环境的落地 [20] - 分层架构可兼容触觉传感器、多相机感知等升级,为更复杂场景操作打下基础 [21]
智源&悉尼大学等出品!RoboGhost:文本到动作控制,幽灵般无形驱动人形机器人
具身智能之心· 2025-10-27 08:02
文章核心观点 - 研究团队提出名为RoboGhost的创新方案 旨在解决基于语言引导的人形机器人运动流程中存在的多阶段处理问题 通过将文本驱动的人形机器人运动视为生成任务而非简单映射 该方案无需显式的运动解码与重定向流程 能够直接从噪声中解算出可执行动作 在保持语义完整性的同时支持快速响应控制 [6][7][8] 技术方法与架构 - 团队设计了两阶段训练过程 第一阶段采用连续自回归架构训练动作生成器 第二阶段训练基于扩散模型的学生策略 该策略以第一阶段的运动潜变量为条件引导运动降噪过程 [11] - 教师策略采用Mixture-of-experts架构提高泛化性 并引入因果自适应采样方法动态调整动作序列采样概率 以掌握更具挑战性的长运动序列 [11][13] - 推理阶段完全由潜变量驱动 文本描述输入运动生成器获得潜运动表征后 直接通过扩散模型生成可执行动作 无需解码为显式运动序列 消除了运动重定向需求 [13] 实验结果与性能 - 在HumanML3D数据集上 Ours-DDPM模型的R Precision Top 1达到0.639 Top 2达到0.808 Top 3达到0.867 FID为11.706 MM-Dist为15.978 Diversity为27.230 Ours-SiT模型的R Precision Top 1为0.641 Top 2为0.812 Top 3为0.870 FID为11.743 MM-Dist为15.972 Diversity为27.307 [16] - 在HumanML数据集上 Baseline方法的IsaacGym平台成功率为0.92 Empjpe为0.23 Empkpe为0.19 MuJoCo平台成功率为0.64 Empjpe为0.34 Empkpe为0.31 而Ours-DDPM方法在IsaacGym平台成功率提升至0.97 Empjpe降至0.12 Empkpe降至0.09 在MuJoCo平台成功率提升至0.74 Empjpe降至0.24 Empkpe降至0.20 [16] - 在Kungfu数据集上 Baseline方法的IsaacGym平台成功率为0.66 Empjpe为0.43 Empkpe为0.37 Ours-DDPM方法成功率提升至0.72 Empjpe降至0.34 Empkpe降至0.31 [16] - 与Baseline方法相比 RoboGhost将部署时间成本从17.850秒大幅降低至5.840秒 同时成功率从92.0%提升至97.0% [17] - 在未见过的MotionUnion子集测试中 基于扩散的策略相比多层感知机策略成功率从0.54提升至0.68 Empjpe从0.48降至0.42 Empkpe从0.45降至0.39 显示出更优的跟踪效果和鲁棒性 [18][19]
宇树科技 上新!
中国证券报· 2025-10-21 07:51
公司产品发布 - 10月20日公司发布Unitree H2仿生机器人,高180厘米,重70公斤 [1] - H2机器人展示跳舞、武术、T台走秀等运动技能,四肢纤细灵活,头部使用仿生人脸,全身延续Unitree G1的银灰色 [3] - 公司创始人王兴兴曾于9月26日预告将在下半年发布身高1.8米的人形机器人 [3] 公司技术与发展 - 自今年春晚表演以来,公司机器人算法已经历几次迭代,数贸会前完成算法升级,机器人稳定性再度提升 [3] - 2024年公司发布第二款人形机器人Unitree G1,去年到今年是"全球最畅销的机器人" [3] - 今年新推出的人形机器人Unitree R1更加轻巧,目前售价3.9万元,虽未实现量产但已接受部分订单 [3] 公司运营与财务 - 公司于9月11日发布社会招聘和2026届校园招聘信息,包括算法类、软件类等十大类45个岗位 [4] - 公司预计将于10月至12月期间向证券交易所提交上市申请文件 [4] - 2024年公司四足机器人、人形机器人和零部件产品的销售额分别约占总销售额的65%、30%和5% [4] 行业状况 - 公司创始人王兴兴表示今年上半年国内机器人行业发展火热,中国智能机器人相关企业平均增长率达50%—100% [3]
腾讯研究院AI速递 20251014
腾讯研究院· 2025-10-14 01:53
OpenAI芯片战略合作 - OpenAI与博通达成战略合作,将部署100亿瓦OpenAI设计的定制AI芯片,计划于2026年下半年开始部署并于2029年底完成 [1] - 这是OpenAI一个月内与第三家芯片巨头的交易,此前已宣布获得英伟达1000亿美元投资以及与AMD达成的60亿瓦GPU部署协议 [1] - 双方过去18个月一直在设计新芯片,消息公布后博通股价一度涨超10% [1] 谷歌Gemini 3.0技术更新 - 谷歌Gemini 3.0预计10月22日发布,内测显示其前端开发能力强大,可一键生成网页、游戏、原创音乐等 [2] - 模型采用MoE架构,超万亿参数,每次查询激活150-200亿参数,上下文长度从100万跃升至数百万token,可处理整本书和代码库 [2] - 2025年9月Gemini环比增长率达46.24%,在特定测试中表现断档领先 [2] LiblibAI平台升级 - LiblibAI(哩布哩布)2.0升级接入海螺、通义万相、可灵、Pixverse、vidu等10多个热门视频模型和大量生图模型 [3] - 新增视频特效一键同款功能,接入Midjourney V7、Qwen-image、Seedream 4.0等常用生图模型,支持图生视频无缝切换 [3] - 增加资产管理菜单和AI工具箱入口,集合高清放大、抠图、产品精修等大量模型工作流,提供一站式AI体验 [3] Mamba-3架构创新 - Mamba-3已进入ICLR 2026盲审,采用梯形规则离散化、复数状态空间、多输入多输出设计三大创新 [4] - 通过引入复数隐状态实现"钟摆"记忆能够处理周期模式,MIMO设计显著提高算术强度使GPU满负荷运行 [5] - 在超长上下文信息检索测试中表现优异,推理延迟大幅降低,适合长文本处理、实时交互和边缘计算 [5] SAM 3分割技术突破 - SAM 3论文登陆ICLR 2026,实现可提示概念分割,用户通过简单名词短语或图像范例即可分割所有匹配实例 [6] - 在SA-Co基准上性能比之前系统提升至少2倍,在LVIS数据集零样本掩码平均精度达47.0,超越之前38.5的纪录 [6] - 采用双编码器-解码器Transformer架构,构建包含400万独特短语和5200万掩码的高质量训练数据,单H200 GPU处理100+物体图像仅需30毫秒 [6] 谷歌ReasoningBank记忆框架 - 谷歌提出ReasoningBank创新记忆框架,从智能体成功和失败经验中提炼记忆项形成闭环自我进化系统 [7] - 引入记忆感知的测试时扩展通过并行和顺序设置生成多样探索,使记忆合成更具普遍性 [7] - 在多项基准测试中,ReasoningBank有效性相对提高达34.2%,交互步骤减少16.0% [7] 大模型科学推理能力 - GPT-5和Gemini 2.5 Pro在国际天文学和天体物理学奥林匹克竞赛中均获金牌成绩,GPT-5在理论考试平均得分84.2% [8] - 两大模型在理论考试表现优于当届最佳学生,但在几何/空间问题上准确率(49-78%)明显低于物理/数学问题(67-91%) [8] - 标志着AI在天文、天体物理等多科学领域展现出接近顶尖人类水平的综合能力 [8] 人形机器人技术进展 - 宇树G1机器人展示空中翻转、连续后空翻、单手侧后翻等高难度动作,并演示功夫拳法和顶膝动作 [10] - 公司计划今年下半年推出身高1.8米的人形机器人,已申请近10项人形机器人相关专利 [10] - 今年上半年国内机器人行业平均增长率达50%-100%,算法升级后机器人理论上可完成各种舞蹈和武术动作 [10] 苹果智能眼镜产品规划 - 苹果智能眼镜可能与Mac配对时运行完整visionOS,与iPhone配对时切换至轻便移动界面,计划2026-2027年发布 [11] - 公司已放弃开发"Vision Air"头戴设备,将工程师精力集中转向智能眼镜开发,直接对标Meta的Ray-Ban Display [11] - 第一代产品将不配备显示功能,但包含音乐扬声器、摄像头、语音控制和可能的健康功能 [11] OpenAI发展现状与展望 - Sam Altman表示AI会改变工作性质但不会消灭真正的工作,未来工作形式可能更轻松 [12] - GPT-6开发重点是更智能的模型、更长上下文和更好记忆能力,Codex已能完成整天任务 [12] - OpenAI当前每周活跃用户达8亿,团队正在研发全新语音交互设备但短期内不会透露 [12]
中国机器人产业链:上游比下游赚得多,2027年将是“大规模商业化元年”
硬AI· 2025-08-27 23:37
人形机器人商业化时间表与投资回报 - 汇丰预计2027年为人形机器人大规模商业化元年 [2][3] - 投资回报期将从目前7年缩短至2027年约2年 [3] - 人形机器人成本将降至约10万元人民币/台 [3] 中国制造商商业化进展 - 优必选、宇树科技等计划2025年生产超1000台机器人 [3] - 中国企业商业化进程领先海外对手 海外产品多处于培训阶段 [3] - 宇树科技人形机器人零售价5600美元/台 显著低于特斯拉Optimus的2.5万-3万美元 [10] 中国供应链竞争优势 - 优势体现在四方面:更接近供应链、价格竞争力、国企订单支持、政策扶持 [3] - 中国供应全球大部分人形机器人零部件 国内制造商采购成本和开发时间占优 [10] - 中国移动向Agibot和Unitree采购1.24亿元人民币人形机器人 [10] - 深圳政府提供45亿元补贴支持AI和机器人研发 [10] 上游零部件供应商前景 - 三花智控、双环传动、恒立液压等上游供应商盈利前景更乐观 [7] - 优势包括市场集中度高、标准化产品规模生产降本、运营费用低 [7] - 零部件供应商可实现10-15%净利润率优势 [8] - 2025-2035年执行器/传感器/软件年均市场规模预计达680亿/280亿/170亿元人民币 [8] 全球人形机器人产品对比 - 特斯拉Optimus预计2025年出货1200台 [4] - 优必选Walker X累计出货超1000台 [5] - 中国企业包括Unitree G1、Kepler K2、傅立叶GR-1等均计划2025年实现批量交付 [5]
AI浪潮下,具身智能的崛起与数据瓶颈
钛媒体APP· 2025-08-11 11:48
具身智能行业现状 - 国内外科技大厂纷纷布局具身智能领域,数亿级融资频繁 [1] - 世界机器人大会(WRC 2025)展示200余家企业的产品落地能力,包括宇树科技Unitree G1机器人拳击赛、银河通用机器人Galbot零售场景应用等 [1] - 行业技术路径从大语言模型(LLM)向多模态模型(VLA)演进,推动机器人复杂交互能力 [4] 具身智能技术定义 - 具身智能通过实体产品(如机器人)实现"感知-行动"学习,模拟人类与环境交互的决策能力 [2] - 与非具身智能(如AlphaGo)相比,具身智能强调物理世界实践性学习,而非纯数据驱动的概念性学习 [2] - 上海交通大学教授卢策吾提出"第三人称智能"与"人类视角智能"的区分框架 [2] 数据瓶颈与挑战 - 行业面临多模态数据稀缺问题,主因是采集成本高(需视觉/触觉/力觉等传感器)和规模不足 [5][7] - 数据孤岛现象严重:企业间数据格式不统一且因隐私/成本拒绝共享,导致重复投入和资源浪费 [8] - 合成数据使用比例达80%-90%(具身智能领域),显著高于自动驾驶的30%-40% [10] 合成数据应用 - 合成数据通过Sim-to-Real技术模拟虚拟环境,成本比真实数据低且无需人工标注 [9] - 局限性包括可能生成不合理场景,环境细节差异(如光照)易导致AI行为偏差 [12] - 当前主流策略是"合成数据为主+真实数据为辅",需对齐时空维度以优化训练效果 [12] 商业化前景 - 人形机器人被视为具身智能最佳载体,但量产落地仍需数年时间 [12] - 训练成本和生产成本过高是制约商业化进度的核心因素 [12] - 行业仍处训练阶段,未来生产力将决定竞争格局 [12]
苹果、Meta、谷歌...谁将打造人形机器人时代的“安卓”系统?
华尔街见闻· 2025-06-30 18:58
全球人形机器人市场发展现状 - 全球人形机器人市场正处于爆发前夜,科技巨头如Apple、Meta、Google、华为等正通过开源机器人模型和工具争夺生态主导权 [1] - 中国政府对人形机器人产业支持力度持续加强,投资基金规模已达1870亿元人民币 [1][6] - 摩根士丹利预测到2050年全球人形机器人市场年收入可达5万亿美元,累计采用量将达10亿台,约为2024年全球20大汽车制造商总收入的两倍 [1][8] 科技巨头竞争格局 - 科技巨头开源竞争白热化,Meta发布12亿参数的V-JEPA 2世界模型,Google推出Gemini Robotics On-Device,Apple发布EgoDex数据集,华为推出CloudRobo具身智能平台 [5] - 开源策略旨在将AI工具扩展到物理世界,并将开发者绑定到各自生态系统 [2] - 科技公司近期开始大规模招聘机器人人才,AI投资向硬件领域分散将加速行业发展 [3] 中国市场优势与政策支持 - 中国在制造业基础和政策支持方面具有优势,可能在全球"机器人竞赛"中占据领先地位 [1][7] - 各级政府设立总规模1870亿元人民币的产业基金,包括北京100亿元机器人基金、深圳100亿元AI和机器人基金等 [6] - 武汉市提供双边补贴,应用方最高补贴100万元(占项目投入30%),产品提供方最高补贴100万元(占研发投入20%) [6] - 5月份中国人形机器人公司融资达25笔交易,宇树科技C轮融资后估值达17亿美元 [6] 商业化应用进展 - 富士康和英伟达计划在AI服务器制造工厂部署人形机器人,预计2026年一季度投入使用 [8] - 亚马逊开发人形机器人配送系统,将测试Unitree G1等机器人 [8] - 特斯拉预计年底前生产"数千台"Optimus人形机器人用于自家工厂 [8] - 人形机器人正从概念验证快速迈向实际商业应用,尤其在制造业和物流领域显著提升效率并降低成本 [8] 市场预测与价格趋势 - 预计到2036年全球将采用2370万台人形机器人,2040年达1.344亿台,2044年达4.28亿台 [9] - 高收入国家人形机器人平均售价将从2024年的20万美元降至2040年的5万美元 [9] - "人形机器人100"指数今年以来上涨14.4%,跑赢标普500指数约11个百分点,其中双林股份涨幅148%,金力永磁上涨132% [1]