自监督强化学习 - 财报，业绩电话会，研报，新闻

自监督强化学习

搜索文档

新浪财经· 2026-02-17 10:08

公司表现与市场反响 - 宇树科技在2026年春晚的机器人表演视频，在海外官方频道发布后不到10小时内播放量已近10万，引发广泛讨论和震惊 [1][2] - 海外网友对机器人动作的拟人化程度和一年内的升级速度表示赞叹，认为其动作“太像人了” [1][3] - 有观点认为，此次表演证明中国在人形机器人的工程化落地上已经实现反超，正在成为全球机器人领域的领军力量 [1][2][3] 技术能力与突破 - 海外技术爱好者分析，机器人表演的“倒退跑酷”和“醉拳跌跌撞撞”等复杂动作，可能意味着公司实现了更高阶的自监督强化学习（Self-supervised Reinforcement Learning） [2][4] - 机器人在执行“托马斯全旋”时，腿部能进行快速的微调补偿，表明其平衡算法能实时处理复杂的非线性动态力矩 [2][4] - 机器人完成“鲤鱼打挺”动作，需要关节电机瞬间爆发极大功率，推测其可能采用了新一代集成减速器技术，推重比达到民用机器人新巅峰 [2][4] - 表演中机器人滑倒后迅速自主跳起恢复的动作，被海外网友评价为“真正的具身智能”，展示了其感知重心偏移并自主补救的能力，被认为优于特斯拉Optimus在实验室环境的表现 [2][4] 产品竞争力与行业影响 - 海外网友将宇树机器人与波士顿动力对比，认为波士顿动力像造不卖的法拉利，而宇树科技正在交付能跑拉力赛的平价越野车，在工程化落地方面已实现反超 [2][4] - 宇树科技G1机器人16，000美元的售价带来了“低成本震撼”，海外讨论认为，以此性能和价格，2026年可能成为人形机器人入户的元年 [2][4] - 公司产品在细小的腿部空间内实现了支撑50kg以上体重的瞬时爆发力，这在两年前还被认为不可想象 [2][4]

北大新作EvoVLA：大幅降低机器人幻觉，长序列成功率暴涨10%

具身智能之心· 2025-11-30 11:03

文章核心观点 - 具身智能领域在长序列操作任务中面临视觉语言动作模型产生“阶段性幻觉”的关键挑战，即机器人未完成步骤却误判为已完成[2][3][4] - 北京大学团队提出的自进化VLA框架EvoVLA通过三大创新模块有效解决了该问题，在复杂任务基准上实现显著性能提升[5][7][40] - EvoVLA框架的核心创新在于利用大语言模型生成“硬负样本”进行对比学习，结合几何探索与长程记忆机制，推动模型自我进化[9][10][41][42] 技术问题分析 - 现有通才机器人策略在简单任务上展现零样本泛化能力，但在长程操作任务中暴露出“阶段性幻觉”致命弱点[2] - 视觉语言模型评估系统因视觉相似性给出高预测分数，导致机器人“高分低能”，自信跳过未完成步骤[4] - 这种现象在需要几十步操作的长序列任务中尤为突出，最终导致整个任务崩溃[4] EvoVLA解决方案 - 框架基于OpenVLA-OFT架构，引入三个协同工作的核心模块实现自监督强化学习闭环[10] - 阶段对齐奖励模块利用Gemini 2.5 Pro生成包含70+阶段的详细描述，构建正样本、负样本和关键性的“硬负样本”[13][14] - 基于姿态的物体探索模块训练轻量级世界模型预测相对几何姿态，避免像素干扰，专注操作任务几何结构[19][20][21] - 长程记忆机制采用基于注意力的上下文选择，从历史库检索Top-K最相关Token融合到当前状态[23][24][25] 性能验证结果 - 在Discoverse-L新基准测试中，EvoVLA平均成功率达到69.2%，相比最强基准OpenVLA-OFT的59.0%提升10.2个百分点[34] - 样本效率显著提升，达到50%成功率所需训练步数减少1.5倍[35] - 幻觉率从38.5%大幅降低至14.8%，降幅达23.7个百分点[1] - 在真实机器人部署中，EvoVLA平均成功率达到54.6%，超越OpenVLA-OFT 11.0个百分点[7] - 在未见过的“堆叠+插入”任务中，通过少量真机微调达到55.2%成功率，比OpenVLA-OFT高出13.4%[37] 行业意义 - EvoVLA为解决VLA模型在长程任务中的可靠性问题提供了优雅解法[40] - 证明更好的奖励设计、更本质的探索机制和更聪明的记忆可以让大模型在具身智能领域走得更远[41] - 利用大语言模型生成“错题集”反哺策略学习的“自我进化”范式，可能是通往通用机器人自主学习的关键一步[42]