强化学习 - 财报，业绩电话会，研报，新闻 - Reportify

强化学习

搜索文档

具身智能之心技术交流群成立了！

具身智能之心· 2025-08-28 16:36

具身智能技术社群成立 - 行业成立具身智能之心技术交流群重点关注视觉语言导航视觉语言动作遥操作扩散策略强化学习仿真到现实迁移多模态大模型运动控制目标导航建图定位等技术方向[1] - 行业社群面向机构及学校研究人员开放需通过指定联系方式备注机构名称个人姓名及研究方向完成入群申请[2][3]

多模态大模型

Diffusion Policy

多模态大模型

Diffusion Policy

波士顿动力机器狗侧空翻炸场！穿轮滑鞋照样能翻

量子位· 2025-08-28 14:46

波士顿动力Spot机器狗技术突破 - 完成高难度动作包括侧空翻和连续三个后空翻动作涵盖蓄力、弹跳、旋转、落地、缓冲及调整全流程 [1][3][5] - 空翻动作并非初始设计目标工程师表示未预先设定该能力 [7] - 硬件规格：身高84cm、长110cm、宽50cm、净重32.5kg 配备12个自由度（每条腿3个）及5对立体摄像机 [22] 功能性应用场景 - 具备负重爬楼、勘测扫描及开门等实用操作能力 [10][12][14] - 核心价值体现在工业场景的实际任务执行而非娱乐表演 [16][17] - 空翻动作本质是极端测试手段用于验证系统硬件强度、算法稳定性及子系统协同效能 [20] 技术开发方法论 - 采用仿真环境强化学习与真机测试迭代结合的训练模式 [22] - 通过高难度动作测试提升机器狗自主恢复能力确保在滑倒或障碍环境中能独立起身 [18][19][21] - 相关技术细节参考论文《High-Performance Reinforcement Learning on Spot》 [22] 品牌历史与商业背景 - 2016年推出Spot机器狗 2018年已具备舞蹈表演能力（如《Uptown Funk》编舞） [27][28] - 2020年参与多机器人协同舞蹈表演 [31] - 2020年12月韩国现代集团收购波士顿动力80%股份 2021年6月实现全资控股 [31] 娱乐化应用与公众展示 - 空翻动作为参加《美国达人秀》表演做准备 [25] - 历史娱乐案例包括2018年"七狗观音"群组表演（配合防弹少年团音乐） [30] - 舞蹈表演长期作为技术测试的衍生应用场景 [33]

具身智能之心B端和C端培训老师招募来啦~

具身智能之心· 2025-08-28 09:20

业务模式 - 公司开展B端和C端培训业务 B端主要面向企业和高校及研究院所 C端面向学生和求职人群[1][3] - 业务内容包括制定课程大纲和制作课程材料[3] 技术方向 - 培训内容涵盖VLA VLN 遥操作 Diffusion Policy 强化学习 VLA+RL sim2real 多模态大模型仿真运动控制目标导航等前沿技术领域[2] 人才要求 - 要求博士及以上学历（包含在读）[3] - 需具备2篇A会或一区以上期刊/会议发表或2年及以上工业界经验[3] 合作方式 - 通过微信平台进行业务咨询（微信号：oooops-life）[4] - 提供高于行业水平的酬金待遇[1]

Diffusion Policy

多模态大模型

Diffusion Policy

多模态大模型

斯坦福大学提出RTR框架，让机械臂助力人形机器人真机训练

具身智能之心· 2025-08-28 09:20

文章核心观点 - 提出一种名为RTR的创新软硬件协同系统，通过“教师”机械臂在现实世界中“手把手”地指导“学生”人形机器人进行在线强化学习，以突破人形机器人真机强化学习的瓶颈 [3][5][7] - RTR系统结合了主动物理辅助硬件与高效算法，实现了在真实环境中对机器人策略进行安全、高效的在线微调，显著提升了数据效率和性能 [7][12][14] - 该方法在行走和“荡秋千”两个任务中得到验证，仅需20分钟的真实世界训练即可将仿真预训练的行走策略速度提升一倍，并在20分钟内从零学会周期性摆荡动作 [14][18] 方法硬件设置 - 硬件系统由“教师”和“学生”两组机器人组成：教师系统核心是带力-矩传感器的UR5六轴机械臂，通过四根弹性缆绳柔性连接学生机器人肩部；学生系统基于拥有30个自由度的开源ToddlerBot人形机器人 [9] 算法设计 - Sim-to-Real过程分为三阶段：首先在大量域随机化仿真环境中训练接受隐变量z输入的控制策略；其次在仿真中优化一个“通用”初始隐变量作为真实世界微调的起点；最后在真实世界冻结策略网络，仅在线优化低维隐变量z以实现高效微调 [10][12] - 使用FiLM层将环境动力学相关的隐变量融入策略网络，其效果优于直接将环境动态变量拼接到策略网络观测中的方法 [10][17] 实验验证行走任务 - 消融实验表明，能够主动顺应机器人运动的“柔性”机械臂辅助结合从高辅助过渡到零辅助的课程学习策略，其效果优于固定吊架或固定辅助策略 [14] - RTR提出的“微调隐变量”方法在数据效率和最终性能上均优于微调整个策略网络或微调残差网络的基线方法 [14] 荡秋千任务 - 在纯真实环境强化学习任务中，教师机械臂通过实时力反馈感知摆动相位，在适当时机给予帮助或扰动，其效率高于教师仅作为固定吊架的方案 [18] - 整个学习过程从零开始，在20分钟内学会了幅度明显的周期性摆荡动作 [18] 总结与展望 - RTR框架引入了主动力辅助的新范式，其极具扩展性的框架未来可推广至全尺寸人形机器人及其他复杂机器人系统的真实世界强化学习任务中 [16]

ToddlerBot人形机器人

ToddlerBot人形机器人

打破瓶颈，让RAG学会思考：中科大、智源等发布推理检索框架BGE-Reasoner

机器之心· 2025-08-27 16:36

核心观点 - BGE-Reasoner在推理密集型信息检索领域取得突破性进展以45.2分刷新BRIGHT基准纪录领先第二名3.6分[2][12][14] - 该技术通过三阶段模块化框架解决复杂查询问题显著提升RAG和AI Agent在深度研究场景的推理能力[3][8][19] - 创新性采用大模型合成数据与强化学习技术突破训练数据稀缺和困难样本泛化的行业瓶颈[4][5][22] 技术架构 - 提出可复制的三模块框架：Rewriter实现查询理解与改写 Embedder负责向量检索 Reranker进行精排[3][19][24] - 基于Qwen系列模型微调：Rewriter采用Qwen2.5-7B-Instruct Embedder基于Qwen3-8B Reranker基于Qwen3[21][22] - 端到端工作流程：原始查询经改写后由Embedder与BM25并行检索最终通过Reranker输出排序[19][24] 性能表现 - 在BRIGHT基准取得45.2分超越蚂蚁集团DIVER(41.6分)和百度ReasonRank(40.8分)等竞争对手[12][14] - 向量模型BGE-Reasoner-Embed获得32.5分显著优于Seed1.5-Embedding(27.2分)和Qwen3-Embedding等基线[12][15] - 测试时扩展技术增强排序稳健性强化学习提升困难样本推理能力[5][22] 数据创新 - 利用大模型合成多领域训练数据覆盖数学与代码等推理密集型场景[4][21] - 通过教师模型生成推理路径采用拒绝采样策略构建高质量训练样本[21] - 合成数据有效解决行业数据稀缺瓶颈验证于BRIGHT基准的显著性能提升[4][22] 行业影响 - 推动RAG技术在复杂推理任务发展解决AI Agent智能化的核心难题[2][8] - 模型权重与训练代码即将开源促进检索与人工智能领域研究应用[6][25] - 由中科大智源研究院北邮与港理工联合研发体现中国在AI前沿领域的创新能力[2][25]

推理密集型信息检索

BGE-Reasoner-Embed

推理密集型信息检索

BGE-Reasoner-Embed

Meta万引强化学习大佬跑路，用小扎原话作为离别寄语，扎心了

36氪· 2025-08-27 14:48

核心事件 - Meta强化学习研究员Rishabh Agarwal宣布离职决定不加入公司新组建的超级智能实验室选择尝试全新职业道路 [1] - 另一位在Meta工作12年的资深员工同期离职加入竞争对手Anthropic的推理团队 [15] 人才背景 - Rishabh Agarwal为AI领域顶尖研究人员拥有谷歌学术论文引用量10,392次 h-index指数达34 [5][6] - 曾获NeurIPS 2021杰出论文奖论文主题为深度强化学习统计不稳定性分析 [3][11] - 职业生涯覆盖谷歌Brain、DeepMind及Meta 累计7.5年从业经验 [1][7][11] - 参与谷歌Gemini 1.5（引用2,508次）、Gemma 2（引用1,224次）等核心项目开发 [3][6][11] 技术贡献 - 在Meta期间主导推理模型后训练工作包括使用强化学习规模化训练8B参数稠密模型达到接近DeepSeek-R1性能水平 [13][16] - 开发训练中途引入合成数据技术为强化学习提供热启动机制 [16] - 提出高效on-policy蒸馏方法提升模型训练效率 [16] 行业影响 - Meta近期出现资深研究人员流失趋势与公司招聘新人才导致的内部薪酬待遇差异有关 [17] - 人工智能领域高端人才竞争加剧头部企业间人才流动频繁 [15][17]

Meta推理模型

Meta推理模型

打磨7年，李航新书《机器学习方法（第2版）》发布，有了强化学习，赠书20本

机器之心· 2025-08-27 11:18

机器之心报道机器之心编辑部每个领域的发展，都离不开几本奠定基础的经典书籍，人工智能亦是如此。此前，李航老师的《统计学习方法》《统计学习方法（第 2 版）》可以说是机器学习宝典，很多学生、老师都将此书奉为必读书籍。然而，随着 AI 技术的快速发展，特别是深度学习的飞跃式进展，一本仅覆盖传统机器学习的教材，已无法全面反映当前机器学习技术的全貌。因此，李航老师在前两版的基础上，又推出了《机器学习方法》，新增深度学习内容。而近期，AI 圈对于强化学习的关注也在迅速升温。从大模型与智能体的融合尝试，到强化学习在游戏、机器人控制、决策优化中的广泛应用，这一方向再次成为焦点。然而，此前许多教材对此涉及较少，甚至完全缺席，导致很多人无法系统学习。现在这个问题也解决了。李航老师全新上线新书《机器学习方法（第 2 版）》，将强化学习独立成篇，系统介绍了强化学习的基本框架与代表算法，包括马尔可夫决策过程、多臂老虎机问题、深度 Q 网络等。全书共分为 4 篇（或 4 册），对应监督学习、无监督学习、深度学习和强化学习 4 个主要分支。至此，《机器学习方法（第 2 版）》构建起了一个覆盖监督学习、无监督 ...

《机器学习方法（第2版）》

《机器学习方法（第2版）》

手把手教机器人：斯坦福大学提出RTR框架，让机械臂助力人形机器人真机训练

机器之心· 2025-08-27 08:46

核心观点 - 人形机器人运动控制领域正成为强化学习算法应用的热点采用仿真到现实范式训练通用控制模型但该方案牺牲了特定真实环境中的性能上限[2] - 提出创新的RTR系统使用教师机械臂在现实世界指导学生人形机器人进行在线强化学习突破真机训练障碍[4][6] - RTR系统通过硬件协同和算法创新实现三阶段高效微调在行走和荡秋千任务中展现卓越性能仅需20分钟真实训练即可将仿真预训练速度提升一倍[6][15][19] 技术方案 - 硬件系统由教师UR5六轴机械臂与学生ToddlerBot人形机器人组成通过四根弹性缆绳柔性连接配备力传感器和可编程跑步机[8] - 教师机械臂扮演多重角色：安全保护装置自动重置帮手训练数据信号源以及通过课程学习设置进度和施加扰动的智慧教练[5] - 算法采用三阶段Sim-to-Real流程：先在仿真环境训练适应不同物理参数的策略再优化通用初始隐变量最后在真实世界仅在线优化低维隐变量z[9][10][11] 性能表现 - 在行走任务中主动顺应机器人运动的柔性机械臂比固定吊架显著提升学习效果课程学习策略优于固定辅助策略[15] - 微调隐变量方法在数据效率和最终性能上均优于微调整个策略网络或残差网络基线真机微调效果强于RMA等在线参数识别基准[6][18] - 在纯真实环境荡秋千任务中有教师主动参与的课程学习效率高于固定吊架方案 20分钟内学会幅度明显的周期性摆荡动作[19] 应用前景 - RTR框架为解决当前人形机器人真机部署与训练瓶颈提供可行方案引入主动力辅助新范式[17] - 该框架具有高度扩展性可通过更强工业机械臂或力传感龙门吊系统推广至全尺寸人形机器人及其他复杂机器人系统[17] - 项目代码已全部开放被CoRL 2025会议接收由清华大学和斯坦福大学研究人员共同完成[22]

仿真到现实

仿真到现实

一天之内，Meta痛失两员大将，小扎钞能力失效？

机器之心· 2025-08-26 16:53

Meta AI人才流失现象 - Meta内部出现资深AI研究员离职潮包括强化学习专家Rishabh Agarwal（去向未定）和12年元老级员工Bert Maher（加入Anthropic）[1][3][24] - 扎克伯格以上亿美元薪资组建超级智能团队的同时遭遇核心人才持续流失被嘲讽"钱买不到顶级研究员"[1][4] 人才流失原因分析 - 内部待遇差距引发争议非超级智能研究者被指遭受"次等待遇" 如同"巨型社会实验"[6][7] - 员工保留率仅64%远低于Anthropic的80% 反映深层管理文化问题[30] - 存在强制5%末位淘汰制导致工作动机异化为"避免被解雇" 引发内斗行为[34] - CTO与首席产品官各自为政 FAIR实验室因长期导向被边缘化且GPU资源匮乏[34] - 新老派系冲突加剧天价挖人导致资源倾斜老员工士气崩塌[34] 典型案例分析 - Rishabh Agarwal被引量破万 h指数34 曾领导Llama团队强化学习研究[13][17][18] - 其贡献包括将8B参数模型性能提升至接近Deepseek-R1水平开发强化学习热启动技术[19] - Bert Maher参与HHVM虚拟机、ReDex安卓优化工具、PyTorch框架等核心项目开发[25][27] 公司结构性风险 - 管理模式被类比"90年代微软" 权力集中创始人主导吞噬公司资源的宏大项目[10] - 缺乏强力CTO分担制衡管理失衡可能导致明星CEO被压垮[11] - VR大神John Carmack曾指控公司资源利用率极低整体效率仅预期50%[33] 人才拒绝加入原因 - 顶尖研究者拒绝Meta因愿景分歧公司注重盈利与竞赛研究者强调安全与长期主义[38][39] - 价值观冲突使金钱无法弥补妥协如Sutskever等追求更道德AI方法的人士[39] - 使命感缺失成为关键因素特斯拉工程师明确表示"金钱买不到使命感"[40] - AI人才含金量普遍提升在其他公司长期未必获得更低报酬[41] 具体拒绝案例 - Ilya Sutskever拒绝出售Safe Superintelligence给Meta[44] - Mira团队全员拒绝被Meta招募和收购[44] - Perplexity AI收购谈判破裂 CEO招募被拒[44] - OpenAI的Noam Brown和Markchen均拒绝邀约[44] - Google AI架构师Koray Kavukcuoglu拒绝加入[44]

Meta Platforms(US:META)

Meta万引强化学习大佬跑路！用小扎原话作为离别寄语，扎心了

量子位· 2025-08-26 12:36

核心人才流失 - Meta强化学习专家Rishabh Agarwal离职其曾参与Gemini 1[4]5和Gemma 2等核心项目开发论文总引用量达10[6]392次 h-index为34[6] 2021年获得NeurIPS杰出论文奖[4][14] - 另一名任职12年的Meta资深员工同期离职并加入竞争对手Anthropic推理团队[18][19] - 离职潮可能与新老员工薪酬待遇悬殊引发的内部矛盾相关部分研究人员曾威胁辞职[23][24] 技术贡献与行业影响 - Rishabh Agarwal在Meta期间主导推理模型后训练工作具体包括采用RL规模化训练将8B稠密模型性能提升至接近DeepSeek-R1水平在训练中引入合成数据实现RL热启动提出高效on-policy蒸馏方法[16][20] - 其2021年发表的深度强化学习统计不稳定性论文成为评估RL算法的里程碑工作[14] - 曾作为核心贡献者参与谷歌Gemini 1[4]5（上下文突破100万token）和Gemma 2（轻量级开源模型）开发[4][13] 人才流动趋势 - Meta近期组建超级智能实验室并大量引进人才但同期出现资深技术骨干流失现象[1][22] - 高端AI人才更倾向选择创业或探索非传统技术路径 Rishabh Agarwal明确表示拒绝加入Meta新实验室并寻求"完全不同道路"[1][17] - 行业顶尖人才普遍具备跨机构任职背景 Rishabh Agarwal曾同时任职谷歌Brain[6]DeepMind[6]Meta[1]并兼任麦吉尔大学教授[13]