强化学习
搜索文档
最后1个名额!强化学习在人形/四足/机械臂等方向上的应用
具身智能之心· 2025-10-21 08:03
强化学习行业应用与重要性 - 强化学习在学术和工业界持续受到重视,在顶会上出现较多,并非古老过时的学科 [1] - 强化学习是具身智能机器人(如人形、四足)实现步态控制等复杂任务的核心技术,应用于爬楼梯、跑步、跳舞等高难度动作 [2][8] - 机械臂的视觉语言动作模型与强化学习结合方案在学术领域越来越受欢迎,能提升执行效率与流畅度 [3][8] 强化学习领域面临的挑战 - 强化学习体系庞大且内容繁杂,对研究经验要求高,初学者入门难度极大 [5][9] - 产出符合顶会标准的论文需在方法论证、实验结果、写作方式等多模块达到要求,任一环节出错都可能导致低分 [5] 论文辅导课程核心内容 - 课程周期为14周核心在线辅导加8周维护答疑,目标产出可投向RAL/ICRA/IROS/CoRL等顶会的论文初稿 [9][15] - 采用6人小班模式,每周1次直播课并配有课程录播和专属助教答疑 [7][15] - 课程面向前沿,基于最新的IsaacLab仿真环境,并提供四足、人形、机械臂三轨并跑的研究主题选择 [15][16] 课程具体模块与产出 - 课程涵盖论文方向选择、强化学习基础、仿真环境、sim2real技术、各机器人本体专项及写作投稿全流程 [17][18][19] - 学员将完成理解算法原理、手写代码、仿真训练、定量分析报告及论文初稿等一系列交付物 [20][23] - 结营后8周维护期提供补实验、改图、润色与审稿回复支持 [21] 师资力量与研究选题 - 授课导师来自美国顶尖高校,在RSS、ICRA、IROS、RAL等顶级会议期刊有发表经验并担任审稿人 [21] - 课程提供四足机器人跨任务运动技能迁移、人形机器人全身运动控制等具体研究方向的可创新idea [24] 学员要求与课程特色 - 学员需具备一定的Python编程和Linux基础,并建议配备12G以上显存的Nvidia GPU,无实机亦可完成仿真 [25][27] - 课程强调科研闭环,提供从方法、工程、评测到写作投稿的全流程陪跑,每周有明确任务指标 [30]
腾讯研究院AI速递 20251021
腾讯研究院· 2025-10-21 00:01
AI基础设施与算力 - 甲骨文推出全球最大云端AI超级计算机OCI Zettascale10,由80万块NVIDIA GPU组成,峰值算力达16 ZettaFLOPS,计划于2026年下半年向客户提供服务[1] - 该超算采用独创Acceleron RoCE网络架构,通过每块GPU的NIC充当小型交换机连接多个隔离网络平面,以降低通信延迟并确保故障时自动切换路径[1] 大语言模型进展 - 谷歌Gemini 3.0疑似以lithiumflow(Pro版)和orionmist(Flash版)马甲上线评测,Gemini 3 Pro成为首个能精确识别钟表时间的AI模型,在SVG绘制和音乐作曲方面表现出色[2] - 谷歌向所有开发者开放Gemini API调用谷歌地图工具功能,可整合2.5亿个地点的位置感知,按每1000条有事实依据的提示收费25美元,支持路线规划等场景[7] - DeepSeek开源3B参数OCR模型DeepSeek-OCR,通过光学二维映射技术实现长文本上下文压缩,压缩率小于10倍时OCR精度达97%[3] AI应用与产品创新 - 元宝AI录音笔推出新功能,基于腾讯天籁降噪技术实现录音转写,并具备“内心OS”功能解读发言人弦外之音,支持多人发言智能拆分[4] - Vidu Q2参考生功能正式上线,推理速度比Q1版本快3倍,支持多主体一致性生成,免费用户可生成最长30秒视频,付费用户最长可延长至5分钟[5][6] - 宇树发布180cm仿生人形机器人H2,体重70kg,关节总数31个比前代增加约19%,可跳芭蕾舞和表演武术,应用场景扩展至娱乐演示和陪伴服务[9] AI性能评测与市场表现 - 实盘交易实验显示DeepSeek V3.1在1万美元本金下盈利超3500美元排名第一,仅进行5次交易,而Gemini 2.5 Pro进行45次交易成为赔钱最多的模型[8] - DeepSeek-OCR模型在OmniDocBench测试中仅用100个视觉token超越GOT-OCR2.0,单张A100-40G GPU每天可生成超20万页训练数据[3] 行业专家观点 - Karpathy预测AGI仍需十年时间,认为强化学习效率极低像“通过吸管吸取监督信号”,需要新的学习机制[10] - 提出“认知核心”概念,建议通过精简LLMs和提高泛化能力,预测未来模型将先变大再变小,最终收敛向更小更专注的认知内核[11]
Karpathy 回应争议:RL 不是真的不行,Agent 还需要十年的预测其实很乐观
Founder Park· 2025-10-20 20:45
AGI发展时间线 - AGI实现仍需约十年时间,与硅谷AI圈普遍乐观情绪相比预测保守5-10倍[10] - 2025年可能是智能体元年,但接下来的十年都将属于"智能体时代"[10] - 当前LLM虽取得巨大进展,但距离实现"在任意岗位都比人类更值得雇佣"的实体仍有大量基础工作需完成[11][12] LLM认知缺陷与改进方向 - 当前LLM过度依赖记忆,人类记忆能力差反而可能是有益的正则化特性[19][70] - 模型需要先变大以承载能力,再通过架构、训练范式和数据蒸馏向更小、更专注的认知内核收敛[19] - 未来认知核心可能精简至十亿参数级别,专注于思考算法而非记忆知识[76][78] 强化学习局限性 - 强化学习像"通过吸管获取监督信号",信号/计算量比非常糟糕[15] - RL过程噪声大,信噪比低且易受干扰,正确步骤可能被抑制而错误步骤可能被鼓励[15] - 未来可能出现替代学习范式,智能体交互和系统提示学习是更有前景的方向[15] 智能体发展现状 - 当前智能体存在认知缺陷,缺乏多模态能力、持续学习能力和计算机操作能力[23] - 过度追求完全自主智能体可能导致软件质量下降、漏洞增多和安全风险[20] - 更现实的协作模式是LLM分块工作,解释代码,证明正确性,在不确定时与人类协作[20] 训练范式演进 - 完整训练流程包含基础模型自动补全、指令微调和强化学习三个层次,但需要第四、五层等新机制[16][18] - 预训练通过预测互联网下一个token来"预装"智能,类似于糟糕的进化过程[13][31] - 动物通过进化预装大量智能,与LLM训练方式存在本质区别[13][28] 技术发展路径 - AI发展是计算的延伸,所有方面包括算法、数据、硬件都需要全面改进[42][43] - Transformer架构可能持续存在,但会有更多注意力机制和稀疏MLP等改进[42] - 数据集质量将大幅提升,当前互联网训练数据包含大量垃圾内容[77][82] 经济影响 - AGI定义是可完成任何具有经济价值任务且性能达到或超过人类的系统[85] - 知识型工作约占经济10%-20%,是AI替代的首要目标[86] - 呼叫中心等标准化任务可能最先实现80%自动化,人类负责监督和剩余20%工作[87]
LLM记忆管理终于不用“手把手教”了,新框架让智能体自主管理记忆系统
量子位· 2025-10-20 18:29
技术方案与核心创新 - 提出名为Mem-α的强化学习框架,用于训练大语言模型智能体自主管理复杂的记忆系统[2] - 采用数据驱动的强化学习方法,让模型在交互中自主学习最优记忆管理策略,而非依赖预设指令[4] - 将记忆构建问题转化为可通过强化学习优化的序列决策问题,实现端到端的优化[14] - 训练时智能体依次处理信息块并决定记忆操作,通过下游任务表现获得反馈进行优化[16] 技术背景与现有挑战 - 大语言模型智能体受限于有限的上下文窗口,使得外部记忆系统对长期信息理解至关重要[5] - 即使支持100万tokens的模型如GPT-4.1,在长期交互中也会因窗口增长导致成本激增和延迟增加[6] - 当前记忆增强智能体依赖预定义指令和工具进行记忆更新,缺乏决定存储内容、组织结构和更新时机的能力[7][8] - 传统方法导致次优记忆构建和信息丢失,严重影响智能体在长期交互中的表现[9] 记忆系统架构设计 - 设计包含三种记忆类型的复杂系统:核心记忆(容量512 tokens)、情景记忆(记录带时间戳的事件)和语义记忆(存储结构化知识)[20][22] - 每种记忆类型支持插入、更新、删除操作,智能体需学习在适当时机选择合适工具和记忆类型[23] - 记忆系统灵感来源于认知科学中的记忆分类理论,涵盖持久信息、事件记录和结构化知识[20] 实验性能与效果验证 - 在30k tokens上训练后,模型在验证集上问答准确率等指标显著提升[27] - 主实验显示Mem-α在MemoryAgentBench上全面超越现有方法,平均性能达64.2%[29][33] - 相比Long-Context和RAG-Top2,记忆占用减少约50%的同时保持更优性能,在BookSum等任务上压缩效果更佳[35] - 训练仅使用平均<30K tokens的文档,成功泛化到超过400K tokens的文档,最长泛化至474K tokens[35] 技术突破与行业意义 - 证明在LLM智能体记忆管理领域,学习胜过工程,传统需精心工程化的系统组件可通过端到端学习优化[34][35] - 结构化架构必要性得到验证,扁平记忆基线性能明显受限,凸显分层记忆设计和强化学习优化的有效性[35] - 展现出对未见分布的强泛化能力,在精确检索和长期理解任务上表现尤其突出[35]
具身智能之心交流群成立来!VLA/RL/导航/数采等多个方向
具身智能之心· 2025-10-20 18:00
文章核心观点 - 行业正在组建一个专注于具身智能领域的技术交流社群,旨在汇聚该领域的未来领导者 [1] 技术交流社群 - 社群覆盖近20个具身智能子技术方向 [1] - 社群面向的行业参与者涉及人形机器人、四足机器人、机械臂等本体研发 [1] - 社群关注的技术方向包括视觉语言导航、大模型、视觉语言行为、强化学习、移动操作、多模态感知、仿真及数据采集等 [1] 社群参与方式 - 行业参与者可通过添加指定微信账号并备注“加群+昵称+研究方向”的方式加入该技术交流群 [1]
NeurIPS 2025 | CMU、清华、UTAustin开源ReinFlow,用在线RL微调机器人流匹配策略
机器之心· 2025-10-20 17:15
研究背景与意义 - 流匹配技术是机器人学习领域的热门方向,作为扩散模型的变体,因其简单易用成为机器人底层操作策略的主流手段,并被广泛应用于先进的视觉语言动作模型中 [2] - 除了增加数据多样性,强化学习被视为一种高度有效的方法,可用于进一步增强开源视觉语言动作模型的能力 [2] ReinFlow算法核心原理 - ReinFlow是一个针对常微分方程策略的通用策略梯度算法,其理论基础是基于策略梯度理论推导,将确定性流转换为离散时间马尔可夫过程,从而直接优化整条流匹配链 [4][5][6] - 算法通过向流策略的确定性路径中注入少量可学习的噪声,将其转移过程改回一个随机的扩散过程,使得流匹配的联合概率可以被严格计算出来 [8][9] - 该方法虽然引入噪声改变了流匹配模型的轨迹,但通过将噪声控制到较小范围以减少与预训练策略的偏离,同时为噪声设置强度下限以鼓励适当的探索 [10] 算法性能与效率 - 在D4RL足式运动控制任务中,ReinFlow微调后的Rectified Flow策略取得了平均135.36%的净性能增长 [16] - 与当前的扩散强化学习微调方法DPPO相比,ReinFlow在保持类似性能的同时,可节省82.63%的墙钟时间 [16] - 在长程操作任务中,ReinFlow微调的Shortcut Model策略在4步甚至1步去噪的情况下,比预训练模型平均净增了40.34%的成功率,训练时间平均节省23.20% [18] 应用场景与兼容性 - ReinFlow是一个通用框架,理论上适用于所有常微分方程定义的策略,如Rectified Flow和Shortcut Models,并支持极少步数下的推理 [12] - 该框架成功应用于包含25种不同物品、十余种桌面设置和上百种初始化位姿的高度随机化场景,可大幅提高模型的抓取成功率 [20] - 更新公式可适用于几乎所有强化学习梯度算法,如PPO [12] 技术验证与消融研究 - 实验显示仅靠增加数据或推理步数较快达到性能瓶颈,而强化学习微调能进一步提升性能 [24] - ReinFlow对均匀、Logit-normal和Beta分布等多种时间采样方式都表现良好的性能 [24] - 同时以状态和时间为条件生成噪声,有助于产生更多样化的动作,噪声过小训练会陷入瓶颈,一定阈值后可探索新策略 [24] 开源资源与未来规划 - 项目已全面开源,包含完整代码库、模型检查点、WandB指标和详尽文档 [27] - 未来计划公布更多大型视觉语言模型微调结果,支持用在线强化学习微调Mean Flow,并研究将该方法用于仿真到真实世界的迁移和真机强化学习微调 [29]
AI撕碎了“伪工作”的遮羞布
虎嗅· 2025-10-20 16:21
本文来自微信公众号:嬉笑创客,原文标题:《如果这轮AI爆发只达到预期下限》,题图来自:AI生 成 关注AI的朋友可以阅读下Andrej Karpathy最新的万字访谈。作为OpenAI创始成员、曾任特斯拉AI部门 负责人,他对这一轮LLM爆发的本质和预期有着深刻见解,尤为精彩的是对强化学习的论述、对AGI至 少10年以上距离的判断、"构建动物和创造幽灵"的比喻,以及将人类认知分为不同模块,认为智能体还 缺少多个关键能力等观点。 读完更觉得在ChatGPT火爆之初,特德·姜的认知今天看来仍极具预见性:当前LLM只是互联网数据的 剪影压缩("ChatGPT是网上所有文本的模糊JPEG"),是对智能的近似模仿,仅仅够得着"智能"的下 限。 上述讨论之所以重要,是因为他们在尝试回应一个本质的问题,这一轮AI发展的路线究竟能将我们带 向AGI,还是另一个更加灵巧、更拟人的单词预测器。 这个问题上,重磅专家的重磅观点,对市场心理有着显著影响。去年10月份MIT达龙·阿西莫格鲁的悲 观预期,今年MIT NANDA报告指出95%的企业AI投资零回报,都造成过冲击。预期打的越满时越脆 弱。 这决定了这轮"泡沫"的含量。如果接近 ...
Andrej Karpathy :AI 智能体的十年战争、强化学习的困境与“数字幽灵”的觉醒
锦秋集· 2025-10-20 15:00
智能体发展时间框架 - 当前业界普遍认为今年是"智能体元年",但Andrej Karpathy判断这是"智能体的十年",意味着智能体的成熟将是一个长达十年的渐进过程,而非短期内突然爆发[6][7] - 智能体要成为真正的"数字同事"尚需约十年时间,因其核心能力模块尚未整合完备[8][9] 智能体缺失的关键能力模块 - 实现真正可用的智能体还缺失四个关键模块:多模态感知、记忆系统、持续学习与行动接口[1] - 具体缺失的能力包括:多模态能力(理解图片、视频、操作界面)、计算机使用能力(用鼠标、键盘或API操作数字世界)、持续学习(记住历史信息而非每次从零开始)、更强的认知能力(规划、上下文管理、长期目标追踪)[15] AI发展史上的关键转折点 - AI领域过去十五年经历了三次范式转折:深度学习崛起(AlexNet时代代表的感知革命)、强化学习与游戏兴起(行动革命)、大语言模型出现(表征革命)[11][12][13][14] - 真正的技术"实用化"总是比"概念提出"晚五到十年,智能体的演化不会例外[11] 强化学习的根本缺陷与改进方向 - 强化学习在实践中存在信息稀疏问题,其本质是把监督信号吸进一根吸管里,从长行为序列中只获取最后一点反馈,导致高噪声、低效率、极难稳定[20] - 人类基本不用强化学习,而是依赖反思与推理过程,形成过程监督而非仅看最终结果[21] - 未来强化学习的改进方向包括:细粒度奖励(每个阶段提供反馈)、多维度打分(评估效率、优雅度、可解释性)、自我评估循环(模型能自己复盘、修正、再训练)[47][48][49] 从模仿学习到反思学习的演进 - AI学习模式的演进路径为:从模仿学习(模型模仿人类对话风格)到强化学习(RLHF,结合模仿与奖励),下一步是让模型学会自我反思[23][24] - 模型需要具备"反思与回顾"结构,甚至类似"睡眠"的机制,将临时经验蒸馏进权重,但目前这些还停留在论文级别实验,尚未在真正的大模型规模上跑通[24][25] AI编程的现状与瓶颈 - AI辅助编程工具(如Copilot或GPT)目前作用有限,在独创系统或研究型代码编写上几乎帮不上忙,其最实用模式是半自动补全(程序员控制结构,模型辅助局部实现)[31][35][36][39] - 模型在创新结构上几乎无能,它擅长复刻常见模板,但理解不了新结构,容易自以为懂并建议不必要的API,导致代码臃肿复杂[38] - 编程的进化可视为一个"自主滑杆"的缓慢推进,AI持续压缩低价值劳动空间,但真正的架构与理解仍靠人类,未来编程可能演化为一种"思维交互"[41][42][43] 人类学习与AI训练的根本差异 - 人类学习是开放系统,具备多层次学习机制(内置硬件、社会化学习、反思梦境和创造再训练),而AI模型是一次性训练形成的封闭系统,不会真正持续更新认知[51] - 人类通过遗忘保持创造力优势,而AI记忆力太好反而妨碍泛化,未来可能需要让模型"学会遗忘"[28] AI的未来角色与社会影响 - AI的角色是"认知合作者",未来最现实的是一种共生关系:AI负责探索空间庞大、重复性高的任务,人类负责定义目标、做价值判断[52] - 未来社会分工会越来越像"混合认知体",每个个体由一个人加一组AI代理组成,像拥有个人操作系统一样协同工作[53] - 下一个十年是从"召唤幽灵"到"驯化幽灵"的阶段,需要建立社会层面的规则、价值观、使用边界,确保AI安全、可靠、合作、可信[54][55]
MuJoCo教程来啦!从0基础到强化学习,再到sim2real
具身智能之心· 2025-10-20 08:03
具身智能行业趋势 - 行业正处于前所未有的转折点,从符号推理、深度学习到大语言模型,如今具身智能正在全面崛起 [1] - 全球顶尖科技公司如Tesla、Boston Dynamics、OpenAI、Google等均在竞相布局具身智能领域 [1] - 具身智能将彻底改变制造业、服务业、医疗健康、太空探索等几乎所有行业 [1] MuJoCo技术核心价值 - MuJoCo是连接虚拟世界与现实世界的重要桥梁,为机器人学习提供高保真、高效率的训练环境 [4] - 仿真速度可比现实时间快数百倍,并能通过域随机化技术将仿真中训练的策略成功迁移到真实世界 [6] - MuJoCo采用先进的接触动力学算法,支持高度并行化计算,并提供丰富的传感器模型,已成为学术界和工业界的标准工具 [6][8] 技术能力培养体系 - 课程采用项目驱动的学习方式,包含六个层次递进的实战项目,从机械臂控制到Sim-to-Real迁移 [11][16][17] - 项目设计涵盖MuJoCo建模、物理仿真、强化学习、机器人控制、多智能体系统等完整技术栈 [17][20][22][24][26][28][29] - 学员将掌握现代AI开发工具链,包括Python生态、深度学习框架、版本控制等,培养独立解决复杂问题的能力 [13][32][33]
稳定训练、数据高效,清华大学提出「流策略」强化学习新方法SAC Flow
具身智能之心· 2025-10-20 08:03
文章核心观点 - 提出一种名为SAC Flow的新方案,使用高数据效率的强化学习算法SAC来端到端优化真实的流策略,无需采用替代目标或策略蒸馏 [1] - 核心创新在于将流策略的多步采样过程视为一个残差循环神经网络,并引入GRU门控和Transformer Decoder两套速度参数化方法来稳定训练 [1][8] - 该方法在MuJoCo、OGBench、Robomimic等多个基准测试中实现了极高的数据效率和显著的性能提升,达到SOTA水平 [1] 研究背景与问题 - 流策略因其建模多峰动作分布的表达能力及比扩散策略更简洁的优势,在机器人学习领域热门,并被广泛应用于先进的VLA模型如π_0、GR00T等 [4] - 使用数据高效的off-policy RL算法(如SAC)训练流策略时会出现训练崩溃,原因是流策略的K步采样推理导致反向传播深度等于采样步数K,引发梯度爆炸或消失 [4][7] - 现有工作通过使用替代目标或策略蒸馏来规避此问题,但牺牲了流策略本体的表达能力,未能真正端到端优化流策略 [5] 技术方法:SAC Flow - 将流策略的每一步中间动作视为隐状态,Euler积分过程等价于一个残差RNN的单步前向,从而将流策略的K步采样反传等价于对RNN网络的反传 [10] - 提出两种速度网络参数化方式:Flow-G(GRU门控结构)自适应决定保留当前动作或写入新动作以抑制梯度放大;Flow-T(Transformer Decoder)在全局状态语境下稳态细化动作 [16][17] - 通过添加高斯噪声和配套漂移修正,解决SAC熵正则化中确定性K步采样无法直接给出可积密度的问题,使SAC的损失函数可直接用流策略多步采样的对数似然表示 [14] - 支持两种训练范式:对于密集奖励任务可从头开始训练;对于稀疏奖励任务且拥有示例数据的场景,支持离线预训练后再进行在线微调 [18] 实验结果 - 在MuJoCo的Hopper、Walker2D、HalfCheetah、Ant、Humanoid、HumanoidStandup环境中,SAC Flow-T/Flow-G能够稳定快速地收敛,并取得更高的最终回报 [20] - 消融实验表明,SAC Flow-T和Flow-G能有效稳定梯度范数,防止训练崩溃,而直接使用SAC微调流策略则会出现梯度爆炸 [24][26] - 方法对采样步数K具有鲁棒性,在K=4/7/10的条件下均能稳定训练,其中Flow-T对采样深度的鲁棒性尤其强 [27] - 在OGBench的Cube-Triple/Quadruple等高难度任务中,SAC Flow-T收敛更快,整体成功率领先或持平现有off-policy基线(如FQL、QC-FQL) [30] - 相比扩散策略基线(如DIME、QSM),基于流策略的方法普遍收敛更快,而SAC Flow在此基础上性能进一步超越FlowRL [30]