强化学习
搜索文档
千人千面的真人级AI名师,劈开教育「不可能三角」
量子位· 2025-12-30 11:57
公司核心产品与市场表现 - 公司“与爱为舞”开发了一款名为“爱学”的AI教育应用,其AI导师能够提供自然、互动性强的真人级讲课体验,并实现一对一个性化教学[1][2] - 该应用自年初上线以来,已累计服务百万级用户,学员分布在全国342个城市[3][101] 解决教育行业“不可能三角”的技术路径 - 公司通过“模型+语音+工程”三大核心技术组件,旨在破解教育行业规模、质量与成本难以兼得的“不可能三角”[4][5][6] 模型能力:从“知道”到“会教” - 通用大模型虽能解决复杂问题(如获奥赛金牌),但其设计初衷并非教育,往往直接给出答案和枯燥解析,缺乏教学引导[7][8][12][15] - 公司训练AI导师分为“知”与“行”两个层面:“知”包括掌握学科知识图谱、考点及名师授课方法论;“行”则通过海量真实数据与实践让AI学会应用[17][18][19] - 公司积累了约百万小时的音视频互动数据(含顶级名师授课视频),并通过构建“虚拟学员”与AI对练,每周生成数万小时的合成数据用于训练[21] - 训练过程结合专业教研:教师将教学经验具象化为思维链,形成“好老师红宝书”指导AI,后期该标注环节实现自动化[23][25] - 模型训练分两步:首先通过微调模仿教师思维链,固化基本教学方法以保障教学质量下限;随后通过强化学习(奖励函数围绕教学路径、有效性、灵活性设计),使AI能灵活调整教学策略[27][28][30][33][34][35] - 模型通过模拟课堂和直连真实教学一线进行测试与迭代,最终基于学员专属档案库实现千人千面的个性化课程定制[38][40][44][45] 语音交互:实现“真人级”互动体验 - 公司自研多模态语音理解大模型,结合教学上下文理解,解决真实课堂中噪音、方言及同音字(如“极限”与“极线”)的识别难题,将句准确率从行业约80%提升至95%以上[52][53][54] - 自研声纹降噪模型,能区分学员与家长的声音[54] - 语音合成采用LLM+Flow方案,结合强化学习优化语调节奏,并使用真实课堂数据建模不同教师的讲课风格,使发音更自然、情感表现更好[61][62][63][65] - 研发流式语义VAD和打断模型,使AI能实时识别学员打断意图,识别准确度达90%以上,支持双向实时交互[66] - 为AI导师配套设计了口型、表情与动作高度同步的逼真数字人形象,增强信任感与沉浸感[67][69] 系统工程:支撑大规模并发落地 - 通过优化服务链路,将AI思考与响应延迟压缩:简单问题走快速通道,复杂问题并行处理,使模型回复延迟控制在100ms以内,整条响应链路稳定在1–1.5秒;被打断时响应时间控制在100–200ms,整条链路不超过1.6秒[77][78][80] - 通过“提前缓存”优化性能:将Prompt结构化,减少模型重复阅读;缓存常见知识点的讲解结果,避免重复生成[86][89] - 通过链路优化与缓存组合,将整个交互流程控制在1秒至1.6秒之间[90] - 在单机层面优化显存规划与共享,并对GPU算子进行专项加速,使单卡有效吞吐能力提升约5倍,可支撑几十路真人级数字人推理[91] - 在集群层面从多数字人统一调度、系统抽象、并行计算、预留容量、保险机制五个维度加固系统,成为业界首个支持万人并发的真人级AI教学系统[92][94] 公司理念与行业愿景 - 公司不将AI视为简单工具,而是一场对个体工作逻辑与组织管理范式的深层重塑,提出“全员皆超级个体”理念,让个人能调度智能体军团实现创新[95][96][99] - 公司产品实践旨在通过AI技术,实现“有教无类、因材施教”的教育愿景[103]
硬科技冲高,机器人行情火热,昊志机电涨超6%,机器人ETF基金(159213)冲击五连阳,连续3日强势吸金超6300万元!人形机器人"黄金十年"启幕?
搜狐财经· 2025-12-30 11:42
机器人ETF基金市场表现 - 12月30日,机器人ETF基金(159213)上涨0.67%,冲击五连阳 [1] - 当日盘中资金大举净申购2000万元,已连续3个交易日强势吸金超6300万元 [1] - 成分股涨跌互现,新时达涨停,昊志机电涨超6%,拓普集团涨0.81%,机器人涨0.51%,汇川技术、双环传动等涨幅居前 [6] 机器人ETF基金成分股构成 - 标的指数前十大成分股覆盖计算机、机械设备、汽车、家用电器等行业 [2] - 前两大成分股为科大讯飞(估算权重9.96%)和汇川技术(估算权重9.94%) [2] - 前十大成分股还包括拓普集团(权重7.71%)、大华股份(权重4.59%)、大族激光(权重4.27%)等 [2] 行业标准化进程与产业现状 - 人形机器人与具身智能标准化技术委员会在北京成立,旨在通过标准制修订工作引导产业健康发展 [3] - 当前产业规模增速较快,但存在标准滞后、基础接口不统一推高协同成本、应用缺乏规范影响市场信任等问题 [3] - 标委会将承担基础共性、关键技术、部组件、整机与系统、应用、安全等领域的行业标准制修订工作 [3] 产业发展阶段与未来展望(开源证券观点) - 回顾2025年,产业从“0-1”开始走向“1-10”,核心是“技术收敛”,板块围绕特斯拉机器人的技术迭代和升级方向展开 [4] - 展望2026年,产业将跨越“1-10”拐点,走向“10-100”,核心是“量产和商业化” [4][8] - 2026年关键预测包括:特斯拉Gen2.5机器人硬件平台或已锁版,为Gen3量产筑牢基础;3月份开启批量订单,8月份开启大规模制造;宇树等国产头部企业有望实现IPO;政策与产业端有望实现中美共振,板块迎来主升浪 [8] 技术、硬件与政策催化(国联民生观点) - 大脑方面:模型加速进化,VLA架构成为2025年主流方案,强化学习加速融入训练,端到端模型是终局方向,真实数据成为核心生产力与竞争瓶颈 [9] - 本体方面:硬件处于多元探索阶段,应用由数据采集与教育科研为主,向“工业与特种先行、商业跟进、家庭探索”路径展开,机器人形态将长期多元并存 [9] - 政策方面:通用机器人为大国科技竞争前沿,海内外政策共振,国内形成“国家战略引领、地方落地支撑、标准体系规范”的格局,政策加码提供发展预期与长期确定性 [10] 行业整体趋势与投资工具 - 全球科技巨头与新秀全面下场布局人形机器人,行业量产奇点已至 [11] - 机器人ETF基金(159213)及其联接基金跟踪中证机器人指数,该指数结构与产业链环节高度契合,为投资者提供一键布局工具 [11]
渤海证券研究所晨会纪要(2025.12.30)-20251230
渤海证券· 2025-12-30 10:58
宏观及策略研究 - 2025年1-11月规模以上工业企业利润同比增速边际回落1.8个百分点至0.1% [4] - 2025年11月规模以上工业企业利润同比下降13.1%,较10月回落7.6个百分点 [4] - 从量价因素看,11月规模以上工业增加值同比增长4.8%,较10月回落0.1个百分点;11月PPI同比回落0.1个百分点至-2.2% [4] - 1-11月工业企业营业收入同比增速边际回落0.2个百分点至1.6%,营收利润率为5.29%,同比下降2.0% [4] - 各类型企业利润累计同比增速均回落,其中国有企业、私营企业、股份制企业转为负增长,外商及港澳台商投资企业仍保持正增长 [4] - 在41个工业大类行业中,有18个行业1-11月利润总额累计增速为正,增长面持平上月 [5] - 黑色金属冶炼和压延加工业、有色金属矿采选业、铁路船舶航空航天和其他运输设备制造业、废弃资源综合利用业实现较高利润增长 [5] - 高技术制造业中,计算机通信和其他电子设备制造业、汽车制造业的利润增速进一步加快 [5] 基金研究 - 上周(2025年12月22日至26日)权益市场主要指数全部上涨,中证500涨幅最大,为4.03% [7] - 31个申万一级行业中24个上涨,涨幅前五为有色金属、国防军工、电气设备、电子和建筑材料 [7] - ETF市场总规模突破6万亿元,再创历史新高 [7] - 中证A500ETF获资金大幅流入,规模接近500亿元 [7][11] - 本期偏股型基金平均上涨2.69%,正收益占比87.08%;固收+型基金平均上涨0.43%,正收益占比95.13%;纯债型基金平均上涨0.05%,正收益占比95.55%;养老目标FOF平均上涨0.97%,正收益占比99.02% [10] - 主动权益基金上周加仓幅度靠前的是有色金属、综合和农林牧渔;减仓幅度靠前的是国防军工、美容护理和汽车 [10] - 主动权益基金整体仓位为75.23%,较上期下降4.62个百分点 [10] - 上周ETF市场整体资金净流入914.98亿元,其中债券型ETF净流入规模最大,为599.48亿元 [10] - 上周整体ETF市场日均成交额达4,428.87亿元,日均成交量达1,509.83亿份,日均换手率达7.51% [10] - 宽基指数中,中证A500、中证小盘500指数为主要流入标的,沪深300、创业板指数遭遇资金流出 [11] - 上周新发行基金23只,新成立基金53只,新基金共募集290.99亿元,较前期增加107.78亿元 [11] - 专题报告探讨强化学习在大类资产配置中的应用,实证显示其策略在样本外表现优于传统配置方法 [12] - 在构建的包含权益、债券、商品及境外资产的大类资产配置框架中,PPO策略在年化收益率、夏普比率及跨年度稳定性方面表现最为突出 [12] 公司研究 (药明康德) - 药明康德为全球医药及生命科学行业提供一体化、端到端的新药研发和生产(CRDMO)服务 [15] - 公司2024年营收小幅下滑,但2025年上半年表现优异 [15] - 化学业务(WuXi Chemistry)提供CRDMO一体化服务,2025年前三季度D&M管线新增分子621个,其中从R到D转化分子250个 [15] - 截至2025年9月末,小分子D&M管线总数达3430个 [15] - 测试业务(WuXi Testing)的临床CRO及SMO业务受市场价格因素影响,2025年前三季度营收下降,公司已剥离临床服务研究业务 [16] - 生物学业务(WuXi Biology)不断建设新分子种类相关能力,带动相关收入强劲增长 [16] - 中性情景下,预计公司2025-2027年归母净利润分别为158.6亿元、152.2亿元、176.3亿元 [16] - 预计2025年每股收益(EPS)为5.32元,对应市盈率(PE)为17.44倍,首次覆盖给予“增持”评级 [16] 行业研究 (轻工制造&纺织服饰) - 财政部表示明年将继续安排资金支持消费品以旧换新 [19] - 2025年11月我国服装鞋帽零售额同比增长3.5% [19] - 2025年前11个月,消费品以旧换新带动相关商品销售额超过2.5万亿元 [19] - 消费品以旧换新政策促进了消费增长、产业升级,并带动产业向智能化、高端化转型 [19] - 12月22日至26日,SW轻工制造指数上涨1.69%,跑输沪深300指数(1.95%)0.26个百分点 [19] - 同期,SW纺织服饰指数上涨0.61%,跑输沪深300指数1.34个百分点 [19] - 维持轻工制造与纺织服饰行业“中性”评级 [20] - 维持欧派家居、索菲亚、探路者、森马服饰、乖宝宠物、中宠股份“增持”评级 [20]
万字长文,VLA的架构和模型还有什么痛点?
具身智能之心· 2025-12-30 09:11
文章核心观点 本次圆桌讨论聚焦于具身智能领域的视觉-语言-动作模型,与会专家普遍认为当前VLA的总体架构已趋于标准化和模块化,但模型的泛化能力与落地应用之间仍存在显著差距。未来发展的关键驱动力将来自数据、3D表征学习、强化学习与模仿学习的结合,以及感知与控制模块的逐步统一。 VLA的架构与模型现状 - 当前VLA的总体架构已相对收敛,形成了一种标准范式,即以视觉语言模型为基座,嫁接一个动作输出模块 [14][16] - 尽管架构趋同,但核心差异并非架构本身,而在于数据驱动 [14] - 当前从业者的工作多是在此标准框架下进行“小修小补”,例如引入触觉、记忆等新模块 [15] - 从实际表现看,VLA已能学习叠衣服等长程复杂任务,比去年进步明显,但其泛化性能尚不足以支撑落地 [16] VLA当前痛点与挑战 - 模型将VLM的2D图像与文本特征强行映射到3D动作空间,导致泛化性损失 [17] - VLA的硬件和数据可能成为限制,使精细化操作难以实现 [13] - 当前开源的VLA架构同质化严重,但尚不能确定这就是最佳架构,未来可能有更好的架构出现 [18] - VLM基座模型对3D物理世界的理解非常不充分,缺乏精准的空间grounding能力 [49] VLA未来可能的发展方向 - **3D表征学习**:让特征从2D更好地迁移到3D,利用3D预训练模型提升泛化性和性能 [17][43] - **训练范式创新**:结合强化学习与模仿学习 [43][45]。模仿学习效率高,可完成80%到90%的任务,而强化学习能处理失败数据并激发更高智能 [46] - **与世界模型结合**:使模型具备预判和脑补未来的能力,而不仅是基于当前时刻预测动作序列 [50] - **模块化与系统整合**:VLA作为提供先验知识的基座,需要与世界模型、RL等多种技术点在系统中协同安排,共同解决问题 [48][50] 感知与控制的统一路线 - 从长远目标看,感知与控制最终会趋向统一,形成一个“大一统”的端到端模型 [22][27][35] - 但在实现路径上,由于有大量迫切的现实问题需要解决,目前仍需分模块研发,例如导航场景仍需高精度的专用感知模型 [23][27] - 通过先进行模块化的端到端探索,积累各子领域的经验,才能最终迈向统一 [24][27] - 即使在实现大一统模型后,为建立安全互信和提供策略兜底,保留部分模块化输出(如OCC)仍有必要 [36] 自动驾驶经验对具身智能的借鉴 - 自动驾驶被视为具身智能的一个特殊场景,其完整的技术发展脉络(从模块化到端到端)对具身领域有重要参考价值 [34] - 自动驾驶领域将感知与控制结合后,解决了拟人化和处理复杂长尾案例的难题,这同样适用于具身智能 [34] - 具身智能可以直接对标自动驾驶的最新技术,但因其要求完全自动化,对规则和可解释性的需求可能比自动驾驶更严格 [38] 强化学习在新时代的角色 - 大模型的出现为强化学习提供了强大的起点,使其能够利用大规模算力,进入新的发展阶段 [31] - 强化学习作为一种工具,其算法并未收敛,需要针对不同任务(如数字空间推理与物理空间学习)开发不同的高效方法 [30] - 在具身智能产品化或追求AGI的路径上,不能只专注于强化学习,而需要更全面的知识面,整合模仿学习、VLA基座等多种范式 [46]
QwenLong-L1.5发布:一套配方,三大法宝,让30B MoE模型长文本推理能力媲美GPT-5
机器之心· 2025-12-29 12:44
文章核心观点 - 通义文档智能团队推出QwenLong-L1.5模型,旨在系统性解决大模型在长文本深度推理中面临的挑战,其核心是提供了一套完整的“数据合成 + RL优化 + 记忆管理”三位一体的后训练框架[4][5][8] 长文本推理面临的行业挑战 - 模型在“大海捞针”测试中表现良好,但在需要串联分散证据、整合全局信息的多跳推理任务中表现急转直下,暴露深度理解短板[2] - 长文本、多任务的训练数据多源多域,导致标准强化学习算法因数据分布剧烈变化而产生偏差,训练过程不稳定甚至崩溃[2] - 即使上下文窗口扩展到256K或1M,面对分析代码仓库、研读完整财报等“超框”任务时,信息量仍易突破上限,导致关键全局信息丢失和端到端推理能力降级[3] QwenLong-L1.5的技术解决方案 - **高质量数据合成流水线**:通过“先拆解,后组合”思想,打造由知识图谱引导、跨文档表格引擎、多智能体自我进化三大引擎驱动的流水线,程序化生成需要多跳溯源和全局推理的难题[9][12][13] - **稳定高效的RL优化策略**:针对数据分布异构性,采用任务均衡采样和任务专属优势估计双重策略,保证批次内数据分布均衡并提供稳定的优势信号[14][16] - **自适应熵控制策略优化**:提出AEPO算法,基于模型自身不确定性动态屏蔽或施加梯度,平衡探索与利用,解决长文本RL中的信用分配难题和训练不稳定性[17][18][19][20] - **突破极限的记忆管理框架**:为模型设计可无限扩展的“智能笔记本”,通过迭代式记忆更新和多阶段融合RL训练,将外部记忆能力与窗口内推理能力无缝融合,突破物理窗口束缚[21] 模型性能表现 - **整体性能飞跃**:相比基线模型Qwen3-30B-A3B-Thinking-2507,QwenLong-L1.5在多个权威长文本推理基准上的平均分暴涨9.9分[24][26] - **比肩顶级旗舰**:该30B-A3B模型在多项基准上的表现与GPT-5、Gemini-2.5-Pro等顶级闭源模型相媲美[24][26] - **精准能力跃升**:在考验深度推理的复杂任务上提升显著,例如在MRCR基准上性能增长+31.72,在CorpusQA上增长+9.69,在LongBench-V2上增长+6.16[24][26] - **通用能力提升**:经过长文本强化训练后,模型在通用能力上未出现“偏科”,反而在MMLU-PRO、AIME25、GPQA-Diamond等基准上获得提升,长对话记忆能力(LongMemEval)大幅增强+15.60[27] - **超长文本处理能力**:借助记忆管理框架,模型在处理1M至4M Token的超长任务时展现卓越性能,在MRCR和CorpusQA等极限挑战中性能远超同类智能体方法[29][31]
个人电脑也能进行智能体RL训练?尤佳轩团队开源OpenTinker
机器之心· 2025-12-29 11:04
研究团队与项目背景 - 研究团队由伊利诺伊大学厄巴纳-香槟分校计算机系助理教授Jiaxuan You领导,其U Lab长期从事大模型智能体研究,Jiaxuan You教授已在NeurIPS、ICML、ICLR等顶级会议发表论文三十余篇,总引用量两万余次,主导或参与的开源项目累计获得三万余颗Star [2] - 系统实现与实验工作由UIUC计算机系博士生Siqi Zhu完成,其本科毕业于清华大学,研究方向聚焦于大模型智能体与强化学习系统 [2] 行业现状与挑战 - 随着大模型进入“智能体元年”,强化学习被公认为通往通用人工智能的关键技术,但传统框架存在结构性难题,使其长期停留在少数实验室 [4][6] - 传统强化学习框架存在三大工程痛点:1) 智能体无法自然融入现有框架,复杂的工作流需要硬塞进统一训练循环,维护困难;2) 训练默认需要本地GPU集群,硬件门槛高;3) 训练后的模型与训练逻辑深度耦合,难以直接迁移到产品环境独立运行 [7] - 这些问题叠加,导致懂强化学习理论的人不少,但真正能部署的人却凤毛麟角 [8] OpenTinker系统概述 - OpenTinker是一个全新的“强化学习即服务”系统,旨在通过精细的解耦架构和友好的API,让开发者能以极少的代码启动智能体训练,无论是在GPU集群还是仅有CPU的个人电脑上 [4] - 系统的设计哲学是通过解耦和分布式思路,将繁重的RL流程拆解成独立的服务,用清晰的接口串联,使强化学习成为一个可以按需调用的云端服务 [10] 系统架构与核心组件 - OpenTinker将框架拆解为多个职责清晰的角色:客户端提供轻量接口用于定义任务与环境;调度器作为资源中枢,管理GPU工作节点并动态分配资源;训练服务器运行在GPU节点上,负责执行具体的训练与推理流程 [12][13] - 系统交互流程为:客户端打包智能体逻辑与配置提交给调度器,调度器匹配合适的GPU资源并启动实例,任务运行期间客户端与训练服务器保持数据通道以获取关键指标 [15] - 核心程序接口包括:Environment(描述世界演化)、InferenceClient(驱动智能体与环境交互)、RLClient(负责训练控制)、Scheduler(感知并调度算力资源) [18][19] 系统优势与价值 - OpenTinker实现了智能体设计的标准化,通过统一且抽象的接口规范进行模块化封装,不同实验可以像“插件”一样灵活组合与替换,显著降低试错成本并提升开发效率 [21] - 系统优化了开发体验,一旦后端服务器部署在GPU集群,开发者可从任意设备通过网络调用训练与推理能力,无需在本地配置复杂环境,使研究者能专注于算法本身 [21] - 系统提升了算力共享与资源利用率,将GPU资源统一纳入服务化调度体系,支持多用户并发访问、异步执行与任务排队,减少算力闲置,并支持跨组织的资源共享 [21] 未来展望与行业影响 - OpenTinker为下一代智能体基础设施指明了方向,其重心正从预训练时代的单一模型做大做强,转向智能体时代的模块化、服务化以及对多智能体协同进化的原生支持 [23] - 未来的智能体应用可能由大量功能专一的小模型协同构成,形成“混合专家系统”,OpenTinker的统一强化学习服务使得这些异构智能体可以被联合优化与动态组合 [24] - 系统支持具备持续自我更新能力的自进化系统,例如一个编程助手可白天收集交互数据,夜晚通过强化学习更新策略,实现“使用-反馈-更新”的自动化循环,近期U Lab的Multi-agent Evolve工作为此提供了实证支撑 [25] - OpenTinker旨在证明,只要架构设计合理,智能体的进化不必被昂贵的基础设施所垄断,AI进步不应只属于掌握巨量算力的少数巨头 [27]
算法“点燃”新引擎 AI成航天推进技术的“助推器”
环球网资讯· 2025-12-29 09:27
文章核心观点 - 人工智能(AI)正被应用于航天推进这一传统领域,通过优化设计、实时控制和任务管理,为核热推进、等离子体推进等前沿方案带来突破,旨在提升深空探测的效率、安全性与灵活性 [1] AI在航天推进设计优化中的应用 - AI通过机器学习,在数字空间进行数亿次模拟测试,以“试错”方式从复杂参数中寻找最优解,赋予机器类似“直觉”的专业能力 [3] - 在热流传递优化中,AI利用数字孪生技术克隆发动机,智能优化核反应堆核心与推进剂之间的热流路径,大幅提高热传递效率 [3] - 在核热推进系统设计中,强化学习能同时分析材料热导率、中子吸收截面及超高温流体动力学,优化材料选择和复杂几何配置(如陶瓷球床、微细通道),从而提升热交换效率、发动机比冲并减轻系统重量 [4][5] AI在核聚变推进技术中的应用 - AI的强化学习技术能以微秒级速度控制聚变反应堆磁场,精准捕捉并补偿等离子体细微波动,维持高能等离子体稳定,助力实现自持聚变反应 [6] - AI通过优化磁场线圈布局,正推动更小、更适合航天器的“紧凑型聚变”设备(如多面势阱装置)发展,使其有望成为未来核动力飞船的基础 [6] AI在航天器在轨管理与任务规划中的应用 - 在航天器进入太空后,AI角色从“设计师”转变为“大管家”,通过持续学习飞行数据,在复杂引力场中实时计算最省燃料的飞行路线 [7] - AI能实时监控系统健康状态,甚至在零件出现微小震动时预判潜在风险,提前调整参数以避免故障,应对不可预测的燃料需求(如中途变更任务) [7]
市场正在惩罚只懂理论的端到端算法工程师......
自动驾驶之心· 2025-12-29 09:07
行业人才供需现状 - 中游车企和Tier1供应商正积极投入人力和资源跟进端到端自动驾驶技术,表明行业需求旺盛[1] - 市场面临算法人才短缺,面试候选人往往只懂部分技术或停留在论文层面,缺乏量产经验和优化能力[1] - 端到端岗位薪资很高,但缺乏能力相匹配的算法人才,凸显了高端技术人才市场的供需失衡[1] 核心技术栈 - 导航信息、强化学习、扩散模型、自回归、时空联合规划是当下端到端自动驾驶落地最重要的技术栈[1] - 行业主流趋势是感知任务的合并与规控算法的学习化,如何高效合并感知任务和设计学习化规控模块成为各大公司核心技能[6] 课程核心内容与结构 - 课程为期三个月,包含七个实战项目,聚焦量产应用,从实战到落地层层展开[1] - 课程核心算法涵盖一段式端到端、两段式端到端、导航信息量产应用、开闭环强化学习、扩散模型+强化学习、自回归+强化学习、时空联合规划等[1] - 课程大纲共八章,系统性地从概述、两段式/一段式框架、导航应用、强化学习、轨迹优化、兜底方案到量产经验分享[4][6][7][8][9][10][11][12][13] 技术方案详解 - 两段式端到端框架涉及感知与规划控制的信息传递,其优缺点将被详细分析,并通过经典的PLUTO算法进行实战[7] - 一段式端到端框架可实现信息无损传递,性能上优于两段式方案,课程将学习基于VLA、Diffusion等多种方案,并深入VAD系列[8] - 导航信息在自动驾驶中起引导、选路、选道作用,课程将介绍主流导航地图格式、内容及其在端到端模型中的编码与嵌入方式[9] - 纯模仿学习存在局限,需结合强化学习以学习因果关系并实现泛化,课程将重点介绍强化学习算法及其训练策略[10] - 轨迹输出优化项目将实战基于模仿学习的算法,重点介绍扩散模型和自回归算法,并在监督微调后结合强化学习[11] - 量产兜底方案采用时空联合规划,通过轨迹平滑优化算法保证输出轨迹的稳定可靠,涵盖多模态轨迹打分搜索与平滑算法[12] 课程实施与要求 - 课程采用离线视频教学,配合VIP群答疑及三次线上答疑,答疑服务截止2026年11月30日[14] - 课程面向进阶学员,建议具备自动驾驶BEV感知、视觉Transformer、端到端算法、强化学习与扩散模型理论基础,以及Python、PyTorch和MMDet3D框架使用能力[16] - 学员需自备GPU,推荐算力在RTX 4090及以上[16] - 课程计划于11月30日开课,按周或双周解锁新章节,预计三个月结课[14][15][17]
亚马逊团队15分钟单GPU搞定人形机器人步态训练!
具身智能之心· 2025-12-29 08:04
文章核心观点 - 亚马逊FAR实验室团队提出了一套快速强化学习方案,通过“算法调优-极简奖励设计-大规模并行仿真”三位一体的技术体系,首次实现了在单GPU上仅用15分钟训练出鲁棒的人形机器人运动控制策略,并支持全身运动追踪任务的快速部署,彻底重构了人形机器人从仿真到现实的迭代范式 [3][4][23] 问题根源:人形机器人强化学习的效率瓶颈 - **算法样本效率低**:传统在线RL算法(如PPO)需丢弃大量历史数据,在高维人形机器人控制中样本利用率低,训练周期长达数小时甚至数天 [6] - **高维控制稳定性差**:人形机器人(29自由度)动作空间复杂,关节限制、力矩平衡等约束导致离线RL算法易出现训练振荡,难以稳定收敛 [7] - **奖励设计冗余繁琐**:传统方案依赖20多项奖励塑造条款,增加调参难度且易导致策略“过拟合”特定场景,降低真实环境适配性 [8] - **域随机化适配难**:真实场景中的地形变化、外力扰动、动力学参数波动等要求策略在强随机化仿真中学习,进一步加剧了训练难度与耗时 [9] 方案设计:三位一体的快速训练技术体系 - **第一层:算法优化——离线RL的规模化适配** - 基于优化的离线RL算法FastSAC(Soft Actor-Critic优化版)与FastTD3(TD3优化版)[11] - 采用关节限制感知动作边界,根据机器人关节极限与默认姿态的差值设定动作边界,减少调参成本并避免扭矩不足问题 [11] - 结合观测归一化与层归一化进行双重归一化,解决高维任务中的梯度爆炸问题,提升FastSAC在复杂场景下的稳定性 [11] - 采用Q值平均替代裁剪双Q学习,避免与层归一化的兼容性冲突,并搭配C51分布式critic网络提升价值估计精度 [11] - 优化探索与优化超参:FastSAC设置最大标准差1.0、初始温度0.001,采用自动温度调优;FastTD3使用混合噪声策略(σ_min=0.01, σ_max=0.05);优化器采用Adam(学习率3e-4,权重衰减0.001,β₂=0.95)[11] - **第二层:奖励设计——极简主义的鲁棒性导向** - 设计仅包含核心要素的奖励函数(少于10项),兼顾策略鲁棒性与泛化能力 [13] - 运动任务核心奖励包含:线速度/角速度追踪奖励、足高追踪奖励、默认姿态惩罚、足部朝向惩罚、躯干直立惩罚、动作速率惩罚以及存活奖励 [14] - 全身运动追踪奖励基于BeyondMimic框架,以运动追踪目标为主,辅以轻量化正则化,并新增速度推力扰动项提升仿真到现实的鲁棒性 [14] - 采用自适应课程学习,随着训练进程逐步提升惩罚项权重,降低探索难度,加速收敛 [14] - 通过对称数据增广鼓励机器人形成自然对称步态,进一步提升训练效率 [14] - **第三层:并行仿真——大规模环境的吞吐量提升** - 依托GPU加速仿真框架,通过环境并行化突破训练瓶颈 [13] - 运动任务采用单RTX 4090 GPU,支持数千并行环境;全身运动追踪任务扩展至4×L40s GPU,并行环境数达16384,大幅提升数据采集吞吐量 [14] - 仿真中集成强域随机化,包括动力学随机化(质量、摩擦、质心)、PD增益随机化、动作延迟、崎岖地形、推力扰动(每1-3秒一次强扰动)等,确保策略适配真实场景变异 [14] - 利用离线RL算法的核心优势,充分复用历史交互数据,避免在线算法的数据浪费,在同等环境吞吐量下实现更快收敛 [14] 验证逻辑:四级性能验证 - **运动任务:15分钟实现鲁棒步态** - 在Unitree G1(29自由度)与Booster T1(29自由度)机器人上,FastSAC与FastTD3表现突出 [16] - 单RTX 4090 GPU仅需15分钟即可完成训练,线性速度追踪奖励显著超越PPO [19] - 在强推力扰动、崎岖地形场景下,PPO难以稳定收敛而FastSAC/TD3表现稳健 [19] - 策略能适应平坦/崎岖地形、随机动力学参数、频繁推力扰动等多种场景,无需额外微调即可迁移,展现出强大泛化能力 [19] - FastSAC凭借最大熵探索机制,在复杂场景下略优于FastTD3,验证了高效探索对高维控制的价值 [19] - **全身运动追踪:复杂动作的快速学习** - 在舞蹈、搬箱子、推力抵抗等任务中,方案展现出强大的复杂动作学习能力 [18] - 在4×L40s GPU支持下,FastSAC/TD3训练速度远超PPO,舞蹈任务(时长超2分钟)的运动追踪奖励更快达到收敛阈值 [20] - **真实硬件部署:零微调的鲁棒迁移** - 训练后的策略成功部署到真实Unitree G1硬件,完成舞蹈、搬箱子、推力抵抗等复杂动作,验证了仿真到现实的迁移鲁棒性 [20] - 在真实Unitree G1机器人上,仿真训练的策略无需额外微调即可稳定运行 [21] - 成功复现仿真中的速度追踪步态,在轻微不平坦地面保持稳定 [24] - 全身运动追踪策略能精准执行舞蹈、搬箱子等复杂动作,抵抗环境中的轻微扰动,展现出强鲁棒性 [24] 局限与未来方向 - **复杂地形适配**:当前主要验证平坦与崎岖地形,未来可扩展至台阶、斜坡等更复杂地形场景 [24] - **动态障碍物避障**:未融入避障逻辑,需结合视觉感知扩展奖励函数,实现感知-控制一体化 [24] - **算法融合潜力**:可集成最新离线RL优化技术(如样本效率提升、探索策略改进),进一步压缩训练时间 [24] - **多机器人适配**:当前聚焦双足人形机器人,未来可扩展至四足、多臂等更广泛机器人形态 [24] 总结:快速迭代范式的行业影响 - 该方案的核心贡献不仅在于15分钟训练的效率突破,更在于建立了“离线RL算法-极简奖励-大规模并行仿真”的快速迭代范式 [23] - 通过算法调优解决高维控制稳定性问题,通过极简奖励降低工程复杂度,通过并行仿真提升数据吞吐量 [23] - 其开源实现(Holosoma仓库)与硬件部署案例,为机器人研究者提供了开箱即用的快速开发工具,大幅降低人形机器人控制的研发门槛,加速了通用人形机器人从实验室走向真实应用的进程 [23]
亚马逊团队15分钟单GPU搞定人形机器人步态训练!Locomotion新方案
具身智能之心· 2025-12-28 18:00
文章核心观点 - 亚马逊FAR实验室提出了一套“算法调优-极简奖励设计-大规模并行仿真”三位一体的快速强化学习方案,首次实现了在单GPU上仅用15分钟训练出鲁棒的人形机器人运动策略,并支持全身运动追踪任务的快速部署,彻底重构了人形机器人从仿真到现实的迭代范式 [2][3][21] 人形机器人强化学习的效率瓶颈 - **算法样本效率低**:传统在线RL算法(如PPO)需丢弃大量历史数据,在高维人形机器人控制中样本利用率低,训练周期长达数小时甚至数天 [3] - **高维控制稳定性差**:人形机器人(29自由度)动作空间复杂,关节限制、力矩平衡等约束导致离线RL算法易出现训练振荡,难以稳定收敛 [4] - **奖励设计冗余繁琐**:传统方案依赖20多项奖励条款,增加调参难度且易导致策略过拟合特定场景,降低真实环境适配性 [5] - **域随机化适配难**:真实场景中的地形变化、外力扰动等要求策略在强随机化仿真中学习,进一步加剧了训练难度与耗时 [6] 三位一体快速训练技术体系 - **第一层:算法优化**:基于优化后的离线RL算法FastSAC和FastTD3,通过关节限制感知动作边界、双重归一化稳定训练、critic网络优化(采用Q值平均替代裁剪双Q学习,搭配C51分布式critic)以及探索与优化超参调优(如Adam优化器,学习率3e-4)等关键技术,实现高维控制的稳定与高效 [8] - **第二层:极简奖励设计**:摒弃冗余奖励条款,设计仅包含核心要素的奖励函数(少于10项),兼顾策略鲁棒性与泛化能力 [10] - **第三层:大规模并行仿真**:依托GPU加速仿真框架,通过环境并行化突破训练瓶颈;在Locomotion任务中采用单RTX 4090 GPU支持数千并行环境,在全身运动追踪任务中扩展至4×L40s GPU,并行环境数达16384;仿真中集成了动力学随机化、PD增益随机化、动作延迟、崎岖地形、推力扰动(每1-3秒一次强扰动)等强域随机化;并利用离线RL算法的数据复用机制,避免数据浪费 [10][11] 方案性能验证 - **Locomotion任务**:在Unitree G1(29自由度)与Booster T1(29自由度)机器人上验证;单RTX 4090 GPU仅需15分钟完成训练,线性速度追踪奖励显著超越PPO;在强推力扰动、崎岖地形场景下,PPO难以稳定收敛而FastSAC/TD3表现稳健;策略能适应平坦/崎岖地形、随机动力学参数、频繁推力扰动等多种场景,无需额外微调即可迁移;FastSAC在复杂场景下略优于FastTD3 [12][17] - **全身运动追踪任务**:在舞蹈、搬箱子、推力抵抗等复杂任务中,在4×L40s GPU支持下,FastSAC/TD3训练速度远超PPO,舞蹈任务(时长超2分钟)的运动追踪奖励更快达到收敛阈值 [15][18] - **真实硬件部署**:训练后的策略成功部署到真实Unitree G1硬件,无需额外微调即可稳定运行;成功复现仿真中的速度追踪步态,在轻微不平坦地面保持稳定;能精准执行舞蹈、搬箱子等复杂动作,抵抗环境中的轻微扰动 [18][19][21] 方案的局限与未来方向 - **复杂地形适配**:当前主要验证平坦与崎岖地形,未来可扩展至台阶、斜坡等更复杂地形场景 [22] - **动态障碍物避障**:未融入避障逻辑,需结合视觉感知扩展奖励函数,实现感知-控制一体化 [22] - **算法融合潜力**:可集成最新离线RL优化技术(如样本效率提升、探索策略改进),进一步压缩训练时间 [22] - **多机器人适配**:当前聚焦双足人形机器人,未来可扩展至四足、多臂等更广泛机器人形态 [22] 方案的行业影响 - 核心贡献在于建立了“离线RL算法-极简奖励-大规模并行仿真”的快速迭代范式,通过算法调优解决高维控制稳定性问题,通过极简奖励降低工程复杂度,通过并行仿真提升数据吞吐量 [21] - 其开源实现(Holosoma仓库)与硬件部署案例,为机器人研究者提供了开箱即用的快速开发工具,大幅降低人形机器人控制的研发门槛,加速了通用人形机器人从实验室走向真实应用的进程 [21]