Workflow
Reinforcement Learning
icon
搜索文档
MuJoCo具身智能实战:从零基础到强化学习与Sim2Real
具身智能之心· 2025-07-07 17:20
具身智能技术发展 - 具身智能正在全面崛起 重新定义人类与机器的关系 从Tesla的Optimus到Boston Dynamics的Atlas 全球顶尖科技公司都在布局这一领域 [1] - 具身智能将彻底改变制造业、服务业、医疗健康、太空探索等行业 使机器人在复杂环境中灵活移动并做出智能决策 [1] MuJoCo技术优势 - MuJoCo是连接虚拟世界与现实世界的重要桥梁 提供高保真、高效率的机器人训练环境 支持高度并行化计算 可同时运行成千上万个仿真实例 [4][6] - MuJoCo采用先进接触动力学算法 精确模拟机器人与环境的交互 提供视觉、触觉、力觉等多种感知模态 具有出色稳定性和数值精度 [6] - MuJoCo已成为学术界和工业界标准工具 Google、OpenAI、DeepMind等科技巨头都在使用 [8] 具身智能实战教程 - 课程采用项目驱动学习方式 包含六个递进式实战项目 从机械臂控制到人形机器人行走 再到多智能体协作和Sim-to-Real迁移 [9][12][13] - 项目一:构建六自由度机械臂模型 实现正逆运动学求解和PID控制 [15][16] - 项目二:为机械臂添加视觉感知能力 实现基于视觉的物体检测和抓取 [17][18] - 项目三:训练智能体学会复杂运动技能 如机械臂抛接球或四足机器人奔跑 [19][20] - 项目四:实现模型预测控制算法 进行实时轨迹优化 [21][22][23] - 项目五:设计多机器人协作系统 共同完成复杂任务 [24][25] - 项目六:通过域随机化技术实现Sim-to-Real迁移 在真实机器人上验证 [26][27] 技术能力提升 - 学员将掌握MuJoCo各项功能 能够构建复杂机器人仿真环境 实现高保真物理交互 [29] - 深入理解强化学习核心算法 掌握机器人控制理论和实践技巧 实现精确运动控制和轨迹跟踪 [29] - 具备完整项目开发经验 熟悉现代AI开发工具链 培养良好工程习惯 [31] 职业发展路径 - 技术专家方向:机器人算法工程师年薪30-60万 一线城市可达80-150万 [33] - 产品经理方向:年薪30-80万 有机会发展为技术总监或创业者 [33]
首创Mid-training范式破解RL奥秘,Llama终于追平Qwen!
机器之心· 2025-06-30 17:49
基础语言模型研究 - 上海创智学院与上海交通大学的研究论文揭示了Llama和Qwen基础语言模型在强化学习(RL)训练中的性能差异,并提出中期训练(mid-training)策略成功将Llama改造成高度适配RL的推理基础模型,显著缩小与Qwen的性能差距[1][7] - 研究团队通过大规模可控实验(每次训练20B tokens)发现数学语料质量、QA数据分布、指令数据注入和中期训练规模是影响RL效果的关键因素[14][16] - 论文提出的OctoThinker模型在数学推理基准测试中相比原始Llama实现10%-20%性能提升,例如1B模型在GSM8K从7.66提升至44.88,MATH500从4.60提升至27.80[31][32] 数据集开发 - 团队构建了MegaMath-Web-Pro-Max高质量数学语料库,规模达MegaMath-Web-Pro的5.5倍,通过Llama-3.1-70B-instruct标注和fasttext分类器筛选,选择0.4召回阈值平衡质量与数量[17][19][21][25] - 该数据集被MIT、EPFL等顶尖高校和Apple、Microsoft等企业广泛采用,显示学术界与工业界的高度重视[3] - 对比实验显示使用MegaMath-Web-Pro的模型RL性能明显优于FineMath-4plus,证实高质量语料对基础模型和RL训练的关键作用[22] 模型训练方法 - OctoThinker采用两阶段训练方案:第一阶段用200B tokens构建强推理基座(OctoThinker-Base-Stable),第二阶段通过20B tokens分支训练形成短链、长链和混合链三大专业化分支[27][29] - 分支训练采用学习率衰减策略(余弦衰减至初始10%),短链分支含30%竞赛短推理QA,长链分支含30%反思型长推理QA,混合分支平衡两者[27][29] - 3B规模的OctoThinker-Long-Zero经RL训练后性能媲美Qwen2.5-3B,证明该方法有效提升Llama的RL兼容性[35] 行业影响 - Meta AI科学家Wenting Zhao等专家高度评价该研究解决了mid-training中的关键谜题,Pleias AI Lab的独立实验验证了方法的普适性[2] - 开源模型和数据集在GitHub和HuggingFace发布,代码仓库和论文获得广泛关注[5] - 未来研究方向包括精炼数学语料库、开发无需蒸馏的RL友好型基础模型、拓展工具集成推理等新分支[38]
MuJoCo具身智能实战:从零基础到强化学习与Sim2Real
具身智能之心· 2025-06-24 22:29
具身智能技术发展 - 具身智能正在全面崛起 重新定义人类与机器的关系 通过结合语言理解与物理操作能力 实现从虚拟到现实的跨越[1] - 全球科技巨头如Tesla、Boston Dynamics、OpenAI、Google等均在布局具身智能领域 代表性产品包括Optimus人形机器人、Atlas、机械手和RT-X项目[1] - 该技术将革命性改变制造业、服务业、医疗健康、太空探索等多个行业 应用场景涵盖精密装配、手术协助、家庭服务及危险救援[1] MuJoCo技术核心价值 - MuJoCo作为物理仿真引擎 是连接虚拟与现实世界的关键桥梁 提供高保真高效率的机器人训练环境[4] - 解决传统机器人试错学习的高成本与低效问题 仿真速度可达现实时间的数百倍 支持极端环境下的无损训练[6] - 采用先进接触动力学算法 精确模拟机器人与环境交互 支持并行化计算、多模态传感器建模及长时间稳定仿真[6] - 已成为学术界与工业界标准工具 被ICRA、IROS、NeurIPS等顶级会议广泛采用 Google、OpenAI、DeepMind等公司均依赖其进行研究[8] 具身智能实战课程体系 - 课程设计六个递进式模块 每周聚焦特定技术目标 涵盖MuJoCo基础、强化学习、机器人控制、多智能体系统及Sim-to-Real迁移[13][16] - 包含六个实战项目:智能机械臂控制(六自由度模型与PID控制器)、视觉抓取系统(物体检测与光照模拟)、强化学习运动技能(抛接球/平衡控制)、自适应MPC控制、多机器人协作、Sim-to-Real迁移验证[19][21][23][25][27][29] - 采用PyTorch、Stable Baselines3等工具链 强调工程规范与调试技巧 项目均来自中国机器人企业实际应用场景[10][29] 技术能力与职业发展 - 学员将掌握MuJoCo仿真建模、强化学习算法设计、机器人控制理论及Sim-to-Real迁移等完整技术栈[32] - 职业路径包括机器人算法工程师(年薪30-150万)、AI研究工程师或仿真技术专家 产品经理方向年薪可达30-80万[35] - 课程采用离线视频教学与VIP群答疑模式 2025年7月15日开课 六周完成全部内容[37]
MinMax-M1:超越DeepSeek,支持百万级token上下文
自动驾驶之心· 2025-06-21 21:15
核心观点 - 高效混合架构设计结合MoE架构与Lightning Attention的模型MiniMax-M1,支持百万级上下文窗口(1M tokens),生成长度达80K tokens时FLOPs仅为传统注意力模型的25%[2] - 超越DAPO的算法CISPO通过剪裁重要性采样权重提升RL效率,相比DAPO实现2倍加速[2] - 可扩展上下文支持从40K到80K Token生成长度的扩展[2] 当前面临的挑战 - 计算精度偏移:训练与推理阶段的计算精度差异导致Token概率偏移,需将LM头部输出精度提升至FP32以对齐概率分布[4] - 长生成稳定性问题:长文本响应容易出现输出不稳定,被截断的问题[5] - 奖励模型不稳定:奖励模型对长文本的偏好可能误导RL训练,需要在线校准机制[5] 核心方法 - 混合注意力架构:采用I/O感知的线性注意力计算,通过分块计算和内存优化,将长序列复杂度降低,每7层Lightning Attention后插入1层Softmax Attention[8] - CISPO算法:通过重要性采样权重裁剪保留所有token梯度,避免PPO/DAPO对关键低概率Token的奖励得分偏低[9][10][11] - 分阶段RL数据混合:从规则验证任务逐步过渡到通用领域任务,避免灾难性遗忘[13] - 持续预训练与SFT优化:在7.5T token上扩展STEM、代码数据占比至70%,采用语义去重和分层上下文扩展(32K→1M token)[13] 性能表现 - AIME 2024准确率86.0%(开源模型第二),MMLU-Pro表现接近闭源模型Seed-Thinking-v1.5[14] - OpenAI-MRCR (128k)表现76.1,OpenAI-MRCR (1M)表现58.6[14] - TAU-bench (airline)表现60.0,TAU-bench (retail)表现67.8[14] 数据与训练 - 预训练增强:在7.5T token上扩展STEM、代码数据占比至70%[13] - 监督微调:注入长链式思考模式,数学/编程数据占SFT数据的60%[13] - 上下文长度渐进扩展:从40K分阶段扩展至80K,根据困惑度与生成长度分布调整窗口[13]
Albion Technology & General VCT PLC: Interim Management Statement
Globenewswire· 2025-06-17 18:56
文章核心观点 公司发布2025年1月1日至3月31日的中期管理声明,涵盖业绩、募资、投资组合等方面情况 [2] 业绩表现 - 截至2025年3月31日,公司未经审计的净资产值为2.748亿英镑,每股73.51便士(不包括库存股),较2024年12月31日每股增加0.47便士,增幅0.6% [3] 募资情况 - 2025年1月6日开启新普通股的招股说明书追加发行认购申请,3月31日宣布已达到3000万英镑的发行上限(含1000万英镑超额配售权) [4] - 2025年3月21日发行2977.4402万股,发行价每股74.54 - 75.30便士,净收入2174.8万英镑 [4] - 2025年4月4日发行1010.0775万股,发行价每股75.30便士,净收入737.8万英镑 [10] 投资组合 新增投资 - 对Latent Technology Group等7家公司进行新投资,总计267万英镑 [5] 追加投资 - 对Mondra Global等5家公司进行追加投资,总计259万英镑 [5] 前十大持仓 - 截至2025年3月31日,前十大持仓包括Quantexa等公司,Quantexa持仓价值5.1401亿英镑,占净资产值18.7% [6] 股份回购 - 期间公司因处于禁售期未进行股份回购,董事会政策是在符合公司利益的情况下在市场回购股份,意图在市场条件和流动性允许时以较净资产值约5%的折扣进行回购 [8][9] 其他信息 - 可在公司网页获取历史和当前财务业绩及其他股东信息 [11]
NVIDIA (NVDA) Conference Transcript
2025-06-11 20:45
纪要涉及的公司 NVIDIA 纪要提到的核心观点和论据 1. **量子计算** - 核心观点:量子经典结合是发展方向,未来所有超级计算中心都会采用这种模式 [9][15] - 论据:量子计算机需连接GPU超级计算机进行控制和纠错,纠错方面的突破性工作意义重大;预计每五年逻辑量子比特数量增加10倍,五年后可能有20 - 100个逻辑量子比特,可用于早期生物分子或化学材料研究 [10][12] 2. **主权投资与欧洲市场** - 核心观点:欧洲主权AI建设将代表各国GDP,未来几年全球将有价值约1.5万亿美元的建设投入 [17][18] - 论据:欧洲信息技术产业相对美国较轻,但重工业更发达,机器人和工业数字双胞胎将有很大发展;欧洲有20个由政府支持的AI工厂正在建设,部分为超级工厂,主要用于本地消费 [16][17] 3. **物理AI模型** - 核心观点:物理AI模型与大语言模型不同,将是多模态的,能使机器人更易被中小企业使用 [19][23] - 论据:机器人可根据指令生成动作并进行推理,如将苹果放入抽屉的过程;欧洲多个国家有强大的机器人能力,但缺乏软件能力,物理AI模型可弥补这一不足 [20][21][22] 4. **市场供需与限制因素** - 核心观点:供应虽受限但仍在快速增长,终端市场受本地语言等因素限制 [30][33] - 论据:公司产品供应需提前预测,但不受关键组件限制;不同地区人们偏好使用母语与设备交互,需要针对当地语言训练大语言模型,每个模型微调约需一个月超级计算机工作时间 [30][33][35] 5. **AI模型评估与应用** - 核心观点:推理模型和智能体将不断改进,企业模型效果良好 [39][41] - 论据:推理模型能解决未见过的问题,智能体可从上下文受益;与ServiceNow、SAP和Cadence等合作的企业模型是狭义超级智能体,经过微调后能在特定工作中表现出色 [39][40][41] 6. **数据中心增长** - 核心观点:欧洲市场将成为NVIDIA数据中心业务增长的强大驱动力 [44] - 论据:欧洲大部分地区服务不足,当地云服务提供商有机会尽快部署最新技术,增量市场潜力大 [46][47] 7. **业务模式与机会** - 核心观点:后训练是重要机会,推理业务成功,边缘计算有四个主要应用场景 [49][53][56] - 论据:后训练通过强化学习和人类反馈进行,可用于编码和科学模拟等;NVIDIA是全球最大的推理平台;边缘计算的四个主要应用场景为自动驾驶汽车、机器人、设施和基站 [49][50][56] 8. **供应链与风险** - 核心观点:公司将在多个大洲进行制造,降低对台湾的依赖;华为在AI芯片制造方面有一定进展,但与公司存在差距 [64][67] - 论据:公司计划在美国建设价值50万亿美元的AI超级计算机,同时在韩国的三星也有部分组件制造;华为在AI芯片制造方面落后公司几年,但中国电力成本低,可通过增加芯片使用量弥补性能差距 [64][67][68] 9. **产品相关** - 核心观点:GB 300过渡顺利,NVLink有潜在机会,RTX Pro服务器市场机会巨大 [82][87][98] - 论据:GB 300按计划出现,过渡窗口更短,且包装未改变;很多人对使用NVLink感兴趣,公司正在打造相关生态系统;RTX Pro服务器可集成到传统企业IT组织,市场规模达数百亿美元 [82][89][98] 10. **产品使用寿命与财务** - 核心观点:产品的会计寿命由客户决定,但实际使用寿命可达五到七年;公司在追求增长的同时注重成本和价格平衡 [113][119] - 论据:过去两年Hopper性能提升了四倍,软件优化可在购买硅片后长期提高性能;公司从总拥有成本(TCO)价值角度确定价格,注重战略投资以推动平台全球增长 [114][119] 11. **AI包装与价值交付** - 核心观点:NIMS和NEMO是现代AI包装方式,有助于公司向客户交付价值 [126][128] - 论据:NIMS和NEMO将大量软件集成在一个容器中,类似AI盒子,方便客户使用;公司通过整合GPU、NVLink等系统,实现了40倍的性能提升,能向客户证明价值 [126][129][130] 其他重要但是可能被忽略的内容 1. 公司自动驾驶汽车业务年收入已达50亿美元 [56] 2. 公司从每年3040亿美元的中国业务降至零,但因全球需求强劲仍将继续增长 [70] 3. 很多ASIC项目可能会被取消,但部分人对使用NVLink感兴趣 [87][89] 4. RTX Pro服务器已投入生产 [103] 5. 主权AI建设是逐步进行的,基础设施建设已讨论一年多 [108][110]
新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了
量子位· 2025-06-11 13:13
模型发布与性能 - Mistral AI发布首款推理模型Magistral,包含Magistral Small(24B参数开源版本)和Magistral Medium(企业版)[4][5] - 与公司初期模型Mistral Medium 3相比,Magistral在AIME-24上的准确率提升50%[3] - Magistral Small在AIME-24准确率达70.7%,纯RL训练使AIME-24数学基准准确率从26.8%跃升至73.6%[18][20] 多语言与推理能力 - Magistral支持多语言推理,覆盖英语、法语、西班牙语等,解决欧洲语言推理效果不佳的问题[7] - 在AIME'24测试中,英语准确率73.6%,法语68.5%,西班牙语69.3%,德语66.8%[8] - 模型针对多步逻辑微调,提供可追溯的思考过程,实现大规模实时推理[10][15] 技术创新与训练方法 - 采用纯强化学习(RL)训练,改进GRPO算法,不依赖现有模型蒸馏数据[16][17] - 首创异步分布式训练架构,动态批处理优化提升训练效率,纯文本RL训练使多模态性能提升12%[20] - Magistral Medium的token吞吐量比大多数竞争对手快10倍,支持实时反馈[14] 行业对比与争议 - 官方未与最新版Qwen和DeepSeek R1对比,网友测试显示Qwen 4B性能相近,30B MoE效果更优[22][24] - 基准测试未纳入Qwen,且DeepSeek-R1数据非最新版(AIME-25准确率从70%升至87.5%)[1] - 开源权重版本Magistral Small采用Apache 2.0许可,但被质疑“欧洲OpenAI”不够开放[24]
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现,强化学习无需外部奖励信号
量子位· 2025-05-29 12:42
梦晨 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 复刻DeepSeek-R1的长思维链推理,大模型强化学习新范式RLIF成热门话题。 UC Berkeley团队共同一作 Xuandong Zhao 把这项成果称为: 大模型无需接触真实答案,仅通过优化自己的信心,就能学会复杂推理。 具体来说,新方法完全不需要外部奖励信号或标注数据,只需使用模型自身的置信程度作为内在奖励信号。 与使用外部奖励信号GRPO相比,新方法在数学任务上不需要标准答案也能提升基础模型性能,在代码任务上表现得更好。 几乎同一时间,另外一篇论文《RENT: Reinforcement Learning via Entropy Minimization》也验证了相似的结论。 作者表示两者的主要区别在于使用 KL散度 和 最小化熵 衡量自信程度。 Dropbox工程副总裁看后表示: Confidence is all you need 。 "自信"驱动的强化学习 长期以来,训练大模型主要依赖两种方式: 要么需要大量人工标注(如ChatGPT的RLHF),要么需要可验证的标准答案(如DeepSeek的RLVR)。 前者成本高昂且可能引入偏 ...
312条轨迹激发241%性能!上交大与SII开源电脑智能体,超越 Claude 3.7
机器之心· 2025-05-25 11:51
电脑智能体技术突破 - 行业首次实现仅需312条人类标注轨迹即可训练出高性能电脑智能体PC Agent-E,性能提升达241%,超越Claude 3.7 Sonnet的extended thinking模式,成为Windows系统开源电脑智能体的新一代SOTA [1][10] - 关键创新在于轨迹增强(Trajectory Boost)技术,利用Claude 3.7 Sonnet为每一步合成多个动作决策,使模型性能相比仅使用人类轨迹训练提升141% [8][11] - 研究表明大模型已具备基础电脑操作能力,性能瓶颈在于长程推理(long-horizon planning)能力的激发,而该能力可通过少量高质量轨迹显著提升 [3][13] 数据收集与处理方法 - 数据来源仅需两位作者一天时间通过PC Tracker工具收集的真实操作轨迹,每条包含任务描述、屏幕截图及键盘鼠标操作 [4] - 原始轨迹经过思维链补全(Thought Completion),为每个动作步骤添加符合ReAct范式的思考逻辑 [7] - 轨迹增强阶段利用环境快照(environment snapshot)通过Claude 3.7 Sonnet为每一步合成9个额外动作决策,极大丰富数据多样性 [8][11] 模型训练与性能表现 - 基于开源模型Qwen2.5-VL-72B训练,PC Agent-E作为原生智能体模型可实现端到端任务执行,无需复杂工作流设计 [10] - 在改进版WindowsAgentArena-V2评测中表现优异,同时在OSWorld平台展现跨平台泛化能力 [10] - 实验显示模型性能随合成动作数量增加而显著提升,验证了轨迹增强方法的有效性 [11] 行业影响与未来方向 - 该方法证明少量高质量轨迹可替代海量标注数据,为构建更智能的数字代理提供新思路 [13] - 当前电脑智能体能力仍显著落后人类,在预训练和监督微调阶段引入人类认知仍是必要基础 [13] - 技术路径降低了数据需求,为未来开发自主操作数字世界的智能代理奠定基础 [13]
港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵
晚点LatePost· 2025-05-23 15:41
智能的本质与历史 - 智能的本质是学习,生命作为智能载体通过DNA、神经系统、语言和数学等不同形式学习外部世界规律并预测未来[3][15] - 智能发展经历了四个阶段:物种进化(强化学习)、个体记忆(神经系统)、语言文明和数学科学[19][20] - 当前大模型处于类似单细胞生命的低效演化阶段,缺乏自主学习和纠错能力[21][30] 大模型技术现状 - 当前推理模型(o1/R1)主要依靠记忆模仿而非真正逻辑推理,存在训练题表现优异但基础题失误的矛盾现象[8][12] - 提升模型能力的两种核心方法:监督微调(SFT)和强化学习(RL),通常先微调再强化学习效果更佳[10][11] - DeepSeek验证了开源模型可以低成本赶超闭源模型,500万美元训练成本被误读为全程成本[13][14] 机器智能发展方向 - 白盒大模型和闭环反馈纠错机制是突破方向,模仿生物神经系统的多路并行闭环结构[43][45] - 当前端到端开环系统只能在封闭世界运行,闭环系统才能适应开放世界的自主学习[46][47] - VLA方法通过暴力计算整合感知与动作,但非最优解决方案[48] 行业生态与教育 - 港大开设面向所有本科生的AI通识课程,涵盖智能历史、技术原理和伦理思考[37][38] - 为企业家开设AI专项课程,80多位高管参与学习技术本质与商业应用[35] - 学术界应专注原理创新而非跟随工业界,需要保持独立探索精神[44]