强化学习

搜索文档
GPT-5难产,外媒爆料:性能提升不大,OpenAI高管Slack上当众破防
机器之心· 2025-08-02 12:43
GPT-5技术进展 - GPT-5在编程、数学和复杂任务处理能力上有显著提升,尤其在自动化编码和客服退款规则制定方面表现优于前代[15] - 新模型能更高效分配计算资源,在不增加消耗的情况下生成更高质量的文本和代码答案[20] - 性能改进幅度不及早期GPT-3到GPT-4的飞跃,显示技术突破速度放缓[15] 技术开发挑战 - 从研究模型转为ChatGPT版本时性能收益大幅下降,沟通方式差异导致效果折损[32][33] - Orion模型原计划作为GPT-5发布,因未达预期改为GPT-4.5,预训练阶段遇到数据质量和规模扩展问题[27] - Meta挖走十多位关键研究人员导致团队动荡,研究副总裁公开抱怨管理问题[25][26] 核心技术创新 - 采用"通用验证器"技术自动评估模型输出质量,覆盖从编程到创意写作的广泛领域[38][39] - o3推理模型通过增加英伟达芯片和网络搜索能力,在科学理解上取得突破[29][30] - Test-Time Scaling技术证明增加计算时间可持续提升模型性能[13] 商业与融资动态 - 最新融资83亿美元使估值达3000亿美元,年收入预计年底突破200亿美元[42] - 微软可能获得重组后33%股权,双方在技术授权条款上存在争议[24] - 450亿美元GPU采购计划依赖技术改进带来的投资者信心[16] 战略方向 - 自动化编码能力成为研发重点,被视为实现AI自我进化的关键[21] - 公司高管公开表示现有技术路径可支持GPT-8目标,并最终实现AGI[18] - 强化学习被视为通向AGI的核心技术,获得xAI和谷歌等竞争对手重点关注[39]
MuJoCo教程来啦!从0基础到强化学习,再到sim2real
具身智能之心· 2025-08-02 00:02
具身智能技术发展 - 具身智能正在全面崛起,重新定义人类与机器的关系,从理解语言指令到在复杂环境中灵活移动和精确操作物体 [1] - 全球顶尖科技公司如Tesla、Boston Dynamics、OpenAI、Google等都在竞相布局具身智能领域 [1] - 具身智能将彻底改变制造业、服务业、医疗健康、太空探索等多个行业 [1] MuJoCo技术优势 - MuJoCo是连接虚拟世界与现实世界的重要桥梁,为机器人学习提供高保真、高效率的训练环境 [4] - 通过MuJoCo,研究者可以构建高度逼真的虚拟机器人和环境,使AI系统在仿真中进行数百万次试验和学习,仿真速度比现实时间快数百倍 [6] - MuJoCo采用先进的接触动力学算法,精确模拟机器人与环境的复杂交互,支持高度并行化计算和多种感知模态 [6] - MuJoCo已成为学术界和工业界的标准工具,Google、OpenAI、DeepMind等科技巨头都在使用 [8] 具身智能实战教程 - 课程采用项目驱动的学习方式,涵盖从物理仿真原理到深度强化学习、机器人控制理论到Sim-to-Real迁移技术的完整知识体系 [9] - 课程设计六个层次递进的实战项目,包括智能机械臂控制、视觉引导抓取系统、强化学习驱动的运动技能等 [11][16] - 每个项目都配有详细的中文指导文档、参考代码和调试技巧,并来自中国机器人企业的实际应用场景 [30] 课程结构与学习目标 - 课程分为六个学习模块,每周有明确的学习目标和实践项目 [15] - 学习模块包括MuJoCo基础、高级建模与传感器集成、强化学习与智能决策、机器人控制理论、多智能体系统与交互学习、Sim-to-Real迁移 [17] - 完成课程后,学员将熟练掌握MuJoCo各项功能、强化学习核心算法和机器人控制理论,具备完整的项目开发经验和创新能力 [32][33] 行业应用与前景 - 具身智能技术将在工厂精密装配、医院手术协助、家庭服务、危险环境救援等多个场景中发挥革命性作用 [1] - 课程设计的实战项目直接对接产业需求,帮助学员快速适应行业发展趋势 [30] - 掌握MuJoCo和具身智能技术将使学员成为该领域的复合型人才,具备技术开发和团队协作的核心能力 [33]
对话理想智驾团队:端到端像「猴子开车」,VLA有机会抵达「ChatGPT时刻」
雷峰网· 2025-08-01 19:11
核心观点 - 理想汽车发布首款纯电SUV理想i8,售价32.18万至36.98万元,被视为公司在纯电赛道的关键一步 [2] - 理想i8将搭载下一代智能辅助驾驶方案VLA司机大模型,成为重要卖点 [3] - VLA代表以强化学习为核心的新范式,具备思维能力、沟通能力、记忆能力和自主学习能力四大核心能力 [6] - 公司已积累12亿公里有效数据,云端算力规模达13EFLOPS [1][6] - VLA模型通过生成式方法和仿真环境构造稀缺数据,突破传统模仿学习路径的瓶颈 [6] 产品发布 - 理想i8为六座家庭SUV,定价参考理想L8,目标达到L8上市首月交付5293辆的水平 [2] - 理想i8交付时间定于8月20日,因需同步交付VLA司机大模型 [3] - 公司从去年开始预研VLA,今年初成立项目组攻关工程化研发 [4] 技术突破 - VLA通过强化学习解决端到端模型的数据质量和训练效率双重瓶颈 [5][6] - 端到端模型MPI从去年7月的十几公里提升至今年初的近100公里,7个月内增长近10倍 [4] - 从3月到7月底近5个月,端到端模型性能只提升2倍左右,显示遇到瓶颈 [5] - VLA推理帧率达10Hz,相比之前端到端的3Hz提升三倍多 [8] - 公司自研4B基座模型,采用MoE混合专家架构,专门针对嵌入式芯片定制 [9] 数据与算力 - 公司积累12亿公里有效数据,云端算力规模达13EFLOPS(2万张H20等效训练卡,3万张等效L20推理卡) [6][7] - 在规则算法时代训练卡不到1EFLOPS,端到端时代增长到10EFLOPS,增长10倍左右 [12] - 公司使用FP8格式实现1000TOPS算力,计划向FP4演进 [20][31] 仿真测试 - 公司90%以上测试采用仿真测试替代实车测试 [16] - 仿真测试效果优于实车测试,成本更低 [17] - 公司2024年进行150多万公里实车测试验证仿真环境可靠性 [28] - 仿真系统准确率达99.9%以上 [28] 安全指标 - 理想车主人驾数据为60万公里出一次事故,辅助驾驶功能下为350到400万公里发生一次事故 [13] - 目标将MPA提升到人类驾驶的10倍,即600万公里出一次事故 [13] - 当前MPA指标为300万公里左右 [13] 行业定位 - 公司是国内最早落地VLA的车企,认为技术壁垒在于世界模型仿真能力 [37][55] - VLA技术可拓展到其他机器人领域,公司已成立相关机器人部门 [55] - 公司采用"预研一代、研发一代、交付一代"的技术发展思路 [54] 用户体验 - VLA版本在内部评分上已全面超越端到端7.5版本 [58] - 重点提升行车舒适度,其次为安全和效率 [14] - 计划为不同用户提供个性化驾驶风格体验 [30]
2025上半年AI核心成果及趋势报告-量子位智库
搜狐财经· 2025-08-01 12:37
《2025上半年AI核心成果及趋势报告》由量子位智库发布,从应用、模型、技术、行业四个维度解析了AI领域的关键动态与趋势。 应用层面,通用类Agent产品深度整合工具使用,可完成数小时人类工作量的自动化任务,交付内容丰富;以视觉操作为核心的Computer Use Agent (CUA)推向市场,正与文本类深度研究Agent融合。垂直场景加速Agent化,自然语言操控成工作流一部分,AI编程获市场验证,收入增长迅猛,模型上 下文协议(MCP)虽受关注,但尚未规模化落地。 模型方面,推理能力持续提升,数理和代码类问题进步显著,部分模型在国际竞赛中表现优异。大模型工具使用能力增强,端到端融合视觉与文本,多模态 推理能力提升,图像和视频生成在控制能力、审美等方面全面增强。小模型加速普及,降低部署门槛,模型评估向动态、实用任务方向演化。 技术上,资源投入向后训练和强化学习倾斜,强化学习重要性提升,未来算力消耗或超预训练。多智能体系统成前沿范式,在线学习有望成下一代学习方 式,Transformer架构及混合架构快速迭代优化。代码验证成AI编程自动化提升的前沿,系统提示词对用户体验影响关键。 行业趋势显示,xAI的Gr ...
基模下半场:开源、人才、模型评估,今天的关键问题到底是什么?
Founder Park· 2025-07-31 22:57
中国开源模型的崛起 - 中国开源模型如Kimi、Qwen、智谱GLM-4.5等近期密集发布,Hugging Face热门榜几乎被中国模型垄断[1][3] - 中国模型发展速度惊人,一旦模式被验证可行,中国擅长集中资源快速工程化实现[5][8] - 中国开源模型可能成为发展中国家的模型标准,尤其在"全球南方"市场占据优势[6][7] 中美AI竞争格局 - 大模型竞争已演变为中美之间的比拼,开源标准可能转向中国模型[3] - 美国如Meta等公司正加大投入,但中国在公私合作和资源投入方面更具优势[8][10] - 中国机构如清华大学已拥有先进语言模型,而美国部分高校资源相对不足[8][10] 模型训练与人才 - 不同机构间人才差异并不显著,模型好坏更多取决于资源利用效率[15][16] - 顶尖实验室内部普遍存在混乱,但关键在于能否产出有效模型[19][20] - 实验速度和基础设施比单纯追求"天才"更重要,需要重视团队协作价值[21][22] 模型评测与基准测试 - 当前更需要好的基准测试来评估模型能力,而非仅关注技术细节[3][24] - 制作高质量评测的门槛越来越高,但可能带来新的话语权[24][25] - 评测领域存在巨大蓝海机会,定义新任务不需要庞大算力[26] 强化学习与推理技术 - RL无法泛化到数学和代码之外的说法被夸大,这些领域只是更容易验证[32] - GSPO算法通过分组序列策略优化显著提升样本效率[28][29] - 模型推理研究进展有限,蒸馏小模型比RL更实用[27] 未来挑战与趋势 - 验证难度将越来越大,特别是在科学发现等复杂领域[36][37] - 智能体相关能力可能成为未来关键基准,参数规模扩张不再是主要路径[23] - 行业需要改变模型优势的传达方式,超越单纯基准测试分数[24]
VLA+强化学习,会催生更强大的系统!
具身智能之心· 2025-07-31 08:04
机器人基础模型发展 - RT-2作为首个机器人VLA模型,通过将机器人控制问题构建为视觉问答任务实现基础功能,基于PaLI-X和PaLM-E预训练模型开发[5][7] - RT-X跨具身数据集整合34个实验室、22种机器人数据,通用模型性能比单一场景专业模型平均提升50%,分布外指令处理能力提升3倍[10][11] - 第二代VLA模型采用连续动作分布设计(如扩散模型/流匹配模型),支持高频率精细控制,动作生成跨度达50个时间步[15][17][19] PI公司技术迭代 - π0模型基于30亿参数Polyglot-LLM开发,集成动作专家模块,输入包含1-3张图像+语言指令,可控制多样化机器人形态[18][19] - π0训练数据集达10,000小时,融合RT-X数据后实现复杂任务微调,如折叠盒子(成功率66%)和衣物(抗干扰恢复能力突出)[21][23][26] - π0.5版本新增分层推理架构,支持长期任务(如卧室清洁),仅3%移动操作数据但实现真实场景迁移应用[28][30][32] 技术融合方向 - 当前VLA模型依赖模仿学习,未来将通过强化学习(RLPD算法)优化任务成功率与鲁棒性,采用稀疏奖励+人工干预机制[35][39][43] - RLDG方法尝试将强化学习专家数据整合至VLA,已实现连接器插入等技能泛化,但端到端训练流程仍需突破[45][46] - 视觉编码器+图像分类奖励机制提升强化学习效率,动态任务如煎蛋翻面、家具组装验证技术互补潜力[42][43]
买来的足式机器人,调了好久不work......
具身智能之心· 2025-07-31 08:04
足式机器人开发挑战 - 初学者开发足式机器人面临巨大困难,需实现爬楼梯、跑步、跳舞等高难度动作,但缺乏系统指导导致难以入门[1] - 复杂地形(石子路、坑洼路面)要求机器人具备稳定动作执行能力,僵硬驱动难以行走超过20米[1] - 完整开发流程需掌握运动学、动力学、多传感器融合、强化学习等8项核心技术,学习门槛高[1] 足式机器人行业价值 - 足式机器人(四足/双足)被视为机器人领域里程碑,能仿生应对复杂地形突破平坦环境限制[2] - 资本高度关注,在巡检、安防、救援等场景有广阔应用前景,企业正高薪争夺相关人才[2] - 当前是进入领域最佳时机,但缺乏系统学习路径导致学习者易踩坑放弃[2] 课程技术体系 - 国内首门覆盖四足到双足的全栈算法课程,包含基础运动控制、高级强化学习、Sim2Real迁移三大模块[2][3] - 核心技术包含:关节负载分析(运动学)、IMU/视觉多模态融合、双足动态平衡控制、PPO/SAC算法应用[3] - 前沿技术整合:波士顿动力跳跃算法解析、域随机化策略、RMA等提升仿真到现实的迁移成功率[4][7] 实战训练设计 - 仿真平台覆盖Isaac Gym/Gazebo/MuJoCo,实现行走/跳跃/攀爬等多任务切换训练[3][9] - 硬件部署涉及Unitree、DeepRobotics等主流平台,包含噪声注入、物理参数抖动等鲁棒性增强手段[7][11] - 大作业设置复杂地形跑酷、人机协作等场景,要求学员完成从设计到性能评估的全流程[7][16] 目标人群与能力培养 - 面向AI从业者、机器人专业学生、转行者三类人群,需具备Python/PyTorch及线性代数基础[16] - 培养能力包含:全栈技术掌握(运动控制到强化学习)、四足/双足系统思维、1-2年等效项目经验[16] - 课程形式为离线视频+代码+线上答疑,配套源码与行业案例,有效期1年[17]
PI联合创始人,机器人大神!详解VLA+强化学习,催生更强大的系统
具身智能之心· 2025-07-30 14:03
以下文章来源于RoboX ,作者RoboX RoboX . 从AI汽车到机器人,我们关注最具潜力的超级智能体! 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 7 月 27 日,在 2025 WAIC 上,由智元机器人主办的「智启具身论坛」如期举办。在其重量级嘉宾阵容中,我们 首先编译整理了 Sergey Levine 的演讲内容,供大家参考: 开端:RT-2的「视觉问答」 "几年前,基于 首个机器人基础模型,我的学生凯文·布莱克发送了一个指令——'把茄子放进锅里'。当时的基础模型运行在远程服务器上,且 运行的是一个我们没有开发、也不太清楚工作原理的模型。凯文能够向这个模型发送指令,然后机器人就完成了任务。 " 在演讲的开头,Levine 回忆道,像这样简单的任务,却已经让凯文研究了很长一段时间。因此,这一指令的成功,让他们看到了新型系统势 的能力,以及其不可阻挡的趋势: " 随着我们开发出可远程调用的机器人基础模型,这将释放出一种力量,使任何机器人都能 ...
SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」
机器之心· 2025-07-30 13:13
核心观点 - 研究团队提出SPIRAL框架,通过零和游戏自对弈提升语言模型的推理能力,摆脱对人工监督的依赖[3] - 游戏作为推理训练场,通过输赢结果提供廉价可验证的奖励,无需人工标注[6] - 仅通过库恩扑克训练,模型数学推理能力平均提升8.7%,在Minerva Math基准测试上跃升18.1个百分点[7] - SPIRAL框架让竞争驱动智能涌现,通过多回合零和游戏自主发现并强化可泛化的推理模式[10] 游戏选择与训练效果 - 选择三种具有不同认知需求的游戏:井字棋(空间模式识别)、库恩扑克(概率计算)、简单谈判(多步规划)[12] - 自对弈保持50-52%胜率,确认对手与学习者同步进化[13] - 训练阶段胜率变化:Step 16(0% vs Gemini,52.3%自对弈),Step 128(37.5%,51.7%),Step 384(62.5%,50.9%)[14] 推理模式迁移 - 发现三种核心推理模式:期望值计算(使用率从15%增长到78%)、逐案分析(出现率72%)、模式识别(使用率35%到45%)[16][18][19] - 不同游戏培养专门化能力:井字棋专家在空间游戏Snake上56%胜率,扑克大师在概率游戏Pig Dice上91.7%胜率[20] - 多游戏训练产生协同效应:Liar's Dice上单一专家12-25%胜率,多游戏模型达51.4%[21][22] 技术创新 - 开发分布式在线多智能体强化学习系统,实现全参数更新的在线自对弈[24] - 角色条件优势估计(RAE)防止思维崩溃,保持稳定梯度和推理生成[26][27][28] - 在DeepSeek-R1-Distill-Qwen-7B上应用SPIRAL,性能从59.7%提升到61.7%,AIME 2025分数跃升10个百分点[30] 实践意义与局限 - 提供全新思路:无需高质量推理数据,只需设计合适游戏环境[35] - 验证关键假设:强化学习筛选预训练模型中的可泛化思维链[35] - 当前局限:游戏环境依赖、计算资源需求(8块H100 GPU运行25小时)、性能瓶颈[38] - 评估局限:主要集中在学术基准测试,需进一步验证现实任务影响[39]
大模型发展情况及展望:海内外大模型梳理
2025-07-30 10:32
【大模型发展情况及展望】:海内外大模型梳理 20250729 摘要 人工智能投资经历了三轮浪潮,当前这轮与前两轮相比,持续时间更长, 上涨力度更强劲,且资本开支投入力度和商业化回报潜力更高,市场对 未来行情持乐观态度。 深度学习通过构建深度神经网络,广泛应用于大语言模型,如 Transformer,通过思维树增强逻辑思维能力,显著提升了模型在问答 速度和问题解决方面的表现。 强化学习的引入,使得大语言模型不再依赖大量外部语料,通过少量反 馈数据即可反复训练,显著提升逻辑推理能力,标志着行业进入 post- training scaling law 阶段。 OpenAI 的 GPT-4.5 发布延迟,GPT-5 预计将在逻辑思维、动态处理和 图形界面操作等方面实现跨代提升,同时 O3 在文本和视觉推理方面表 现突出,并引入 agent 制作能力。 GROX 系列模型通过逐步增加算力和强化学习时间,表现惊人,为未来 大模型训练范式提供了重要参考,即大幅延长强化学习时间并投入更多 算力。 强的持续性,还显示出更高的资本开支投入力度和商业化回报潜力。 人工智能的发展历史及其当前阶段是什么? Q&A 人工智能在资本市场 ...