Workflow
强化学习
icon
搜索文档
对话理想智驾团队:端到端像「猴子开车」,VLA有机会抵达「ChatGPT时刻」
雷峰网· 2025-08-01 19:11
" 理想汽车已经积累了12亿公里的效数据,云端算力规模已达 13EFLOPS 。 " 作者丨 王瑞昊 编辑丨 田哲 7月29日,理想汽车发布首款纯电SUV——理想i8,售价32.18万至36.98万元。这款六座家庭SUV被视为 理想在纯电赛道上"能否翻篇"的关键一步。 一位内部员工告诉雷峰网,理想i8的定价参考了理想L8,公司希望i8的市场成绩至少要达到理想L8的水 平,L8上市首月即交付5293辆。 不过,理想i8没能实现上市即交付,而是要到8月20日。 雷峰网了解到, 理想下一代智能辅助驾驶方案——VLA司机大模型会随着i8同步交付 ,这或许是整体交 付要等到8月20日的主要原因。 为了成功切换到VLA,理想汽车从去年开始预研,今年初开始以项目组的形式攻关工程化研发,希望能首 发搭载理想i8,成为i8的一个重要卖点。 尽管目前VLA还存在一些缺陷,比如在一些场景中的体验还不如端到端版本。"理想是业界第一个量产VLA 的车企,还存在一些缺陷,"理想汽车自动驾驶研发高级副总裁郎咸朋说,"但在自动驾驶领域,VLA解决 的是一个相对统一的驾驶范式,有机会实现GPT时刻。" 从轻图、无图到端到端,再到现在的VLA, ...
2025上半年AI核心成果及趋势报告-量子位智库
搜狐财经· 2025-08-01 12:37
《2025上半年AI核心成果及趋势报告》由量子位智库发布,从应用、模型、技术、行业四个维度解析了AI领域的关键动态与趋势。 应用层面,通用类Agent产品深度整合工具使用,可完成数小时人类工作量的自动化任务,交付内容丰富;以视觉操作为核心的Computer Use Agent (CUA)推向市场,正与文本类深度研究Agent融合。垂直场景加速Agent化,自然语言操控成工作流一部分,AI编程获市场验证,收入增长迅猛,模型上 下文协议(MCP)虽受关注,但尚未规模化落地。 模型方面,推理能力持续提升,数理和代码类问题进步显著,部分模型在国际竞赛中表现优异。大模型工具使用能力增强,端到端融合视觉与文本,多模态 推理能力提升,图像和视频生成在控制能力、审美等方面全面增强。小模型加速普及,降低部署门槛,模型评估向动态、实用任务方向演化。 技术上,资源投入向后训练和强化学习倾斜,强化学习重要性提升,未来算力消耗或超预训练。多智能体系统成前沿范式,在线学习有望成下一代学习方 式,Transformer架构及混合架构快速迭代优化。代码验证成AI编程自动化提升的前沿,系统提示词对用户体验影响关键。 行业趋势显示,xAI的Gr ...
基模下半场:开源、人才、模型评估,今天的关键问题到底是什么?
Founder Park· 2025-07-31 22:57
中国开源模型的崛起 - 中国开源模型如Kimi、Qwen、智谱GLM-4.5等近期密集发布,Hugging Face热门榜几乎被中国模型垄断[1][3] - 中国模型发展速度惊人,一旦模式被验证可行,中国擅长集中资源快速工程化实现[5][8] - 中国开源模型可能成为发展中国家的模型标准,尤其在"全球南方"市场占据优势[6][7] 中美AI竞争格局 - 大模型竞争已演变为中美之间的比拼,开源标准可能转向中国模型[3] - 美国如Meta等公司正加大投入,但中国在公私合作和资源投入方面更具优势[8][10] - 中国机构如清华大学已拥有先进语言模型,而美国部分高校资源相对不足[8][10] 模型训练与人才 - 不同机构间人才差异并不显著,模型好坏更多取决于资源利用效率[15][16] - 顶尖实验室内部普遍存在混乱,但关键在于能否产出有效模型[19][20] - 实验速度和基础设施比单纯追求"天才"更重要,需要重视团队协作价值[21][22] 模型评测与基准测试 - 当前更需要好的基准测试来评估模型能力,而非仅关注技术细节[3][24] - 制作高质量评测的门槛越来越高,但可能带来新的话语权[24][25] - 评测领域存在巨大蓝海机会,定义新任务不需要庞大算力[26] 强化学习与推理技术 - RL无法泛化到数学和代码之外的说法被夸大,这些领域只是更容易验证[32] - GSPO算法通过分组序列策略优化显著提升样本效率[28][29] - 模型推理研究进展有限,蒸馏小模型比RL更实用[27] 未来挑战与趋势 - 验证难度将越来越大,特别是在科学发现等复杂领域[36][37] - 智能体相关能力可能成为未来关键基准,参数规模扩张不再是主要路径[23] - 行业需要改变模型优势的传达方式,超越单纯基准测试分数[24]
VLA+强化学习,会催生更强大的系统!
具身智能之心· 2025-07-31 08:04
机器人基础模型发展 - RT-2作为首个机器人VLA模型,通过将机器人控制问题构建为视觉问答任务实现基础功能,基于PaLI-X和PaLM-E预训练模型开发[5][7] - RT-X跨具身数据集整合34个实验室、22种机器人数据,通用模型性能比单一场景专业模型平均提升50%,分布外指令处理能力提升3倍[10][11] - 第二代VLA模型采用连续动作分布设计(如扩散模型/流匹配模型),支持高频率精细控制,动作生成跨度达50个时间步[15][17][19] PI公司技术迭代 - π0模型基于30亿参数Polyglot-LLM开发,集成动作专家模块,输入包含1-3张图像+语言指令,可控制多样化机器人形态[18][19] - π0训练数据集达10,000小时,融合RT-X数据后实现复杂任务微调,如折叠盒子(成功率66%)和衣物(抗干扰恢复能力突出)[21][23][26] - π0.5版本新增分层推理架构,支持长期任务(如卧室清洁),仅3%移动操作数据但实现真实场景迁移应用[28][30][32] 技术融合方向 - 当前VLA模型依赖模仿学习,未来将通过强化学习(RLPD算法)优化任务成功率与鲁棒性,采用稀疏奖励+人工干预机制[35][39][43] - RLDG方法尝试将强化学习专家数据整合至VLA,已实现连接器插入等技能泛化,但端到端训练流程仍需突破[45][46] - 视觉编码器+图像分类奖励机制提升强化学习效率,动态任务如煎蛋翻面、家具组装验证技术互补潜力[42][43]
买来的足式机器人,调了好久不work......
具身智能之心· 2025-07-31 08:04
足式机器人开发挑战 - 初学者开发足式机器人面临巨大困难,需实现爬楼梯、跑步、跳舞等高难度动作,但缺乏系统指导导致难以入门[1] - 复杂地形(石子路、坑洼路面)要求机器人具备稳定动作执行能力,僵硬驱动难以行走超过20米[1] - 完整开发流程需掌握运动学、动力学、多传感器融合、强化学习等8项核心技术,学习门槛高[1] 足式机器人行业价值 - 足式机器人(四足/双足)被视为机器人领域里程碑,能仿生应对复杂地形突破平坦环境限制[2] - 资本高度关注,在巡检、安防、救援等场景有广阔应用前景,企业正高薪争夺相关人才[2] - 当前是进入领域最佳时机,但缺乏系统学习路径导致学习者易踩坑放弃[2] 课程技术体系 - 国内首门覆盖四足到双足的全栈算法课程,包含基础运动控制、高级强化学习、Sim2Real迁移三大模块[2][3] - 核心技术包含:关节负载分析(运动学)、IMU/视觉多模态融合、双足动态平衡控制、PPO/SAC算法应用[3] - 前沿技术整合:波士顿动力跳跃算法解析、域随机化策略、RMA等提升仿真到现实的迁移成功率[4][7] 实战训练设计 - 仿真平台覆盖Isaac Gym/Gazebo/MuJoCo,实现行走/跳跃/攀爬等多任务切换训练[3][9] - 硬件部署涉及Unitree、DeepRobotics等主流平台,包含噪声注入、物理参数抖动等鲁棒性增强手段[7][11] - 大作业设置复杂地形跑酷、人机协作等场景,要求学员完成从设计到性能评估的全流程[7][16] 目标人群与能力培养 - 面向AI从业者、机器人专业学生、转行者三类人群,需具备Python/PyTorch及线性代数基础[16] - 培养能力包含:全栈技术掌握(运动控制到强化学习)、四足/双足系统思维、1-2年等效项目经验[16] - 课程形式为离线视频+代码+线上答疑,配套源码与行业案例,有效期1年[17]
PI联合创始人,机器人大神!详解VLA+强化学习,催生更强大的系统
具身智能之心· 2025-07-30 14:03
以下文章来源于RoboX ,作者RoboX RoboX . 从AI汽车到机器人,我们关注最具潜力的超级智能体! 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 7 月 27 日,在 2025 WAIC 上,由智元机器人主办的「智启具身论坛」如期举办。在其重量级嘉宾阵容中,我们 首先编译整理了 Sergey Levine 的演讲内容,供大家参考: 开端:RT-2的「视觉问答」 "几年前,基于 首个机器人基础模型,我的学生凯文·布莱克发送了一个指令——'把茄子放进锅里'。当时的基础模型运行在远程服务器上,且 运行的是一个我们没有开发、也不太清楚工作原理的模型。凯文能够向这个模型发送指令,然后机器人就完成了任务。 " 在演讲的开头,Levine 回忆道,像这样简单的任务,却已经让凯文研究了很长一段时间。因此,这一指令的成功,让他们看到了新型系统势 的能力,以及其不可阻挡的趋势: " 随着我们开发出可远程调用的机器人基础模型,这将释放出一种力量,使任何机器人都能 ...
SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」
机器之心· 2025-07-30 13:13
核心观点 - 研究团队提出SPIRAL框架,通过零和游戏自对弈提升语言模型的推理能力,摆脱对人工监督的依赖[3] - 游戏作为推理训练场,通过输赢结果提供廉价可验证的奖励,无需人工标注[6] - 仅通过库恩扑克训练,模型数学推理能力平均提升8.7%,在Minerva Math基准测试上跃升18.1个百分点[7] - SPIRAL框架让竞争驱动智能涌现,通过多回合零和游戏自主发现并强化可泛化的推理模式[10] 游戏选择与训练效果 - 选择三种具有不同认知需求的游戏:井字棋(空间模式识别)、库恩扑克(概率计算)、简单谈判(多步规划)[12] - 自对弈保持50-52%胜率,确认对手与学习者同步进化[13] - 训练阶段胜率变化:Step 16(0% vs Gemini,52.3%自对弈),Step 128(37.5%,51.7%),Step 384(62.5%,50.9%)[14] 推理模式迁移 - 发现三种核心推理模式:期望值计算(使用率从15%增长到78%)、逐案分析(出现率72%)、模式识别(使用率35%到45%)[16][18][19] - 不同游戏培养专门化能力:井字棋专家在空间游戏Snake上56%胜率,扑克大师在概率游戏Pig Dice上91.7%胜率[20] - 多游戏训练产生协同效应:Liar's Dice上单一专家12-25%胜率,多游戏模型达51.4%[21][22] 技术创新 - 开发分布式在线多智能体强化学习系统,实现全参数更新的在线自对弈[24] - 角色条件优势估计(RAE)防止思维崩溃,保持稳定梯度和推理生成[26][27][28] - 在DeepSeek-R1-Distill-Qwen-7B上应用SPIRAL,性能从59.7%提升到61.7%,AIME 2025分数跃升10个百分点[30] 实践意义与局限 - 提供全新思路:无需高质量推理数据,只需设计合适游戏环境[35] - 验证关键假设:强化学习筛选预训练模型中的可泛化思维链[35] - 当前局限:游戏环境依赖、计算资源需求(8块H100 GPU运行25小时)、性能瓶颈[38] - 评估局限:主要集中在学术基准测试,需进一步验证现实任务影响[39]
大模型发展情况及展望:海内外大模型梳理
2025-07-30 10:32
【大模型发展情况及展望】:海内外大模型梳理 20250729 摘要 人工智能投资经历了三轮浪潮,当前这轮与前两轮相比,持续时间更长, 上涨力度更强劲,且资本开支投入力度和商业化回报潜力更高,市场对 未来行情持乐观态度。 深度学习通过构建深度神经网络,广泛应用于大语言模型,如 Transformer,通过思维树增强逻辑思维能力,显著提升了模型在问答 速度和问题解决方面的表现。 强化学习的引入,使得大语言模型不再依赖大量外部语料,通过少量反 馈数据即可反复训练,显著提升逻辑推理能力,标志着行业进入 post- training scaling law 阶段。 OpenAI 的 GPT-4.5 发布延迟,GPT-5 预计将在逻辑思维、动态处理和 图形界面操作等方面实现跨代提升,同时 O3 在文本和视觉推理方面表 现突出,并引入 agent 制作能力。 GROX 系列模型通过逐步增加算力和强化学习时间,表现惊人,为未来 大模型训练范式提供了重要参考,即大幅延长强化学习时间并投入更多 算力。 强的持续性,还显示出更高的资本开支投入力度和商业化回报潜力。 人工智能的发展历史及其当前阶段是什么? Q&A 人工智能在资本市场 ...
具身领域LLM结合强化学习与世界模型工作汇总
具身智能之心· 2025-07-30 08:02
具身智能领域最新研究进展 1 UniSim通用现实世界交互模拟器 - 通过生成式建模整合多源数据(图像/机器人/导航数据)实现高层级指令和低层级控制的视觉结果模拟 [3] - 应用场景覆盖游戏/电影内容生成和具身智能体纯模拟训练(零样本迁移至现实)[3] - 实验证明可同时训练视觉语言策略和强化学习策略 [3] 2 因果世界模型与鲁棒智能体 - 首次证实最优智能体必须学习真实因果模型以实现跨领域泛化 [5] - 研究结论对迁移学习和因果推断领域产生深远影响 [5] 3 MAMBA元强化学习框架 - 结合模型方法与元强化学习技术实现15倍样本效率提升 [8] - 在高维任务场景验证有效性,推动现实世界泛化能力突破 [8] 4 EMMA多模态具身智能体 - 通过文本世界LLM指导视觉世界VLM训练(DAgger-DPO算法)[10] - ALFWorld基准测试成功率提升20%-70% [10] 5 Text2Reward自动奖励生成 - 基于LLM生成可执行密集奖励代码(无需真实数据)[13] - 17项操作任务中13项超越专家编写奖励 [14] 6 在线持续学习智能体 - 提出Behavior-IL/Environment-IL框架解决现实场景持续学习问题 [17] - CAMA机制无需任务边界信息即实现参数更新 [18] 7 AMAGO情境强化学习 - 通过并行化Transformer训练解决长期记忆和元学习挑战 [21] - 可攻克开放世界多指令完成难题 [21] 8 LLM世界模型构建 - 创新性采用PDDL构建显式世界模型(支持40+动作生成)[22] - 在Household领域成功求解48项复杂规划任务 [23]
干货 | 基于深度强化学习的轨迹规划(附代码解读)
自动驾驶之心· 2025-07-30 07:32
作者 | Vision 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1933268710770074901 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 背景 随着业界鼓吹端到端自动驾驶一年之后,最近又开始宣传vla和强化学习的等新的技术范式。vla概念来自最近一年业界巨火的具身智能领域,本质上跟端到端的自 动驾驶没有很明确的区别。本篇文章我们聚焦下强化学习这个技术范式。其实早在机器人领域早期,就有强化学习的身影,但一直由于其训练效率低下,复杂度 高,在工业界一直没有很广泛的运用。随着2018年alpha zero 围棋比赛,2023年chatgpt rlhf的推出,2025年初 deepseek-o1 在线推理的推出,强化学习在各个行业和 技术领域凸显出更广泛的使用潜力。在本着技术好奇的角度,结合最近两周对相关基础知识的理解,来讲讲作为一个计算机视觉(cv)背景的眼中,强化学习是个 什么概念。故下面很多概念类比可能 ...