强化学习

搜索文档
小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)
具身智能之心· 2025-07-01 20:07
职位描述 - 公司正在招聘研究员/科学家加入前沿探索团队,致力于构建下一代自动驾驶与机器人的"大脑",重点研究具身基座模型 (Embodied Foundation Model) [1] - 该模型将深度融合视觉-语言-行动 (VLA) 能力,并具备卓越的空间感知与空间推理能力 [1] 核心职责 - 前沿算法研究与构建:设计和实现领先的具身多模态大模型,探索构建能够理解复杂三维世界并进行长时序、多步骤任务规划的世界模型 (World Model) [2] - 核心模型能力攻关:主导模型在多模态场景理解、复杂语义推理与决策、学习与适应机制等方面的突破 [3] - 技术愿景与路线图:构建可泛化、高效率的具身智能基座模型,为未来1-3年的技术演进提供核心支撑,并探索其在自动驾驶和通用机器人领域的统一应用潜力 [3] - 学术影响力与合作:与全球顶尖高校及研究机构合作,探索表征学习、因果推理、世界模型等长期议题,在顶级会议上发表高水平论文 [3] 职位要求 - 教育与研究背景:计算机科学、人工智能、机器人学、自动驾驶或相关领域的博士学位,或具备同等深度的研究经验 [4] - 核心研究经验:在多模态大模型、自动驾驶与具身智能、强化学习等领域有深入的研究和实践经验 [5] - 三维视觉与空间智能:具备扎实的3D计算机视觉、几何学和空间推理能力,熟悉NeRF, 3D Gaussian Splatting等技术 [6] - 理论与编程能力:在顶级会议上发表过高质量论文,具备跨学科视野,能够融会贯通大模型、自然语言处理、计算机视觉、强化学习与机器人学知识 [7] 加分项 - 拥有坚实的机器学习和深度学习理论基础,精通Python及主流深度学习框架 [10] - 具备世界模型研究经验、大规模预训练经验、机器人平台经验或开源社区贡献 [11] 工作地点 - 工作地点以北京为主,少量上海职位 [9] - 简历投递至指定邮箱,需备注社招/校招+姓名+岗位+自动驾驶之心推荐 [9]
性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源
量子位· 2025-07-01 08:53
招商局狮子山人工智能实验室 投稿 量子位 | 公众号 QbitAI 大模型可以不再依赖人类调教,真正"自学成才"啦? 新研究仅通过 RLVR (可验证奖励的强化学习),成功让模型自主进化出 通用的探索、验证与记忆能力 ,让模型学会"自学"! 当前主流的LLM Agent依然高度依赖于提示词工程、复杂的系统编排、甚至静态规则表,这使得它们在面对复杂任务时难以实现真正的智能 行为演化。 而来自招商局狮子山人工智能实验室的研究团队认为,RLVR范式是智能体(Agent)通往更高通用性和自主性的重要突破口。 于是,他们从两个关键层面出发构建了端到端Agent训练pipeline—— L0系统 : 智能体架构层面 提出了结构化智能体框架——NB-Agent,在经典"代码即行动" (Code-as-Action) 架构基础上进行扩展,使智能体能够操作记忆/上下 文,从而获得类人类的记忆存储、信息总结与自我反思能力。 学习范式层面 探索了一个核心问题:是否可以仅通过RLVR范式,引导智能体从零开始,学会如何规划、搜索、验证与记忆,最终解决复杂的多轮推理 任务? L0系统的框架、模型及训练集已 全部开源 ,详细可见文末链接。 ...
暑假打打比赛!PRCV 2025空间智能与具身智能视觉感知挑战赛正式启动~
自动驾驶之心· 2025-06-30 20:51
竞赛概述 - 竞赛聚焦空间智能与具身智能的视觉感知技术,旨在推动高效、高质量的技术研究,探索强化学习、计算机视觉等前沿方法的创新,并促进神经渲染、场景优化等方向的应用 [2][4] - 竞赛由北京科技大学、清华大学、中国科学院自动化研究所等机构联合组织,北京九章云极科技有限公司提供赞助和技术支持 [5] 参赛要求与流程 - 参赛者包括高校教师、研究生、博士生及企事业单位研究团体,以个人或团队形式报名,每队不超过5人 [8][9] - 报名需通过邮件提交团队信息,截止日期为7月31日,比赛分为训练集发布、结果提交、评测和颁奖四个阶段 [5][6][10] 竞赛资源与任务 - 提供大规模无人机航拍图(500-1000张1k分辨率)和具身智能仿真场景数据,九章云极免费提供8卡H800 GPU算力用于验证 [11][12] - 赛道1要求构建多视角航拍图像的三维重建模型,评估渲染质量(PSNR)和几何精度(F1-Score) [17][19][20] - 赛道2要求完成动态遮挡场景的抓取任务,评估任务完成度(成功率、位姿误差)和执行效率(耗时、路径效率) [21][23] 奖项设置 - 每个赛道设一等奖(6000元+500度算力券)、二等奖(3000元+200度算力券)、三等奖(1000元+100度算力券)及优胜奖(500元+50度算力券) [25] 相关会议 - 竞赛结果将在PRCV2025大会(10月15-18日)公布,该会议是CCF分区顶级学术会议,涵盖模式识别与计算机视觉领域前沿成果 [27][28]
当无人机遇到AI智能体:多领域自主空中智能和无人机智能体综述
具身智能之心· 2025-06-30 20:17
研究背景与动机 - 无人机从遥控平台发展为自主智能体系统,受AI特别是认知架构推动[6] - Agentic AI的出现标志着无人机设计根本性转变,使其具备自主性、目标导向和情境感知能力[6] - 农业、物流、环境监测等领域对无人机自主性需求日益增长,操作环境日趋动态化[6] 核心定义与架构 - Agentic UAVs定义为具有认知能力、情境适应性和目标导向行为的新型自主空中系统[11] - 核心架构包含感知层(多模态传感器)、认知层(推理与规划)、控制层(飞行执行)、通信层(交互协同)[12] - 相比传统无人机,Agentic UAVs在自主性水平(Level 4-5)、决策架构(RL-based)和系统集成方面有显著差异[9] 关键技术推动因素 - 边缘AI模块(NVIDIA Jetson等)支持实时深度学习推理[14] - 多模态传感器融合(RGB/热成像/LiDAR)实现环境联合观测[14] - 视觉-语言模型(VLMs)使无人机能理解执行自然语言指令[14] 主要应用领域 精准农业 - 作物健康监测:通过NDVI/EVI指数动态调整飞行路径[17] - 精准喷洒:AI驱动目标识别优化滴液大小与路径[17] - 自主播种:地形分析动态调整轨迹适应复杂田地[17] 灾难响应 - 幸存者检测:热成像+运动跟踪生成概率热图[21] - 群体协调:V2V通信实现去中心化覆盖与冗余[21] - 野火监测:多光谱相机动态跟踪火势蔓延[21] 城市基础设施检查 - 桥梁检查:SLAM+深度学习缺陷分类生成3D语义地图[27] - 道路监测:卷积网络检测坑洼裂缝[27] - 自动报告:结构化输出符合工程标准[27] 物流配送 - 最后一公里配送:多模态感知实现GPS拒止环境导航[28] - 自适应投放:实例分割识别合适着陆点[31] - 群体协调:V2V通信优化能耗与任务分配[31] 技术挑战 - 电池寿命:机载AI推理使飞行时间降至20-45分钟[45] - 传感器集成:多模态感知增加重量与功耗[45] - 实时导航:GPS拒止环境下VIO/SLAM易受环境噪声影响[47] 未来发展方向 - VTOL平台结合旋翼机敏捷性与固定翼耐力[55] - 联邦学习实现跨异构环境模型共享[58] - 数字孪生技术支持预测性维护与场景测试[70]
具身智能领域,全球Top50国/华人图谱(含具身智能赛道“师徒关系图”)
Robot猎场备忘录· 2025-06-30 16:09
具身智能技术发展 - 具身智能赛道涉及大语言模型(LLM)、视觉多模态模型(VLM)、强化学习(Reinforcement Learning)、深度强化学习(Deep Reinforcement Learning)、模仿学习(Imitation Learning)等前沿技术 [1] - 人形机器人算法从早期模型控制算法(LIPM+ZMP)演进到动态模型控制(MPC+WBC),当前主流为模拟+强化学习(IL+RL),但MPC仍被部分公司采用 [1] - IL+RL技术主要由高校和头部科技大厂研发,导致人形机器人初创公司以"学院派"教授团队为主 [1] 顶尖研究机构与人才分布 - UC Berkeley在AI+Robotics领域排名第一,斯坦福大学次之 [2] - UC Berkeley"归国四子"吴翼、高阳、许华哲、陈建宇均经历"清华大学-UC Berkeley-清华交叉信息研究院-创业"路径,其中三人师从Vision领域权威Trevor Darrell教授并加入BAIR实验室 [2] - 斯坦福大学代表学者王鹤(师从Leonidas J Guibas)现任北大助理教授并创立银河通用,卢策吾(师从李飞飞和Leonidas Guibas)任上海交大教授并创立非夕科技和穹彻智能 [3] 全球Top50华人背景特征 - 具身智能领域Top50华人普遍拥有UC Berkeley、斯坦福、MIT、CMU等顶尖院校求学经历并师从行业权威 [4] - 全球Top50华人图谱涵盖高校教授、科技大厂核心成员及初创企业创始人,详细记录其求学院校、导师、研究方向、论文成果及职业履历 [3][5] 研究机构专项 - UC Berkeley(加州大学伯克利分校)作为具身智能领域核心院校被单独列出 [6]
人形机器人「通用临界点」:当灵巧手握住万亿市场
36氪· 2025-06-30 14:21
产业定义与技术演进 - 灵巧手是具身智能的末端革命,从科研子系统走向产业聚光灯下,模仿人类手部的高自由度运动、灵活操控与多模态反馈能力 [4] - 灵巧手分为刚性结构机械手(工业场景)和柔性仿生手(服务/医疗场景)两大技术路径 [6] - 技术演进得益于结构与材料工程(软体聚合物/碳纤维)、控制算法突破(强化学习/端到端模型)、传感器融合(力觉/触觉/温度)的集体成熟 [7][8] - 行业边界从单一硬件组件扩展为融合材料学、感知科学、AI控制的复合技术集群 [9] - 市场认知从"机器人末端"向"平台型能力模块"演进,成为验证类人智能落地的关键门槛 [10] 核心技术栈 - 灵巧手技术栈包含高自由度结构设计、触觉与柔性传感、智能控制算法的三体协同 [12] - 结构设计从仿形转向仿机理,涉及25-42自由度仿生结构(如灵心巧手工业版25-30 DOF,科研版42 DOF) [13][28] - 触觉传感突破依赖力/压力传感器(如MIT GelSight指尖传感器)、触觉传感器(纹理/滑动感知)、位姿/温度传感器的多模态集成 [16] - 控制算法从预设指令发展为模仿学习(DexMV)、强化学习(OpenAI Five Fingers)与仿真迁移(NVIDIA DexMimic)的融合 [17] - 未来控制将接入大语言模型,形成"意图理解—路径规划—动作执行"完整链条 [18] 应用场景与商业趋势 - 工业场景聚焦异形抓取(物流分拣)、精密装配(电子制造)、协作臂多任务,部署ROI逐步缩短 [21] - 服务与医疗场景涵盖家庭机器人(厨房/卫浴操作)、康复假肢(截肢者仿生手臂)、远程医疗(手术/太空维修) [22] - 当前产业化路径以B端工业验证为主(高附加值),C端家庭/医疗为中长期确定性方向 [24] - 灵巧手在To B领域已实现月销千台(灵心巧手市占率80%),To C受成本/可靠性限制但快速改善 [23][28] 竞争格局与资本判断 - 全球三轨竞争格局:海外科研主导(Shadow Robot+DeepMind)、国内结构创新(灵心巧手42 DOF)、平台整合加速 [26][27][28] - 2024年国内灵巧手赛道融资超30亿元,20余起事件聚焦种子-A轮(灵心巧手获1亿元种子轮创纪录) [30][36] - 资本偏好技术突破(20+ DOF)、落地验证(5家客户部署)、系统协同(与大模型/整机整合)的企业 [38][39][40] - 投资机会集中于科研转化(灵心巧手)、上游模块创新(纬钛科技触觉传感)、整机集成(傲意科技)三条路径 [42]
具身智能入门必备的技术栈:从零基础到强化学习与Sim2Real
具身智能之心· 2025-06-30 11:47
具身智能技术发展 - 具身智能正在全面崛起,重新定义人类与机器的关系,从理解语言指令到在复杂环境中灵活移动和精确操作物体[1] - 全球顶尖科技公司如Tesla、Boston Dynamics、OpenAI、Google等都在竞相布局具身智能领域[1] - 具身智能将彻底改变制造业、服务业、医疗健康、太空探索等多个行业[1] MuJoCo技术优势 - MuJoCo是连接虚拟世界与现实世界的重要桥梁,为机器人学习提供高保真、高效率的训练环境[4] - MuJoCo能够加速学习过程,仿真速度比现实时间快数百倍,并支持极端情况下的试验而不用担心硬件损坏[6] - MuJoCo采用先进的接触动力学算法,支持高度并行化计算,提供丰富的传感器模型,并具有出色的稳定性和数值精度[6] - MuJoCo已成为学术界和工业界的标准工具,被Google、OpenAI、DeepMind等科技巨头广泛使用[7] 具身智能实战教程 - 课程系统性讲解MuJoCo技术细节,涵盖物理仿真原理、深度强化学习、机器人控制理论、Sim-to-Real迁移技术等[8] - 课程采用项目驱动学习方式,学员将构建多个机器人应用,从机械臂控制到人形机器人行走、灵巧手抓取、多智能体协作等[8] - 课程提供丰富的实践机会,使用最新工具和框架如MuJoCo、Stable Baselines3、PyTorch等[9] 课程模块与项目设计 - 课程分为六个学习模块,每周有明确的学习目标和实践项目[10] - 六个实战项目包括智能机械臂控制系统、视觉引导的抓取系统、强化学习驱动的运动技能、模型预测控制、多机器人协作系统、Sim-to-Real迁移验证[11][14][16][18][20][21][23] - 每个项目配有详细的中文指导文档、参考代码、调试技巧和扩展建议,来自中国机器人企业的实际应用场景[24] 学后收获与职业发展 - 学员将掌握MuJoCo各项功能、强化学习核心算法、机器人控制理论与实践、Sim-to-Real迁移技术[27] - 学员将具备完整的项目开发经验,熟悉现代AI开发工具链,培养良好的工程习惯[28] - 职业发展方向包括技术专家(机器人算法工程师、AI研究工程师、仿真技术专家)和产品经理路径,年薪可达30-150万[30] 课程安排 - 开课时间为2025年7月15日,每周更新一章,6周结课,采用离线视频教学和VIP群内答疑[32]
【焦点】香港中文大学(深圳) 赵俊华:大模型智能体在电力系统中的应用初探
搜狐财经· 2025-06-29 21:01
人工智能发展历程 - 决策式AI阶段(1950s~1980s):以逻辑程序和专家系统为主,1956年首次人工智能研讨会召开标志着领域诞生,1965年Logic Theorist程序实现数学证明推理[4] - 技术积淀阶段(1980s~2010年):1986年Backpropagation算法突破,1997年Deep Blue击败国际象棋冠军,2006年深度学习技术发明[4] - 快速发展阶段(2011-2016年):2011年IBM Watson在Jeopardy获胜,2014年GAN出现,2015年AlphaGo战胜围棋冠军[4] - 爆发阶段(2017年至今):2017年Transformer架构提出,2018年GPT/BERT发布,2022年ChatGPT推出,2024年Sora面世[4] 大语言模型技术架构 - 预训练三要素:大数据(无标注文本)、大模型(深度神经网络)、大算力(并行计算集群)[11][12][13] - 训练流程:预训练(月级/千级GPU)→有监督微调(天级/百级GPU)→强化学习(天级/百级GPU)[22] - 微调技术:LoRA方法仅需训练百万参数,效果媲美全参数微调,GPU需求降至3090*4级别[15][20] - 强化学习:通过RLHF量化人类喜好,训练打分模型优化最终输出[18][19] 智能体关键技术 - 工具使用:通过API调用、搜索引擎、代码执行等扩展能力[26][27] - 任务分解:实现复杂任务的子目标拆解与试错机制[28][30] - 长期记忆:存储经验、知识、技能,支持读写持久化[31][32][33] - 自主学习:结合权重微调、提示优化、自我反思等多路径提升[35][36][38] 电力系统应用场景 - 负荷预测:ITA-LF框架整合新闻文本,预测准确率达94.7%,显著优于LSTM(82.08%)和SARIMA(89.93%)[64][68][71] - 调度系统:构建70b参数调度大模型集群,支持检修单成票(94.46%准确率)、规程检索问答(RAG召回率58.7%)[77][91][94] - 市场仿真:多代理模型实现碳市场均衡分析,量化价格弹性系数(煤炭企业7,278吨/元)[113][115][120] - 机理研究:AI4S框架处理10万节点电网建模,年算例超10亿,推动动态建模与稳定性分析[125] 技术融合路径 - 模型融合:推理大模型+PINN+因果模型+符号模型,保留准确性同时提升计算速度[54][56][58] - 人机协同:必要场景引入人工反馈,作为最终决策质量判定者[56][59] - CPSSE仿真:结合真人、因果模型和大语言模型,构建数字孪生系统[62] - 范式演进:从参数学习(机器学习)→提示工程(大模型)→机制工程(智能体)的能力获取转变[40]
CVPR2025 WAD纯视觉端到端 | 冠军方案技术报告~
自动驾驶之心· 2025-06-29 19:33
技术方案 - 采用3B参数VLM模型解决视觉端到端自动驾驶长尾场景问题 [1] - 两阶段训练方法:阶段一预训练采用自监督方式,使用83小时CoVLA数据和11小时Waymo长尾数据集进行next-token prediction训练 [2] - 阶段二微调使用500段人工标注数据,采用GPRO强化学习方法增强模型鲁棒性 [2] 数据集 - 使用Qwen2.5-VL 72B Instruct模型自动标注WOD-E2E和CoVLA数据集,生成240.5K高质量caption [3] - CoVLA数据集包含10000张前视图片,30秒20Hz日本驾驶视频 [11] - WOD-E2E数据集提供4021段长尾驾驶场景,每段20秒10Hz,8个相机 [11] 模型训练 - 预训练采用Qwen-2.5-VL-3B-Instruct模型,CoVLA VLT训练24小时,WOD-E2E VLT训练10小时 [11] - RL后训练进行2000steps,8 rollouts per sample,耗时12小时 [11] - 推理阶段使用1e-6 temperature for CoT,Greedy decoding for trajectory prediction [11] 评估结果 - 在Waymo test set RFS评分达到7.99,排名第一 [2] - Poutine方案7.99分,Poutine-base 7.91分,RL提升效果不明显但解决头部困难问题 [13] - 验证集消融实验显示Poutine-base No CoVLA得分7.95,Poutine-base No Lang得分7.94 [15] 技术特点 - 将轨迹预测建模为四阶段COT推理序列问题 [9] - 预测5个waypoints后使用cubic-spiline插值生成密集轨迹 [9] - 评估采用RFS指标,通过三个专家打分构建信任区域计算 [11] 行业思考 - 基于VLM/LLM的轨迹预测方法在长尾场景表现优异,但对物理世界理解仍有限 [19] - 3B模型目前尚无法支持10Hz城区NOA,主要作为慢系统配合工作 [19] - VLM+Action model的VLA架构可能是更合理的解决方案 [19]
中科院自动化所最新综述!VLA模型后训练与类人运动学习的共性
具身智能之心· 2025-06-29 17:51
核心观点 - 文章从人类运动技能学习角度系统总结了VLA模型的后训练策略,提出环境、具身、任务三维分类框架,并探讨神经科学对机器人学习的启发[4][5][6] - VLA模型需通过后训练从通用预训练转向特定任务适配,类似人类从遗传能力到专项技能的转化过程[8][9] - 类脑视角下,后训练技术可划分为环境感知增强、具身认知优化、任务理解深化及多组件集成四大方向[10][12] VLA模型与后训练重要性 - VLA模型整合视觉、语言与动作生成模块,实现"看-听-动"闭环,但预训练模型在真实场景中需后训练提升精度与鲁棒性[8] - 后训练利用少量目标场景数据微调模型,使其适应机器人物理特性与任务需求,解决"开箱即用"性能不足的问题[9] 三维后训练策略 环境维度 - 引入可供性线索强化模型对环境交互可能性的理解,如物体功能暗示(门把手提示抓握)[12] - 优化视觉编码器与多模态感知融合,提升环境细节记忆与抗遗忘能力[12][13] 具身维度 - 建立机器人正向/逆向运动学模型,模拟人类前馈-反馈控制机制实现精准动作规划[14] - 借鉴小脑多内部模型协同机制,设计分层动作控制模块[14] 任务维度 - 通过人类示范数据注入专家知识,加速任务理解[14] - 采用层次化策略分解长程任务为可管理子步骤,对应人类分而治之的神经处理模式[14][17] 技术挑战与趋势 - 数据效率:需开发课程学习、主动采样等类人策略降低训练数据需求[22] - 多模态扩展:触觉/深度传感等新模态输入可提升环境交互真实性,但面临传感器融合难题[22] - 持续学习:当前离线微调易导致遗忘,需借鉴人类记忆机制开发终身学习框架[22] - 开放泛化:从实验室性能优化转向未知环境适应能力建设[22]