强化学习
搜索文档
当无人机遇到AI智能体:多领域自主空中智能和无人机智能体综述
具身智能之心· 2025-06-30 20:17
研究背景与动机 - 无人机从遥控平台发展为自主智能体系统,受AI特别是认知架构推动[6] - Agentic AI的出现标志着无人机设计根本性转变,使其具备自主性、目标导向和情境感知能力[6] - 农业、物流、环境监测等领域对无人机自主性需求日益增长,操作环境日趋动态化[6] 核心定义与架构 - Agentic UAVs定义为具有认知能力、情境适应性和目标导向行为的新型自主空中系统[11] - 核心架构包含感知层(多模态传感器)、认知层(推理与规划)、控制层(飞行执行)、通信层(交互协同)[12] - 相比传统无人机,Agentic UAVs在自主性水平(Level 4-5)、决策架构(RL-based)和系统集成方面有显著差异[9] 关键技术推动因素 - 边缘AI模块(NVIDIA Jetson等)支持实时深度学习推理[14] - 多模态传感器融合(RGB/热成像/LiDAR)实现环境联合观测[14] - 视觉-语言模型(VLMs)使无人机能理解执行自然语言指令[14] 主要应用领域 精准农业 - 作物健康监测:通过NDVI/EVI指数动态调整飞行路径[17] - 精准喷洒:AI驱动目标识别优化滴液大小与路径[17] - 自主播种:地形分析动态调整轨迹适应复杂田地[17] 灾难响应 - 幸存者检测:热成像+运动跟踪生成概率热图[21] - 群体协调:V2V通信实现去中心化覆盖与冗余[21] - 野火监测:多光谱相机动态跟踪火势蔓延[21] 城市基础设施检查 - 桥梁检查:SLAM+深度学习缺陷分类生成3D语义地图[27] - 道路监测:卷积网络检测坑洼裂缝[27] - 自动报告:结构化输出符合工程标准[27] 物流配送 - 最后一公里配送:多模态感知实现GPS拒止环境导航[28] - 自适应投放:实例分割识别合适着陆点[31] - 群体协调:V2V通信优化能耗与任务分配[31] 技术挑战 - 电池寿命:机载AI推理使飞行时间降至20-45分钟[45] - 传感器集成:多模态感知增加重量与功耗[45] - 实时导航:GPS拒止环境下VIO/SLAM易受环境噪声影响[47] 未来发展方向 - VTOL平台结合旋翼机敏捷性与固定翼耐力[55] - 联邦学习实现跨异构环境模型共享[58] - 数字孪生技术支持预测性维护与场景测试[70]
具身智能领域,全球Top50国/华人图谱(含具身智能赛道“师徒关系图”)
Robot猎场备忘录· 2025-06-30 16:09
具身智能技术发展 - 具身智能赛道涉及大语言模型(LLM)、视觉多模态模型(VLM)、强化学习(Reinforcement Learning)、深度强化学习(Deep Reinforcement Learning)、模仿学习(Imitation Learning)等前沿技术 [1] - 人形机器人算法从早期模型控制算法(LIPM+ZMP)演进到动态模型控制(MPC+WBC),当前主流为模拟+强化学习(IL+RL),但MPC仍被部分公司采用 [1] - IL+RL技术主要由高校和头部科技大厂研发,导致人形机器人初创公司以"学院派"教授团队为主 [1] 顶尖研究机构与人才分布 - UC Berkeley在AI+Robotics领域排名第一,斯坦福大学次之 [2] - UC Berkeley"归国四子"吴翼、高阳、许华哲、陈建宇均经历"清华大学-UC Berkeley-清华交叉信息研究院-创业"路径,其中三人师从Vision领域权威Trevor Darrell教授并加入BAIR实验室 [2] - 斯坦福大学代表学者王鹤(师从Leonidas J Guibas)现任北大助理教授并创立银河通用,卢策吾(师从李飞飞和Leonidas Guibas)任上海交大教授并创立非夕科技和穹彻智能 [3] 全球Top50华人背景特征 - 具身智能领域Top50华人普遍拥有UC Berkeley、斯坦福、MIT、CMU等顶尖院校求学经历并师从行业权威 [4] - 全球Top50华人图谱涵盖高校教授、科技大厂核心成员及初创企业创始人,详细记录其求学院校、导师、研究方向、论文成果及职业履历 [3][5] 研究机构专项 - UC Berkeley(加州大学伯克利分校)作为具身智能领域核心院校被单独列出 [6]
人形机器人「通用临界点」:当灵巧手握住万亿市场
36氪· 2025-06-30 14:21
产业定义与技术演进 - 灵巧手是具身智能的末端革命,从科研子系统走向产业聚光灯下,模仿人类手部的高自由度运动、灵活操控与多模态反馈能力 [4] - 灵巧手分为刚性结构机械手(工业场景)和柔性仿生手(服务/医疗场景)两大技术路径 [6] - 技术演进得益于结构与材料工程(软体聚合物/碳纤维)、控制算法突破(强化学习/端到端模型)、传感器融合(力觉/触觉/温度)的集体成熟 [7][8] - 行业边界从单一硬件组件扩展为融合材料学、感知科学、AI控制的复合技术集群 [9] - 市场认知从"机器人末端"向"平台型能力模块"演进,成为验证类人智能落地的关键门槛 [10] 核心技术栈 - 灵巧手技术栈包含高自由度结构设计、触觉与柔性传感、智能控制算法的三体协同 [12] - 结构设计从仿形转向仿机理,涉及25-42自由度仿生结构(如灵心巧手工业版25-30 DOF,科研版42 DOF) [13][28] - 触觉传感突破依赖力/压力传感器(如MIT GelSight指尖传感器)、触觉传感器(纹理/滑动感知)、位姿/温度传感器的多模态集成 [16] - 控制算法从预设指令发展为模仿学习(DexMV)、强化学习(OpenAI Five Fingers)与仿真迁移(NVIDIA DexMimic)的融合 [17] - 未来控制将接入大语言模型,形成"意图理解—路径规划—动作执行"完整链条 [18] 应用场景与商业趋势 - 工业场景聚焦异形抓取(物流分拣)、精密装配(电子制造)、协作臂多任务,部署ROI逐步缩短 [21] - 服务与医疗场景涵盖家庭机器人(厨房/卫浴操作)、康复假肢(截肢者仿生手臂)、远程医疗(手术/太空维修) [22] - 当前产业化路径以B端工业验证为主(高附加值),C端家庭/医疗为中长期确定性方向 [24] - 灵巧手在To B领域已实现月销千台(灵心巧手市占率80%),To C受成本/可靠性限制但快速改善 [23][28] 竞争格局与资本判断 - 全球三轨竞争格局:海外科研主导(Shadow Robot+DeepMind)、国内结构创新(灵心巧手42 DOF)、平台整合加速 [26][27][28] - 2024年国内灵巧手赛道融资超30亿元,20余起事件聚焦种子-A轮(灵心巧手获1亿元种子轮创纪录) [30][36] - 资本偏好技术突破(20+ DOF)、落地验证(5家客户部署)、系统协同(与大模型/整机整合)的企业 [38][39][40] - 投资机会集中于科研转化(灵心巧手)、上游模块创新(纬钛科技触觉传感)、整机集成(傲意科技)三条路径 [42]
具身智能入门必备的技术栈:从零基础到强化学习与Sim2Real
具身智能之心· 2025-06-30 11:47
具身智能技术发展 - 具身智能正在全面崛起,重新定义人类与机器的关系,从理解语言指令到在复杂环境中灵活移动和精确操作物体[1] - 全球顶尖科技公司如Tesla、Boston Dynamics、OpenAI、Google等都在竞相布局具身智能领域[1] - 具身智能将彻底改变制造业、服务业、医疗健康、太空探索等多个行业[1] MuJoCo技术优势 - MuJoCo是连接虚拟世界与现实世界的重要桥梁,为机器人学习提供高保真、高效率的训练环境[4] - MuJoCo能够加速学习过程,仿真速度比现实时间快数百倍,并支持极端情况下的试验而不用担心硬件损坏[6] - MuJoCo采用先进的接触动力学算法,支持高度并行化计算,提供丰富的传感器模型,并具有出色的稳定性和数值精度[6] - MuJoCo已成为学术界和工业界的标准工具,被Google、OpenAI、DeepMind等科技巨头广泛使用[7] 具身智能实战教程 - 课程系统性讲解MuJoCo技术细节,涵盖物理仿真原理、深度强化学习、机器人控制理论、Sim-to-Real迁移技术等[8] - 课程采用项目驱动学习方式,学员将构建多个机器人应用,从机械臂控制到人形机器人行走、灵巧手抓取、多智能体协作等[8] - 课程提供丰富的实践机会,使用最新工具和框架如MuJoCo、Stable Baselines3、PyTorch等[9] 课程模块与项目设计 - 课程分为六个学习模块,每周有明确的学习目标和实践项目[10] - 六个实战项目包括智能机械臂控制系统、视觉引导的抓取系统、强化学习驱动的运动技能、模型预测控制、多机器人协作系统、Sim-to-Real迁移验证[11][14][16][18][20][21][23] - 每个项目配有详细的中文指导文档、参考代码、调试技巧和扩展建议,来自中国机器人企业的实际应用场景[24] 学后收获与职业发展 - 学员将掌握MuJoCo各项功能、强化学习核心算法、机器人控制理论与实践、Sim-to-Real迁移技术[27] - 学员将具备完整的项目开发经验,熟悉现代AI开发工具链,培养良好的工程习惯[28] - 职业发展方向包括技术专家(机器人算法工程师、AI研究工程师、仿真技术专家)和产品经理路径,年薪可达30-150万[30] 课程安排 - 开课时间为2025年7月15日,每周更新一章,6周结课,采用离线视频教学和VIP群内答疑[32]
【焦点】香港中文大学(深圳) 赵俊华:大模型智能体在电力系统中的应用初探
搜狐财经· 2025-06-29 21:01
人工智能发展历程 - 决策式AI阶段(1950s~1980s):以逻辑程序和专家系统为主,1956年首次人工智能研讨会召开标志着领域诞生,1965年Logic Theorist程序实现数学证明推理[4] - 技术积淀阶段(1980s~2010年):1986年Backpropagation算法突破,1997年Deep Blue击败国际象棋冠军,2006年深度学习技术发明[4] - 快速发展阶段(2011-2016年):2011年IBM Watson在Jeopardy获胜,2014年GAN出现,2015年AlphaGo战胜围棋冠军[4] - 爆发阶段(2017年至今):2017年Transformer架构提出,2018年GPT/BERT发布,2022年ChatGPT推出,2024年Sora面世[4] 大语言模型技术架构 - 预训练三要素:大数据(无标注文本)、大模型(深度神经网络)、大算力(并行计算集群)[11][12][13] - 训练流程:预训练(月级/千级GPU)→有监督微调(天级/百级GPU)→强化学习(天级/百级GPU)[22] - 微调技术:LoRA方法仅需训练百万参数,效果媲美全参数微调,GPU需求降至3090*4级别[15][20] - 强化学习:通过RLHF量化人类喜好,训练打分模型优化最终输出[18][19] 智能体关键技术 - 工具使用:通过API调用、搜索引擎、代码执行等扩展能力[26][27] - 任务分解:实现复杂任务的子目标拆解与试错机制[28][30] - 长期记忆:存储经验、知识、技能,支持读写持久化[31][32][33] - 自主学习:结合权重微调、提示优化、自我反思等多路径提升[35][36][38] 电力系统应用场景 - 负荷预测:ITA-LF框架整合新闻文本,预测准确率达94.7%,显著优于LSTM(82.08%)和SARIMA(89.93%)[64][68][71] - 调度系统:构建70b参数调度大模型集群,支持检修单成票(94.46%准确率)、规程检索问答(RAG召回率58.7%)[77][91][94] - 市场仿真:多代理模型实现碳市场均衡分析,量化价格弹性系数(煤炭企业7,278吨/元)[113][115][120] - 机理研究:AI4S框架处理10万节点电网建模,年算例超10亿,推动动态建模与稳定性分析[125] 技术融合路径 - 模型融合:推理大模型+PINN+因果模型+符号模型,保留准确性同时提升计算速度[54][56][58] - 人机协同:必要场景引入人工反馈,作为最终决策质量判定者[56][59] - CPSSE仿真:结合真人、因果模型和大语言模型,构建数字孪生系统[62] - 范式演进:从参数学习(机器学习)→提示工程(大模型)→机制工程(智能体)的能力获取转变[40]
CVPR2025 WAD纯视觉端到端 | 冠军方案技术报告~
自动驾驶之心· 2025-06-29 19:33
技术方案 - 采用3B参数VLM模型解决视觉端到端自动驾驶长尾场景问题 [1] - 两阶段训练方法:阶段一预训练采用自监督方式,使用83小时CoVLA数据和11小时Waymo长尾数据集进行next-token prediction训练 [2] - 阶段二微调使用500段人工标注数据,采用GPRO强化学习方法增强模型鲁棒性 [2] 数据集 - 使用Qwen2.5-VL 72B Instruct模型自动标注WOD-E2E和CoVLA数据集,生成240.5K高质量caption [3] - CoVLA数据集包含10000张前视图片,30秒20Hz日本驾驶视频 [11] - WOD-E2E数据集提供4021段长尾驾驶场景,每段20秒10Hz,8个相机 [11] 模型训练 - 预训练采用Qwen-2.5-VL-3B-Instruct模型,CoVLA VLT训练24小时,WOD-E2E VLT训练10小时 [11] - RL后训练进行2000steps,8 rollouts per sample,耗时12小时 [11] - 推理阶段使用1e-6 temperature for CoT,Greedy decoding for trajectory prediction [11] 评估结果 - 在Waymo test set RFS评分达到7.99,排名第一 [2] - Poutine方案7.99分,Poutine-base 7.91分,RL提升效果不明显但解决头部困难问题 [13] - 验证集消融实验显示Poutine-base No CoVLA得分7.95,Poutine-base No Lang得分7.94 [15] 技术特点 - 将轨迹预测建模为四阶段COT推理序列问题 [9] - 预测5个waypoints后使用cubic-spiline插值生成密集轨迹 [9] - 评估采用RFS指标,通过三个专家打分构建信任区域计算 [11] 行业思考 - 基于VLM/LLM的轨迹预测方法在长尾场景表现优异,但对物理世界理解仍有限 [19] - 3B模型目前尚无法支持10Hz城区NOA,主要作为慢系统配合工作 [19] - VLM+Action model的VLA架构可能是更合理的解决方案 [19]
中科院自动化所最新综述!VLA模型后训练与类人运动学习的共性
具身智能之心· 2025-06-29 17:51
核心观点 - 文章从人类运动技能学习角度系统总结了VLA模型的后训练策略,提出环境、具身、任务三维分类框架,并探讨神经科学对机器人学习的启发[4][5][6] - VLA模型需通过后训练从通用预训练转向特定任务适配,类似人类从遗传能力到专项技能的转化过程[8][9] - 类脑视角下,后训练技术可划分为环境感知增强、具身认知优化、任务理解深化及多组件集成四大方向[10][12] VLA模型与后训练重要性 - VLA模型整合视觉、语言与动作生成模块,实现"看-听-动"闭环,但预训练模型在真实场景中需后训练提升精度与鲁棒性[8] - 后训练利用少量目标场景数据微调模型,使其适应机器人物理特性与任务需求,解决"开箱即用"性能不足的问题[9] 三维后训练策略 环境维度 - 引入可供性线索强化模型对环境交互可能性的理解,如物体功能暗示(门把手提示抓握)[12] - 优化视觉编码器与多模态感知融合,提升环境细节记忆与抗遗忘能力[12][13] 具身维度 - 建立机器人正向/逆向运动学模型,模拟人类前馈-反馈控制机制实现精准动作规划[14] - 借鉴小脑多内部模型协同机制,设计分层动作控制模块[14] 任务维度 - 通过人类示范数据注入专家知识,加速任务理解[14] - 采用层次化策略分解长程任务为可管理子步骤,对应人类分而治之的神经处理模式[14][17] 技术挑战与趋势 - 数据效率:需开发课程学习、主动采样等类人策略降低训练数据需求[22] - 多模态扩展:触觉/深度传感等新模态输入可提升环境交互真实性,但面临传感器融合难题[22] - 持续学习:当前离线微调易导致遗忘,需借鉴人类记忆机制开发终身学习框架[22] - 开放泛化:从实验室性能优化转向未知环境适应能力建设[22]
从后训练回到预训练,LLM+RL 的潜力兑现有有机会走更远吗?
机器之心· 2025-06-28 13:22
从后训练回到预训练,LLM+RL的潜力分析 - 强化学习(RL)与大型语言模型(LLM)结合的技术路径从后训练阶段延伸至预训练阶段,通过将文本生成重构为序贯决策问题,引入对未来"累积奖励"的评估机制[2] - LLM传统监督学习范式面临高质量标注数据成本高、人类知识存在边界等局限,而RL通过模型与环境交互生成数据,并将监督信号从"生成式"退化为"验证式",降低了对数据质量和标注难度的要求[3] - 微软研究院与清北研究者提出的"Reinforcement Pre-Training(RPT)"技术将RL应用于预训练阶段,在部分推理基准上表现超越传统方法训练的更大模型[4] RL在预训练阶段的技术突破 - RPT方法将下一个词元预测(NTP)任务重塑为可验证的推理任务,利用海量无标注文本数据作为RL训练资源,通过生成思维链(CoT)再预测token的方式规避传统RL方法的局限[5] - 该方法突破了RLHF依赖标注数据、RLVR受限于标准答案等约束,但尚未在更广泛文本和基础模型上验证,且存在计算资源消耗大的问题[5] - 行业早在2022年就开始关注RL预训练课题,南京大学AI学院副院长等专家曾系统分析过RL中少有预训练模型的原因[6] 技术演进趋势与挑战 - LLM+RL路线从后训练向预训练延伸,显示出技术潜力但面临理论缺陷、实现难度和任务适配等多重挑战[4] - 当前RL预训练方法虽能部分解决数据依赖问题,但计算效率、泛化能力等核心瓶颈仍未完全突破[5] - 行业需持续探索如何平衡RL的序贯决策优势与LLM的生成能力,该领域的技术突破可能重塑模型训练范式[2][3][4]
OpenAI 4 名王牌研究员“叛变”,Meta 上亿美元的签约奖金终于花出去了
AI前线· 2025-06-28 13:13
Meta AI人才争夺战略 - Meta近期从OpenAI挖角4名核心研究人员加入其新成立的超级智能实验室 包括强化学习专家特拉皮特·班萨尔和曾参与建立OpenAI苏黎世办公室的卢卡斯·拜尔等三人 这些人才此前在DeepMind实验室也有任职经历 [1] - 公司为挖角OpenAI员工曾开出单笔高达1亿美元的签约奖金 但部分研究人员因OpenAI提供更高薪资和发展空间而拒绝邀约 [2] - 除OpenAI外 Meta还从ScaleAI挖角其CEO亚历山大·王 同时以143亿美元投资获取该公司49%股份 并计划收购语音AI开发商PlayAI以吸纳其技术团队 [2] Meta AI技术布局 - 超级智能实验室目标开发能超越人类表现的多任务AI模型 该部门成立背景与Llama 4 Behemoth大型语言模型性能问题直接相关 原定今年发布的该模型因技术问题已推迟 [1] - 计划聘请AI领域顶级投资人丹尼尔·格罗斯和前GitHub CEO纳特·弗里德曼 二人目前任职的Safe Superintelligence公司与Meta实验室目标高度重合 [3] - 2025年将投入650亿美元建设数据中心基础设施 包括配备超130万块英伟达显卡的超大规模数据中心 [3] 行业人才竞争动态 - OpenAI采取加薪和职业发展承诺等策略应对Meta挖角 显示头部AI企业间人才争夺白热化 [2] - Meta通过"人才+并购"双轨策略快速扩张AI能力 除直接招聘外 还以收购PlayAI等初创公司方式获取整建制团队 [2][3] - AI芯片领域出现新竞争者 某中国AI芯片公司成立5年估值超百亿 正争夺"国产GPU第一股"称号 [5]
肖仰华教授:具身智能距离“涌现”还有多远?
36氪· 2025-06-27 19:30
人工智能技术发展路径 - 人工智能发展呈现两条清晰脉络:生成式人工智能(AIGC)和具身智能 前者聚焦机器认知能力 后者侧重感知与行动能力 [3][6][7] - 生成式大模型本质是让机器具备人类大脑的认知功能 包括语言生成和逻辑思考能力 具身智能则模拟人类身体感知与环境交互能力 [6][7] - 认知智能与具身智能的下一个里程碑是身心协同阶段 需实现身体与大脑的双向塑造 [3][8][9] 技术革命性特质 - 判断技术革命性的三大标准:基础性(如水电煤)、生产力指数级提升、对社会上层建筑的颠覆性影响 [9][10] - 生成式AI符合三大标准:成为新型基础设施 脑力工作效率提升百倍 渗透社会各领域 [10] - 具身智能对生产力的提升作用有限 80亿机器人产能仅相当于人口增长1-2倍 且受安全伦理制约 [11][12][13] 模型发展规律 - Scaling law主导生成式AI初期发展 依赖海量数据(万亿token)和大规模算力 [14] - 后训练范式崛起(如DeepSeek R1) 数据质量与训练策略取代规模成为关键 参数规模让位于算法设计 [15][16] - 行业大模型落地瓶颈在于数据 央国企需投入80%精力治理行业数据 高质量数据集建设成产业护城河 [18][19] 具身智能发展挑战 - 数据缺口显著:最大具身数据集仅百亿token 较语言模型差2个数量级 仿真/合成数据质量不足 [21][22] - 泛化能力受限:环境表达复杂性(如办公室场景需建模高维身体状态)导致数据采集困难 [31][32] - 突破路径包括增加训练量(虚拟试错) 借鉴人类类比/归纳机制 但需敬畏"不可言说"的交互复杂性 [33][34] 产业实现范式 - 三大技术路线并存:连接主义(神经网络)、符号主义(知识图谱)、行为主义(强化学习) 分别对应数据学习、知识学习和实践学习 [36][37][38] - 机器人应走场景化路径而非绝对通用 功能受限于物理构造 机械臂案例显示需任务与身体适配 [42][43] - 集约化需适度 扫地机器人通过附加刷头扩展功能 但强行植入多能力违背产业逻辑 [42][43] 技术风险与治理 - 物理伤害风险远低于认知风险 需警惕AI通过决策误导造成的系统性危害 [45][46] - 安全治理核心是发展AI监管师职业 建立"拔插头"机制 同时加强价值观对齐研究 [48][49] - 身体限制可成为安全保障 思想无边界才是最大风险源 [46][47] 行业影响与教育变革 - AI将冲击产业分工基础 未来工作意义转向体验而非谋生 物质极大丰富改变经济逻辑 [62] - 教育需破除内卷 在保留核心技能(写作/编程)基础上 培养AI难以替代的鉴赏/批判能力 [55][61] - 学科交叉与内心探索是重建价值体系方向 需拓展认知边界应对文明转型 [56][57]