深度强化学习

搜索文档
狄耐克:脑机交互事业部提出基于深度强化学习的主动式脑机接口共同控制方案
快讯· 2025-07-02 11:19
近期,狄耐克(300884)脑机交互事业部彭俊仁博士在《Annals of the New York Academy of Sciences》 发表题为"Shared autonomy between human electroencephalography and TD3deep reinforcement learning:A multi-agent copilot approach(人类脑电图与TD3深度强化学习的多智能体共同控制方法)"的论文。根据调 查发现,约15%-30%用户因生理差异无法有效操作传统脑机接口系统,现有脑机接口只计算人类的内部 脑电活动,未把环境因素考虑在内。因此,狄耐克脑机交互事业部提出了一种基于深度强化学习的主动 式脑机接口共同控制方案,通过人类与AI代理的协同决策,为脑机接口普适化提供新范式。下一步, 狄耐克将聚焦脑电波交互核心技术突破与产业化落地,推动脑电波交互技术从实验室走向产业化。(人 民财讯) ...
具身智能领域,全球Top50国/华人图谱(含具身智能赛道“师徒关系图”)
Robot猎场备忘录· 2025-06-30 16:09
温馨提示 : 点击下方图片,查看运营团队2025年6月最新原创报告(共235页) 说明: 欢迎 约稿、刊例和商务合作、行业人士交流 , 行业交流记得先加入 "机器人头条"知识星球 ,后添加( 微信号: lietou100w )微信; 若有侵权、改稿请联系编辑运营(微信:li_sir_2020); 正文: 随着人工智能和大模型技术发展,具身智能赛道成为如今最火赛道之一;具身智能技术领域具体会涉及到大语 言模型(LLM)、视觉多模态模型(VLM)、强化学习(Reinforcement Learning)、深度强化学习(Deep Reinforcement Learning)、模仿学习(Imitation Learning)等诸多前沿技术。 人形机器人发展多年,从最初基于 模型的控制算法(LIPM+ZMP),到动态模型控制和最优控制算法 (MPC+WBC),到如今的模拟+强化学习(IL+RL),当然现阶段也有不少人形机器人公司采用MPC方式,各类 算法没有绝对的替代关系,各有优劣;IL+RL是目前人形机器人公司最常提起的概念,基本都是高校和头部科技 大厂内研发机构在研究,也是为什么目前人形机器人初创公司以"学院派" ...
港科大 | LiDAR端到端四足机器人全向避障系统 (宇树G1/Go2+PPO)
具身智能之心· 2025-06-29 17:51
核心观点 - 香港科技大学团队提出Omni-Perception框架,通过直接处理原始LiDAR点云数据,实现四足机器人全向避障能力,解决了传统方法在复杂三维环境中的局限性 [2][4] - 该框架结合PD-RiskNet感知网络、高保真LiDAR仿真工具和风险感知强化学习策略,形成端到端的闭环控制系统 [4][5] - 在动态障碍、空中障碍等复杂场景中表现优于传统方法,成功率显著提升 [24][27] 技术架构 Omni-Perception框架组成 - **PD-RiskNet感知网络**:分层处理近场和远场点云,近场采用最远点采样(FPS)和GRU提取局部动态特征,远场通过平均下采样和GRU捕捉全局路径特征 [8][18] - **高保真LiDAR仿真工具**:支持4096个并行环境,渲染速度比Isaac Sim提升300%,并模拟噪声和自遮挡效应 [19][21] - **风险感知强化学习策略**:将避障任务建模为马尔可夫决策过程,直接输出关节控制信号,跳过运动学逆解 [9][11] 强化学习设计 - **状态空间**:包含本体状态(关节位置、速度)、外感知状态(10帧LiDAR历史点云)和任务指令(目标速度) [10] - **奖励函数**:结合避障速度追踪奖励(36个扇区障碍检测)和距离最大化奖励(LiDAR射线优化),辅以稳定性惩罚项 [12][13][14] - **训练参数**:PPO算法,4096个并行环境,学习率1e-3,折扣因子γ=0.99 [19] 性能优势 计算效率 - 相比传统SLAM+规划流水线,减少中间处理环节,计算开销更低 [7] - LiDAR仿真工具在4096环境、32k射线场景下无内存溢出,速度达Isaac Sim的5-10倍 [21][22] 场景适应性 - **动态障碍**:成功率76.7%,碰撞率56.7%,显著优于FPS+MLP(33.3%)和FPS+GRU(30.0%) [23][24] - **空中障碍**:成功率70%(传统方法0%),静态障碍成功率100% [27] - **极端场景**:密集植被中成功率60%,细长障碍(直径<1cm)需进一步优化 [28] 实现细节 PD-RiskNet网络 - **近场路径**:输入垂直角度θ>阈值的点云,输出187维特征向量,监督信号为特权高度信息 [18] - **远场路径**:输入θ<阈值的点云,输出64维特征向量,关注全局路径规划 [18] - **动作网络**:4层全连接(1024→512→256→128),输出12维关节目标位置 [19] 域随机化策略 - **物理参数**:附加质量-1.0kg至5.0kg,质心位置偏移±0.2m,电机强度缩放0.8-1.2倍 [20] - **环境参数**:地面摩擦系数0.4-1.0,重力偏移±1.0m/s²,LiDAR噪声率10% [20] 验证结果 - **真实数据对比**:仿真复现了LiDAR非重复扫描模式和自遮挡效应,几何结构匹配度高 [21] - **多场景测试**:在动态障碍场景中,传统高程图方法成功率0%,而Omni-Perception有效应对 [24][27]
致敬钱学森,我国学者开发AI虚拟现实运动系统——灵境,解决青少年肥胖难题,揭示VR运动的减肥及促进大脑认知作用机制
生物世界· 2025-06-24 11:56
青少年肥胖 已成为全球性的公共卫生危机,其发病率正迅速上升。青少年时期的肥胖会增加患心血管代谢疾病的风险,并导致持久的认知变化。此外,青少年的 大脑尤其容易受到肥胖相关认知障碍的影响,这可能会损害诸如工作记忆之类的执行功能。 尽管体力活动 ( Physical Activity,包括 工作、家务、体育运动、娱乐活动等导致能量消耗的身体活动 ) 是一线治疗方法,但诸如运动积极性低、不良的同伴 经历以及难以获得个性化指导等障碍限制了青少年参与体力活动的意愿和实际参与度。因此,安全且富有同理心的运动干预措施对于鼓励肥胖青少年参与体力活 动至关重要,这能带来显著的健康益处。 撰文丨王聪 编辑丨王多鱼 排版丨水成文 2025 年 6 月 23 日, 上海 交通大学医学院附属 第六人民医院 /主动健康战略与发展研究院 李华婷 教授团队 、 上海交通大学计算机学院/人工智能教育部重点 实验室 盛斌 教授团队联合 上海体育大学 王继红 教授团队 、 上海科技大学 /上海临床研究中心 曾嵘 教授团队 及新加坡国立大学 林水德 教授团队 ,在国际顶 尖医学期刊 Nature Medicine 上发表了题为: Adaptive A ...
字节跳动ByteBrain团队提出秒级推理强化学习VMR系统
快讯· 2025-06-05 14:49
6月5日,字节跳动技术团队微信公众号发文称,字节跳动ByteBrain团队主导,联合UC Merced和UC Berkeley提出了VMR L,研发了一套基于深度强化学习的VMR系统,在保持近似最优性能的同时,将 推理时间压缩至1.1秒,成功实现系统性能与工业可部署性的统一。本工作已在系统顶会EuroSys25发 表。本文两位共同一作是字节跳动ByteBrain团队的实习生,研究聚焦于长期被忽视但至关重要的虚拟 机重调度(VMR)问题。(字节跳动技术团队) ...
深度强化学习赋能城市消防优化,中科院团队提出DRL新方法破解设施配置难题
36氪· 2025-06-03 15:27
地理空间优化技术发展 - 地理空间优化是数学组合优化与地理信息科学的结合,致力于解决空间布局、资源配置等实际问题,在城市建设、工业园区选址、公共服务设施选址等领域具有重要研究意义 [4] - 传统求解方法包括精确算法、近似算法和启发式算法,但分别存在计算复杂度高、算法设计复杂、缺乏理论最优性保证等局限性 [4][5] - 深度学习技术为地理空间优化带来新转机,通过数据驱动实现快速近似代替复杂计算,并自动设计新启发式算法的通用框架 [6] 深度学习模型创新 - 提出动态覆盖注意力模型SpoNet,通过智能体与环境交互实现回报最大化,无需生成标签信息,并利用知识驱动提升对空间覆盖关系的理解能力 [7][9] - 开发自适应交互注意力模型AIAM,包含交互注意力编码器、节点移除/插入解码器,在2,162个居民点和80个医院中验证了最小化总距离的可行性 [12][13][16] - 分层DRL方法通过统筹整体布局与局部调整,整合设施分布、火灾风险和交通状况等多维数据,提升城市应急消防设施配置效率 [17][22] 实际应用案例 - 在北京市朝阳区应急设施布局优化中,从132个候选设施中选择20个中心枢纽点,使覆盖节点数量最大化(服务距离2千米) [11] - 面向城市火灾风险预测的时空神经网络能自动捕捉空间结构、消防设施分布及火灾统计数据动态变化,通过注意力机制输出预测值 [18][19][21] - 应急消防设施配置引入火灾频率、交通状况等不确定性因素,将灾害损失纳入目标函数以提升布局稳健性 [22] 未来研究方向 - 计划引入地理计算机制增强空间感知能力,融合地形、网络通达性等地理结构特征 [23] - 扩展至城市群、省域级多中心联动优化,提升方法可扩展性与计算效率 [24] - 探索多智能体协同、异步训练等技术优化DRL算法框架,实现更有效实际问题求解 [25] 研究团队背景 - 梁浩健博士团队隶属于中国科学院空天信息创新研究院,研究方向涵盖地理空间优化、深度强化学习、遥感大数据分析等领域 [26][28] - 团队由王少华研究员领导,致力于通过时空大数据分析和AI技术实现空间环境智能化决策,推动智慧城市发展 [28]