Workflow
深度强化学习
icon
搜索文档
中原金太阳申请考虑碳捕捉效益的配电网内风电容量区间计算方法专利,实现碳效益‑经济成本的动态权衡
金融界· 2025-08-23 09:21
公司基本情况 - 河南中原金太阳技术有限公司成立于2020年 位于郑州市 属于科技推广和应用服务业企业 [2] - 公司注册资本达90000万人民币 [2] - 公司对外投资41家企业 参与招投标项目91次 拥有专利信息21条 行政许可6个 [2] 技术创新与专利布局 - 公司申请"一种考虑碳捕捉效益的配电网内风电容量区间计算方法"专利 公开号CN120524785A 申请日期2025年3月 [1] - 专利涉及风电容量配置领域 通过建立考虑碳捕捉效益的风电容量配置信息数据集和计算模型 [1] - 采用深度强化学习实现风电出力-碳价信号联合预测 利用图卷积网络提取电网拓扑隐式特征 [1] - 设计混合整数神经架构搜索优化多目标帕累托前沿 结合贝叶斯深度学习量化容量区间置信概率分布 [1] - 该方法能实现碳效益-经济成本的动态权衡 通过在线学习机制持续提升模型环境适应性 [1] 行业技术发展方向 - 专利技术深度融合人工智能算法与能源系统物理规律 体现能源行业数字化智能化转型趋势 [1] - 碳捕捉效益与风电容量计算的结合 反映新能源行业对碳减排和经济效益协同优化的技术需求 [1] - 风电不确定性量化模型和置信概率分布计算 显示行业对可再生能源并网稳定性的关注 [1]
狄耐克:脑机交互事业部提出基于深度强化学习的主动式脑机接口共同控制方案
快讯· 2025-07-02 11:19
公司动态 - 狄耐克脑机交互事业部彭俊仁博士在《Annals of the New York Academy of Sciences》发表关于人类脑电图与TD3深度强化学习协同控制方法的论文 [1] - 公司提出基于深度强化学习的主动式脑机接口共同控制方案 通过人类与AI代理协同决策提升系统普适性 [1] - 下一步将聚焦脑电波交互核心技术突破与产业化落地 推动技术从实验室走向实际应用 [1] 行业技术 - 现有脑机接口系统存在局限性 约15%-30%用户因生理差异无法有效操作传统设备 [1] - 当前技术仅计算人类内部脑电活动 未充分考虑环境因素对系统的影响 [1] - 多智能体共同控制方法为脑机接口普适化提供了新的技术范式 [1]
具身智能领域,全球Top50国/华人图谱(含具身智能赛道“师徒关系图”)
Robot猎场备忘录· 2025-06-30 16:09
具身智能技术发展 - 具身智能赛道涉及大语言模型(LLM)、视觉多模态模型(VLM)、强化学习(Reinforcement Learning)、深度强化学习(Deep Reinforcement Learning)、模仿学习(Imitation Learning)等前沿技术 [1] - 人形机器人算法从早期模型控制算法(LIPM+ZMP)演进到动态模型控制(MPC+WBC),当前主流为模拟+强化学习(IL+RL),但MPC仍被部分公司采用 [1] - IL+RL技术主要由高校和头部科技大厂研发,导致人形机器人初创公司以"学院派"教授团队为主 [1] 顶尖研究机构与人才分布 - UC Berkeley在AI+Robotics领域排名第一,斯坦福大学次之 [2] - UC Berkeley"归国四子"吴翼、高阳、许华哲、陈建宇均经历"清华大学-UC Berkeley-清华交叉信息研究院-创业"路径,其中三人师从Vision领域权威Trevor Darrell教授并加入BAIR实验室 [2] - 斯坦福大学代表学者王鹤(师从Leonidas J Guibas)现任北大助理教授并创立银河通用,卢策吾(师从李飞飞和Leonidas Guibas)任上海交大教授并创立非夕科技和穹彻智能 [3] 全球Top50华人背景特征 - 具身智能领域Top50华人普遍拥有UC Berkeley、斯坦福、MIT、CMU等顶尖院校求学经历并师从行业权威 [4] - 全球Top50华人图谱涵盖高校教授、科技大厂核心成员及初创企业创始人,详细记录其求学院校、导师、研究方向、论文成果及职业履历 [3][5] 研究机构专项 - UC Berkeley(加州大学伯克利分校)作为具身智能领域核心院校被单独列出 [6]
港科大 | LiDAR端到端四足机器人全向避障系统 (宇树G1/Go2+PPO)
具身智能之心· 2025-06-29 17:51
核心观点 - 香港科技大学团队提出Omni-Perception框架,通过直接处理原始LiDAR点云数据,实现四足机器人全向避障能力,解决了传统方法在复杂三维环境中的局限性 [2][4] - 该框架结合PD-RiskNet感知网络、高保真LiDAR仿真工具和风险感知强化学习策略,形成端到端的闭环控制系统 [4][5] - 在动态障碍、空中障碍等复杂场景中表现优于传统方法,成功率显著提升 [24][27] 技术架构 Omni-Perception框架组成 - **PD-RiskNet感知网络**:分层处理近场和远场点云,近场采用最远点采样(FPS)和GRU提取局部动态特征,远场通过平均下采样和GRU捕捉全局路径特征 [8][18] - **高保真LiDAR仿真工具**:支持4096个并行环境,渲染速度比Isaac Sim提升300%,并模拟噪声和自遮挡效应 [19][21] - **风险感知强化学习策略**:将避障任务建模为马尔可夫决策过程,直接输出关节控制信号,跳过运动学逆解 [9][11] 强化学习设计 - **状态空间**:包含本体状态(关节位置、速度)、外感知状态(10帧LiDAR历史点云)和任务指令(目标速度) [10] - **奖励函数**:结合避障速度追踪奖励(36个扇区障碍检测)和距离最大化奖励(LiDAR射线优化),辅以稳定性惩罚项 [12][13][14] - **训练参数**:PPO算法,4096个并行环境,学习率1e-3,折扣因子γ=0.99 [19] 性能优势 计算效率 - 相比传统SLAM+规划流水线,减少中间处理环节,计算开销更低 [7] - LiDAR仿真工具在4096环境、32k射线场景下无内存溢出,速度达Isaac Sim的5-10倍 [21][22] 场景适应性 - **动态障碍**:成功率76.7%,碰撞率56.7%,显著优于FPS+MLP(33.3%)和FPS+GRU(30.0%) [23][24] - **空中障碍**:成功率70%(传统方法0%),静态障碍成功率100% [27] - **极端场景**:密集植被中成功率60%,细长障碍(直径<1cm)需进一步优化 [28] 实现细节 PD-RiskNet网络 - **近场路径**:输入垂直角度θ>阈值的点云,输出187维特征向量,监督信号为特权高度信息 [18] - **远场路径**:输入θ<阈值的点云,输出64维特征向量,关注全局路径规划 [18] - **动作网络**:4层全连接(1024→512→256→128),输出12维关节目标位置 [19] 域随机化策略 - **物理参数**:附加质量-1.0kg至5.0kg,质心位置偏移±0.2m,电机强度缩放0.8-1.2倍 [20] - **环境参数**:地面摩擦系数0.4-1.0,重力偏移±1.0m/s²,LiDAR噪声率10% [20] 验证结果 - **真实数据对比**:仿真复现了LiDAR非重复扫描模式和自遮挡效应,几何结构匹配度高 [21] - **多场景测试**:在动态障碍场景中,传统高程图方法成功率0%,而Omni-Perception有效应对 [24][27]
致敬钱学森,我国学者开发AI虚拟现实运动系统——灵境,解决青少年肥胖难题,揭示VR运动的减肥及促进大脑认知作用机制
生物世界· 2025-06-24 11:56
青少年肥胖问题 - 青少年肥胖已成为全球性公共卫生危机,发病率迅速上升,增加心血管代谢疾病风险并导致持久认知变化[2] - 青少年大脑对肥胖相关认知障碍特别敏感,可能损害工作记忆等执行功能[2] - 体力活动是一线治疗方法,但运动积极性低、不良同伴经历和缺乏个性化指导等障碍限制了参与度[2] REVERIE系统开发 - 研究团队开发全球首个面向超重/肥胖青少年的VR智能运动干预系统REVERIE(灵境)[4] - 系统采用深度强化学习驱动和Transformer架构的虚拟教练智能体,通过迭代用户交互优化[4] - 系统提供安全、有效、沉浸式且富有同理心的运动指导,生物力学表现和心率响应与真实运动无显著差异[4] - 系统中文名"灵境"致敬钱学森1990年对VR技术的预见性命名[6][8] 临床试验设计 - 研究完成全球首例针对超重/肥胖青少年的VR运动干预随机对照试验,纳入227名参与者[11] - 参与者随机分为对照组、真实乒乓球组、真实足球组、VR乒乓球组和VR足球组[11] - 运动组每周增加三次干预课程,运动强度通过心率监测控制在相同区间[11] - 主要终点为体脂含量变化,次要终点包括体成分、糖脂代谢、体适能、心理健康和认知功能等[11] 临床试验结果 - 八周干预后,VR运动组体脂量平均减少4.28千克,真实运动组减少5.06千克,效果相当[13] - VR和真实运动组肝酶水平和低密度脂蛋白胆固醇均下降,身体素质和心理健康均改善[13] - 6个月随访显示VR运动组的改善更为持久[13] - VR运动在认知功能增强方面表现更优,嗅觉测试和反应工作记忆测试证实[14] - fMRI显示VR运动增强神经效率和可塑性,多组学分析揭示与认知能力提升相关的独特变化[14] - VR运动组轻微受伤率7.69%,低于真实运动组的13.48%,均无严重不良事件[15] 行业意义 - REVERIE系统为解决青少年缺乏运动和肥胖问题提供富有同理心的方案[16] - 系统不仅能减重,还能全面改善身体、心理和认知健康[16] - Nature Medicine评论指出VR运动为超重/肥胖青少年提供新颖有效策略,某些方面优于传统运动[17]
字节跳动ByteBrain团队提出秒级推理强化学习VMR系统
快讯· 2025-06-05 14:49
技术研发 - 字节跳动ByteBrain团队联合UC Merced和UC Berkeley研发了基于深度强化学习的VMR系统[1] - 该系统将推理时间压缩至1.1秒,同时保持近似最优性能[1] - 研究成果已在系统顶会EuroSys25发表[1] 团队构成 - 研究论文的两位共同一作是字节跳动ByteBrain团队的实习生[1] - 研究聚焦于虚拟机重调度(VMR)这一长期被忽视但至关重要的问题[1]
深度强化学习赋能城市消防优化,中科院团队提出DRL新方法破解设施配置难题
36氪· 2025-06-03 15:27
地理空间优化技术发展 - 地理空间优化是数学组合优化与地理信息科学的结合,致力于解决空间布局、资源配置等实际问题,在城市建设、工业园区选址、公共服务设施选址等领域具有重要研究意义 [4] - 传统求解方法包括精确算法、近似算法和启发式算法,但分别存在计算复杂度高、算法设计复杂、缺乏理论最优性保证等局限性 [4][5] - 深度学习技术为地理空间优化带来新转机,通过数据驱动实现快速近似代替复杂计算,并自动设计新启发式算法的通用框架 [6] 深度学习模型创新 - 提出动态覆盖注意力模型SpoNet,通过智能体与环境交互实现回报最大化,无需生成标签信息,并利用知识驱动提升对空间覆盖关系的理解能力 [7][9] - 开发自适应交互注意力模型AIAM,包含交互注意力编码器、节点移除/插入解码器,在2,162个居民点和80个医院中验证了最小化总距离的可行性 [12][13][16] - 分层DRL方法通过统筹整体布局与局部调整,整合设施分布、火灾风险和交通状况等多维数据,提升城市应急消防设施配置效率 [17][22] 实际应用案例 - 在北京市朝阳区应急设施布局优化中,从132个候选设施中选择20个中心枢纽点,使覆盖节点数量最大化(服务距离2千米) [11] - 面向城市火灾风险预测的时空神经网络能自动捕捉空间结构、消防设施分布及火灾统计数据动态变化,通过注意力机制输出预测值 [18][19][21] - 应急消防设施配置引入火灾频率、交通状况等不确定性因素,将灾害损失纳入目标函数以提升布局稳健性 [22] 未来研究方向 - 计划引入地理计算机制增强空间感知能力,融合地形、网络通达性等地理结构特征 [23] - 扩展至城市群、省域级多中心联动优化,提升方法可扩展性与计算效率 [24] - 探索多智能体协同、异步训练等技术优化DRL算法框架,实现更有效实际问题求解 [25] 研究团队背景 - 梁浩健博士团队隶属于中国科学院空天信息创新研究院,研究方向涵盖地理空间优化、深度强化学习、遥感大数据分析等领域 [26][28] - 团队由王少华研究员领导,致力于通过时空大数据分析和AI技术实现空间环境智能化决策,推动智慧城市发展 [28]