强化学习

搜索文档
7B模型“情商”比肩GPT-4o,腾讯突破开放域RL难题,得分直翻5倍
量子位· 2025-07-18 14:16
核心观点 - 腾讯混元数字人团队提出RLVER框架,通过用户模拟器同时扮演"交互环境"和"奖励来源"双重角色,解决多轮对话中RL训练的三大困境(环境、奖励、训练)[2][5] - RLVER训练后的Qwen2.5-7B模型在Sentient-Benchmark得分从13.3跃升至79.2,与GPT-4o、Gemini 2.5 Pro等商用顶级模型相当[2][16] - 模型在数学、代码等通用能力上未出现衰退,且行为风格从"解题型"转向"情绪型"[17][19] 技术框架设计 - **环境构建**:用户模拟器包含多样用户画像(性格/背景/需求),动态更新情绪状态,提供无限探索的真实对话环境[7][8][9] - **奖励机制**:基于SAGE框架显式建模用户情绪变化,累积"心情总分"作为奖励信号驱动PPO/GRPO算法[11][12][13] - **优化策略**:采用全局情绪轨迹优化(非单轮反馈),引导模型维持长期情绪走高[14] 性能表现 - **基准测试**: - Sentient-Benchmark:PPO+思考结构模型达79.2分(原始13.3分),成功率42%[16] - Chit Chat:PPO模型成功率52%,低于Sentient表现[16] - **横向对比**: - Gemini 2.5 Pro得分82.4(成功率55%) - GPT-4o得分79.9(成功率51%)[16] 训练洞察 - **模型路径差异**: - "思考式模型"侧重深度理解与共情[21] - "反应式模型"发展出行动导向补偿策略[22] - **算法选择**: - PPO在特定维度(如共情深度)突破上限[27] - GRPO带来更稳定均衡的能力增长[27] - **环境设计**: - Vanilla模拟器(包容反馈)优于Challenging模拟器(容错率低),前者训练模型Sentient得分79.2 vs后者66.4[29][30][32] - 显式思考结构提升模型抗打击能力(Challenging环境下得分66.4 vs非思考结构19.8)[33][36] 开源与资源 - 模型已开源,包含论文地址、项目代码及Hugging Face仓库链接[34]
真香!一台机器搞定人形运控、强化学习、VLN/VLA
具身智能之心· 2025-07-18 10:28
产品概述 - TRON1是一款专为教育科研设计的一体化研究平台,支持验证人形运动控制、强化学习、VLN任务、VLA任务等多种功能 [1] - 采用双足、双点足和双轮足"三合一"模块化设计,可快速切换、自由组合,一机支持多形态算法研发 [1] - 一套产品可同步验证点足运动控制、双足人形运动控制、轮式运动控制,实现"买一得三" [1] 功能特点 - 定义为仿人形步态开发平台,支持人形运控研究和强化学习论证 [6] - EDU版本可外设深度相机或RGB相机,支持目标导航和感知功能开发 [6] - 支持外设加装机械臂,实现VLA功能验证(导航+抓取) [6] - 开发语言支持C++和Python,降低使用门槛 [6] 技术参数 硬件配置 - 感知拓展套件包含NVIDIA Ampere架构GPU(1024 CUDA核心,157 TOPS稀疏算力)、8核Arm CPU(2.0GHz)、16GB LPDDR5内存 [16] - 激光雷达参数:水平FOV 360°,点云输出200000点/秒,深度相机分辨率1280x720 [16] - 语音交互套件支持普通话/英语,拾音距离≤4m,可自定义唤醒词和大模型部署 [19] - 标准版和EDU版均采用48V三元锂电池(240Wh),续航≥2小时,充电时间<1小时(20%-80%) [26] 性能指标 - 运动速度:双足/双点足<1m/s,双轮足最高≥5m/s [26] - 负载能力:约10kg(极限15kg),最大爬坡角度≥15°,最大落差高度15cm [26] - 关节参数:额定扭矩30Nm,峰值扭矩80Nm,峰值转速15rad/s [29] 应用场景 - 支持复杂地形运动、移动操作+机械臂任务 [20] - 感知模块可用于三维建图、重定位、导航及动态避障 [13][21] - 语音交互模块适用于具身智能教育、导览解说、展会互动等场景 [18][22] 开发支持 - 提供完整URDF模型,支持NVIDIA Isaac、Mujoco、Gazebo等主流仿真平台 [9] - SDK支持数据可视化、记录回放、关节控制函数等功能 [29][34] - 配套开发指南和用户手册,提供1年免费售后服务 [40][37] 产品版本 - 分为基础版本和EDU版本,后者支持外设加装感知、语音交互组件及GPU算力资源 [4] - EDU版额外提供IMU数据获取、USB3.0/GbE拓展接口、24V外设供电(峰值200W) [29]
前OpenAI CTO新公司TML,5个月获20亿种子轮融资,估值飙升至120亿!
搜狐财经· 2025-07-18 09:23
公司融资与背景 - Thinking Machines Lab(TML)完成20亿美元种子轮融资,刷新历史纪录 [1] - 公司成立于2025年2月,五个月内即获得巨额投资 [1] - 融资由a16z领投,英伟达、Accel、ServiceNow、思科、AMD及简街资本等多家知名机构参与 [1][4] 团队与技术 - 创始人米拉·穆拉蒂为前OpenAI首席技术官,被誉为"ChatGPT之母" [3] - 团队吸引OpenAI联合创始人约翰·舒尔曼等二十余位顶级AI研究员加盟 [1] - 公司专注于强化学习技术,构建针对企业KPI优化的AI模型 [3] 业务方向 - 核心业务分为企业定制型AI解决方案和通用消费级AI产品 [3] - 企业定制型AI直接针对营收、利润等核心KPI进行优化 [3] 行业认可 - a16z领投显示风投机构对TML的信心 [4] - 英伟达和AMD的参投体现芯片领域对TML技术实力的认可 [4] - 多家知名企业和投资机构参与融资,表明市场广泛看好公司发展潜力 [4]
Thinking Machines Lab完成20亿美元种子轮融资,估值达120亿美元
搜狐财经· 2025-07-18 01:19
公司融资与业务 - 前OpenAI首席技术官米拉・穆拉蒂创办的AI公司Thinking Machines Lab(TML)完成20亿美元种子轮融资(约合人民币143.46亿元),创下史上最大规模种子轮融资纪录 [3] - 融资由安德森・霍洛维茨基金领投,英伟达、Accel、ServiceNow、思科、AMD、简街资本等参投 [3] - TML成立于2025年2月,仅5个月即获得巨额融资 [3] - 公司核心业务围绕"企业定制型AI"和"通用消费级产品"两条路径展开,尤其强调前者 [3] - 团队基于强化学习构建模型,使AI能围绕客户核心KPI(如营收、利润等)进行优化,直接服务于业务增长目标 [3] 团队与行业影响 - OpenAI联合创始人约翰・舒尔曼等二十余位顶级AI研究员加入TML,使其迅速成为行业焦点 [3] - 投资方阵容强大,包括AI芯片巨头英伟达和AMD,显示产业对TML前景的看好 [4] - 知名风投a16z以及Accel、ServiceNow、思科、简街资本等企业和机构的加入,表明各界对TML发展潜力的认可 [4] 创始人背景 - 米拉・穆拉蒂1988年出生于阿尔巴尼亚,毕业于美国达特茅斯学院 [4] - 曾担任高盛实习分析师、卓达航天高级概念工程师 [4] - 2018年加入OpenAI,五年内历任应用AI和合作伙伴副总裁、产品和合作关系高级副总裁、首席技术官,被称为"ChatGPT之母" [4]
近半年「自动驾驶」篇强化学习论文推荐~
自动驾驶之心· 2025-07-17 20:08
自动驾驶强化学习研究进展 核心观点 - 强化学习(RL)在自动驾驶领域展现出巨大潜力,可提升车辆安全性、可靠性和智能化水平[3] - 2025年精选的10篇RL应用论文聚焦实际挑战与创新解决方案,涵盖轨迹规划、决策制定、仿真训练等方向[4][7] - 技术突破包括:3DGS仿真训练、VLM与RL融合、GRPO优化等,部分成果性能超越传统方法35%[10][26][35] 关键技术突破 轨迹规划 - CarPlanner采用自回归结构和生成-选择框架,在nuPlan数据集上超越IL和规则方法的SOTA表现[9] - ReCogDrive结合VLM与扩散规划器三阶段训练,在NAVSIM基准达到89.6 PDMS,较纯视觉SOTA提升5.6分[17][19] 决策系统 - RRL-SG通过对抗摄动训练和RSS安全掩码,实现策略鲁棒性与碰撞安全双重保障[13] - LGDRL框架引入LLM专家指导,任务成功率90%,学习效率显著优于基线算法[23][24] - AlphaDrive基于GRPO奖励优化,仅用20%数据即超越SFT方法35%性能[26][28] 仿真训练 - RAD利用3DGS技术构建闭环训练环境,碰撞率较IL方法降低3倍[10] - RIFT通过双阶段仿真框架提升交通场景逼真度,采用dual-clip机制增强训练稳定性[33][36] 基础理论研究 - D2RL通过状态编辑解决高维空间训练难题,获Nature封面论文并提升测试效率10³–10⁵倍[42][43][44] - 同济大学综述系统分析RL在运动规划中的应用,提炼关键设计经验与前沿挑战[29][30] 多模态融合 - Drive-R1通过长/短COT数据集训练实现视觉推理与轨迹规划对齐,在nuScenes创SOTA记录[35][37] - 快慢架构整合LLM指令解析与RL实时决策,碰撞率降低同时更贴合用户偏好[41] 行业影响 - IEEE引用2600+的综述推动RL技术现实部署,覆盖控制器优化、路径规划等6大应用方向[43] - 4000人技术社区聚集300+企业与机构,形成30+技术栈的完整学习体系[47][48]
暑假打比赛!PRCV 2025空间智能与具身智能视觉感知挑战赛启动~
自动驾驶之心· 2025-07-17 15:29
竞赛概述 - 竞赛聚焦空间智能与具身智能视觉感知技术,旨在推动高效、高质量的技术研究,探索强化学习、计算机视觉、图形学等前沿方法创新,并促进神经渲染、场景优化和机器人抓取等方向的应用 [2][4] - 竞赛由北京科技大学、清华大学、中国科学院自动化研究所等多家单位联合组织,北京九章云极科技有限公司提供赞助和技术支持 [5] 参赛要求与流程 - 参赛者包括国内研究团体、企事业单位及高校师生,团队不超过5人,每人仅能加入1个团队 [8][9] - 报名需通过邮件提交团队信息,截止日期为7月31日,比赛分阶段进行,包括数据集发布、结果提交和评审,最终在PRCV2025大会上颁奖 [5][6][10] 竞赛资源与任务 - 提供大规模无人机航拍图(500-1000张1k分辨率)和具身智能仿真场景数据,九章云极提供8卡H800 GPU算力支持 [11][12] - 赛道1要求构建多视角航拍图像的三维重建模型,评估渲染质量(PSNR)和几何精度(F1-Score) [17][19][20] - 赛道2要求完成动态遮挡场景中的抓取任务,评估任务完成度(成功率、位姿误差)和执行效率(耗时、路径效率) [21][23] 奖项与知识产权 - 每个赛道设一等奖(6000元+500度算力券)、二等奖(3000元+200度算力券)、三等奖(1000元+100度算力券)及优胜奖 [25] - 参赛方案知识产权归团队所有,数据仅限竞赛使用,禁止扩散,组织方承诺保密 [29] 相关会议PRCV2025 - PRCV2025为国内模式识别与计算机视觉顶级会议,涵盖学术前沿、产业应用与技术创新,投稿截止2025年6月30日 [27][30] - 会议由四大国家级学会联合主办,上海交通大学承办,Springer出版论文集并被EI/ISTP检索 [31][32]
人形机器人联合会议:产业迭代下的近期投资机会解读
2025-07-16 23:25
纪要涉及的行业和公司 - **行业**:人形机器人、服装、工程机械、缝制机械、高机、智能驾驶、汽车CE、机器人CE - **公司**:智源、杰克股份、恒立液压、禾川科技、恒力、索成科技、恒帅股份、宁波华翔、德玛科技、中兴科技、上海人形、Google DeepMind、上海智己机器人、力控公司、杨浦智能、麦思杰 纪要提到的核心观点和论据 人形机器人产业 - **核心观点**:短期内板块仍有机会,应围绕定点或供应链核心公司投资,关注电机领域及供应链结构变化带来的机会 [1][3] - **论据**:产业迭代速度远超传统制造业等领域,研发周期约两个月;电机领域高密度电机等方向明确,如恒帅股份新一代斜波散电机有优势;供应链二级、三级供应商机会大,国内智源商业模式类似苹果ODM模式且商业化迭代速度快 杰克股份 - **核心观点**:在服装行业稀缺性强、自动化升级优势显著、业绩增长潜力大 [4][6][8] - **论据**:设备几乎覆盖服装行业所有工位;设备与自身机器人高度兼容,数据接口和软件无缝对接,市场份额高;主业营收约60亿,模板机配套市场空间达三四百亿,设备效率提升且国内外市场扩展 恒立液压 - **核心观点**:处于阶段性底部,有望迎来向上趋势 [9] - **论据**:一季度工程机械景气度高点后进入二季度淡季但表现优于预期,三季度预计加速增长,挖掘机和高空作业平台处于周期底部,卡特中挖油缸放量及泵阀份额提升将推动收入增长 禾川科技 - **核心观点**:需关注技术创新及市场拓展情况评估未来发展潜力 [9] - **论据**:今年4 - 5月推出股权激励措施,三季度预计盈亏转正,致力于成为人形机器人代工商,与上海人形合作紧密,计划推出迭代产品并补齐核心零部件工艺短板 [15] 索成科技 - **核心观点**:在物理AI仿真平台领域有独特优势,值得关注和投资 [22][28] - **论据**:是中国市场唯一在该领域拥有卡位、场景、产品和收入的私有稀缺资产;2025 - 2026年物理AI目标收入3000 - 5000万元;内部预计2025 - 2026年复合增长率25%,目前市值处于历史低位,有较大上升空间 其他重要但可能被忽略的内容 - 2025年第二季度以来机器人板块产业迭代加速,围绕强化学习和大模型两种技术路线存在分歧,类似电动车领域城市NOA与L4级自动驾驶区别 [2] - 恒力在精密丝杠和导轨业务产能提升、出货量增加,导轨业务放量,下游应用广泛,在机器人业务有进展,采用国内外双线并行策略开拓市场 [13][14] - 国内关税政策影响缝制机械行业,二季度降幅快速收窄,预计三季度、四季度紧缩情况改善,全年海外市场高增长,国内市场增幅逐步拉回 [10][11] - 2024年欧美经济下滑使高机板块景气度回落,今年上半年受拖累,预计下半年CVR增速双位数增长,高机和非挖板块业绩将迎来拐点 [12] - 基于模型和无模型的强化学习在智能驾驶和通用人形机器人中应用不同,特斯拉未来可能更多采用基于模型的强化学习 [17] - 基于模型的强化学习在人形机器人中难以落地,原因是构建世界模型困难和模拟路径选择复杂 [18] - Google DeepMind的AlphaGo是基于模型强化学习的成功案例,但建立通用机器人的L4级别基于模型仍具挑战性 [19][20] - 物理AI仿真平台可通过高效合成数据解决建立世界模型困难及数据不足问题,如银河通用使用仿真数据训练,智源发布3D数据集资产 [21] - 市场对索成科技有核心担忧,但公司通过收购补全学科、拓展渠道,增强物理AI战略能力 [25][26]
科锐国际(300662):AI+加速落地 禾蛙AI2.0发布在即
新浪财经· 2025-07-16 20:53
公司动态 - 公司将于7月17日召开大禾蛙AI2 0生态一周年发布会 禾蛙平台是公司旗下人力资源服务产业互联网平台 已实现AI赋能招聘全流程 打破行业协作壁垒 提升交付效率 深度赋能客户 [1] - 公司更新CTS系统 实现新简历自动推送匹配情况 自动生成定制化推荐报告 稍作调整即可使用 [1] - 公司新推出Voice电话客户端 实现候选人电话直连呼出 联系记录自动生成总结文本 显著提升效率 [1] - 公司升级CRM系统 可实时检索外部企业招聘信息 分析企业使用人力资源服务概率 增加AI客户订阅功能 灵活筛选客户融资动态 与客户开发流程无缝衔接 [1] 技术研发 - 公司内部测试Agent原型系统 目标是实现技术灵活应用与持续进化 [2] - 公司研发基于强化学习的CRET1模型 目标是构建面向Agent能力的推理Embedding模型 实现结构化推理突破 解决招聘中人岗匹配的多跳检索与推理判断问题 [2] 行业展望 - 科技赋能可提升公司内部效率 形成可输出产品后 将强化各业务协同与交叉效应 [2] - 国内大客户国外布局与海外公司本地扩张 可能带来人力资源增量需求 [2]
ICCV 2025满分论文:一个模型实现空间理解与主动探索大统一
具身智能之心· 2025-07-16 17:12
具身智能导航技术突破 - 清华大学联合团队提出统一空间理解与主动探索的新型模型MTU3D,实现动态环境中的高效空间感知与自主导航,被ICCV 2025接收并获满分评价[3] - 模型突破传统静态观察局限,通过探索-理解闭环协同机制,使智能体在移动中逐步构建环境认知,成功率最高提升20%[3][29] - 技术核心将强化学习的探索能力与3D视觉语言模型的语义理解融合,形成端到端协同训练框架[13][14] 模型架构与数据策略 - 采用双模块设计:在线空间记忆构建模块实时处理RGB-D流数据,空间推理模块通过Cross-Attention实现指令匹配[16][17][22] - 创新性使用物体查询(Object Queries)和边界查询(Frontier Queries)结构化表征空间,支持动态记忆更新[19][20][21] - 虚实结合数据策略整合ScanNet和HM3D的90万条导航轨迹,覆盖视觉指引/探索行为/目标定位等多元任务[25][26] 性能表现与行业影响 - 在GOAT-Bench多模态长期导航测试中,MTU3D成功率达52.2%,较基线提升20%以上,展现卓越任务规划能力[29][30] - SG3D-Nav多步骤任务中关键指标s-SR提升至23.8,显著优于强化学习方法[31] - 真机实验验证技术落地性,A-EQA任务中GPT-4V成功率从41.8%提升至44.2%,推动具身问答发展[32][37] 技术演进方向 - 研究团队来自北京通用人工智能研究院,负责人李庆博士专注多模态智能体与具身智能领域[2] - 行业正经历从虚拟空间向物理世界的范式迁移,MTU3D为AI实体化提供关键空间认知解决方案[3][40] - 方法论突破体现为:语义地图实时构建、探索-理解联合优化、低成本虚实数据融合三大创新点[18]
小哥硬核手搓AI桌宠!接入GPT-4o,听得懂人话还能互动,方案可复现
量子位· 2025-07-16 15:02
AI宠物技术实现 - 核心硬件采用3D打印底座和圆锥形头顶,悬挂一条触手结构,触手源自SpiRobs机器人,能抓取尺寸相差超两个数量级、重量达自身体重260倍的物体[8][10] - 视觉系统通过立体摄像头追踪触手末端,使用YOLO模型进行3D三角测量校准[12][31] - 触手控制采用2D映射简化操作,通过电脑触控板拖动光标即可调整触手动作[22][23] 控制系统架构 - 低级控制层结合开环预设动作(如点头)和闭环RL策略(如手指跟踪),立体视觉约束RL观察空间[25][26] - 高级控制层采用GPT-4o实时API处理语音与视觉事件,无需微调即可下达底层指令[26][27] - 为增强生命感,在待机状态加入轻微摇摆行为,并通过Prompt工程解决LLM调用问题[28][29] 强化学习与仿真优化 - 在MuJoCo中重建软体触手模型,设置目标跟踪环境,使用PPO策略梯度结合MLP和帧堆叠训练[33] - 添加动力学随机化(质量、阻尼、摩擦)以贴近真实环境,通过控制惩罚和指数移动平均解决抖动问题[36][37] - 最终实现仿真到真实环境的迁移,验证控制策略有效性[38] 开发者背景与灵感来源 - 开发者Matthieu Le Cauchois为ML工程师,研究方向包括强化学习、NLP,曾创立AI公司Typeless并被Doctolib收购[39][41][42] - 项目灵感源自皮克斯台灯机器人,强调通过动作和时机传递情绪意图,动物形态设计增强宠物陪伴感[48][49][53] - 工程文件开源,包含3D打印CAD数据和控制脚本,支持低成本复现[20][54]