强化学习 - 财报，业绩电话会，研报，新闻 - Reportify

强化学习

搜索文档

Meta万引强化学习大佬跑路！用小扎原话作为离别寄语，扎心了

量子位· 2025-08-26 12:36

核心人才流失 - Meta强化学习专家Rishabh Agarwal离职其曾参与Gemini 1[4]5和Gemma 2等核心项目开发论文总引用量达10[6]392次 h-index为34[6] 2021年获得NeurIPS杰出论文奖[4][14] - 另一名任职12年的Meta资深员工同期离职并加入竞争对手Anthropic推理团队[18][19] - 离职潮可能与新老员工薪酬待遇悬殊引发的内部矛盾相关部分研究人员曾威胁辞职[23][24] 技术贡献与行业影响 - Rishabh Agarwal在Meta期间主导推理模型后训练工作具体包括采用RL规模化训练将8B稠密模型性能提升至接近DeepSeek-R1水平在训练中引入合成数据实现RL热启动提出高效on-policy蒸馏方法[16][20] - 其2021年发表的深度强化学习统计不稳定性论文成为评估RL算法的里程碑工作[14] - 曾作为核心贡献者参与谷歌Gemini 1[4]5（上下文突破100万token）和Gemma 2（轻量级开源模型）开发[4][13] 人才流动趋势 - Meta近期组建超级智能实验室并大量引进人才但同期出现资深技术骨干流失现象[1][22] - 高端AI人才更倾向选择创业或探索非传统技术路径 Rishabh Agarwal明确表示拒绝加入Meta新实验室并寻求"完全不同道路"[1][17] - 行业顶尖人才普遍具备跨机构任职背景 Rishabh Agarwal曾同时任职谷歌Brain[6]DeepMind[6]Meta[1]并兼任麦吉尔大学教授[13]

最新智能体自动操作手机电脑，10个榜单开源SOTA全拿下｜通义实验室

量子位· 2025-08-26 07:05

核心观点 - 通义实验室推出Mobile-Agent-v3智能体框架在手机端和电脑端多个核心榜单取得开源最佳性能实现自动化操作手机和电脑的突破性进展 [1][2] - 该框架通过图形交互基础模型(GUI-Owl)实现界面元素精准定位、复杂任务规划和多智能体协同在10个主流GUI榜单中均取得开源SOTA水平 [9][17] - 采用自我进化轨迹生产基建和强化学习算法构建自动化数据生产闭环在OSWorld动态环境中成功率提升近8个百分点 [11][31][36] 技术架构 - 基于阿里云跨平台云环境基础设施构建覆盖Android/Ubuntu/macOS/Windows的云端沙箱执行环境 [11] - 通过Self-Evolving GUI Trajectory Production系统实现数据采集与模型优化自动化闭环包括高质量任务生成、轨迹正确性判断和任务指南生成模块 [13][14] - 采用轨迹感知相对策略优化(TRPO)算法解决稀疏奖励和信用分配难题在OSWorld-Verified基准测试中成功率从27.1%提升至34.9% [31] 核心能力 - 精准界面元素定位：整合开源数据集和无障碍树数据合成采用SAM模型进行PC端密集定位过滤IoU低于0.5的噪声框 [19] - 细粒度文字定位：支持单词和单字符级精确定位可响应"点击第三段第二行的'提交'二字"类指令 [20] - 复杂任务规划：从历史轨迹提炼执行手册通过Qwen3-235B等大语言模型生成详细执行计划 [22][23] - 动作语义理解：构建操作前后截图对建立视觉差异到用户行为的因果映射能力 [24][25] 多智能体协同 - Mobile-Agent-v3框架包含Manager、Worker、Reflector和Notetaker四个智能体角色均由同一GUI-Owl模型扮演 [33] - 形成拆解→执行→检查→记录→调整→再执行的闭环自动化流水线在真实环境评测中带来7-8个百分点性能提升 [34][40] - 支持知识检索(RAG)、任务规划、子任务执行与反思推理等完整功能链 [33] 性能表现 - GUI-Owl-32B在Easy/Medium/Hard三个难度级别的综合得分分别为92.75%/91.74%/94.19% 全面超越GPT-4o(60.16%/57.24%/53.49%)和Claude-3.5(41.54%/41.26%/37.55%) [37] - 在跨平台评测中 GUI-Owl-32B在Windows/MacOS/Linux/iOS/Android/Web平台综合得分82.97% 显著领先InternVL3-72B(72.20%)和Qwen2.5-VL-72B(41.83%) [38] - 在细粒度操作任务中 GUI-Owl-32B在文本匹配(67.0%)、元素识别(64.5%)、布局理解(67.2%)等维度表现优异 [39] - Mobile-Agent-v3在OSWorld-Verified和AndroidWorld基准测试中分别达到37.7%和73.3%的得分超越同类开源模型 [41]

多智能体协作

Mobile-Agent-v3

多智能体协作

Mobile-Agent-v3

VLA/强化学习/VLN方向1v1论文辅导~

具身智能之心· 2025-08-25 14:00

服务内容 - 提供具身智能领域的1对1论文辅导服务，当前有3个VLA、强化学习、Sim2Real方向的名额 [1] - 辅导主要面向A会和B会等顶级学术会议 [1] 目标会议与导师 - 主要针对的学术会议包括CVPR、ICCV、ECCV、ICLR、CoRL、ICML、ICRA等 [1] - 辅导老师活跃在具身智能学术领域，能够提供研究想法 [1] 咨询方式 - 感兴趣者可通过添加指定微信或扫描二维码进行咨询，需备注“具身论文辅导咨询” [2]

具身智能1v1论文辅导

具身智能1v1论文辅导

自动驾驶转具身智能有哪些切入点？

自动驾驶之心· 2025-08-25 07:32

算法技术延续性 - 具身智能领域基本延续机器人和自动驾驶的算法包括训练与微调方式以及大模型技术[1] - 具体任务存在差异主要体现在数据采集方式以及重执行硬件与结构方面[1] 技术研究方向 - 主要技术方向涵盖VLA（视觉语言行动） VLN（视觉语言导航）和Diffusion Policy（扩散策略）[1] - 涉及强化学习机械臂抓取位姿估计和机器人仿真技术[1] - 包含多模态大模型芯片部署 sim2real（仿真到现实）以及机器人硬件结构研究[1] 行业生态建设 - 建立具身智能全栈学习社区持续分享算法与软硬件方案[1] - 日常更新行业动态与招聘信息形成技术交流与人才发展平台[1]

重磅！浙大最新综述，解码40+年足式机器人技术演进与未来挑战

机器人大讲堂· 2025-08-24 21:15

单腿机器人研究综述核心观点 - 单腿机器人作为多足机器人的基本单元通过简化系统复杂度聚焦腿足运动本质为波士顿动力Spot和云深处绝影等商业化四足机器人奠定理论基础[1] - 研究团队系统梳理四十多年来从简单伸缩结构到复杂关节系统的演化历程揭示实现仿生运动的关键路径[1] 单腿机器人的研究价值 - 相比轮式或履带式机器人腿足机器人在不规则地面和大起伏地形中具备卓越机动能力能完成传统移动方式难以胜任的任务[4] - 单腿构型采用跳跃这一种动态步态完整体现足部从支撑发力到腾空落地的全过程可作为多足机器人单条腿运动的抽象表达[4] - 作为理想基础研究平台使研究人员能聚焦结构设计、运动学建模与控制策略研究为多足机器人提供算法原型[4] 结构构型分类 - 伸缩式单腿机器人具有垂直方向伸缩自由度采用气动缸/液压装置或弹簧电机系统结构简单运动路径明确[5] - 早期MIT Raibert教授开发二维跳跃机器人实现0.65米跳跃高度[6] - Gregorio开发首款电驱单腿机器人ARL Monopod I重15公斤平均功耗125瓦[6] - Martin推出ARL Monopod II将功耗降至48瓦跳跃高度提升至0.75米最高速度1.25米/秒[6] - 微型化方向Wei构建体积小于5立方厘米重30克机器人速度达7.75厘米/秒[7] - PogoDrone集成四旋翼和被动跳跃机构重31克实现0.7倍体长跳跃高度[7] - 关节式单腿机器人由多个旋转关节连接构成更贴近生物运动方式[9] 关节式机器人驱动类型 - 刚性驱动关节腿机器人采用完全刚性执行器如Wu设计0.87公斤机器人实现0.2米前向跳跃[13] - 并联弹性驱动关节腿机器人(PEALR)使用并联弹性执行器降低峰值负载 Liu的SPEAR机器人实现0.64米跳跃高度和0.54米/秒速度[13] - 串联弹性驱动关节腿机器人(SEALR)采用串联弹性执行器 ETH的ScarlETH重6.2公斤实现0.37米跳跃高度和0.25米前向跳跃[13] - 变刚度弹性驱动关节腿机器人(VSELR)可调节关节刚度 Kim设计的浮动弹簧执行器能在负载27公斤下完成深蹲-起立任务[14] - 人工肌肉驱动系统如Buchner的PELE机器人重0.23公斤能耗仅传统系统1.2% 实现超过5Hz步态循环和128毫米跳跃高度[15] 建模方法 - 弹簧负载倒立摆模型(SLIP)将腿部结构类比无质量弹簧系统有效描述支撑相与腾空相能量转换[17] - 衍生模型包括非对称弹簧加载倒立摆模型(A-SLIP) 耗散型SLIP模型(D-SLIP) 水下环境U-SLIP模型和圆形足端R-SLIP模型[17] - 关节模型显式考虑刚体连接结构和关节自由度如Berkemeier将质量集中于关节处 Roozing引入阻尼元件 Ankle-Knee-Hip模型集成多关节协调[18] 控制策略 - 基于模型控制包括Raibert三部分控制 Han混合反馈控制(HFC)提升能量响应速度[22] - 零力矩点(ZMP)控制确保动态平衡 Ugurlu实现高效稳定跳跃 Tian使机器人实现16.4厘米跳跃[22] - 虚拟模型控制(VMC)通过虚拟力计算实现运动特性 He保持柔顺性与稳定性 Sun构建自我训练智能控制系统[23] - 基于逆动力学(IKC)控制直接生成关节力矩 Zhang针对闭链液压结构设计虚拟解耦控制框架[24] - 模型预测控制(MPC)实现实时环境适应 Albracht构建混合整数MPC规划器实现障碍跨越 Cho提出液压节能策略控制热耗散[24] - 无模型控制包括中枢模式发生器(CPG)通过神经网络生成周期信号[25] - 强化学习(RL)展现强大自适应能力 Soni端到端RL仅输入期望高度即自动计算关节参数 Moslemi实现深蹲跳等复杂动作 Choe实现稳定跳跃和空中翻滚[25][27] 未来研究方向 - 生物启发设计需在生物还原度与工程可实现性间寻找平衡[29] - 轻量化制造需解决动态载荷下结构强度保障及多目标权衡问题[29] - 辅助结构集成面临机构布局冲突布线复杂化和散热管理难题[29] - 未来材料应用需克服制造复杂性和长期耐久性瓶颈[30] - 智能控制需解决计算资源限制和仿真到现实的转移差距[30] - 人机交互需建立可信任的共融机制并开展伦理安全性研究[30]

单腿机器人

四足机器人

单腿机器人

四足机器人

在OpenAI炼Agent一年半，回国做出首个开源Agent训练框架！这个30岁清华天才却说：创业不是技术命

AI前线· 2025-08-23 13:32

吴翼个人背景与职业经历 - 吴翼拥有姚班、伯克利、OpenAI、清华等亮眼背景，是ACM世界奖牌得主和IOI教练，曾亲历Facebook 2012崛起、字节跳动2016-2018高速成长期以及OpenAI爆火前关键阶段 [2] - 创立的边塞科技在2024年被蚂蚁收购，团队4年规模化强化学习成果积累至开源项目AReaL，这是一个完全异步的强化学习训练框架，专为大型推理模型设计，在Github已收获2.4k stars [2] - AReaL完全围绕Agent打造，定位独特，自称没有竞品 [2] OpenAI工作经历与决策文化 - 加入OpenAI源于Google Headcount限制，OpenAI作为非盈利机构无此限制，面试后第二周即获录用 [4] - OpenAI内部以evidence驱动决策，强调bottoms-up、快速迭代、无master plan的文化，研究员被当作mini-CEO [12] - GPT系列工作较bottom up，如GPT早期由Alec Recford一人主导，ChatGPT原型几人开发后爆火，不在OpenAI原计划内 [12] - 团队目标明确后不过度规划，激进寻找evidence并调整迭代，资源富裕与否不影响组织逻辑，AI时代放大穷团队能力 [13] - Codex团队7周从0到1推出产品，体现创业精神，但创新是长跑，需慢跑寻找evidence后冲刺，盲目冲刺可能错过evidence [14][15] 强化学习与竞赛观点 - ICPC、IOI等竞赛被类比为sports programming，类似电子竞技，涉及技巧和心理因素，非纯粹算法思维和编程速度考验 [6] - 大模型在IMO、IOI等竞赛挂零因模型未ready即推出，通用推理模型如Google/OpenAI已实现IMO金牌，专用模型如字节也取得不错成绩，大模型攻克竞赛是迟早的事 [6] - Gemini和OpenAI在IMO夺金明确归功于RL训练，竞赛未来参考围棋/Dota发展，因AI出现可能产生新规定和训练方式变革 [7] 创业经历与行业观察 - 中国创业公司几乎无机会走OpenAI路线，创业需看客观机会和势，非主观导向，当前中国非技术创业好时机，纯AI技术创业需慎重 [19][25] - 边塞科技创业期间困扰多属人性层面，非技术或商业问题，团队私下交流多，强调共同做大蛋糕而非分蛋糕 [27] - 创业非技术命题，时间窗口关键，决策抓住时间点即成功，错过非主观错误，建议多尝试以提高概率 [28] - 硅谷资源更多，对技术创业者更友好，国内创业是身心灵修炼场，中国互联网时代创造过奇迹，AI时代仍有机会 [17] AReaL框架与技术路线 - AReaL是面向大模型智能体训练的强化学习框架，目标让人更快训练出更好Agent模型，一切围绕Agent设计，自称无竞品 [8][36] - 团队从2020年开始做开源规模化强化学习工作，从MAPPO、SRL、ReaLHF到AReaL一脉相承，均围绕RL scaling [34][35] - 好的RL框架需好且快（产出SOTA模型且快）和好用（用户简单修改代码完成定制），AReaL-lite发布后实现全面重构 [37] - 开源RL训练框架基本是中国人天下，但头部公司如OpenAI、Anthropic有更好infra和团队，资源更优 [38] - AReaL围绕Agent打造，但也可训练代码模型和泛化模型，Agent应用不一定需RL训练，但资源成本下降后RL可训练更好Agent模型 [39] Agent技术未来展望 - Multi-Agent是必要方向，因Agent workflow复杂需多智能体配合，智能体普及后交互和算法逻辑更复杂，带来更多算法和infra机会 [41] - Agent将成为大模型交互形式主流，从被动变主动，自主探索和工作时间空间扩大，算法提升空间大，新范式一定会出现 [42]

又帮到了一位同学拿到了VLA算法岗......

具身智能之心· 2025-08-23 00:03

具身智能行业发展趋势 - 具身智能行业处于早期发展阶段对标自动驾驶行业2017-2018年阶段仍存在窗口期机会 [83] - 技术发展重点从传统SLAM转向大模型和端到端方案传统机器人从业者与具身感知技术派系分化明显 [83] - 行业平均薪资水平较高初创公司1-2年工作经验人员总包可达70-80万但稳定性较差 [83] 技术发展重点 - 视觉语言模型(VLA)和视觉语言动作模型(VLA)成为技术热点应用涵盖机器人抓取与规划任务 [2][58] - 强化学习与VLA结合(VLA+RL)成为重要技术方向 [40][42] - 多模态大模型技术快速发展涵盖理解与生成两大方向包括Image+Text到Text等多种模态组合 [52][54] - 仿真技术(sim2real)和数据采集成为关键环节存在real2sim2real等解决方案 [2][66] 人才需求与就业情况 - 企业招聘偏好有实习经验的候选人机器人创业公司普遍要求实习经历 [81] - 自动驾驶领域人才向具身智能领域迁移技术栈通用性较高 [80][83] - 算法岗位需求旺盛 VLA算法岗位薪资较高某案例显示强化学习岗位薪资达(N+6000)*15水平 [1][81] 技术社区生态 - 具身智能之心知识星球为国内首个具身全栈技术社区成员近2000人目标2年内达到近万人规模 [1][16] - 社区汇聚40+开源项目 60+数据集 30+技术路线覆盖感知、交互、导航等全方位技术领域 [16] - 社区成员来自斯坦福大学、清华大学等顶尖高校和智元机器人、优必选等头部企业 [16] - 建立企业内推机制与多家具身公司合作提供岗位对接服务 [10] 技术资源体系 - 汇总国内外40+高校实验室资源提供读研、申博参考 [18][20] - 汇总国内外具身机器人公司涵盖教育、工业、医疗等多个应用方向 [21] - 整理机器人相关书籍包括导航、动力学、运动学等基础学习资料 [26] - 汇集零部件制造厂商信息涵盖芯片、激光雷达、相机等核心部件 [28] 技术应用方向 - 视觉语言导航成为自动驾驶与机器人的重要应用领域 [48] - 触觉感知为前沿应用方向包括传感器应用和多模态算法集成 [50] - 机械臂技术涵盖抓取、位姿估计和策略学习等多个环节 [69] - 双足与四足机器人技术发展迅速提供从零搭建机器人的完整方案 [71] 学习与培训体系 - 为入门者提供完整技术栈和学习路线 [11] - 为从业者提供产业体系和项目方案 [13] - 社区提供问答交流、直播分享等多元学习方式 [76][78] - 建立专家答疑机制数十位产业界和工业界大佬提供技术支持 [2]

机器人仿真

视觉语言模型

机器人仿真

视觉语言模型

用三组关键词囊括所有看好理想人士近期对理想的观点

理想TOP2· 2025-08-22 21:29

VC与PE心态分析框架 - VC心态采用长周期视角（3-5年以上），关注公司核心价值潜力与底层技术变革，对短期错误容忍度高[2] - PE心态采用短周期视角（一年内），聚焦财务指标如销量、营收及利润，要求明确商业化证据且容错率低[3] - 两种心态对同一事件的评估差异显著：VC心态基于潜力赋予高估值（如早期腾讯社交链、字节算法优势），PE心态需实质财务证据支撑（如苹果搜索授权收入从2015年10亿美元增至2020年100亿美元）[3][4] 物理AI技术价值 - 物理AI本质是AI软件与硬件的深度结合，区别于传统软件1.0，其内核为神经网络与权重，需兼顾硬件迭代慢与AI快速迭代的特性[6][7] - 理想汽车在车端实现AI软硬件结合的高水平应用，例如卡片大师功能实现实时生成与个性化交互，突破前AI时代UI设计妥协限制[8][9] - 技术迭代路径明确：通过仿真数据替代昂贵真实数据、优化车端芯片算力、强化学习提升模型能力（当前4B模型未来可升级至7B/14B/100B），且辅助驾驶场景比聊天机器人更适配强化学习奖励机制[10][12][13] 组织力与短期经营挑战 - 理想汽车近期面临六项运营问题：交付量未达指引（6月指引4.8万实际仅3.5万）、MEGA产品失利与舆论冲击、发布会后快速降价配置调整、展车试驾不足、下摆臂质量问题、销售体系频繁调整[16] - PE心态因财务数据恶化（L系列销量持续下滑）及上述问题对组织力产生强烈质疑，VC心态则因看重物理AI进展而保持高容忍度[15][18] - 市场分歧源于底层哲学差异：PE心态要求短期执行力证据，VC心态更关注长期技术突破潜力[19]

理想汽车(US:LI)

VLA方向的论文还不知怎么下手？有的同学已经CCF-A了......

自动驾驶之心· 2025-08-22 20:00

理想VLA司机大模型技术突破 - 多模态输入提升语义理解能力，结合动态目标、静态元素、导航地图和空间理解实现综合决策 [1] - 思维链推理技术增强模型逻辑能力，轨迹规划更接近人类驾驶直觉 [1][3] - 采用RAG技术强化记忆能力，整合视觉语言模型与端到端自动驾驶框架 [3][5] 自动驾驶技术发展趋势 - VLA成为学术界和工业界核心方向，涵盖端到端学习、轨迹预测和强化学习等技术栈 [5] - 传统BEV感知和Occupancy技术研究热度下降，顶会论文方向转向大模型应用 [5] - 工业界持续优化传统感知方案，学术界聚焦VLA子领域创新 [5] VLA科研培训课程体系 - 课程周期为14周，包含先导课、传统端到端自动驾驶介绍（4周）、VLA端到端自动驾驶介绍（4周）和论文写作指导 [9][11][30] - 提供模块化VLA模型（Week8-9）、统一端到端模型（Week10-11）和推理增强模型（Week12）三大研究方向 [30][35] - 每周课时1-1.5小时，覆盖算法原理、代码实践和论文写作方法论 [30][34] 课程资源与支持 - 提供公开数据集包括nuScenes、Waymo和Argoverse，支持感知任务和VLA任务开发 [27] - Baseline代码库涵盖模仿学习（VAD、UniAD）、扩散模型（DiffusionDrive、OccNet）和VLA模型（OpenDriveVLA、Senna） [26] - 必读论文包括Senna（2410.22313）、SimLingo（2503.09594）和OpenDriveVLA（2503.23463）等5篇核心文献 [28][29] 学员成果与培养目标 - 产出论文初稿、结业证书和推荐信（根据优秀程度） [24][34] - 获得定制化研究idea（每位学员1个）、baseline代码调试能力和数据集应用经验 [20][34] - 掌握创新点挖掘、实验方法设计和投稿策略等全流程科研能力 [6][20] 技术实施要求 - 硬件最低要求4张4090显卡，推荐8张4090或云服务器租赁方案 [21] - 需掌握Python编程、PyTorch框架和Linux开发环境，具备深度学习基础 [21] - 每周课后需投入1-2小时自学，完成作业和论文阅读任务 [19][23]

端到端自动驾驶

视觉语言模型

理想VLA司机大模型

端到端自动驾驶

视觉语言模型

理想VLA司机大模型

AI已迷失方向？强化学习教父Sutton最新发布OaK架构，挑战当前AI范式，提出超级智能新构想

AI科技大本营· 2025-08-22 16:05

人工智能发展现状 - 人工智能产业已发展壮大但迷失方向[1] OaK架构核心设计 - 架构基于模型的强化学习并具备持续学习能力[3] - 每个学习权重配备专门步长参数并通过在线交叉验证进行元学习[3] - 通过FC-STOMP五步路径持续创造状态和时间抽象概念[3] - 架构核心由海量选项构成[10] - 知识表现为执行选项后世界变化的预测模型[10] 核心理念特征 - 强调运行时学习而非设计时学习[14] - 采用大世界视角具备领域通用性[16] - 完全依赖经验积累而非特殊训练阶段[16] - 支持开放式复杂性仅受计算资源限制[16] - 世界必然远大于智能体包含数十亿其他智能体[19] - 智能体所有功能都只能是近似非精确[19] - 世界最终呈现非平稳性特征[20] 技术实现路径 - 通过八步并行流程实现运行时学习[27][29] - 学习主策略与价值函数[29] - 生成新状态特征[29] - 对特征进行排序维护[29] - 为高排名特征创建子问题[29] - 为子问题学习选项解决方案[29] - 学习选项的转换模型[29] - 使用模型进行规划改进策略[29] - 持续管理评估所有组件[29] - 采用尊重奖励的特征达成子问题机制[31] - 通过FC-STOMP五步形成发现闭环[36] - 特征构建激发问题选项模型发现[36] - 新组件促进更抽象特征形成[36] 关键技术挑战 - 持续深度学习存在灾难性遗忘问题[37] - 新状态特征生成即表示学习问题尚未完全解决[38] 理论框架基础 - 遵循奖励假说理论基石[22][25] - 目标定义为对标量奖励信号累积和期望值的最大化[22][25] - 证明多目标等复杂机制不会增加通用性[25] 架构意义 - 提供首个关于知识起源的机制性答案[42] - 解释概念形成源于解决自创子问题[42] - 将推理定义为基于高层次模型的规划[42] - 阐明玩耍目的是发现认知基石子问题[42] - 构建无人类标签的感知运作机制[42]

大世界视角

大世界视角