Workflow
强化学习
icon
搜索文档
4倍速吊打Cursor新模型!英伟达数千GB200堆出的SWE-1.5,圆了Devin的梦!实测被曝性能“滑铁卢”?
AI前线· 2025-10-31 13:42
比 Sonnet 4.5 快 13 倍, 编码性能近 SOTA "开发者不应在'思考速度快'与'思考质量高'的人工智能之间做选择。"Cognition 在官方声明中表示, 这一理念是 SWE-1.5 的设计基础。 据介绍,SWE-1.5 经过专门设计,是一款拥有数千亿参数的前沿规模模型,旨在打破上述权衡困境 的同时提供顶尖性能与一流速度。而该模型最显著的特点是其原始速度,这一优势源于与推理领域专 业机构 Cerebras 的深度合作:共同部署并优化 SWE-1.5。具体举措包括训练一个经过优化的草稿模 型以实现更快的投机解码以及构建定制化请求优先级系统,让端到端智能体交互过程更流畅。 Cognition 表示,此次合作让 SWE-1.5 实现了极佳的延迟表现,并"还树立了新的速度标准",使其处 理速度最高可达 950 token / 秒,分别是 Haiku 4.5 模型的 6 倍、Sonnet 4.5 模型的 13 倍。"这一性 整理 | 华卫 近日,开发出 Devin 智能体的知名人工智能公司 Cognition 推出其全新高速 AI 编码模型 SWE-1.5。 据介绍,该模型专为在软件工程任务中实现高性能 ...
港科提出新算法革新大模型推理范式:随机策略估值竟成LLM数学推理「神操作」
机器之心· 2025-10-31 12:11
论文第一作者何浩然是香港科技大学博士生,研究方向包括强化学习和基础模型等,研究目标是通过经验和奖励激发超级智能。共同第一作者叶语霄是香港科技 大学一年级博士。通讯作者为香港科技大学电子及计算机工程系、计算机科学与工程系助理教授潘玲。 在大语言模型(LLM)的数学推理任务中,基于可验证奖励的强化学习(RLVR)已成为提升模型推理能力的重要手段。然而,主流方法如 PPO、GRPO 等仍然依 赖为传统 RL 场景设计的策略梯度更新的学习目标,本质上可以被策略迭代(policy improvement)刻画,即包含策略评估(policy evaluation)与策略改进(policy improvement)的不断循环的过程。这些方法常常面临训练不稳定、多样性丧失、调参复杂等问题。 那么对于 LLM 推理任务,有没有一种更简洁、更本质的解法? 香港科技大学联合阶跃以及快手等团队 提出了一个令人惊讶的答案: 只需对一个完全随机的策略进行价值评估,就足以找到最优推理路径。 他们由此提出 ROVER(Random Policy Valuation for Diverse Reasoning)以极简思路颠覆传统范式,跳过传统 ...
L4大方向有了:理想自动驾驶团队,在全球AI顶会上揭幕新范式
机器之心· 2025-10-31 12:11
AI 正在进入下半场,最先进化的会是辅助驾驶? 最近,有关 AI 大模型进入瓶颈的讨论越来越多。强化学习之父 Rich Sutton 发表的前瞻论文《体验时代》指出,人工智能正在从依赖人类生成数据向体验 式学习的范式转变。 OpenAI 前研究员姚顺雨则直言不讳地表示 AI 正在进入「下半场」。他认为,需要为现实世界的任务开发新的 AI 评估或配置。更重要的是,要实现超越人 类的智能,AI 就必须超越模仿人类,依赖一种可随智能体改进而扩展的新数据源。 机器之心报道 作者:泽南 在自动驾驶领域,AI 范式转变的趋势同样也已显现。 上周刚刚结束的全球计算机视觉学术顶会 ICCV 2025 上,理想汽车自动驾驶高级算法专家詹锟在研讨会上发表了以《世界模型:让我们从数据闭环走向训 练闭环》(World Model: Evolving from Data Closed-loop to Training Closed-loop)为主题的演讲。 詹琨在 ICCV 2025 具身智能研讨会(Learning to See: Advancing Spatial Understanding for Embodied Intell ...
具身智能之心交流群成立来!VLA/RL/导航/数采等多个方向
具身智能之心· 2025-10-30 18:00
欢迎加入我们的技术交流群,和大家一起聊聊技术和行业。添加小助理微信AIDriver005,备注:加群 +昵称+研究方向。 具身智能之心技术交流群成立了,近20个子方向,欢迎和我们一起承担具身领域未来领导者的角色。如 果您是涉及人形机器人、四足、机械臂等本体,正在从事vla、大模型、vln、强化学习、移动操作、多 模态感知、仿真、数据采集等方向。 ...
AI破晓前,最早动身的人
投资界· 2025-10-30 16:36
东方既白。 迷雾被层层拨开。 作者 I 吴琼 报道 I 投资界PEdaily 正如蓝驰创投今年人民币基金合伙人大会的主题——"东方既白",承接着去年"跳出象限"的探索。蓝驰创投管理合伙人陈维广告诉投 资界:"去年是在寻求不确定性中的穿越之道。今年则是看到了很多于增长而言的约束条件,但也看到了跳出象限、穿越周期的可能路 径。深感曙光已现,当大展拳脚。"更多科技破晓之初的机遇摆在了面前。 过去一段时间里,这支投资团队的足迹已遍布AI: 从模型及应用层的月之暗面、Ge n s pa r k、与爱为舞、百图生科、大千科技、元理智能;到具身智能领域的智元机器人、银河通用机器 人、它石智航、灵初智能、Hill bot;再到AI硬件的VITURE、可以科技、Ha i vi vi、庞伯特;底层基础设施则有PPIO、潞晨科技、伊 辛智能、智与芯行……一张系统化AI投资版图浮现。 如此笃定出手,在当下一级市场并不多见。 而过往20年,蓝驰亲历了多个产业轮转,几乎在每一个新周期都能快速迭代并精准调整其投资策略。当下纷纷扰扰,这无疑是一个极 佳的早期科技投资研究样本。 变局 中国AI路径浮现 如你所见,投资AI已成为国内创投圈最主流 ...
老黄亲自站台,英伟达编程神器,Cursor 2.0自研模型狂飙4倍
36氪· 2025-10-30 15:33
Cursor迎来重大升级,2.0版本来了! 一直「套壳」的Cursor这次终于发布了首款自研编码模型Composer。 Composer的速度是同等模型的4倍。 Cursor说这是一款专门为低延迟智能编码打造的模型,大部分任务都可以在30秒以内完成。 在Speed一栏,Composer的速度达到了200 Tokens/秒。 【导读】这次不仅发布自研编码模型Composer,还重构了IDE交互逻辑,可以最多8个智能体同时跑,早期测试和开发者都说Cursor 2.0真的太快了。 这次2.0版本还将浏览器嵌入编辑器内,这对于前端开发非常友好。 可以直接选择元素并将DOM信息转发给Cursor。 可以看这个实测,前端开发可以直接在浏览器选定元素,Cursor自动识别对应代码。 这次更新还引入了全新的代码审查功能,更容易查看 Agent 在多个文件中的所有更改,无需在各个文件之间来回切换。 这次一个更大的更新是引入了语音模式(Voice Mode),真就是动嘴编程了。 除了自研模型,Cursor这次重构了交互逻辑,带来了多智能体模式,在单个提示下,可最多并行运行8个智能体。此功能使用git worktrees或远程机器 ...
速递|ARR破5亿美元速度超Cursor,AI专家平台Mercor估值冲上100亿美元,融资3.5亿美元
Z Potentials· 2025-10-29 13:16
该公司向投资者透露,其年经常性收入突破 5 亿美元的速度,将快于 Cursor 背后的 Anysphere ——后者以核心产品推出约一年即达此里程碑而闻 名。 Mercor 作为连接 AI 实验室与领域专家以培训其基础 AI 模型的平台,已确认完成 3.5 亿美元融资,公司估值达到 100 亿美元。 领投该公司上一轮 1 亿美元 B 轮融资 (估值 20 亿美元)的 Felicis Ventures ,此次继续担任领投方。既有投资者 Benchmark 和 General Catalyst 以及新投资者 Robinhood Ventures 也参与了本轮融资。 TechCrunch 曾在 9 月报道称, Mercor 正与投资者洽谈以 100 亿美元估值进行 C 轮融资 ,较此前设定的 80 亿美元目标有所提升。当时该公司向潜 在投资者表示已获得多个投资意向。 Mercor 最初是一个 AI 驱动的招聘平台,但很快转型为向企业提供领域专家(如科学家、医生和律师)进行 AI 模型培训,并按照每小时的工作收 取人才推荐费与匹配服务费。 该公司还持续强化其强化学习软件基础设施 ——这是一种通过验证或质疑模型 / 智 ...
单条演示即可抓取一切:北大团队突破通用抓取,适配所有灵巧手本体
量子位· 2025-10-29 13:11
核心观点 - 北京大学及BeingBeyond团队提出DemoGrasp框架,通过将多步马尔可夫决策过程重构为基于轨迹编辑的“单步MDP”,解决了灵巧手通用抓取中传统强化学习面临的探索效率低、奖励函数设计复杂等挑战 [1][2][4] 技术原理与核心创新 - 核心创新在于用单条成功演示轨迹替代从零开始的探索,将高维抓取任务转化为演示编辑任务,再通过单步强化学习优化编辑参数 [4][6][7] - 方法以一次成功的抓取演示轨迹为起点,通过对轨迹中的机器人动作进行编辑以适应不同物体与姿态,包括改变腕部位姿以确定抓取位置,调整手指关节角度以确定抓取方式 [4][9][16] - 在紧凑动作空间的单步MDP问题上,使用单张RTX 4090显卡训练24小时即可收敛到成功率大于90% [12] 仿真训练与性能表现 - 在仿真环境中利用IsaacGym创建数千个并行世界进行训练,策略网络根据初始观测输出手腕和手指编辑参数,通过海量试错学会根据不同形状物体输出合适参数 [10][11] - 在权威数据集DexGraspNet(3.4K物体)上,视觉策略成功率达到92%,训练集到测试集的泛化差距仅为1% [17] - 性能显著优于现有方法:在基于状态的设定下,DemoGrasp在训练集、测试集(可见类别)和测试集(未见类别)的成功率分别为95.2%、95.5%和94.4%;在基于视觉的设定下,成功率分别为92.2%、92.3%和90.1% [18] 跨本体扩展与泛化能力 - 无需调整任何训练超参数,成功适配6种不同形态的机器人(五指、四指灵巧手,三指夹爪和平行夹爪),在175个物体上训练后,在多个未见过的物体数据集上达到84.6%的平均成功率 [19][20] - 具备强大的空间泛化能力,可适应大范围的物体初始位置随机化(50cm×50cm) [17] 虚实迁移与真机应用 - 通过视觉模仿学习将策略蒸馏成与真机对齐的RGB策略,实现从仿真到真机的直接迁移 [13][14] - 在真实机器人测试中,使用Franka机械臂和因时灵巧手,成功抓取了110个未见过的物体 [21] - 对于常规大小的物体,抓取成功率均达到90%以上;对于扁平物体和小物体等困难抓取任务,成功率达到70% [22][24] - 支持在杂乱多物体摆放的场景下实现用语言指令引导抓取,真机单次抓取成功率达到84% [24] 技术实现细节 - 采用流匹配生成模型的方法学习从图像观测和机器人本体感知预测动作,训练时使用预训练的ViT提取图像特征并进行充分的域随机化以缩小仿真到真机的视觉差异 [23] - 适配单目/双目、RGB/深度相机等多种相机观测,实验表明双目RGB相机组合效果最佳,能更好地抓取小而薄的物体 [23]
AlphaGo之父找到创造强化学习算法新方法:让AI自己设计
机器之心· 2025-10-28 12:31
研究核心观点 - 谷歌DeepMind团队开发出一种名为DiscoRL的新方法,能够通过元学习自主发现性能达到SOTA水平的强化学习规则 [1] - 该方法发现的规则在经典Atari基准测试上超越了所有现有方法,并在多个高难度基准测试上优于多种SOTA强化学习算法 [4] - 研究结果表明,未来实现高级AI所需的强化学习算法可能不再依赖人工设计,而是能够从智能体自身经验中自动涌现与进化 [5] 研究方法 - 发现方法涉及智能体优化和元优化两种类型的优化,智能体参数通过更新策略和预测至强化学习规则产生的目标进行优化 [7] - 团队定义了没有预定义语义、富有表现力的预测空间,通过元网络进行元学习来找出智能体需要优化的内容 [9] - 元网络作为函数决定智能体应将其预测和策略更新至的目标,其输入输出选择保留了手工设计RL规则的理想特性 [12][14][15][16][17] - 智能体参数被更新以最小化其预测和策略与元网络目标之间的距离,使用KL散度作为距离函数 [19] - 元优化目标是发现一个RL规则,使智能体在各种训练环境中最大化奖励,通过梯度上升优化元参数 [22][23] 实验结果 - 在57款Atari游戏基准测试中,Disco57取得13.86的IQM分数,超越了所有现有RL规则,运行效率远高于当前最先进的MuZero [26][27][29] - Disco57在ProcGen基准上优于所有已发表方法,包括MuZero和PPO,尽管在发现期间从未与ProcGen环境交互过 [33] - Disco57在Crafter上取得有竞争力表现,在NetHack NeurIPS 2021挑战赛中获得第3名,且未使用任何领域特定知识 [34][35] - 使用103个更具多样性环境发现的Disco103规则,在Atari基准表现相似,同时在多个基准上提高了分数,在Crafter上达到人类水平表现 [37] - 最佳规则是在每个Atari游戏约6亿步内发现的,相当于在57个Atari游戏上仅进行3次实验,比手动发现RL规则更有效率 [40] 技术分析 - 定性分析显示,被发现的预测在收到奖励或策略熵发生变化等显著事件前会出现峰值 [45] - 信息分析表明,与策略和价值相比,被发现的预测包含更多关于即将到来的高额奖励和未来策略熵的信息 [46] - 研究发现DiscoRL使用引导机制的证据,未来的预测被用来构建当前预测的目标,这种机制对性能至关重要 [47] - 使用价值函数可极大改善发现过程,而在预定义预测外发现新预测语义也至关重要 [41][42]
为什么RL在人形/四足/机械臂等本体上依然还有很多工作可以做?
具身智能之心· 2025-10-28 12:00
最近社区内部有同学留言,强化学习是不是比较古老的学科,审稿人还会青睐吗? 先回答这位同学的问题,RL是个学科,但是以发展时间来判断fashionable不是很合理。最近这段时间,在 arxiv上看到了很多关于RL、RL+VLA的内容,应用在机械臂、人形等本体上。 甚至其他领域也在依靠RL来做产品优化比如自驾,可以说,RL相当重要,相关工作在顶会上出现的也比较 多。 强化学习发挥着重要作用~ 说到具身智能机器人,无论是人形还是四足,都离不开的一个重要任务是步态控制,这也是迈向通用具身 必须要攻克的难关。 而目前主要方案即是强化学习,宇树、智元等公司的人形机器人大多通过强化学习完成对应任务,包括: 爬楼梯、爬山、跑步、跳舞、翻跟头等各类高难度动作的学习,从而赋予产品能够适应救援、测量、危险 环境的场景。 除此之外机械臂的VLA+RL方案在学术领域越来越受欢迎,RL让机器人执行的更高效、丝滑与顺畅。 但强化学习涉及内容众多,而且非常吃研究经验。体系较大、内容繁杂,很多小白根本不知道怎么入门, 发出一篇论文更是难度极大。产出一篇符合对应标准的论文需要在方法论证、实验结果、写作方式等几个 大模块上突击。哪一环节出错了, ...