Workflow
强化学习
icon
搜索文档
深度|Andrej Karpathy:行业对Agent的发展过于乐观,一个能真正帮你工作的Agent还需要十年发展时间
Z Potentials· 2025-11-05 10:57
图片来源: Dwarkesh Patel Z Highlights Andrej Karpathy 是 OpenAI 联合创始人之一,前特斯拉 AI 与自动驾驶视觉部门负责人,离开特斯拉后创立 AI 教育公司 Eureka Labs 。他于 2015 年在斯坦福大学 获得博士学位,师从被誉为 AI 教母的李飞飞,主要研究领域为自然语言处理与计算机视觉的交叉领域,以及适用于这一任务的深度学习模型。他在 2024 年 被时代杂志评选为在 AI 领域最有影响力的百名人物之一。本期节目发布于 2025 年 10 月, Andrej Karpathy 接受了科技自媒体人 Dwarkesh Patel 的播客访谈,主 要讨论了大语言模型的工作机制与未来方向、 AI 强化学习与人类学习的差异、 Agent 系统的演化潜力,以及他对模型坍缩、数据质量和未来的教育的长期思 考。 Dwarkesh Patel: 你认为哪些问题需要十年才能真正解决?瓶颈在哪里? Andrej Karpathy: 我觉得,关键在于要让Agent真正"能用"。当我们谈论Agent时,无论是实验室的想法还是我个人的理解,都应该把它想象成一个你雇 来一起 ...
郎咸鹏给理想VLA新画的4个饼以及值得留意的5点
理想TOP2· 2025-11-04 21:33
2025年11月4日晚点Auto发布《 对话郎咸朋:VLA 技术论战、团队换血与不被看好时的自我证明 》 关于理想VLA的未来,理想自动驾驶负责人郎咸朋给了4个饼: 短期: 现在致力于打造训练的强化闭环,2025年底应该能搭出来,在2025年底2026年初,能看到一 些非常好的表现,用户会觉得车真的"活"了,像一个每天在成长的人。 中期:加强强化闭环后,可能会在中国市场超特斯拉,锚点是特斯拉在中国没有理想拥有的便利环境 做闭环迭代。 2年周期:VLA加强化学习不只是技术变革,是业务大变革,落地后会成为企业真正的护城河——不 是模型、数据或芯片,而是整个业务流程。这个能力建设不会很快,需要一两年迭代。一旦迭代完 毕,比如我们 2025 年开始做 VLA 强化闭环,2025、2026 两年做好,到 2027 年就全都变了。 1.开车需要具备的智能程度是比较低的。 远期: VLA可以实现L4,但以后一定还有新技术。 2.业务流程改革完成后,经过1-2年时间,可以更清楚的知道车端算力需求与模型参数量需求,郎倾 向于不会要求太大。 备注:郎咸鹏提到了因为怕剐蹭撞车,做了很多安全限制。其实是在说此时此刻的版本为了真实安全 ...
强化学习AI系统的设计实现及未来发展
36氪· 2025-11-04 20:52
强化学习作为推动大语言模型进一步提升智能程度的手段,一直是大语言模型训练环节中最核心且复杂的环节。其中的复杂度不仅仅体现在其算法方面, 也体现在其系统的整体要求上。 本文整理自阿里巴巴算法专家曹宇今年 6 月 在 AICon 2025 北京站的分享 《强化学习 AI 系统的设计实现及未来发展》。其分享从传统的 RLHF 系统开 始,结合算法实践展示出 RL 系统的现状及发展脉络。通过具体的实践,与从业者共同探讨未来超大规模 RL 的发展方向,分享内容既包括理论基础,也 包含业界实践,最后开源生态及社区共建也会涉及。 以下是演讲实录(经 InfoQ 进行不改变原意的编辑整理)。 今天我非常高兴能够与大家分享一些关于强化学习(Reinforcement Learning,简称 RL)在大语言模型系统设计中的应用,以及对未来发展的几点初步建 议。 从下图左侧看似简单抽象的算法理论来看,其执行逻辑实际上比我们想象的要复杂得多。中间部分是我参与的一个框架——Open RLxF 的执行逻辑图。与 左侧的算法理论相比,它明显更为复杂。因为在实际执行过程中,我们有多个算法组件,例如绿色部分是训练态的模型,蓝色部分是推理态的模 ...
Z Product|当广告遇上强化学习,前谷歌华人高管打造广告投放的“第二大脑”,MAI首轮融资2500万美金
Z Potentials· 2025-11-04 10:46
自动化的尝试早已存在,但大多数解决方案停留在基于规则的层面。 所谓的 " 智能投放 " 仍然靠的是人工设定的阈值与策略,系统只负责执行。这种模式 难以应对多平台投放和实时反馈的数据动态。 随着模型能力提升和强化学习技术在现实任务中的应用成熟,一个新的路径出现了:让系统通过持续试验和 反馈,自行去学习最优投放策略。 MAI 正是在这一技术拐点上出现的。 图片来源:官网 Z Highlights 01 从 " 人管广告 " 到 "AI 全自动 " , MAI 成为营销人的第二大脑 在数字广告行业,复杂性已成为一种常态。过去十年,投放平台的数量和参数不断增加, Google Ads 、 Meta Ads 、 TikTok Ads 等生态形成了一个非常碎 片化的系统。 广告主需要在数百个选项中调整预算、出价、受众、素材、时间和渠道策略。 对于中小企业而言,这种复杂度几乎不可管理:因为他们既没 有数据科学团队,也没有优化算法。而且,广告的获客成本还持续上升,人工优化效率下降,代理公司费用高昂且机制往往与客户目标不一致。 整个行业 出现了一个结构性问题,那就是复杂系统的优化仍然依赖人。 MAI 的创始人 Yuchen W ...
当还在纠结研究方向的时候!别的同学已经CCF-A了......
具身智能之心· 2025-11-04 08:05
还在为论文选题抓耳挠腮?还不知道怎么入门和选择哪个赛道? 在具身这个新型领域,很多小白不知道如何下手,选择强化学习还是vla?传统slam还是vln?哪些方向需要 较大算力,哪些不需要? 除此之外,什么样的本体适合自己研究,预算不够怎么办?仿真可以吗? 别慌!具身智能之心的科研辅导正式推出了,资深导师团队在线 "救援",解决你的论文烦恼。 论文辅导上线了 【具身智能之心论文辅导重磅上线!多模态大模型/VLA/强化学习/VLN/遥操作/数采/机器人仿 真/real2sim2real/端到端/diffusion等顶会方向1V1定制化辅导】 辅导区间 CCF-A到CCF-C SCI一区到四区 EI/中文核心/毕业论文/申博等 ✅ 全流程闭环辅导:从选题创新点挖掘→实验设计→代码调试→论文写作→投稿策略,助你快速产出高质 量成果。 ✅ 工业界/学术界双视角:不仅发论文,更关注落地价值。 欢迎咨询 现在前10名咨询的同学,能免费匹配专属导师!来和导师进行深度 Meeting,根据你的研究方向、学术基 础,一对一深入分析,给出最适合你的会议、期刊选投建议! 更多详细内容欢迎添加微信进一步交流:AIDriver005,开启 ...
机器人“干中学”,人类不用再给工厂中的机器人当保姆
第一财经· 2025-11-03 20:49
技术应用与突破 - 智元机器人团队研发的真机强化学习技术已在与龙旗科技合作的验证产线中落地 [1] - 强化学习是一种让机器人通过不断尝试和反馈自主优化动作策略的AI训练方式 [1] - 传统强化学习通常在仿真环境中完成,但仿真到真实环境之间存在沟壑,虚拟策略需大量调试才能在真机稳定复现 [1] - 真机强化学习直接嵌入真实产线,使产线作业的通过率、作业节拍、良率直接成为机器人优化目标 [3] - 机器人可通过产线的原生信号完成训练,部署时间可缩减至分钟级 [3] 行业现状与挑战 - 人形机器人企业进入实际场景时,常需耗时数月进行部署和调试 [2] - 在工厂实际产线中,仅有两三台机器人作业,但负责调试与维护的工作人员达数十人 [2] - 为人形机器人配备10位工作人员进行调试、标定与安全监控被视为常态 [2] - 真机强化学习部署过程中可能存在物料损耗或安全风险,需通过预训练和底层控制将风险控制在可控范围内 [3] - 该技术不仅依赖算法本身,更依赖于与工厂系统在通信技术、数据接口等方面的深度对接 [3] 未来发展路径 - 团队正通过本地私有云与OTA机制,实现不同工序的真机强化学习经验共享,以解决批量复制难题 [3] - 此方法旨在实现模型的批量更新和复现 [3] - 需在实际环境中逐步打通底层环节,以确保工序间的数据流和反馈闭环真正形成 [3]
最火VLA,看这一篇综述就够了
具身智能之心· 2025-11-03 08:03
作者丨 量子位 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 ICLR 2026爆火领域VLA(Vision-Language-Action,视觉-语言-动作)全面综述来了! 如果你还不了解VLA是什么,以及这个让机器人学者集体兴奋的领域进展如何,看这一篇就够了。 文章作者 Moritz Reuss 是2025年Apple AI/ML学者奖得主,曾在RSS、ICLR、NeurIPS等顶级会议多次发表研究成果。这篇综述既是一线 研究者的实战总结,也是洞察趋势的前沿观察。 文章一出,评论区好评不断,甚至顶级猎头Mark Wallace直接抛出了橄榄枝。 这个VLA,究竟有多火? 据统计, VLA模型 相关投稿量,从去年的个位数飙升至164篇,足足增长了18倍。 这股热潮背后,让机器人 "听懂人话、看懂世界、动手干活" ,正成为AI领域极具吸引力的前沿阵地。 然而,在这片繁荣之下,一个问题也随之浮现: 当我们谈论VLA的进步时,我们到底在谈论什么? VLA ...
4倍速吊打Cursor新模型,英伟达数千GB200堆出的SWE-1.5,圆了Devin的梦,实测被曝性能“滑铁卢”?
36氪· 2025-10-31 20:16
产品发布与核心特性 - Cognition公司推出全新高速AI编码模型SWE-1 5,该模型专为软件工程任务中的高性能与高速度而设计,现已在Windsurf代码编辑器中开放使用 [1] - SWE-1 5是一款拥有数千亿参数的前沿规模模型,旨在同时提供顶尖性能与一流速度,其最显著的特点是原始速度,处理速度最高可达950 token/秒 [2] - 在Scale AI的SWE-Bench Pro基准测试中,SWE-1 5取得了40 08%的成绩,接近当前最佳水平(near-SOTA)的编码性能 [4] - 该模型并非单一模型,而是模型本身、推理过程与智能体框架协同设计的统一系统,以此同时实现高速与智能 [10] 性能优势与技术合作 - 得益于与推理服务提供商Cerebras的合作,SWE-1 5的运行速度最高可达Anthropic旗下Sonnet 4 5模型的13倍,是Haiku 4 5模型的6倍 [1][2] - 与竞争对手Cursor推出的Composer模型(生成速度为250 token/秒)相比,SWE-1 5的最高速度950 token/秒是其接近4倍 [14] - 通过合作部署优化措施,包括训练优化的草稿模型以实现更快的投机解码,以及构建定制化请求优先级系统,使端到端智能体交互过程更流畅 [2] - 公司将此前需20秒的某类任务完成时间控制在5秒以内,认为5秒是避免陷入“半异步死亡谷”的关键阈值 [2] 基础设施与训练方法 - SWE-1 5的训练依托于由数千颗英伟达GB200 NVL72芯片组成的先进集群,声称可能是首个基于新一代GB200芯片训练的公开生产级模型 [8] - 与相同数量的英伟达H100 GPU相比,GB200 NVL72在LLM推理工作负载方面的性能最多可提升30倍,成本和能耗最多可降低25倍 [8] - 模型的训练是在公司定制的Cascade智能体框架上,通过端到端强化学习完成的,并借助了由上千颗GB200芯片组成的集群 [8][10] - 公司为训练手动创建了一个数据集,力求还原真实场景下任务与编程语言的广泛分布,并设计了包含三种评分机制的高保真度编码环境 [9] 产品集成与内部应用 - 公司于今年7月收购开发工具Windsurf,并通过将SWE-1 5直接集成到Windsurf IDE中,逐步实现新愿景 [1][10] - 当模型运行速度提升后,公司重写了代码检查、命令执行流水线等核心组件,每一步操作的开销最多降低了2秒,并计划持续优化 [4] - 公司团队的众多工程师已将SWE-1 5作为日常工作工具,应用场景包括深度探索与理解大型代码库、构建端到端的全栈应用程序等 [7] - 公司高度依赖内部真实场景的“内部测试使用”来指导调优决策,以此围绕用户体验对智能体与模型进行调优 [11] 行业竞争与战略定位 - SWE-1 5的发布与Cursor推出Composer模型表明,AI开发者工具市场出现明确的战略趋同,两家公司都在构建高度集成、低延迟的开发者体验 [13] - 两家公司都大规模采用强化学习技术,并认同需要结合自有定制工具与真实场景对模型进行微调,才能打造真正高效的编码智能体 [13] - 公司此举似乎在押注:即便没有推出市场上参数规模绝对最大的模型,这种高度集成的高速体验也能培养出一批忠实用户 [12] - 两家公司均对新模型的基础架构保密,仅提及基于“领先的开源基础模型”构建,这种保密性使得独立评估难以开展 [13]
4倍速吊打Cursor新模型!英伟达数千GB200堆出的SWE-1.5,圆了Devin的梦!实测被曝性能“滑铁卢”?
AI前线· 2025-10-31 13:42
SWE-1.5模型性能与特点 - Cognition推出全新高速AI编码模型SWE-1.5,专为软件工程任务的高性能与高速度设计,现已在Windsurf代码编辑器中开放使用[2] - 模型处理速度最高可达950 token/秒,是Anthropic旗下Haiku 4.5模型的6倍、Sonnet 4.5模型的13倍[3] - 该模型能够将此前需20秒的某类任务完成时间控制在5秒以内,帮助开发者保持“心流状态”[4] - 在Scale AI的SWE-Bench Pro基准测试中,SWE-1.5取得40.08%的成绩,仅次于Claude Sonnet 4.5的43.60%[6] - 模型经过专门设计,拥有数千亿参数,旨在同时提供顶尖性能与一流速度[3] 技术合作与优化 - 得益于与推理服务提供商Cerebras的合作,SWE-1.5实现了极佳的延迟表现[3] - 合作举措包括训练优化的草稿模型以实现更快的投机解码,以及构建定制化请求优先级系统[3] - 当模型速度提升后,公司重写了代码检查、命令执行流水线等核心组件,每一步操作开销最多降低2秒[6] - 公司计划在优化工作上持续投入,相关改进也将助力Windsurf中其他所有模型的性能提升[14] 训练基础设施与方法 - SWE-1.5的训练依托于由数千颗英伟达GB200 NVL72芯片组成的先进集群,可能是首个基于新一代GB200芯片训练的公开生产级模型[10] - 与相同数量的英伟达H100 GPU相比,GB200 NVL72在LLM推理工作负载方面性能最多可提升30倍,成本和能耗最多可降低25倍[10] - 模型的训练是在Cognition定制的Cascade智能体框架上,通过端到端强化学习完成的[10] - 公司手动创建数据集还原真实场景任务分布,并设计包含三种评分机制的高保真编码环境以提升模型编码能力[11] 产品集成与内部应用 - 通过将SWE-1.5直接集成到Windsurf IDE中,Cognition正逐步实现新愿景[13] - SWE-1.5并非单一模型,其模型本身、推理过程与智能体框架经过协同设计,共同构成一个统一系统[13] - 公司众多工程师已将SWE-1.5作为日常工作工具,应用场景包括深度探索大型代码库、构建端到端全栈应用程序等[9] - 处于测试阶段的Codemaps功能由SWE-1.5提供支持[9] 市场竞争与战略定位 - SWE-1.5发布之际,AI编码工具Cursor也推出专属高速模型Composer,两者战略趋同[17] - SWE-1.5处理速度最高950 token/秒,是Composer模型250 token/秒的接近4倍[18] - 两家公司都在大规模采用强化学习技术,并减少对第三方API的依赖[17] - Cognition押注高度集成的高速体验能培养忠实用户,即便没有推出参数规模最大的模型[15] 用户反馈与市场反应 - AI专家Simon Willison测试后表示模型感觉非常快,与Cerebras合作是明智举措[18] - 有用户反馈SWE-1.5在处理小型任务时表现不错,但在尝试完成某项任务时失败并搞砸了所有东西[19] - 另有用户指出SWE-1.5虽然速度快,但没能解决某个问题,而Cursor的Composer模型却一次性解决了该问题[18]
港科提出新算法革新大模型推理范式:随机策略估值竟成LLM数学推理「神操作」
机器之心· 2025-10-31 12:11
论文第一作者何浩然是香港科技大学博士生,研究方向包括强化学习和基础模型等,研究目标是通过经验和奖励激发超级智能。共同第一作者叶语霄是香港科技 大学一年级博士。通讯作者为香港科技大学电子及计算机工程系、计算机科学与工程系助理教授潘玲。 在大语言模型(LLM)的数学推理任务中,基于可验证奖励的强化学习(RLVR)已成为提升模型推理能力的重要手段。然而,主流方法如 PPO、GRPO 等仍然依 赖为传统 RL 场景设计的策略梯度更新的学习目标,本质上可以被策略迭代(policy improvement)刻画,即包含策略评估(policy evaluation)与策略改进(policy improvement)的不断循环的过程。这些方法常常面临训练不稳定、多样性丧失、调参复杂等问题。 那么对于 LLM 推理任务,有没有一种更简洁、更本质的解法? 香港科技大学联合阶跃以及快手等团队 提出了一个令人惊讶的答案: 只需对一个完全随机的策略进行价值评估,就足以找到最优推理路径。 他们由此提出 ROVER(Random Policy Valuation for Diverse Reasoning)以极简思路颠覆传统范式,跳过传统 ...