Workflow
Reinforcement Learning
icon
搜索文档
Macaron AI's Mind Lab Sets New Benchmark with Trillion Parameter RL at 10% Cost, Now Integrated Into NVIDIA Megatron
Globenewswire· 2025-12-08 18:00
行业趋势:从规模扩张到经验智能 - 行业认识到当前最大模型的关键局限性:尽管每次更新都能达到惊人的基准测试成绩,但它们经常在现实世界的细微差别和“长尾”情况上犯错 [5] - 仅向问题投入更多数据和参数正在产生收益递减 前沿模型可以通过律师资格考试或生成代码,但仍然会犯基本错误 [6] - 新兴共识是,真正“智能”的行为可能需要更多东西:从经验中持续学习的能力 [6] - 人工智能行业可能正在走出盲目规模扩张的时代,进入“经验智能”时代 [36] 公司战略与愿景 - Macaron AI的核心理念是经验驱动智能,超越对规模定律的盲目遵循,并闭合现实世界使用与模型学习之间的循环 [7] - 公司主张,从真实用户反馈中进行训练,比仅仅增加更多预训练数据能带来更大的性能提升,这一转变被称为“经验智能”的崛起 [7] - 公司的愿景是让人工智能更像人类一样进化:通过与用户的真实互动不断更新自己 [8] - Macaron AI旨在成为经验驱动时代真正的个人人工智能代理,而Mind Lab是实现这一目标的引擎 [9] - 公司希望被视为在其消费产品之下拥有“前沿研究堆栈” [10] - 通过公开分享这些进展,并与NVIDIA和字节跳动等平台集成,Macaron AI正以可信的方式融入更广泛的人工智能社区 [35] - 公司不仅是在包装他人的大语言模型,而是在发明让AI学习和适应的新方法 [35] Mind Lab研究部门 - Mind Lab是Macaron AI背后的核心研究部门,由一支10人的全明星研究团队组成,在人工智能领域根基深厚 [10] - 团队成员来自OpenAI和DeepMind等组织,以及清华大学、麻省理工学院和康奈尔大学等顶尖大学的校友 [10] - 该团队在强化学习、大规模优化和人工智能系统等领域合著了超过200篇论文(被引用超过30,000次) [10] - Mind Lab的使命不是赢得参数数量竞赛,而是开辟一条通往人工智能智能的不同道路 [13] - 该实验室专注于允许AI智能体从交互式经验中学习的算法,无论是来自用户的反馈、环境探索还是解决下游任务 [13] - Mind Lab作为实验智囊团,将经验智能的概念转化为具体技术 [14] - 通过其正式亮相和今天公布的成果,Macaron AI向行业表明,它不仅仅是另一个包装其他LLM API的应用程序,而是一个拥有全栈创新能力的AI创新者 [14] 技术突破:万亿参数强化学习效率提升 - Mind Lab团队成为使用低秩适应技术在开源万亿参数AI模型上运行高性能强化学习的先驱,且仅使用通常GPU预算的约10% [4] - 这意味着以前可能需要数百或数千个GPU的工作,现在只需十分之一即可完成 [4] - 在万亿参数模型上实现高性能强化学习是一项 monumental 的壮举,通常需要“千GPU级”计算 [15] - 与常规方法相比,其基于LoRA的强化学习流程仅使用预期GPU计算的约10% [15] - 团队通过同步 rollout 和训练架构,将每次强化学习训练迭代的时间缩短了超过6倍 [15] - 他们以约10%的常规训练成本实现了所需的模型对齐和性能 [15] - 通过将混合并行策略与LoRA微调相结合,Mind Lab的系统可以训练和适应真正庞大的模型而无需“破产” [16] - 今年早些时候,Macaron AI曾创下仅用48个H100 GPU训练6710亿参数模型的基准 [16] - 现在,随着1万亿参数强化学习训练的演示,他们实现了更大的飞跃 [16] - LoRA方法仅影响小于0.5%的参数,通过插入微小的低秩更新矩阵来适应模型 [16] - 这种低秩调整可以保留超过90%的全参数微调性能,同时仅使用一小部分计算资源 [16] - 在Kimi K2模型上的基于LoRA的强化学习,仅需全参数训练10%的GPU占用,即可实现相同的对齐质量 [19] - 训练运行表现出平滑、可靠的学习曲线,奖励和任务成功率稳步提高,没有不稳定或灾难性崩溃 [19] - 下游评估证实,模型在获得更精确的任务对齐的同时,保留了其广泛的通用能力 [19] 开源贡献与行业影响 - Mind Lab开源了核心强化学习算法,并将其优化贡献给了主要的人工智能框架 [21] - 他们的技术已被合并到NVIDIA的NeMo Megatron-Bridge和字节跳动的VolcEngine RL库中 [21] - 这意味着任何使用这些框架的组织现在都可以利用Macaron AI的方法进行大规模的基于LoRA的强化学习 [21] 技术创新:记忆扩散与智能遗忘 - Macaron AI的“记忆扩散”重新构建了AI存储和更新信息的方式,不是将记忆视为外部数据库或过去对话的简单回放,而是持续在智能体轨迹上重新压缩其记忆 [22] - 这种方法的核心是一个三步循环:掩码-分配-重填 [23] - **掩码**:系统识别并掩码掉内部记忆中被视为低价值或过时的部分 [24] - **分配**:Macaron AI根据估计的重要性,智能地将其固定的记忆预算分配给不同的信息片段 [24] - **重填**:模型通过重新生成重要信息的压缩版本来填充被掩码的槽位 [24] - 这种机制使Macaron AI拥有了一种类似于人类记忆的智能遗忘能力,关键经验和高价值信息被高保真地保留,而琐碎或冗余的细节逐渐淡化为抽象摘要或被完全丢弃 [26] - 通过持续分类和压缩其记忆流,Macaron AI维持了连贯的长程推理,而无需臃肿的上下文窗口,回忆过去的成本基本保持恒定,与对话长度无关 [26] 产品升级与应用成果 - **应用生成速度提升10倍**:根据用户请求创建定制化应用的过程显著加快,过去需要约20分钟,现在通常在2分钟或更短时间内完成,速度降低了90% [29] - **社交协作**:引入多用户群组聊天功能,用户可邀请朋友、家人或同事加入由AI驱动的对话,Macaron AI充当整个团队的协调者和创意伙伴 [29] - **“每日火花”个性化推送**:推出根据用户过去互动、兴趣甚至情绪生成的AI策划每日摘要,内容范围从诗歌、哲学思考到健康提示和利基新闻简报 [32] - **跨聊天和应用的统一记忆**:统一了自由形式聊天和迷你应用背后的记忆,信息在两者之间无缝共享,形成了一个关于用户的互联知识库 [34] - 这些升级都源于Mind Lab在大型模型效率和长期学习方面的基础工作 [34]
让AI锐评本届 NeurIPS 2025 最佳论文会得到什么结果? | 锦秋AI实验室
锦秋集· 2025-12-05 11:43
文章核心观点 - 文章通过让多个主流大语言模型(GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax)扮演审稿人,对NeurIPS 2025的获奖论文进行盲审,旨在探究AI评审与人类评审结果的一致性、AI评审的稳定性及其对论文叙事方式的敏感性 [1][3][10] - 实验发现,AI评审的结论与人类评审结果存在显著分歧,两篇官方最佳论文在AI评审中并未获得一致的最高评价,其中一篇甚至被部分模型直接拒绝 [18][23][26][27] - AI评审表现出对提示词框架和论文叙事方式的极度敏感,当评审视角从“综合评价”切换为“刻意挑错”时,即使是官方最佳论文也可能被整体否决 [55][72] 测评设置与方法 - 实验选取了GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax五个主流大模型作为“AI审稿人” [7] - 设计了三个互补的评测场景:1) 全文评测:模拟真实会议评审,观察AI与最终录用结果的一致性 [8];2) 摘要评测:仅提供论文摘要,检验模型在信息不完整时的判断依据 [9];3) 对抗性评测:通过提示模型“以最苛刻评审者的角度评分”,测试其对提示框架的敏感性和评分波动 [9] - 评审标准严格遵循NeurIPS官方维度,包括技术正确性、创新性、清晰度、意义、可复现性及总分,并需给出最终录用建议(接受/边缘/拒绝)及奖项等级判定 [12] 全文评测结果分析 - **论文一(Gated Attention for Large Language Models)**:所有AI模型均未拒稿,但除GPT5(总分9,建议最佳论文)外,其他模型(Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax)普遍将其视为强论文(总分7.8-8.5),建议等级为海报、焦点或口头报告,上演了“小范围低估冠军作品” [16][18] - **论文二(1000 Layer Networks for Self-Supervised RL)**:AI评审与人类评审分歧明显,GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5给出的总分在7.8-8.5之间,建议等级为口头或焦点报告,无一建议最佳论文;而Minimax则给出全场最低的5.8分并建议拒绝,相当于对官方最佳论文的“当面否决” [23][25][26] - **论文三(Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs?)**:AI评审达成高度共识,五个模型总分均在8分以上,其中四个(Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax)打分达9或9.2,建议至少为口头报告,Minimax甚至建议最佳论文,与人类评审给出的口头报告结果基本同频 [30][31][32][33] - **论文四(Breaking the Performance Ceiling in Reinforcement Learning requires Inference Strategies)**:AI评审整体评价偏保守,GPT5和Minimax建议焦点报告,Claude 4.5和Gemini 3 Pro建议接受(海报),只有DeepSeek-V2.5明显更看好(总分9,建议口头报告),与大会结果一致 [36][37][38] 摘要评测结果分析 - **论文一**:在仅提供摘要的条件下,所有AI模型的评价普遍“降了半档”,最高分由GPT5给出(8.5分),但建议从最佳论文降为焦点报告,AI更倾向于将其视为高质量工程分析型工作,而非一眼认定的冠军 [39][40][42] - **论文二**:与全文评测相比,摘要评测阶段AI态度明显更“乐观”,模型普遍上调评分和预期,倾向于高估其通用性与实际价值,而弱化正文中可能隐藏的风险 [43][45] - **论文三**:摘要评测几乎将该论文推至“冲奖区”,GPT5直接给出8.8分并建议最佳论文,其他模型也多建议口头报告,表明这类“质疑主流路径+大规模实证”的论文仅凭摘要就极易营造强烈话题感 [46][48][49] - **论文四**:摘要评测出现“集体抬升”,GPT5、Claude 4.5、DeepSeek-V2.5总分逼近9分并建议口头报告,Gemini 3 Pro和Minimax则直接建议最佳论文,AI更容易被“6万+次实验、平均45%最高126%性能提升”的故事线吸引 [50][51][52][53] 对抗性评测结果分析 - **论文一**:在“以最苛刻评审者角度评分”的提示下,该最佳论文从“年度最佳”被重写为“工程小改动”,GPT5和DeepSeek-V2.5给出边缘建议,Claude 4.5、Gemini 3 Pro、Minimax则直接拒绝,AI版“Reviewer 2”破坏力展露无遗 [54][55] - **论文二**:对抗性评测进一步放大分歧,GPT5和DeepSeek-V2.5给出边缘建议,Claude 4.5、Gemini 3 Pro、Minimax则集体拒绝,集中批评其创新性有限、理论分析不足,现实中的冠军论文可能遭遇“三拒两险过”的命运 [56][57][58][60] - **论文三**:该论文成为争议最大对象之一,GPT5建议海报,DeepSeek-V2.5建议边缘,而Claude 4.5、Gemini 3 Pro、Minimax则统一拒绝,质疑其指标有效性、样本量不足及理论贡献偏弱 [61][62][63][65] - **论文四**:对抗性框架显著压低评价,GPT5建议海报,Claude 4.5和DeepSeek-V2.5建议边缘,Gemini 3 Pro和Minimax则拒绝,批评其缺乏算法创新、适用性被高估及存在过度营销 [66][67][68][71] 实验总结与发现 - 实验暴露AI评审存在两大结构性问题:一是对提示词高度敏感,评审框架的切换可导致同一论文的评价从最佳变为拒绝 [72];二是对叙事语气极度“吃语气”,仅看摘要时,擅长使用“大规模实验”、“范式转变”等话术的论文易被高估 [72] - 在“人机协同”的背景下,AI基于统一标准能提供更稳定、深入的分析,但其结论与真实评审结果存在分歧,可作为理解论文优劣与提升空间的辅助工具,而非最终裁决者 [69][70] - 两篇官方最佳论文在AI评审中待遇不一:门控注意力论文在多数模型眼中是稳妥的强论文(8-9分),但仅GPT5愿称其最佳;千层网络论文则更极端,评价从口头/焦点报告到直接拒绝,在AI世界中仅是“高争议强稿” [72]
OpenAI takes stake in Thrive Holdings in latest enterprise AI push
Yahoo Finance· 2025-12-02 04:39
合作核心内容 - OpenAI与Thrive Holdings达成非货币性合作 将人工智能技术整合到会计和IT服务等传统行业业务流程中[1][2] - 作为交易的一部分 OpenAI将提供专门的研究团队和资源 以换取在Thrive Holdings的所有者权益[2] - 此次合作加深了OpenAI与其最大财务支持者之一Thrive Capital之间交织的金融和业务联系 Thrive Capital已向该AI实验室投资了数十亿美元[3] 合作背景与动因 - OpenAI正试图基于ChatGPT的成功 在近期对AI应用过度承诺的担忧中 接触更多企业客户[3] - Thrive Holdings是Thrive Capital为专注于收购传统企业并进行AI整合而创建的载体 今年成立 已筹集超过10亿美元用于收购全国范围内的会计和IT服务提供商[4] - 在部署AI模型时 公司遇到了“更早出现的研究问题” 发现“现成的”解决方案不足以满足其投资组合公司中复杂且特定领域的任务[5] 合作模式与重点 - 合作将专注于专业服务领域的AI应用 特别是通过强化学习技术 该技术利用领域专家的反馈来持续训练和改进用于高度专业化功能的AI模型[6] - 通过合作产生的知识产权和产品将由Thrive Holdings拥有[7] - OpenAI除了获得股权外 还能通过观察其模型在真实企业环境中被测试和完善而获得洞察 为其更广泛的研究提供信息[7] 合作目标与现状 - 通过所有权与OpenAI结盟 使双方能够共同专注于打造领先产品的核心目标[7] - 尽管是OpenAI的主要投资者 但该合作并不排除Thrive在其业务中合理使用其他AI模型 包括开源模型[8] - Thrive Holdings目前通过其会计和IT服务平台为超过10,000名客户提供服务[8]
AI到顶了?OpenAI首席科学家否认,行业从堆算力转向追求智能密度
36氪· 2025-12-01 08:15
AI发展态势与核心观点 - AI发展并未减速,而是沿着稳定持续的指数级曲线加速前进,外界感受到的“停滞”源于突破形态的改变,行业从一味做大模型转向构建更聪明、更能思考的模型 [1] - 技术进步总体呈平稳的指数级提升,来源于新发现、算力提升和更好的工程实现,语言模型发展呈S型曲线,预训练处于S曲线上段,扩展定律并未失效 [3] - 新的推理范式处于S曲线下部,在相同成本下能获得比预训练更多的收益,因为还有大量发现待释放 [4] 技术范式演进:从预训练到推理模型 - 预训练依然关键但已不再是唯一引擎,推理模型的出现像是给基础模型加了“第二大脑”,让模型学会推导、验证与自我纠错,而不仅是预测下一个词 [1] - 推理模型在给出最终答案前会形成“思考链条”,并能借助外部工具理清思路,其学习重点是“如何思考”本身,目标是找到更优的推理路径,训练方式从预测下一个词转向强化学习 [8] - 模型通过强化学习训练,学会质疑自己的输出,在觉得可能出错时会重新思考,这种自我验证的能力是从强化学习中自然涌现的 [12] - 从ChatGPT 3.5到当下,核心变化在于模型不再仅依赖记忆权重输出答案,而是能查网页、推理分析后给出正确答案 [5] 模型能力现状与不均衡性 - AI的“智能地形图”极不均匀,最强模型能攻克奥数难题却可能在儿童拼图里数不清物体,能写出超越专业程序员的代码却仍会误判照片的空间关系 [1] - 推理训练主要依赖科学领域数据,远不如预训练的数据广泛,导致模型能力很不均衡,某些方面极其出色但相邻领域却表现不佳 [22] - 多模态能力发展面临挑战,模型在处理图像和声音方面远不如处理文本成熟,视觉任务的基础识别不够稳健,跨模态的语义对齐是核心难题 [6][24] - 模型能解出数学奥赛题,却可能做不出一年级的数学题,而人类只需十秒就能解决,暴露了推理模型在将文本中学到的思维链策略自动迁移到视觉输入上的根本局限 [22][24] 工程挑战与优化方向 - 大量明显需要改进的地方属于工程层面问题,包括实验室基础设施和代码优化、训练方法中强化学习比预训练更棘手、数据质量是瓶颈 [6] - 数据质量是瓶颈,过去使用Common Crawl等互联网原始数据仓库需大量清洗工作,如今大公司设有专门团队提升数据质量,合成数据正在兴起但工程实现细节非常重要 [6] - 多模态推理的改进方向明确,但要取得实质突破可能需要从头开始训练新一代基础模型,这意味着数月时间和巨额资源的投入 [6] - 当前讨论的问题包括多模态推理都是可解的工程挑战而非根本性理论障碍,推理模型的“锯齿状”能力曲线会随着训练和蒸馏逐渐减小 [25] 成本效率与商业化现实 - 面对上亿级用户,成本效率已压过算力堆叠,模型蒸馏从“可选项”变为“必需品”,能否让小模型复现大模型的智慧决定了AI能否真正普及 [1] - ChatGPT拥有十亿用户,每天产生海量对话需求,需要大量GPU资源支撑,用户不愿意为每次对话支付过高费用,迫使公司开发更经济的小模型 [17] - 技术产品化后必须考虑成本,行业不再只追求最大模型,而是努力用更小更便宜的模型提供同等质量,这种降本增效的压力非常现实 [17] - 蒸馏技术重新受到重视,通过将大模型的知识提炼到小模型中,既能保证质量又能控制成本,训练超大模型仍然是蒸馏优质小模型的基础 [17] 研究资源分配与内部组织 - GPU分配主要基于技术需求,目前预训练消耗的GPU最多,资源优先分配给它,强化学习和视频模型对GPU的需求也在快速增长 [15] - 大多数实验室都在做类似工作,如改进多模态模型、提升推理能力、优化预训练或基础设施,通常有专门团队负责这些方向,人员会流动 [15] - 预训练在技术上已进入平稳发展期,投入更多算力仍能提升效果,虽然回报不如推理技术显著,但确实能增强模型能力,值得持续投入 [16] 未来发展方向与突破领域 - 多模态推理正在成熟,当AI能同时理解图像和语言,就会真正赋能机器人和科研领域,它不再只是猜测文字,而是开始在脑子里模拟真实世界的运作逻辑 [29] - 科学领域可能最先被颠覆,语言模型不再只分析数据,而是能主动提出猜想、设计实验、解读结果,到2026年底可能会在顶级期刊上看到第一篇由AI提出核心假设、人类主要做验证的论文 [29] - “自主研究”正在模糊训练和推理的边界,模型能主动设计实验、写代码、分析结果,甚至生成自己的训练数据,形成自我提升的循环 [28] - 真正的AGI里程碑是模型能自主发现新算法,而不只是完成现有任务,这需要强化学习能支持“探索未知”,而不仅限于可验证的任务 [28]
Ilya罕见发声:大模型「大力出奇迹」到头了
量子位· 2025-11-26 08:55
当前AI发展范式转变 - AI发展正从"规模化时代"重新转向"科研时代",主流"预训练+Scaling"路线已明显遇到瓶颈[1][3] - 行业过去几年普遍遵循"继续扩大"策略,但仅靠规模扩大100倍难以带来根本性转折[56][57] - 预训练最大优势在于数据量庞大且无需纠结数据选择,但最终会遇到数据有限的硬上限[33][55] 模型能力与泛化问题 - 当前模型在评测表现与经济实际影响之间存在巨大落差,模型泛化能力远不如人类[17][21][61] - 模型会出现反复犯同样错误的情况,如编程中在两个bug间来回切换[17] - 人类在语言、数学、编程等近期出现的能力上仍比模型更强,表明人类拥有更基础的通用学习能力[68][69] 训练方法演进 - 行业正从预训练规模化转向强化学习规模化,RL消耗的计算量可能已超过预训练[58] - 价值函数能让强化学习更高效,但当前强化学习训练方法简单且资源利用效率低[42][58] - 预训练数据包含人类各种活动经验,是"人类把世界投射到文本上的那一层"[33] 行业竞争格局 - 规模化时代导致公司数量远超创意数量,所有公司做同一件事挤压创新空间[76] - 真正用于纯研究的资源比外界想象少,大公司算力预算主要用于推理服务[81][84] - 未来可能出现多家公司同时拥有超级智能,技术路径和战略最终会趋同[132][136] 未来发展方向 - 关键突破在于解决模型泛化能力不足的核心问题,而非单纯扩大规模[61] - 持续学习能力比静态知识储备更重要,超级智能应是能够学习任何工作的"可成长心智"[94][95] - 构建"关爱有感知生命的AI"可能比只关心人类的AI更容易实现,因为AI本身也将具备感知能力[106][107]
Your Weekend Shortcut: One Stock to Buy, One to Sell Immediately
Investor Place· 2025-11-24 01:00
投资策略核心理念 - 采用“买这个,不买那个”的投资策略,通过区分有吸引力和无吸引力的行业及公司来获取回报 [1][4] - 该策略在短期内验证有效,两只“买入”股票平均上涨18%,而“卖出”股票下跌3% [2] - 策略可应用于区分不同行业,例如前景光明的锂行业与夕阳产业的煤炭行业 [3] - 策略也可应用于同一行业内,筛选出拥有更优管理、资产或产品的公司 [4] - 传奇投资者Eric Fry将此策略进一步系统化,用于识别在“混沌时代”中的投资机会 [5][25] 现代汽车投资价值分析 - 现代汽车公司目前估值较低,远期市盈率不足7倍 [6][7] - 公司面临挑战,包括约60%的汽车(含起亚品牌)在韩国以外生产,使其成为受美国进口关税影响最大的汽车公司 [6] - 公司第一个增长点是其通过收购波士顿动力公司获得的机器人技术优势 [10][13] - 人工智能和强化学习的进步使波士顿动力的机器人能力大幅提升,能够通过自然语言和手势控制,并自主运行 [11][12] - 现代汽车已在工厂测试波士顿动力的人形机器人Atlas,预示着在机器人领域的巨大应用潜力 [13] - 公司第二个增长点是电动汽车领域,Ioniq 5在美国受欢迎度仅次于特斯拉Model 3和Model Y [14] - 现代汽车率先开发了专属的纯电动汽车平台E-GMP,并计划在2027年推出续航超600英里的新款电动汽车 [14][15] - 韩国政府为现代汽车的电动汽车努力提供了慷慨补贴 [15] - 电动汽车业务可能推动股价上涨50%,而波士顿动力的成功可能使股价翻倍 [16] 丰田汽车投资风险分析 - 丰田汽车曾是高质量制造和创新的领导者,在1985年至2024年间美国市场份额从6%增长至15% [19][21] - 公司早期在混合动力技术方面领先,1997年推出第一代普锐斯 [19] - 丰田股票历史上交易估值较高,自2005年起平均远期市盈率为10.7倍,比现代汽车高出50% [21] - 但公司早期优势现已转变为劣势,竞争对手在多个方面已赶超 [22][23] - 在可靠性方面,斯巴鲁今年首次在客户满意度排名上超越丰田,丰田现与马自达并列第二 [27] - 在创新方面,丰田对开发电动汽车犹豫不决,担心会蚕食混合动力车销售,其主席承认电动汽车将导致供应商大量失业 [27] - 在盈利能力方面,由于现代等传统车企和比亚迪等中国新秀的竞争,股本回报率预计将降至9%以下,低于历史平均的11% [27] - 在估值方面,丰田的溢价估值使股价面临抛售风险,按市盈率计,股价需下跌至少20%才能与同行持平 [27]
RLinf上新πRL:在线强化学习微调π0和π0.5
机器之心· 2025-11-06 16:58
技术背景与挑战 - 基于流匹配的视觉语言动作模型,如Physical Intelligence发布的π0和π0.5,能生成高维平滑的连续动作序列,在复杂操控任务中具显著优势[2] - 此类模型训练严重依赖大规模高质量人类演示数据,数据收集与标注成本高昂且周期漫长[2] - 强化学习可通过与环境交互自行探索迭代,减少对大量数据的依赖并提升监督微调的性能上限[2] - 针对流匹配视觉语言动作模型的强化学习研究较少,核心挑战在于其通过迭代去噪生成动作,难以直接计算输出动作的对数似然,而这是策略梯度方法更新的关键[2] πRL框架核心创新 - 由清华、北大、CMU等机构联合推出,是面向流匹配视觉语言动作模型的在线强化学习微调框架,基于RLinf系统实现[3] - 提出Flow-Noise和Flow-SDE两种微调方案,解决流匹配视觉语言动作模型难以直接计算输出动作对数似然的问题[8] - Flow-Noise通过将去噪过程建模为离散马尔可夫过程,直接计算去噪序列的联合概率密度[10][13] - Flow-SDE将去噪与环境交互结合,构建双层马尔可夫决策过程,训练中混合使用确定性采样和随机探索以加速训练[10][11][20] - 策略在收集数据后统一采用PPO进行策略梯度优化[10] 实验性能与结果 - 在LIBERO测试平台,πRL使π0模型平均成功率从57.6%提升至97.6%,π0.5模型从77.1%提升至98.3%,超越全数据监督微调训练的流匹配视觉语言动作模型表现[3][19] - 在LIBERO-Long长时序任务上,πRL使π0.5单样本监督微调性能从43.9%大幅提升至94.0%[21] - 在ManiSkill构建的4,352种抓取-放置任务组合中,πRL将π0成功率从38.42%提升至78.83%,π0.5成功率从40.06%提升至90.85%[24][27] - 在12个域随机化测试环境中,πRL显著提升了两类模型在新环境下的泛化性能[26][27] - 强化学习使模型完成操作任务的平均步数显著减少,效率逼近专家数据水平[28] 技术细节与消融研究 - 探索了两种Actor-Critic架构:一种将Critic部署在动作模型之后,另一种直接将Critic接入视觉语言模型后[14][16][20] - 对于π0模型,Critic接动作模型隐藏层输出更适用;对于π0.5模型,Critic接视觉语言模型隐藏层输出更优[20] - 算法对比显示,使用流匹配视觉语言动作模型时,PPO在最终性能和训练稳定性上均优于GRPO[31] - Flow-Noise收敛略快,Flow-SDE单步更新更快且与去噪步数解耦,两者最终性能接近[35] - 可学习噪声与固定噪声两种策略在相同框架下性能类似,证明两类噪声注入均有效[35] - Critic接在视觉语言模型后略优于接在动作模型后,且更稳定[35] 资源与未来方向 - 全部代码、模型和文档示例已完全开源,资源包括论文链接、开源代码库、模型仓库及复现文档[5][6] - 未来计划接入更多仿真环境进行更丰富的基准测试,并针对强化学习带来的泛化增益展开深入分析[36]
The next ‘golden age’ of AI investment
Fortune· 2025-10-30 18:48
AI行业投资趋势 - 财富全球论坛在沙特阿拉伯利雅得举行,商业和金融领袖普遍讨论人工智能重塑各行业[1] - Andreessen Horowitz合伙人Anjney Midha指出,投资机会的新“黄金时代”将来自“新前沿团队的爆发”,而非仅限于少数几家实验室[2] - 新一代“推理模型”通过逐步推理问题、模仿逻辑和反思改变游戏规则,能更好地评估自身输出、分解复杂任务并从反馈中学习[3] - 强化学习新范式表现卓越,专注于特定行业、正确定义奖励模型的初创公司有望建立全新的价值数十亿美元的企业[4] - 尽管存在AI行业泡沫争论,但投资热潮并未降温[5] - 2025年前三季度,生成式AI应用初创公司获得超过736亿美元风险投资,使GenAI及更广泛AI生态系统总投资额达到1101.7亿美元,较去年预计翻倍以上,自2019年以来增长八倍[6] 主要AI模型提供商融资 - 大部分资金流向大型基础模型提供商,如OpenAI、Anthropic和Mistral AI,它们持续获得数十亿美元融资轮次和飙升的估值[7] - OpenAI今年早些时候400亿美元融资是单笔最大交易,Anthropic的130亿美元融资和Mistral的17亿欧元C轮融资凸显了少数主要参与者的主导地位[7] 网络安全与AI威胁 - 财富与Lightspeed Venture Partners联合发布Cyber 60榜单,评选网络安全领域最有前途的初创公司[8] - 今年榜单包含许多开发创新工具以防御AI威胁的新公司,同时部分现有领先公司已筹集更多资金并扩展客户群[8] 风险投资交易 - Fruitist超级水果零食品牌融资1.5亿美元,由摩根资产管理领投[11] - Frontline Wildfire Defense野火防御公司A轮融资4800万美元,由Norwest领投[11] - Recess非酒精饮料开发商B轮融资3000万美元,由CAVU Consumer Partners领投[12] - Reflectiz AI驱动网站安全公司B轮融资2200万美元,由Fulcrum Equity Partners领投[12] - Kaizen公共服务软件开发公司A轮融资2100万美元,由NEA领投[13] - Arya Health家庭健康及急性后护理提供商自动化平台A轮融资1820万美元,由ACME Capital领投[13] - Emerald AI数据中心AI驱动能耗平台种子扩展轮融资1800万美元,由Lowercarbon Capital领投,英伟达、Salesforce Ventures等参与[14] - Sweatpals线下健身平台融资1200万美元,由Patron、a16z speedrun和HartBeat Ventures领投[14] - Polygraf AI企业AI安全平台种子融资950万美元,由Allegis Capital领投[15] - CustoMED AI和3D打印外科工具平台种子融资600万美元,投资方包括Longevity Venture Partners等[15] - Human Health精准健康平台融资550万美元,投资方包括LocalGlobe、Airtree等[16] - Marleybones狗粮品牌融资250万英镑(约330万美元),由TAW Ventures领投[16] 私募股权交易 - Francisco Partners同意以22亿美元收购苹果设备管理安全公司Jamf并将其私有化[17] - Forward Consumer Partners同意从Hormel Foods收购坚果酱和糖果公司Justin's的多数股权[17] - GPT Industries收购加拿大变压器整流器制造商Integrated Rectifier Technologies[18] - Peak Toolworks收购工业工具和磨削公司Southern Carbide[19] - Uncommon Equity收购休闲餐饮连锁HopCat[19] 人事变动 - AE Industrial Partners聘请Chris Aguemon和Bill Strobel担任副总裁[20] - Earlybird Health晋升Rabab Nasrallah博士和Christoph Massner博士为合伙人[20] - Windjammer Capital聘请Evan Klebe担任董事总经理,Beth Lesniak担任Principal[21] - Wing VC聘请Sunil Potti担任风险合伙人,其此前任职于谷歌云安全部门[21]
Cursor发布首个编程大模型!代码生成250tokens/秒,强化学习+MoE架构
量子位· 2025-10-30 09:06
产品发布与核心升级 - Cursor 2.0正式发布,并首次搭载了公司内部研发的大模型Composer [1][2] - 新模型Composer专为低延迟编码打造,能在30秒内完成大多数交互任务,比同行快400% [3][12] - 产品界面逻辑从“以文件为中心”切换为“以Agent为中心”,支持多个Agent同时运行、互不干扰 [6][7] 核心技术能力 - Composer模型基于强化学习训练,是一个大型MoE模型,训练过程在完整的Cursor环境中进行,使其能直接使用生产级工具 [21][22][25][26] - 模型生成代码的速度达到每秒250个tokens,比当前最快的推理模型快约两倍,比其他模型快四倍 [19][20] - 模型展现出涌现行为,能自动运行单元测试、修复代码格式错误,并可自主完成多步代码搜索与调试流程 [31] 新功能特性 - 新增原生浏览器工具,模型可以自己动手测试代码、调错、迭代,直到结果完全正确 [4] - 支持语音生成代码功能,用户无需敲键盘,可直接通过语音将思路转化为代码 [5] - 多Agent协作的基础架构建立在Composer的底层能力之上,允许让多个Agent同时尝试同一问题并择优采用 [32] 模型性能与评估 - 模型性能通过内部测试套件“Cursor Bench”评估,该系统根据真实开发者使用场景打造 [17] - 评估不仅关注代码正确性,还评估模型是否遵守抽象层次、风格规范和工程实践 [18] - 即便面对体量庞大、结构复杂的代码库,模型也能保持高水准的推理与理解能力 [13] 行业定位与战略 - 此次发布标志着公司从依赖GPT或Claude等外部模型,转向使用自研基座模型 [9][10][11] - 公司战略是发挥在应用端的产品优势,让模型直接在与用户相同的真实环境中运行,而非与头部基座模型直接竞争 [35][36]
单条演示即可抓取一切:北大团队突破通用抓取,适配所有灵巧手本体
36氪· 2025-10-29 16:55
技术框架与核心创新 - 提出DemoGrasp框架,通过单条成功抓取演示轨迹作为起点,将高维连续决策的多步马尔可夫决策过程重构为基于轨迹编辑的单步马尔可夫决策过程,显著提升学习效率[1][4] - 核心设计为“单条演示 + 单步强化学习”,用演示编辑任务替代从零开始的高维动作空间探索,将动作空间从输出所有关节指令简化为输出手腕和手指编辑参数[6][8] - 轨迹编辑包括手腕位姿编辑和手指关节编辑,通过统一变换手腕位点和对手指关节角施加增量,适配不同物体与姿态[4][11] 训练效率与性能 - 在仿真环境中利用IsaacGym创建数千个并行世界进行训练,使用单张RTX 4090显卡训练24小时即可收敛到超过90%的成功率[8] - 在权威数据集DexGraspNet上,视觉策略成功率达到92%,训练集到测试集的泛化差距仅为1%,并适应50厘米×50厘米范围的物体初始位置随机化[10] - 实验数据显示,在基于状态的设置下,DemoGrasp在训练集和测试集上的成功率分别达到95.2%和95.5%,在基于视觉的设置下分别达到92.2%和92.3%,均优于对比方法[13] 跨平台适配与泛化能力 - 框架无需调整训练超参数即可适配6种不同形态的机器人,包括五指、四指灵巧手、三指夹爪和平行夹爪,在175个物体上训练后,在多个未见物体数据集上达到84.6%的平均成功率[14] - 支持单目/双目、RGB/深度相机等多种相机观测,其中双目RGB相机组合效果最佳,能成功抓取小而薄的物体[12] - 通过视觉模仿学习将策略蒸馏成与真机对齐的RGB策略,并采用流匹配生成模型和域随机化技术,实现从仿真到真机的直接迁移[9][12] 真实环境应用效果 - 在真实机器人测试中,使用Franka机械臂和因时灵巧手成功抓取110个未见物体,常规大小物体分类成功率均超过90%[15] - 对于困难抓取任务,如扁平物体和小物体,策略成功率达到70%,其中工具类扁平物体成功率为60%,其他扁平物体为74.3%,小物体为76.7%[16] - 框架支持在杂乱多物体摆放场景下用语言指令引导抓取,真机单次抓取成功率达到84%,且对光照、背景和物体摆放的大幅变化具有鲁棒性[16]