L0系统 - 财报，业绩电话会，研报，新闻 - Reportify

L0系统

搜索文档

性能提升84%-166%！L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

量子位· 2025-07-01 08:53

招商局狮子山人工智能实验室投稿量子位 | 公众号 QbitAI 大模型可以不再依赖人类调教，真正"自学成才"啦？新研究仅通过 RLVR （可验证奖励的强化学习），成功让模型自主进化出通用的探索、验证与记忆能力，让模型学会"自学"！当前主流的LLM Agent依然高度依赖于提示词工程、复杂的系统编排、甚至静态规则表，这使得它们在面对复杂任务时难以实现真正的智能行为演化。而来自招商局狮子山人工智能实验室的研究团队认为，RLVR范式是智能体（Agent）通往更高通用性和自主性的重要突破口。于是，他们从两个关键层面出发构建了端到端Agent训练pipeline—— L0系统：智能体架构层面提出了结构化智能体框架——NB-Agent，在经典"代码即行动" （Code-as-Action）架构基础上进行扩展，使智能体能够操作记忆/上下文，从而获得类人类的记忆存储、信息总结与自我反思能力。学习范式层面探索了一个核心问题：是否可以仅通过RLVR范式，引导智能体从零开始，学会如何规划、搜索、验证与记忆，最终解决复杂的多轮推理任务？ L0系统的框架、模型及训练集已全部开源，详细可见文末链接。 ...