课程学习

搜索文档
成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力
机器之心· 2025-05-29 12:53
方法 无需搜索的强化学习框架 本文作者来自通义实验室和北京大学,第一作者是北京大学智能学院博士生孙浩,主要研究方向是RAG和Agent,在 NeurIPS、ACL、EMNLP 等国际顶级会议上 发表多篇论文,师从张岩教授。该工作在阿里巴巴通义实验室RAG团队实习期间完成。 信息检索能力对提升大语言模型 (LLMs) 的推理表现至关重要,近期研究尝试引入强化学习 (RL) 框架激活 LLMs 主动搜集信息的能力,但现有方法在训练过程中 面临两大核心挑战: 为了解决这些问题,我们提出了 ZeroSearch 框架 —— 无需真实搜索,直接用大语言模型模拟搜索引擎,并引入课程学习策略,在显著降低 88% 成本的同时,在 多项任务上性能超过依赖真实搜索引擎的方法。 传统训练方法需要在 Rollout 阶段频繁与真实搜索引擎交互,产生大量 API 开销,而大语言模型在预训练阶段积累了丰富的世界知识,具备根据 query 返回相关信 息的能力,因此 ZeroSearch 创新性地引入大语言模型作为模拟搜索引擎(Simulation LLM),无需真实搜索,即可为策略模型生成检索文档,大幅降低了训练成 本: $$\oper ...
国产人形机器人破全球纪录!连续空翻一镜到底,量产3.99w起售
量子位· 2025-03-14 19:22
文章核心观点 国产人形机器人取得进展,NOETIX Robotics松延动力的N2机器人实现连续空翻且价格亲民,其背后是硬件、算法和工程化的创新,清华创业团队展现出强大的技术和产品化能力,推动行业发展 [1][7][33] 分组1:N2机器人亮点 - 全球首个在「室内外多场景」连续空翻一镜到底的机器人,动作稳定流畅,落地后能站稳 [1][2][3] - 身高1.2米,体重30公斤,小巧灵活,具备大步行走、奔跑、单双脚跳跃及舞蹈等多种运动能力,奔跑速度实测最快可达每秒3.5米 [3] - 全身有18个自由度,单腿各有5个自由度,单臂各有4个自由度,能完成高难度动作 [9] - 单脚跳跃稳健,抗干扰能力强,摔倒后能迅速恢复正常运行 [10][11][12] - 已将量产提上日程,3.99万起售,标配二次开发接口,有三种颜色可选 [13][14] - 机身集成多个外置硬件接口,方便开发者进行二次开发,可用于科研、安防巡检等领域 [15] 分组2:N2实现连续空翻的技术路径 - 硬件架构:采用自由度精简策略,主打轻量化和抗摔性能,减少非核心自由度,选用球轴承和高强铝合金 [19][21][23] - 算法融合:实现模型预测控制(MPC)与强化学习(RL)的协同,采用课程学习技术分阶段训练 [24] - 工程化实践:以抗摔设计驱动迭代效率,采用成本导向的可靠性设计,零部件高度国产化,结构易于生产装配 [25][26][28] 分组3:清华创业团队情况 - 准00后创业团队,核心成员来自清华、浙大、南加大等高校,创始人姜哲源本科清华电子系,研究方向为深度强化学习足式机器人运动控制 [30] - 成立一年多完成三大产品布局,包括运动员N2、通用型人形机器人E1、仿生机器人Hobbs,技术和应用场景各有侧重 [31] - 一年多收获5轮2亿融资,团队能力、技术水平和产品化能力获资本认可 [32] 分组4:行业发展情况 - 春节以来国产人形机器人持续有新动作,体现「硬件 - 算法 - 场景」三角闭环下的产业技术升级 [33] - 更多本土化年轻团队崭露头角,成为行业发展主力军 [34] - N2之后团队还将推出升级版新品E1系列 [36]