课程学习

搜索文档
成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力
机器之心· 2025-05-29 12:53
核心观点 - 提出ZeroSearch框架 无需真实搜索即可激活大语言模型搜索能力 通过模拟搜索引擎和课程学习策略降低成本88%并在多项任务性能超越真实搜索方法[1][4][13] - 采用结构化训练模板引导模型划分思维步骤 提升推理路径清晰度 格式化的输出便于奖励计算[8][14] - 通过模拟微调策略解决Prompt生成内容与真实搜索风格差异问题 并引入正确答案扩充知识边界[9][10] - 基于课程学习逐步降低文档质量 通过指数函数控制Noisy文档生成概率 实现训练难度平滑过渡[11][13][14] - 奖励函数设计改用F1 Score抑制冗余答案 模型能自主生成结构规范回答[17][18] 方法创新 - 引入大语言模型作为模拟搜索引擎 避免传统方法频繁调用API的高成本 公式化表示为最大化奖励与KL散度约束的优化问题[4] - 采用损失屏蔽技术 仅对策略模型自生成token计算损失 防止记忆模拟文档[4] - 轨迹采集-质量评估-监督微调三步法构建高质量训练集 7B模型仅需30分钟微调[15] - 课程学习策略分三阶段:初期缓慢提升难度学习基础逻辑 中期快速提升强化推理 后期稳定应对低质量文档[22][34] 性能表现 - 在NQ/TriviaQA等7个数据集平均表现超越基线:ZeroSearch-base达40.93分 超过Search-R1-base的39.51分[20] - 参数量扩展性:3B模型激发基础能力 7B接近Google效果 14B实现超越 Google对比分为32.81 vs 34.47[28][33] - 域内外数据集均显示优势 单跳问答任务NQ最高43.6分 多跳问答HotpotQA达34.6分[20][21] - 奖励曲线显示训练后期超越真实搜索 波动更小 最终奖励提升更显著[32] 技术细节 - 模拟搜索设定中SFT-7B达到33.53分 超过Prompt-7B的31.39分 验证微调必要性[28] - 交互轮数呈现U型变化:初期冗余调用导致高轮数 中期效率提升轮数下降 后期为应对低质量文档轮数回升[30][34] - 课程学习策略显著优于随机难度训练 验证系统性能力提升路径的有效性[36]
国产人形机器人破全球纪录!连续空翻一镜到底,量产3.99w起售
量子位· 2025-03-14 19:22
文章核心观点 国产人形机器人取得进展,NOETIX Robotics松延动力的N2机器人实现连续空翻且价格亲民,其背后是硬件、算法和工程化的创新,清华创业团队展现出强大的技术和产品化能力,推动行业发展 [1][7][33] 分组1:N2机器人亮点 - 全球首个在「室内外多场景」连续空翻一镜到底的机器人,动作稳定流畅,落地后能站稳 [1][2][3] - 身高1.2米,体重30公斤,小巧灵活,具备大步行走、奔跑、单双脚跳跃及舞蹈等多种运动能力,奔跑速度实测最快可达每秒3.5米 [3] - 全身有18个自由度,单腿各有5个自由度,单臂各有4个自由度,能完成高难度动作 [9] - 单脚跳跃稳健,抗干扰能力强,摔倒后能迅速恢复正常运行 [10][11][12] - 已将量产提上日程,3.99万起售,标配二次开发接口,有三种颜色可选 [13][14] - 机身集成多个外置硬件接口,方便开发者进行二次开发,可用于科研、安防巡检等领域 [15] 分组2:N2实现连续空翻的技术路径 - 硬件架构:采用自由度精简策略,主打轻量化和抗摔性能,减少非核心自由度,选用球轴承和高强铝合金 [19][21][23] - 算法融合:实现模型预测控制(MPC)与强化学习(RL)的协同,采用课程学习技术分阶段训练 [24] - 工程化实践:以抗摔设计驱动迭代效率,采用成本导向的可靠性设计,零部件高度国产化,结构易于生产装配 [25][26][28] 分组3:清华创业团队情况 - 准00后创业团队,核心成员来自清华、浙大、南加大等高校,创始人姜哲源本科清华电子系,研究方向为深度强化学习足式机器人运动控制 [30] - 成立一年多完成三大产品布局,包括运动员N2、通用型人形机器人E1、仿生机器人Hobbs,技术和应用场景各有侧重 [31] - 一年多收获5轮2亿融资,团队能力、技术水平和产品化能力获资本认可 [32] 分组4:行业发展情况 - 春节以来国产人形机器人持续有新动作,体现「硬件 - 算法 - 场景」三角闭环下的产业技术升级 [33] - 更多本土化年轻团队崭露头角,成为行业发展主力军 [34] - N2之后团队还将推出升级版新品E1系列 [36]