Workflow
强化微调(RFT)
icon
搜索文档
还在卷端到端模型?Embodied-R1另辟蹊径:用“指向”+强化学习实现SOTA性能!
具身智能之心· 2025-09-02 08:03
文章核心观点 - 通用具身智能发展的核心难题是“视觉到行动的鸿沟”,源于数据稀缺和形态异构两大挑战 [2] - 研究团队提出以“指点”作为通用中间表示来弥合这一鸿沟,将复杂的操作指令转化为图像上的点或点序列 [3] - Embodied-R1模型通过引入强化微调范式和定义四种核心指向能力,在多项基准测试中实现了卓越的零样本泛化能力 [8][10][12] 技术框架与核心贡献 - 首创“指向”作为与机器人形态无关的统一中间表示,定义了四种核心具身指向能力:指代表达理解、空间区域指点、功能部位指点、视觉轨迹生成 [12][15] - 构建了大规模专用数据集Embodied-Points-200K,包含约20万个高质量样本用于训练 [15] - 引入强化微调训练范式,通过两阶段课程和多任务奖励函数有效解决了指向任务中的“多解困境” [15][17][18] 模型性能与实验结果 - 模型参数量为30亿,在11项空间推理与指点任务中取得领先成绩 [10] - 在SIMPLEREnv仿真环境中零样本成功率达到56.2%,在8个完全OOD真实任务中成功率高达87.5% [10][27] - 在针对四种核心指向能力的专项测试中,在REG、RRG、OFG和VTG等多个基准上均达到SOTA水平 [24][29] - 在面对光照、背景变化等视觉干扰时表现出强大的环境适应能力和鲁棒性 [31] 训练方法与创新点 - 采用两阶段训练课程:第一阶段训练空间推理能力,第二阶段训练具身指向能力 [15][16] - 设计了一套覆盖全面的奖励函数库,包括格式奖励、精准度奖励、距离奖励、轨迹奖励和环境奖励 [18][22] - 实验证明,强化微调训练方法性能稳定优于监督微调,在处理具有多解困境的指向任务上更有效 [17][23] 行业意义与应用前景 - 这项工作为开发更强大、更通用的具身人工智能指明了新方向,证明小参数量模型通过正确设计也能实现强大的零样本泛化 [32] - “感知-推理-决策”的点式范式为解决机器人领域长期存在的“视觉到行动的鸿沟”问题提供了有效路径 [32] - 该方法不局限于具身数据,可利用通用视觉数据,且独立于机器人形态学,具有广泛的应用潜力 [3]
深度|ARR过亿美金AI招聘00后创始人:未来最有价值的是拥有“反常识性观点”和“品味”的人,人们最应该优化自己的适应性
Z Potentials· 2025-04-24 11:10
AI赋能人才评估 - Mercor通过训练模型预测人才胜任力 准确率超越人类判断 实现招聘流程自动化 所有顶尖AI实验室已采用该系统招聘数千名工作人员[5] - 评估范围覆盖所有经济价值技能 包括咨询 软件工程 视频游戏等领域 基础模型公司和应用层公司均需上游评估任务支持[6] - 人类数据市场正经历从众包模式向筛选顶尖人才的转变 评估重点转向经济价值工作而非零样本测试[7][8] 人才评估技术演进 - 模型在文本测量领域表现超人类 可处理高体量标准化流程 但对多模态信号理解仍需发展[11][12] - 线上公开内容如GitHub Dribbble等蕴含被忽视的人才信号 模型可高效挖掘这些数据[14] - 国际背景与专业热情等隐藏信号可通过模型识别 解决人才匹配低效问题[15][16] 劳动力市场变革 - 知识型工作价值呈幂律分布 模型可识别90百分位高绩效者 显著影响企业决策[9] - 客服 招聘等领域已出现岗位替代 实体世界自动化速度将慢于数字世界[18][20] - 未来劳动力市场将碎片化转向全球化 实现人与Agent协同工作匹配[47][48] 评估系统构建 - 需按行业创建Agent评估任务 从同质化领域如客服切入 逐步扩展至复杂工作[26] - 强化微调(RFT)数据效率极高 仅需数百样本即可定制模型 优于监督式微调[42][43] - 评估系统需关注经济价值工作 如软件工程师的协调能力 而非单一任务表现[25] 企业招聘策略 - 早期阶段应优先人才密度而非速度 数据驱动识别关键人才特征[48] - 构建"数据飞轮"机制 通过绩效反馈优化招聘决策 形成正向循环[46] - 统一评估体系受限于技术 当前LMS能力突破使自动化匹配成为可能[49]