强化微调（RFT） - 财报，业绩电话会，研报，新闻

强化微调（RFT）

搜索文档

还在卷端到端模型？Embodied-R1另辟蹊径：用“指向”+强化学习实现SOTA性能！

具身智能之心· 2025-09-02 08:03

文章核心观点 - 通用具身智能发展的核心难题是“视觉到行动的鸿沟”，源于数据稀缺和形态异构两大挑战 [2] - 研究团队提出以“指点”作为通用中间表示来弥合这一鸿沟，将复杂的操作指令转化为图像上的点或点序列 [3] - Embodied-R1模型通过引入强化微调范式和定义四种核心指向能力，在多项基准测试中实现了卓越的零样本泛化能力 [8][10][12] 技术框架与核心贡献 - 首创“指向”作为与机器人形态无关的统一中间表示，定义了四种核心具身指向能力：指代表达理解、空间区域指点、功能部位指点、视觉轨迹生成 [12][15] - 构建了大规模专用数据集Embodied-Points-200K，包含约20万个高质量样本用于训练 [15] - 引入强化微调训练范式，通过两阶段课程和多任务奖励函数有效解决了指向任务中的“多解困境” [15][17][18] 模型性能与实验结果 - 模型参数量为30亿，在11项空间推理与指点任务中取得领先成绩 [10] - 在SIMPLEREnv仿真环境中零样本成功率达到56.2%，在8个完全OOD真实任务中成功率高达87.5% [10][27] - 在针对四种核心指向能力的专项测试中，在REG、RRG、OFG和VTG等多个基准上均达到SOTA水平 [24][29] - 在面对光照、背景变化等视觉干扰时表现出强大的环境适应能力和鲁棒性 [31] 训练方法与创新点 - 采用两阶段训练课程：第一阶段训练空间推理能力，第二阶段训练具身指向能力 [15][16] - 设计了一套覆盖全面的奖励函数库，包括格式奖励、精准度奖励、距离奖励、轨迹奖励和环境奖励 [18][22] - 实验证明，强化微调训练方法性能稳定优于监督微调，在处理具有多解困境的指向任务上更有效 [17][23] 行业意义与应用前景 - 这项工作为开发更强大、更通用的具身人工智能指明了新方向，证明小参数量模型通过正确设计也能实现强大的零样本泛化 [32] - “感知-推理-决策”的点式范式为解决机器人领域长期存在的“视觉到行动的鸿沟”问题提供了有效路径 [32] - 该方法不局限于具身数据，可利用通用视觉数据，且独立于机器人形态学，具有广泛的应用潜力 [3]

深度｜ARR过亿美金AI招聘00后创始人：未来最有价值的是拥有“反常识性观点”和“品味”的人，人们最应该优化自己的适应性

Z Potentials· 2025-04-24 11:10

AI赋能人才评估 - Mercor通过训练模型预测人才胜任力准确率超越人类判断实现招聘流程自动化所有顶尖AI实验室已采用该系统招聘数千名工作人员[5] - 评估范围覆盖所有经济价值技能包括咨询软件工程视频游戏等领域基础模型公司和应用层公司均需上游评估任务支持[6] - 人类数据市场正经历从众包模式向筛选顶尖人才的转变评估重点转向经济价值工作而非零样本测试[7][8] 人才评估技术演进 - 模型在文本测量领域表现超人类可处理高体量标准化流程但对多模态信号理解仍需发展[11][12] - 线上公开内容如GitHub Dribbble等蕴含被忽视的人才信号模型可高效挖掘这些数据[14] - 国际背景与专业热情等隐藏信号可通过模型识别解决人才匹配低效问题[15][16] 劳动力市场变革 - 知识型工作价值呈幂律分布模型可识别90百分位高绩效者显著影响企业决策[9] - 客服招聘等领域已出现岗位替代实体世界自动化速度将慢于数字世界[18][20] - 未来劳动力市场将碎片化转向全球化实现人与Agent协同工作匹配[47][48] 评估系统构建 - 需按行业创建Agent评估任务从同质化领域如客服切入逐步扩展至复杂工作[26] - 强化微调(RFT)数据效率极高仅需数百样本即可定制模型优于监督式微调[42][43] - 评估系统需关注经济价值工作如软件工程师的协调能力而非单一任务表现[25] 企业招聘策略 - 早期阶段应优先人才密度而非速度数据驱动识别关键人才特征[48] - 构建"数据飞轮"机制通过绩效反馈优化招聘决策形成正向循环[46] - 统一评估体系受限于技术当前LMS能力突破使自动化匹配成为可能[49]