核心观点 - 小红书推出行业首个社交大模型RedOne,专为SNS领域定制,突破单一任务基线模型的性能瓶颈,构建全面覆盖SNS任务的基座模型 [1] - RedOne在8个主要SNS任务上平均提升14.02%,在SNS双语评测基准上提升7.56% [1] - 线上测试显示RedOne将有害内容检测曝光率降低11.23%,浏览后搜索点击页面率提升14.95% [1] - RedOne采用三阶段训练策略(CPT→SFT→PO),实现"懂社交、懂规则、懂用户"的目标 [5] 模型性能 - RedOne在通用任务中保持优异表现,部分任务超越基座模型Qwen2.5 [26] - 在SNS领域任务上,RedOne平均提升14.02%,双语评测提升7.56% [1] - 与基础模型对比,RedOne在QueryCorr任务上提升12.63%,MRC任务提升2.76% [27] - 基于RedOne的微调模型在所有数据集上均超过基于Qwen2.5的微调模型 [28] 训练框架 - 采用三阶段训练策略:继续预训练(CPT)、监督微调(SFT)、偏好优化(PO) [5] - CPT阶段构建超千亿tokens数据集,最终筛选出200亿tokens高质量数据 [9][11] - SFT阶段整合六项核心能力:内容理解、信息提取、语义匹配、用户行为建模、对话和角色模拟、翻译能力 [16] - PO阶段采用直接偏好优化(DPO)算法,构建主观和客观任务的偏好数据集 [20][21] 数据特点 - SNS数据具有高度非规范化、强上下文依赖、显著情绪化特征 [3] - 数据收集包括通用高质量数据和SNS领域数据,后者涵盖多种社交沟通模式 [8] - 数据筛选采用规则筛选和基于小型LLM的筛选,确保数据质量 [10] - 最终构建包含200亿tokens的高质量数据集 [11] 线上应用 - 有害内容检测中违规笔记曝光率降低11.23% [32] - 浏览后搜索用户点击页面率提升14.95% [32] - 案例研究显示RedOne能精准锁定用户需求关键词 [36] 技术优势 - 三阶段训练呈现"层层递进、相互增强"效果,通用性能几乎无损 [31] - 引入通用领域数据显著提升模型在OOD任务上的泛化能力 [35] - 模型规模增加时性能持续提升,表现巨大潜力 [26] 行业意义 - 首个全面覆盖SNS领域的定制化LLM [5] - 为后续专用垂域LLM落地提供参考 [37] - 助力社交媒体内容治理与高质量互动 [37]
小红书提出首个社交大模型:八大社交任务平均提升14.02%
量子位·2025-08-01 08:46