Training

搜索文档
我在 Character.ai 做 Post Training|42章经
42章经· 2024-11-24 22:09
CharacterAI的核心优势 - 全自研模型带来性能优势 可自由调整预训练语料比例以优化对话效果 [3] - 技术团队将推理成本压缩至同参数量模型的1% 支撑千万级免费用户 [3] - 用户偏好对齐高效 建立从数据反馈到模型迭代的闭环 [3] - 当前核心用户日均使用时长2小时 月活2000万(年增100%) 预计明年月活达3000万 [3] Post Training技术实践 - SFT阶段使用精挑细选的高质量人类对话数据 与预训练数据质量差异显著 [4] - RLHF通过奖励模型模拟教师批改 DPO直接利用用户偏好数据简化流程 [4] - 数据与产出形式需高度一致 如将万字同人文拆解为50段对话格式 [5] - 通过预生成回复/光标动画/双模型搭配将语音延迟从2秒压缩至0.5秒内 [5] 模型迭代方法论 - 建立高频测试机制 包括优化评估集/AB测试/数据回流/管线健壮性 [5] - 通过用户对话次数/时长/留存等数据评估迭代效果 关注细分用户变化 [5] - 涌现出"提问式回避"等行为特征 模型自主规避敏感话题延长对话轮次 [5] 行业发展趋势 - 多模型混用成为主流 如OpenAI不同任务采用差异化模型组合 [6] - 硅谷关注点转向推理优化 如entropix项目探索模型自信度调节机制 [6] - 产品端聚焦多模态变现 算法端追求o1式突破 期待Agent交互场景 [6] - 一级市场投资更趋务实 从技术叙事转向商业模式验证 [6] 人才与组织观察 - Post Training人才供需失衡 相关岗位面试强调实战解题思路 [6] - 初创公司普遍存在自驱型加班现象 工程师主动参与用户问题处理 [6] - 硅谷华人技术群体影响力提升 核心岗位占比显著增加 [6]