对话大厂算法工程师：AI 时代，算法从不是为了制造茧房

文章核心观点 - 推荐算法是当前规模最大、最成熟的AI推理应用场景，源于深度学习等技术突破，是检验大模型能力并实现规模化商业价值的关键赛场[1] - 推荐算法本质是信息检索，其发展经历了从人工编辑、传统机器学习到深度学习与大模型结合的复杂演进过程[5] - 现代推荐系统是一个涉及多目标平衡、长期价值建模和生态治理的复杂工程，其核心目标并非单纯最大化用户时长，而是保障用户长期留存与平台生态健康[4][8][10] - 用户审美和需求的变化是影响平台内容趋势的根本力量，远大于算法调整的影响[13][14] - 推荐系统正积极应用大模型技术以提升内容理解与推荐效果，并致力于打破“信息茧房”，探索用户新兴趣[18][24][35] - 推荐系统的价值评估需兼顾用户价值、生态价值与社区价值，后两者虽难以观测但决定了平台的长期生命力[32] 根据相关目录分别进行总结 01 推荐算法本质是信息检索，围绕用户满意度建模 - 推荐算法本质是信息检索，技术演进经历了多个阶段：2005年前为人工编辑推荐；2005-2012年机器学习兴起；2012-2016年传统机器学习应用；2016年后进入深度学习阶段[5] - 2016年谷歌将神经网络应用于YouTube推荐，带来点击率(CTR)10%-20%的暴涨，但也引发了标题党等问题，促使行业引入多目标优化进行生态治理[6] - 个性化推荐能力极强，若无现代技术，用户寻找感兴趣视频的时间成本可能增加100倍[7] - 2018年后，推荐技术重点转向序列建模与多目标建模，目标包括点击、时长、点赞、关注、分享等，旨在综合反映用户满意度[8] - 推荐系统需平衡三端体验：用户体验（C端，如推荐准确性）、作者体验（B端，如流量分配公平性）和平台生态健康（如治理低质内容）[8] 02 时长不是唯一目标，更希望用户一年后还用 - 互联网公司的核心目标并非极致优化单日用户时长，而是关注用户长期留存，例如未来180天或一年后是否仍使用该应用[10] - 长期价值建模关注用户有效互动（点赞、关注、评论）及对同一创作者的长期关注度，这比短期时长更有意义[10] - 平台生命力依赖于创作者与用户的良性循环，创作者流失将导致用户流失，因此平台重视创作者体验与公平[11] - 算法迭代通常是小步快跑，单次迭代对全局流量影响很小（如千分之一变化），重大技术突破一年中寥寥无几，并通过大量指标追踪系统稳定性[11][12] - 新作者会获得“冷启动”流量保底（例如1000播放），以确保优质内容不被埋没[11] 03 比起推荐算法，用户审美更影响平台内容 - 用户审美和需求的变化是驱动平台内容趋势演变的根本力量，影响力远大于算法调整[13] - 内容品类的兴衰（如从模仿跟拍到剧情、三农内容）反映了用户新需求的出现，算法调整（如增加收藏目标）只会顺应而非创造趋势[13] - 用户对内容质量的要求随时间自然提高，例如从碎片化知识转向深度知识，对短视频的专业性、自然度要求更高，这为优质中长视频创造了机会[15] 04 推荐系统无需理解内容，最新应用大模型去理解内容 - 中国互联网每日新上传视频达“亿”量级，观看量达“千亿”量级[16] - 系统中的用户、视频、作者均被表征为几百到几千维的浮点数字向量，这些表征由模型自动学习，人类无法直观理解其含义[16][17] - 传统用户标签（如“喜欢钓鱼”）的权重正在降低，且可能出错[18] - 视频上传后流程包括：机审（最新技术用大模型提取帧、音频文字进行合规审查）、人审、打内容标签、转化为向量[18] - 推荐链路分为召回（从海量池中粗筛出几万或几百个视频）、多目标排序、重排（保证多样性、兴趣探索、平衡商业内容）几个关键步骤[19][20] - 从用户请求到结果返回，整个过程耗时在几分钟到一两个小时之间[21] - 系统通过“模糊计算”（如树状检索）从亿级候选视频中高效筛选出几万个进行精排，并非随机抽取[21] 05 为了用户长期留存，算法一直在努力打破“茧房” - 推荐系统会主动拿出部分流量（文中举例“千亿的流量”）进行随机分发以打破“信息茧房”，但随机推送的点击率可能仅为大盘的1%，用户满意度可能仅为千分之一[22] - 若无推荐系统，用户在内容爆炸时代几乎无法有效获取感兴趣内容，看到的将是平均水平的内容[22][23] - 系统通过多目标权重鼓励兴趣探索，旨在帮助用户发现新观点、新内容，以适应其未来可能变化的需求，这对长期留存有正向作用[24] - 算法纠偏用户偏好的过程如同“拔河比赛”，需要在短期迎合与长期探索间取得平衡[24] - 技术迭代需前置考虑风险，但部分问题（如灰黑产利用规则漏洞）仍需后置治理，且系统必须持续演进以适应数据量级（从千万到亿级）和用户需求的变化[25] 06 对平台生态和社区价值的伤害，多年后才能观测到 - 对于灰黑产或风险内容（如极端减肥），平台有治理动力，因这对平台亦不利[28] - 推荐算法应管理符合法律法规和道德约束的底线，而非判断观点对错[29] - 对于挑动对立情绪的内容，可通过大模型识别评论区氛围（如“争议”或“友善”标签），并在排序中抑制前者、鼓励后者，以维护社区氛围[30] - 平台“画风”指产品满足用户核心意图的定位，这定义了产品的增长逻辑和功能[30] - 推荐系统价值分为三层：易衡量的用户价值（如DAU）、难衡量的生态价值（品类结构、作者质量）以及需长期观测的社区价值（口碑、氛围），伤害后两者将损害平台未来[32] 07 算法没法控制用户喜好，信息战是真实世界的延伸 - 推荐算法本质仍是信息检索技术，其面临的价值判断挑战因信息在生活中的重要性提升而被放大[33] - 算法不应主张涉及社会法律规范、公序良俗的判断，但可以在“画风”（如内容形式、社区讨论风格）上有所主张，前提是和平、友善且基于事实[34] - 关于兴趣探索与“茧房”等矛盾，部分挑战源于社会尚未形成统一的道德认知，一旦形成共识，技术层面便可解决[34] 08 大模型深刻影响推荐，带来技术上的提升 - AI将深刻影响内容供需两端：可能减少某些搜索和知识类内容需求，并提升AI生成内容的质量与数量[35] - 大模型将从三方面助力推荐系统：1) 提供更丰富、充沛的视频内容理解；2) 直接服务推荐，可能带来相比10年前技术10倍以上的提升；3) 改变推荐交互形式，探索通过自然语言指令逼近理想推荐状态[35] - 工程逻辑上，系统会响应用户表达的意图（如搜索后推荐相关内容），但最终会根据用户实际行为（是否点击）来调整，真实需求是最终依据[36] - 用户“希望成为的样子”与日常内容消费可以互补，前者是动力，后者是滋养，且搜索功能可以满足特定意图[37]