Workflow
推荐系统
icon
搜索文档
对话 Elys 创始人 Tristan:人的灵魂是所有 context 的总和,我们从未被真正连接过
Founder Park· 2026-03-06 17:44
公司及产品背景 - 公司“自然选择”是一家专注于AI陪伴与社交产品的公司,其创始人Tristan(张筱帆)曾成功推出首月流水超3000万人民币的男性向恋爱手游《奇点时代》[2] - 公司已推出AI陪伴产品EVE,并在此基础上开发了新型AI社交产品Elys,后者在春节期间出现“一码难求”的现象[3] - 公司于1月份完成了3000万美金融资,投资方包括阿里、蚂蚁等机构[3] 产品核心理念与第一性原理 - 公司所有产品的第一性原理是“围绕context(上下文/语境)来构建一切”[4][6] - 创始人认为,之前的互联网人类从未真正被连接,只是在使用工具,而公司的目标是“创造一个人与人之间的低熵世界”[4] - 在AI时代,拥有context就能驱动无穷多的事情,而比赋能单个节点(1V1交互)更重要的是节点之间的互动与流动[7] Elys产品的核心系统 - **基于context的记忆系统和记忆飞轮**:这是最基础的系统,源于EVE产品中处理长时记忆的需求,用户对话可达两万轮以上[12] - **基于LLM的推荐系统**:这是一个超级关键的中间系统,负责让context在不同节点间流动[9] - **赛博分身构建系统**:让用户能够快速打造出自己的“赛博分身”[9] - 这三个系统共同支撑了Elys这一新的产品形态[9] 记忆系统的技术实现与洞察 - 记忆系统的本质是一个推荐系统,公司将其分为主动式记忆和被动式记忆[16] - 公司设计了“记忆槽位”(slots)来实现主动式记忆,例如设置了128个槽位,通过训练一个小模型根据query选择相关的32个槽位带入生成过程,这与当前的query检索可能无关,但对生成高维、类人的回答至关重要[17][18] - 记忆系统遵循“最小充分原则”,即用尽可能少但充分的信息来代表一个人的灵魂[19][20] - 在EVE产品中,基于深度context开发的功能(如“专属情歌”)能产生高度个性化、打动人的价值,证明了长程、多轮复杂记忆是交付个性化用户价值和建立羁绊的关键[13][14] 对竞品与行业趋势的看法 - 公司认为Moltbook这类强调“AI与AI社交”的产品毫无意义,因为没有新的人类信息输入会导致无限幻觉和循环,且缺乏Elys所具备的核心系统(记忆系统、context飞轮、基于LLM的推荐)[21][22][24] - 判断一个产品是否有延展性的标准包括:是否带来范式变化(如“主动性”交互),以及关键系统(如Context Engineering能力)的执行情况[23] - 创始人认为,真正有网络效应的AI社交产品,其交互的两端中必须有一端是人类,纯粹AI与AI的互动只会产生垃圾信息[31] 产品愿景与社交目标 - Elys的终极目标是构建一个“真正连接效率足够高的互联网”,即“人与人之间的低熵世界”[25] - 理念是:人与人之间的摩擦(沟通障碍、心灵壁垒)是最大的熵增来源,AI可以通过消耗计算能量来消除这些摩擦,为人类创造一个低熵环境[25][26] - 社交网络应由“context节点”组成,一个人的灵魂是其所有context的总和,当这些Token化的灵魂能够高效匹配时,就能实现真正的连接[26][35] - 产品已观察到用户间产生高维连接的案例,例如基于共同兴趣的共鸣、通过分身发现抄袭者、以及分身互动帮助化解现实人际关系心结等[27][28] 产品设计原则与用户引导 - 产品坚持“任何交互发生的两端的其中一端必须有人类”,不允许AI自行发帖或进行无人类参与的互动,以保持社区的置信度[31] - 通过基于LLM的推荐系统,在后台进行高维匹配(如“100万Token对撞”),并以不显化私密记忆的方式向用户推荐可能匹配的人,通过安排评论区互动等方式自然引导连接[32][33][34] - 用户导入(“灵魂塑造”)流程设计为较长的开放式对话形式,旨在通过对话激发用户深层表达,获取结构化问题难以抽取的高维context,以保障用户进入产品后的“aha moment”[37][38][39] - 设计了“认可”功能,通过一键点击加特效反馈的方式,将人类输入信息的门槛降到最低,用户对分身行为的认可会直接形成新的记忆,丰富其灵魂context[40][42] 获取用户Context的挑战与策略 - 未来C端产品的竞争核心在于谁能更高效、系统性地获取用户相关context的带宽、同步速率和权限[47] - 发现微信朋友圈的context价值有限,因其已成为“虚伪的”营业场所;Notion等笔记中的信息也可能因用户并未真正消化而意义不大;最有价值的可能是个人日记,但普及度低[45][46][47] - 公司的核心产品设计命题是:如何让用户愿意交出大量context。EVE的成功在于它以一种舒适的方式(如记日记)撬动了用户数万轮的对话输入[48][49] 团队现状与未来发展 - 当前团队规模在10人以内,同时推进EVE和Elys两个重要产品,工作强度很高[50] - 下一步关键是在规模化(scale up)之前跑通商业化模型,因为Elys是公司内部单用户消耗Token最多的产品,需要让收入打平高昂的算力成本[50] - 尽管面临专注度的质疑,但创始人认为面对可能改变世界的机会,必须打破“专注”原则去尝试,且当前时代试错成本更低[51] - 预计产品会被模仿,但创始人认为Elys定义了一个结构优雅的AI native社交网络范式,最在意的潜在竞争对手是像ChatGPT这样的巨头可能在几个月内推出类似社交网络[51]
ISSCC 重磅:28nm CiM 芯片,能效飙升 181 倍,市场空间有多大?
是说芯语· 2026-03-02 10:41
文章核心观点 - 清华大学与华为等联合发布的基于HYDAR框架的28nm混合存内计算芯片,在性能、能效和精度上取得突破,为推荐系统等场景的算力瓶颈提供了全新解决方案,具备广阔的市场前景[1][3][18] 技术突破与性能表现 - 该芯片采用28nm工艺,以RRAM为核心载体,通过DL-ADC早期终止、PPSP调度流水线等优化,实现了高吞吐、高能效与高精度的平衡[1] - 单芯片性能表现:吞吐率达390K QPS,能效比达1574K QPS/W[1] - 多芯片扩展后,性能提升显著:QPS提升66倍,能效提升181倍[1][5] - 与同业技术对比优势明显:在28nm工艺下,其吞吐率(390K QPS)和能效比(1574K QPS/W)远超采用55nm DRAM、96层3D NAND或SRAM-CAM等技术的其他方案[9] 核心应用场景:推荐系统 - 芯片精准匹配推荐系统对相似向量检索的高算力需求,核心落地场景包括电商、流媒体、社交、广告等领域[4] - 可破解大规模推荐算力瓶颈:例如,帮助短视频平台应对高峰期每秒数十万并发调用、从上百亿级内容库中完成精准推荐的挑战[5] - 对于互联网巨头,该芯片可直接替换现有低效加速器,在保证推荐准确率的前提下,大幅降低数据中心算力成本与能耗[5] - 芯片的大规模扩展能力可适配不同业务规模,从中小平台的轻量化需求到巨头的超大规模向量检索场景,实现性能与成本的最优平衡[5] - 其高吞吐特性还能支撑生成式推荐模型的快速推理,助力平台构建“内容-推荐-广告”的协同闭环[5] 市场延伸与行业赋能 - 除推荐系统外,芯片的高并行度优势可延伸至AI推理、大数据检索、图像识别等高并行计算场景[10] - 在AI大模型边缘推理场景中,其高能效比可降低设备功耗,适配终端算力需求[10] - 中国AI芯片市场规模预计在2029年激增至1.34万亿元,年复合增长率达53.7%,存算一体芯片作为核心支撑,市场需求将持续释放[10] - 芯片采用28nm成熟工艺,相较于高端制程更具成本优势,易于规模化量产,可快速切入AI算力市场,填补中高端加速器市场空白[10] - 芯片的高能效比与小型化潜力,可适配工业物联网和消费物联网中的边缘计算场景,如设备状态监测、智能调度、个性化推荐等[11] - RRAM具备非易失性、低功耗、高密度优势,随着3D堆叠技术成熟,芯片性能与存储密度将进一步提升,成为边缘计算的核心算力支撑[11] 行业发展前景与竞争格局 - 存算一体技术被公认为深度学习加速的极具前景的技术路线,RRAM成为行业布局重点,台积电、三星、美光等全球巨头及国内企业均在积极布局[13] - 该芯片首次将RRAM存内计算技术与推荐系统深度结合,解决了核心痛点,其优化方案为行业提供了可复用的技术范式[14] - 未来随着工艺向14nm及以下制程升级,以及多芯片扩展技术完善,其性能将提升,成本将持续降低[14] - 推荐系统加速器是AI芯片的重要细分市场,互联网平台推荐系统升级需求迫切,AI大模型与推荐系统结合将进一步推高算力需求[15] - 全球存算一体技术市场规模预计从2024年的2.68亿美元增长至2031年的54亿美元,年复合增长率达42.7%[15] - 芯片凭借“高吞吐、高能效、高精度”的差异化优势,打破了现有由传统转型企业、通用工具厂商和垂直服务商构成的“三足鼎立”竞争格局[16] - 产学研协同模式是核心竞争力:清华大学提供科研支撑,华为等企业提供产业资源与场景验证,加速技术迭代与规模化应用[16] - 采用28nm成熟工艺,避免了高端制程的产能瓶颈与成本压力,量产和成本优势显著[16]
Meta电话会:推荐系统正在被大模型重写,没有智能眼镜的未来“难以想象”
华尔街见闻· 2026-01-29 10:28
公司业绩与财务表现 - 2025年第四季度总营收为599亿美元,同比增长24% [19][20] - 第四季度应用家族总收入为589亿美元,同比增长25%,其中广告收入为581亿美元,同比增长24% [19] - 第四季度净利润为228亿美元,每股收益8.88美元 [21] - 2026年第一季度总营收指引为535亿美元至565亿美元,预计同比增长将加速 [32][37] - 2026年全年资本支出指引为1150亿美元至1350亿美元,同比大幅增长,主要用于超级智能实验室与核心业务 [11][16][33] - 公司预计2026年全年营业收入将高于2025年 [33][46] - 第四季度自由现金流为141亿美元,期末现金及有价证券为816亿美元 [21] 用户增长与互动 - 公司旗下应用每日至少有35亿用户使用 [12][19] - Facebook和WhatsApp的日活跃用户均超过20亿,Instagram日活跃用户接近20亿 [12] - Instagram Reels在美国的观看时长同比增长超过30% [8][22] - Facebook视频观看时长维持两位数同比增长 [8][22] - 第四季度产品优化使Facebook自然信息流与视频帖子浏览量提升7%,是近两年单季度对营收推动最大的一次优化 [8][22] - Threads用户停留时长在第四季度优化后提升20% [8][23] - 在Instagram美国市场,75%的推荐内容来自原创帖子 [8][23] 广告业务与变现效率 - 广告业务是当前增长最重要的驱动力,未来几年仍将是最大确定性 [10][52] - 第四季度广告总展示次数增长18%,平均单条广告价格同比增长6% [19] - 通过优化广告投放,2025年下半年Facebook上跨用户和跨会话重新分配广告带来的收入增长几乎是广告投放量增长的四倍 [25] - 第四季度GEM模型和序列学习技术的改进推动Facebook广告点击量提升3.5%,Instagram转化率提升超过1% [16][26] - 第四季度在Instagram推出的新运行时模型使转化率提升3% [16][27] - 在Lattice支持下,模型统一与后端改进使广告质量提升12% [16][27] - 视频生成工具的综合营收年化率达到100亿美元,环比增长速度几乎是整体广告收入增长速度的三倍 [28] - 增量归因功能的最新模型相比标准归因模型,转化率提升24%,该产品推出七个月年收入已达数十亿美元 [29] AI战略与基础设施投资 - 公司战略重心从“更好的广告系统”升级为“以个人超级智能为核心的产品与基础设施重构” [4] - 2025年已完成AI体系重构,将在未来几个月开始持续发布新模型与产品,推动“个人超级智能”进入实际应用阶段 [4][6][13] - 成立Meta Compute公司,旨在通过工程设计、投资和合作建设形成基础设施的战略优势,并把“硅与能源”视为长期能力的一部分 [15][16] - 当前存在产能瓶颈,需求增长快于供给,自建新增容量要到2026年晚些时候上线 [16][39] - 扩展了Andromeda广告检索引擎,使其可以在NVIDIA、AMD和MTIA芯片上运行,计算效率提升近三倍 [16][31] - 计划将MTIA项目从推理扩展到支持核心排名和推荐训练工作负载 [16][31] AI产品与技术创新 - 将AI智能眼镜定位为下一代核心计算终端,类比为智能手机取代功能机的关键节点 [4][5] - 智能眼镜在过去一年中的销量增长了三倍,被称为“历史上增长最快的消费电子产品之一” [5][14] - Reality Labs的战略重心正从元宇宙转向AI可穿戴设备与自研模型 [4][5] - 致力于将大模型与Facebook、Instagram、Threads以及广告系统的推荐系统进行整合 [13] - 正在构建基于LLM的全新推荐模型架构,以更深入地理解内容并推断用户兴趣 [23][60] - AI视频本地化配音已支持九种语言,每天有数亿用户观看,显著提升了Instagram用户停留时间 [24] - 用户每天观看的Reels视频中,近10%来自Edits应用,比上一季度增长近三倍 [24] - Meta AI第四季度每日活跃用户创作媒体内容的数量同比增长了三倍 [24] 新兴业务与商业化探索 - WhatsApp付费消息服务年收入已突破20亿美元 [16][29] - 点击消息广告在美国市场同比增长超过50% [16][29] - 在墨西哥和菲律宾的商业AI早期进展顺利,每周有超过100万次用户对话 [16][29] - 计划将Threads广告扩展到所有剩余国家/地区,包括英国、欧盟和巴西 [16][25] - 计划在年内完成WhatsApp广告和状态功能的全面推广 [16][25] - 收购Manus作为案例,目标是将企业常用工具整合进广告与商务管理平台,提升对中小企业的“一体化交付能力” [10][36] - 正在测试Meta AI商业助手,以协助广告主完成广告活动优化和账户支持等任务 [27] 运营效率与组织变革 - 公司员工人数超过78800人,同比增长6% [21] - 自2025年初以来,每位工程师的产出增长30%,其中大部分来自智能体编码的普及 [30] - 人工智能编码工具的高级用户产出同比增长80% [30] - 公司致力于简化团队结构,提升个人贡献者地位,利用AI工具使项目可由更少员工完成 [17]
刚刚,马斯克开源基于 Grok 的 X 推荐算法:Transformer 接管亿级排序
搜狐财经· 2026-01-21 04:23
文章核心观点 - 马斯克领导的X公司时隔近三年再次开源其核心推荐算法,旨在提升平台透明度并应对外界对其内容分发机制的系统性质疑 [1][11][12] - 开源的算法采用了与Grok相同的Transformer架构,通过端到端学习预测用户兴趣,代表了推荐系统向大模型驱动演进的技术趋势 [1][4][7] - 推荐系统是互联网公司的核心基础设施,直接影响用户参与度和商业变现,而大型语言模型(LLM)为简化传统复杂、碎片化的推荐工程架构提供了新的可能路径 [18][21][22] X推荐算法开源事件详情 - 开源时间与承诺:马斯克于2024年1月11日承诺在7天内开源新X算法,并于近期兑现,计划每4周更新一次代码并附开发者说明 [11] - 开源内容:此次开源的是为“为你推荐”信息流提供支持的核心推荐系统,包含算法框架,但未包含模型权重、具体打分参数及训练数据 [1][17][20] - 历史渊源:这是马斯克第二次开源X(前身为Twitter)的推荐算法,首次开源在2023年3月31日,当时项目在GitHub获得超过10k颗Star [9] - 开源动机:此举被视为应对平台被批评算法系统性偏袒右翼观点、内容审核机制失效等争议,旨在提升透明度和公信力,而非纯粹的技术决策 [12] 开源算法技术架构与逻辑 - 核心模型:采用基于Grok的Transformer模型对内容进行排名,该架构与Grok相同,通过端到端学习预测用户行为概率并加权得出综合得分 [1][4] - 内容来源:算法从两大来源获取候选内容,包括用户关注的账号(In-Network)和平台通过机器学习检索发现的其他帖子(Out-of-Network) [3] - 处理流程:系统会过滤掉低质量、重复、违规、用户已屏蔽或不感兴趣的内容,仅对有价值的候选内容进行排序 [4][6] - 行为权重:根据用户社区总结,算法对“回复+作者回应”的权重是点赞的75倍,包含链接或用户不回复评论会降低曝光率,用户观看时长是关键指标 [14] 推荐系统的行业地位与LLM的影响 - 商业核心地位:推荐系统是互联网巨头的关键基础设施,直接驱动商业变现,例如亚马逊约35%的购买、Netflix约80%的观看时长、YouTube约70%的观看来自推荐系统 [18] - 工程复杂性:传统推荐系统通常由数十个专用模型(如召回、粗排、精排模型)组成,导致工程复杂、维护成本高、跨任务协同困难 [19][21] - LLM带来的变革:大型语言模型(LLM)作为通用模型,有望用一个模型解决多个推荐问题,显著降低系统复杂度,并实现不同任务间的“交叉学习”潜力 [21][22] - 能力跃迁:LLM改变了传统依赖人工特征工程的方式,其基于海量数据训练出的理解能力,使其能够直接理解推荐任务本身并综合判断,而非仅执行规则 [22][23]
刚刚,马斯克开源基于 Grok 的 X 推荐算法!专家:ROI 过低,其它平台不一定跟
AI前线· 2026-01-20 17:36
X推荐算法开源事件概述 - 马斯克旗下X平台时隔近三年再次开源其核心推荐算法 该算法负责生成用户主界面的“为你推荐”信息流 [2][12] - 开源库包含支持“为你推荐”信息流的核心推荐系统 结合了用户关注账号的网络内内容和通过机器学习检索发现的网络外内容 并使用基于Grok的Transformer模型对所有内容进行排名 [3] - 开源项目在GitHub上已获得679颗星 代码主要由Rust(62.9%)和Python(37.1%)语言构成 [5] 算法核心架构与运行逻辑 - 算法从两类来源抓取候选内容:用户主动关注的账号发布的帖子(In-Network)以及系统在整个内容库中检索出的可能感兴趣的帖子(Out-of-Network) [6][9] - 系统会过滤掉低质量、重复、违规或不合适的内容 例如已屏蔽账号的内容、用户明确不感兴趣的主题以及非法、过时或无效的帖子 [7][10] - 算法核心是使用一个基于Grok的Transformer模型对每条候选帖子进行评分 该模型根据用户历史行为预测点赞、回复、转发、点击等行为的概率 并将这些概率加权组合成一个综合得分以决定推荐顺序 [7] - 这一设计基本废除了传统手工提取特征的做法 改用端到端的学习方式预测用户兴趣 [8] 开源背景与动机 - 这是马斯克第二次开源X推荐算法 首次开源是在2023年3月31日 当时开源了大部分推荐算法 项目在GitHub收获超过10k颗星 [12] - 马斯克曾表示开源目标是让X成为“互联网上最透明的系统” 并希望独立第三方能确定平台可能向用户展示的内容 [12] - 过去一年 X因其内容分发机制屡次陷入争议 被批评算法层面存在系统性偏见 偏袒和助长右翼观点 [18] - 马斯克在2025年1月11日发帖承诺将于7天内开源新的X算法 包括用于确定推荐哪些自然搜索内容和广告内容的所有代码 [14] - 公司计划每4周重复一次开源流程 并附有详细的开发者说明以帮助了解变化 [15] 行业专家解读 - 专家指出 从系统整体设计看 开源代码依然遵从召回(recall)到排序(rank)的多阶段漏斗筛选架构 Grok模型并未参与中间过程 只是排序模型采用了类似Grok的架构 但参数量远小于Grok [35] - 最大的结构变化在于使用纯Transformer(类Grok)模型结构去做排序 其他差异不大 [36] - 若要实现“每日处理上亿条内容并进行实时多模态理解”的目标 将需要极其充足的GPU算力、高并发处理引擎以及可高速访问的大型文件系统 尤其是处理视频内容计算量巨大 [37] - Grok方法消耗的算力是传统推荐系统的数千倍 这部分成本往往不能被平台收益覆盖 对于X这样以广告为核心收入的平台 只有做到延迟和体验对标原有系统 广告收入才可能持平 但目前来看投入成本过高 投资回报率过低 [37] - 这种“持续、周期性开源”代码的方式 由于只开源代码而不开源所有配套系统和训练数据 无法复现其效果 因此对学术研究价值不大 对工业交流有一定参考意义 [38] - 即使Grok思路跑通 其他平台也不一定会跟进 因为其他平台没有属于自己的Grok 且大部分平台不会在此投入巨额算力 [39] - 行业不会弱化对用户行为和画像的依赖 用户历史行为是实现个性化的数据根基 缺少这部分信息的推荐系统很难做到千人千面 [39] 推荐系统的行业地位与LLM带来的变革 - 推荐系统是互联网巨头商业模式的“基础设施级存在” 堪称“沉默巨兽” [25] - 公开数据显示 亚马逊约35%的购买行为直接来自推荐系统 Netflix约80%的观看时长由推荐算法驱动 YouTube约70%的观看来自推荐系统 Meta内部约80%的算力周期用于服务推荐相关任务 [25] - 如果将推荐系统从这些产品中移除 几乎等同于抽掉地基 它直接决定平台“如何赚钱” [27] - 传统推荐系统架构工程复杂度极高 生产系统往往高度碎片化 一个完整的推荐链路背后通常同时运行着30个甚至更多专用模型 [28] - 大型语言模型的出现为推荐系统提供了新的可能路径 LLM是强大的通用模型 在不同任务间迁移能力强 随着数据规模和算力扩展 性能还能持续提升 [29] - 单一大模型带来的不仅是工程简化 还包括“交叉学习”的潜力 不同任务之间的信号可以相互补充 [29] - LLM对推荐系统最大的改变发生在“特征工程”环节 传统方法需要人为构造大量信号 而引入语言模型后 流程被高度抽象 模型可以基于理解能力自行判断重要信号并做出决策 [31] 开源内容的局限性与社区反应 - 有网友指出 虽然架构开源 但此次发布本质上是一个框架 缺少部分关键内容 例如具体的权重参数、隐藏的模型权重以及未公开的训练数据 [23][26] - 对于普通用户而言 算法开源不会造成太大影响 但更高的透明度可以解释为什么有些帖子能获得曝光而另一些则无人问津 并使研究人员能够研究平台如何对内容进行排名 [23] - 在X平台 有用户对推荐算法机制总结出几点规律 例如回复评论的权重是点赞的75倍 不回复评论会严重影响曝光率 在帖子正文中放置链接会降低曝光率 用户观看时长至关重要 以及“模拟集群”真实存在 偏离细分领域将无法获得分发渠道 [22]
突发!快手AI掌舵人周国睿即将离职,下一站爆出
搜狐财经· 2025-12-31 03:13
核心人事变动 - 快手副总裁、基础大模型及推荐模型负责人周国睿被曝即将离职,其在内部系统已显示为休假状态,个人签名更新为「Log Out」[2][4] - 关于其未来去向,传闻可能加入Meta或TikTok,但尚未有官方确认[4] 离职高管背景 - 周国睿拥有北京邮电大学信息与通讯工程专业的学士和硕士学位,研究方向包括大规模机器学习、自然语言处理、计算广告和推荐系统[6] - 硕士毕业后加入阿里妈妈事业部任高级算法专家,专注于广告排序核心业务,研究成果曾发表于AAAI等顶会[7] - 于2021年加入快手,从推荐算法副总升至大模型及推荐模型负责人[10] 在快手的主要技术贡献 - 主导了生成式端到端推荐架构OneRec的落地,该架构对整个推荐链路进行了系统级重构[10][11] - 在早期算力资源有限的情况下,成功推动管理层将大模型团队的算力资源提升了数十倍[10] - 还参与了多模态大模型Keye-VL的研发,该模型深度融合文本、图像、视频信息并具备动态推理能力[17] OneRec技术成果与影响 - OneRec采用生成式端到端架构,减少了传统推荐系统中的人工设计与多阶段拼接,通过统一建模与链路压缩大幅降低了成本[12] - 在核心业务场景中,整体系统成本降低至原来的约1/10,且使用的是1B(十亿)参数的MoE模型[12] - 该技术在“模型越大、成本越高”的行业背景下具有突破性,实现了模型更大、效果更好、成本却更低的结果[11][12] - OneRec已全面落地于快手多个核心业务,包括短视频推荐、本地生活、电商推荐,并在这些场景中实现了效果的全面超越[14] 对快手AI战略的潜在影响 - 短期影响有限,因为OneRec架构已在内部形成成熟稳定的技术体系,且公司对AI自研投入的态度明确[18] - 长期来看,核心技术人才的持续流失可能影响技术迭代速度,并可能造成技术路线和团队稳定的隐形断层[18]
NeurIPS 2025 | Language Ranker:从推荐系统的视角反思并优化大模型解码过程
机器之心· 2025-11-30 11:19
核心观点 - 提出一种全新的大语言模型解码视角,将其类比为推荐系统的排序阶段,并据此开发了名为Language Ranker的轻量级重排序框架,旨在以极低计算成本显著提升模型输出质量[2][6][33] 重新理解LLM:从“生成”到“推荐” - 大语言模型可被视为特殊推荐系统,将输入视为“用户信息”,在庞大候选响应空间中挑选最合适响应[3] - 模型关键组件与推荐系统一一对应:模型骨架对应特征工程,语言头对应召回层,解码方法对应排序层[4][6][11] - 现有主流解码方法如贪婪解码、束搜索等依赖固定规则缺乏学习能力,而基于奖励模型的重排序方法存在特征提取冗余和计算成本高昂的问题[6] Language Ranker框架 - 核心思想是直接复用主模型已提取的隐藏层特征,通过极小学习模块完成候选响应重排序,避免重复特征工程[8][14] - 框架包含三步:候选召回、特征提取(从模型底部约60%层提取最后一个token的隐藏状态)、候选排序(通过轻量Transformer或MLP计算相关性)[10] - 该模块参数极少,仅包含不到0.5M参数,比GPT-2小200多倍[9] - 具备极低训练与推理开销、即插即用、模块可分性等优势,支持CPU级别训练与部署,主模型可与Ranker在不同设备上独立运行[16][22] 实验结果 - 在多项任务中,仅需不到0.5M参数的Language Ranker达到或超越大规模奖励模型性能,例如在Qwen2.5-7B-Instruct模型上,ListRanker在MATH任务准确率达74.8%,优于GPT-2奖励模型的71.9%[19] - 训练效率极高,在MBPP任务上使用CPU仅需67秒即可完成训练,而GPT-2级别奖励模型需超过1小时[21][23] - 展现出优秀的跨任务与跨模型迁移泛化能力,在MATH内部七类子任务间迁移时性能下降均小于2%[24][26] - 遵循Ranker Scaling Law,随着候选响应数量从1增加至100,模型性能持续提升,例如在MATH任务中准确率从25%稳步上升至56%[31][34] 总结与展望 - 该框架通过共享主模型隐藏层特征,以极小参数实现与数千倍规模奖励模型相当性能,无需额外训练主模型且显著降低推理与部署门槛[33] - 天然支持个性化扩展,同一主模型可搭配不同Ranker以满足多样化场景需求,是迈向个性化智能体的重要一步[15][33]
当推荐系统真正「懂你」:快手团队在NeurIPS 2025提出新成果TagCF
机器之心· 2025-11-27 12:09
文章核心观点 - 快手团队提出TagCF框架,旨在让推荐系统从仅理解用户兴趣内容,升级到理解用户社会角色和特性,实现从“会猜”到“懂你”的跨越 [2] - 该方法通过引入用户角色建模,为推荐系统带来更强的可解释性和逻辑推理能力,并能显式地建模和突破用户信息茧房 [6][28] - 该研究成果已被NeurIPS 2025接收,相关代码与实验框架已全面开源 [3] 研究背景与动机 - 当前推荐系统算法主要聚焦于“内容层”理解,擅长识别用户喜欢哪类视频,但缺乏对“用户是谁”的深度理解 [2] - 用户角色是隐藏在内容关联背后的“混杂因素”,例如“耳机-交响乐手-小提琴”的关联实则源于“交响乐手”这一用户角色 [6] - 引入用户角色视角使推荐系统能更清晰地理解用户,迈向显式的可解释推荐,并在逻辑上具备更强的通用性与表达能力 [6][7] 提出的新任务 - 用户角色识别:建模用户的特征、个性、社会角色和需求,其中特征包含但不限于用户直接提供的特征值(如性别和年龄) [9] - 用户行为逻辑建模:建模用户角色和物品主题之间的逻辑关联图,可细分为I2U(物料适合分发给什么用户)和U2I(用户希望看到什么物料)两个子任务 [10][13] TagCF框架模块设计 - 基于MLLM的视频内容理解中台:利用MLLM模型对每日新增视频提取多模态内容,通过预设提示词自动生成物品标签与用户标签,并实时更新标签库 [16] - 基于LLM的行为逻辑图探索中台:在得到标签集合后,构建标签间逻辑图,使用LLM根据起始标签生成对侧的目标标签,形成U2I和I2U逻辑图 [18] - 赋能下游推荐系统:下游推荐系统可使用中台信息进行模型增强,提出了针对物品标签空间或用户标签空间增强的方案TagCF-it和TagCF-ut [22] 工程挑战与解决方案 - 面临无限制生成导致标签集合无序扩张、视频覆盖率长尾分布等挑战 [23] - 构建弱重叠高频标签子集作为覆盖集,经验上覆盖集规模为7k-20k,能在30天内收敛,在工业场景下具有足够稳定性和通用性 [24][25] - 用户标签全集规模为2,976,845,覆盖集大小为7,633且已收敛;物品标签全集规模为50,208,782,覆盖集大小为20,956且每日仍有数百扩张 [41] 实验效果与性能提升 - 在快手工业离线数据集上,TagCF-ut在NDCG@10指标上达到0.0201,相比基线最佳模型提升8.06%;TagCF-it在Cover@20指标上达到0.5440,提升14.21% [34] - 在Books数据集上,TagCF-ut在NDCG@10指标上达到0.1881,提升10.3%;在MRR@10指标上达到0.1560,提升13.60% [34] - 线上实验表明,TagCF-util策略相比基线提升交互次数0.946%,TagCF-expl策略提升多样性0.102%,并能有效提升用户长期留存指标0.037% [39][40] 技术优势与行业意义 - 用户角色相比兴趣点是更加稳定的特征,用户标签集合比物品标签集合具有更强的稳定性和表达能力,体现为更小的集合大小和更快的收敛速度 [40][41] - TagCF框架在符号与统计两种范式之间搭起桥梁,其tag-logic内容理解中台具备可迁移能力,未来可扩展至召回、电商、搜索等多业务场景 [44][45] - 该方法标志着推荐系统从“懂内容”到“懂人”的技术跃迁,使系统有能力从用户信息茧房出发进行有逻辑的语义探索,平衡准确性与多样性 [45]
2018 - 2020,抖音超越快手的关键三年|42章经
42章经· 2025-11-16 20:59
抖音发展历程与关键节点 - 抖音于2016年正式立项,2017年七八月份开始起量 [3] - 2017年下半年经历第一波较大增长,借助“百万英雄”直播答题活动吸引高校年轻用户 [8] - 2017年至2018年春节,因偶然获得春晚资源位,流量翻倍,DAU增速显著,内部首次认识到其增长潜力 [9] - 到2018年底、2019年年初,抖音DAU反超快手 [11] - 2020年之后,业务重点转向电商、本地生活等商业化方向 [15] 字节跳动的战略思考与产品定位 - 公司决定做短视频是基于对内容时长的分析,认为0到1分钟的短内容存在巨大市场空间 [16] - 抖音最初在内部资源较少,预期天花板为600万至1200万DAU,远低于后来实际达到的8亿DAU [20][23] - 产品定位为“无脑”的娱乐消费产品,其最大竞争对手是游戏,满足了用户无需动脑的放松需求 [85][86] - 推荐系统在分发此类内容上具有天然优势,用户打开频次高、停留时间长,能积累更多消费数据以优化算法 [87] 抖音崛起的关键成功因素 - 坚持不从头条导流用户,选择难而正确的独立起量路径 [46] - 建立独特的品牌调性,采用全黑UI等年轻化、高审美的品牌元素 [46] - 在内容池不足的早期阶段,依靠强大的内容运营和“精选标签”手动筛选优质内容,引导社区调性 [47][48] - 目标用户为年轻人,其兴趣广泛易于泛化,为后续内容扩展奠定基础 [66][67] - 采用单列分发器,相比双列具有极高的分发效率和内容泛化效率 [69][70][71] 关键业务决策与竞争战役 - 2018年至2020年,公司将社交视为战略重点,旨在增强用户长期留存和加速泛化,但最终未达预期 [24][25][27] - 2019年推出抖音极速版,对标快手极速版,两周内迅速增长至几千万DAU [87] - 2019年底至2020年初,将火山App更名为“抖音火山版” [87] - 2020年春节,为应对快手独家冠名春晚的竞争,公司发动集团力量,通过“集卡”红包活动为抖音导流,当晚DAU峰值达到4.7亿 [87] - 公司风格追求极致,在关键决策上投入巨大,如考虑将春节红包预算从20亿提升至100亿 [90] 组织文化与人才管理 - 公司文化高度扁平化,弱化层级头衔,鼓励基层员工与高层直接交流,创造了“祛魅”的环境 [101][102][103][104] - 早期非常信任年轻人,抖音团队中一半左右为校招生,为年轻人提供了巨大成长空间 [6][50][52][106] - 核心组织文化是公司早期竞争力的关键,但随着规模扩大,外部人才的引入稀释了原有文化内核 [108] - 公司强调“极致”的思维方式,不仅在行动上不顾一切解决问题,更在战略思考上追求倍增效应,逼问“如何增长五倍”以推动创新 [114][116][118][120] 行业观察与创业思考 - 移动互联网红利期后,给年轻人的高速成长机会减少,AI的出现被视为新的行业机遇 [59][60][63] - 创业成功需要完成从解决具体问题到进行战略选择和资源配置的认知转变 [126] - 创业应聚焦于“难而正确”的事,如产品定义、关键人才招募和资金规划,而非陷入事务性工作的“思维惰性” [130][134][135] - 应对大厂竞争的关键在于想清楚创业项目的长期价值、当前时间窗口以及如何快速验证产品市场匹配度 [138][139][140]
小红书RecSys 2025最佳论文提名背后:破解视频时长预测难题
机器之心· 2025-10-20 12:50
小红书推荐系统技术实力获得国际认可 - 小红书推荐算法团队的论文在推荐系统顶会RecSys 2025上获得“最佳论文提名”,该奖项全球仅五篇,标志着其研究成果获得国际学术界与工业界的高度认可[4][6] - 会议期间,小红书展台异常火爆,许多来自北美等地的推荐系统专家用户对其推荐系统给出“业内领先”的高度评价[8][9] - 参会专家分享实际体验,从美国飞抵布拉格后,小红书APP能迅速推送精准的本地内容及同会议参与者的帖子,展现了其精准捕捉用户即时场景与身份的强大能力[9] 论文解决的行业核心难题与创新方案 - 论文瞄准推荐系统中至关重要的基础指标——用户观看时长进行建模,该指标与日活跃用户数高度相关,其信号在小红书视频场景中的覆盖率达100%[23][30] - 小红书业务规模庞大,月活跃用户数从2015年的5000万增长至2024年的3.5亿以上,推荐模型的微小改进会被放大为显著的体验和业务收益[22] - 团队提出的指数-高斯混合网络模型回归问题本质,首次系统性剖析并解决了用户观看行为分布中“粗粒度的偏态性”和“细粒度的多样性”两大长期存在的行业难题[30][31][36] EGMN模型的技术细节与优势 - EGMN模型核心是预测观看时长的完整概率分布参数,而非单一数值,其公式结合了捕捉“快速划走”行为的指数分布和刻画多样化观看模式的高斯混合分布[33][34][35] - 模型采用包含极大似然估计、熵正则化和回归损失的三目标联合优化策略,确保训练稳定且预测精准,被专家盛赞“有一种传统机器学习的美”[34][36] - 论文审稿人给出“Strong Accept”的整体评价,认为论文已非常出色,技术执行可靠,实验验证尤其在线A/B测试结果极具说服力[36][37] EGMN模型的实验验证与实际效果 - 在四个离线数据集上的实验表明,EGMN模型平均绝对误差相对降低14.11%,排序一致性指标相对提升7.76%,全面超越现有最优方法[39] - 在线A/B测试覆盖1500万用户,为期7天,结果显示平均绝对误差降低2.030%,排序一致性指标提升1.260%,关键指标KL散度大幅下降19.94%[40][41] - 消融实验验证了指数分量、高斯分量及各损失函数的有效性,例如移除指数分量会导致平均绝对误差增加3.06%,移除高斯分量则增加2.47%[42] 技术成果的业务影响与公司文化 - EGMN模型的有效性表明,引入合理的先验分布信息可提升现有目标的拟合精度,此通用思路可拓展至电商成交价格预估、广告GMV预估等多种业务场景[45] - 此次顶会成果体现了公司“回归本质”、“务实求真”的技术文化,即不盲从技术热点,而是以分析用户和场景的真实问题为锚点来设计技术演进路径[47] - 公司推荐算法团队正基于此次成功广纳贤才,共同探索推荐算法领域的前沿技术,标志着其技术探索之旅的新开始[47]