Transformer架构
搜索文档
中国模型为何会在AI视频上领跑
华尔街见闻· 2026-02-11 12:25
中国AI视频模型的阶段性领先与工程化路径 - 字节Seedance2.0的出圈,标志着中国AI视频模型已不只是追赶,而是开始领跑,其核心在于将AI视频变成了可稳定交付的“工业品”[1] - 中国模型的领先并非突然发生,早在去年4月,快手可灵2.0在文生视频对比中,其与Sora的胜负比达到367%,在人物一致性、生成稳定性与复现率上全面领先,率先实现可商用能力[2] - 一批中国公司正沿此路径推进,将视频生成嵌入电商、广告、游戏买量等工作流中,其阶段性领先的核心在于更早将视频视为工程问题解决,而非单纯追求模型更聪明[3] AI视频生成的技术路线演变 - 当前高质量图像/视频生成的底层技术几乎都绕不开Diffusion模型,该模型源于2015年提出的思路,并在2020年后因计算资源提升和训练方法成熟而成为主流,其优势在于极强的稳定性和细节表现力[3] - Diffusion模型的局限在于擅长生成逼真画面,但并不真正理解事物重组前后的顺序与因果,导致早期AI视频单帧精致但连贯性差,存在人物不一致、动作不连续等问题[4][5] - Transformer架构伴随GPT出圈,其核心能力在于理解信息对齐、时间顺序和长距离依赖等“关系”,擅长规划结构和顺序,但不直接产出画面[6] - 一个关键的技术分工逐渐明确:Transformer擅长规划结构和顺序,Diffusion擅长生成具体画面[7][8] 中外AI视频发展路径的差异 - 海外团队长期倾向于不断挑战Diffusion模型的上限,例如追求生成更长时长、更复杂世界、更逼真物理效果的视频,其成果如Sora虽然震撼,展示了理解现实世界的潜力,但代价是生成成本高、失败率高、复现性差,更适合展示未来而非支撑当前生产[10][11][12] - 中国模型团队走的是更务实的工程化路径,更早意识到视频的核心难点在于“完成”而非“生成”,将传统影视中依赖经验的隐性流程(如镜头推进、视角切换、细节一致性)拆解为模型的约束条件[13][14] - 在此体系下,Transformer负责规划视频结构和节奏,Diffusion在明确指令下完成具体画面,视频被视为需要控制成功率的生产线而非艺术奇迹[15][16][17] 中国模型的工程化优势与行业影响 - 中国互联网过去十多年的核心能力集中在内容流水线的极致优化上,如短视频、电商直播、信息流广告、游戏买量等行业,其逻辑是将数据解码计算后验概率,再拆解成标准件复刻,这一工程逻辑被成功带入AI视频领域[18] - 在AI视频领域,Diffusion不再是生成模型的主导,而是被作为工业流水线中的一个关键“零件”来使用[19] - Seedance 2.0等产品的意义在于,将“提示词—生成—成片”的路径推至足够稳定,使其能作为日常工具使用,实现了使用价值维度的突破[20] - 在大语言模型等认知密集型领域,中国模型整体仍在追赶;但在AI视频这种“流程密集型”领域,凭借工程判断、效率控制和规模化落地能力,中国模型反而更容易取得阶段性领先[21][22] - 通过将Diffusion和Transformer正确分工并组织进可复用的生产线,中国模型将AI视频从技术奇观转变为真正的工业能力,并由此完成了属于自己的领跑[22][23]
清华联手千问重塑归一化范式,让 Transformer 回归「深度」学习
机器之心· 2026-02-10 19:03
在十九世纪的暹罗王国曾诞生过这样一对连体兄弟:他们分别拥有完整的四肢和独立的大脑,但他们六十余年的人生被腰部相连着的一段不到十厘米的组织 带永远绑定在了一起。他们的连体曾带来无尽的束缚,直到他们离开暹罗,走上马戏团的舞台。十年间,两兄弟以近乎合二为一的默契巡演欧美,获得巨大 成功。 此后,人们曾用他们的故乡之名,将这种连体现象称作 Siamese Twins(暹罗双胞胎)。后来,这一命名跨越了生物学的边界。1993 年,Yann LeCun 将其引入神经网络,创造了共享权重的 Siamese Network(孪生网络),用于衡量输入的相似性。 时光流转,在二十一世纪的今天,人工智能领域也有一对 "双胞胎"——Pre-Norm(前置归一化)和 Post-Norm(后置归一化)。他们为解决大模型训练 稳定性而生,迅速成为 Transformer 架构中用于稳定信号流的关键范式。 然而,归一化带来的训练稳定性并非没有代价,两种归一化范式之间似乎面临着难以调和的权衡取舍。 尽管近年来 Pre-Norm 被 GPT-3、LLaMA、DeepSeek、Qwen 等知名开源基座所采用,但多项研究共同指向了一个严峻事实:Pr ...
大厂AI权力交接:90后,集体上位
虎嗅APP· 2026-02-03 21:52
文章核心观点 - 2025年底至2026年初,中国科技巨头的大模型业务领导权正经历一场代际更迭,一批90后年轻科学家迅速走向前台,成为关键决策者 [4][5][30] - 这一权力交接的根本原因在于,大模型技术范式颠覆了传统互联网的成功逻辑,知识的快速更新使得“经验”价值下降,而对前沿技术的直觉、信仰和快速试错能力变得至关重要 [6][7][27] - 不同公司根据自身基因和需求,采取了不同的人才策略:腾讯和阿里启用“少帅”负责前沿探索与开源生态,而字节跳动则聘请资深老将负责系统整合,这反映了行业对多元化领导力的需求 [15][22][24] 一、经验在大模型面前,不值钱 - 传统互联网的成功逻辑是“小步快跑、重运营”,依赖流量、A/B测试和转化率优化,知识的延续性强 [7] - 大模型是另一套物种,其核心是“暴力美学和物理学”,不讲运营,依赖Scaling Laws(规模定律)和对智能“涌现”的直觉 [7][12] - 90后领军人物是“Transformer原生代”,他们在2017年Transformer架构论文发表时正处于学术思维最活跃的爆发期,没有旧规则引擎和统计学NLP的包袱 [8][11] - 老将们的经验成为枷锁,他们习惯可预测的增长,难以适应大模型所需的前沿直觉、大胆假设和快速试错 [12] - 年轻领军人物的黄金公式是:顶尖AI实验室(如OpenAI、Google Brain)的研究训练 + 大厂/创业公司的规模化工程实践,其从0到1的探索经验与大模型时代需求完美匹配 [12] 二、让听得见炮火的人决策 - 大模型领域信息的半衰期极短,技术可能每三个月、一个月甚至一周就发生翻天覆地的变化 [16] - 腾讯让27岁的前OpenAI研究员姚顺雨直接向总裁刘炽平汇报,本质是缩短决策链,实现“认知同步”,让最懂前沿的人离决策层最近 [15][16][17] - 大模型让大厂回归实验室模式,决策依据从资历和人脉转变为对技术“第一性原理”的推演能力 [18] 三、林俊旸与Qwen:极客精神的胜利 - 阿里最年轻的P10林俊旸是开源模型“通义千问”的核心推手,其成功依靠极强的社区感 [19][20] - 90后一代伴随GitHub和Hugging Face成长,天然理解AI时代的竞争在于开源生态和开发者社区的话语权,而非闭门造车 [20] - 阿里将重任交给93年的年轻人,是看准未来的AI领袖必须是学术、工程和社区文化的混合体 [20] 四、异类字节:为什么只有它请了老将? - 字节跳动的大模型一号位吴永辉是从谷歌回来的资深老将,这与腾讯、阿里的“少帅路线”相反 [22] - 字节本身是算法驱动公司,内部基础设施、算力和数据已是世界顶级,不需要年轻人来教授Scaling Laws [23] - 字节当前最需要的是“1到100的系统级整合能力”,将散落在各部门的AI力量拧成一股绳,吴永辉在谷歌整合大模型进搜索、YouTube等生态的经验正是其所需 [24] - 如果说腾讯的姚顺雨是拓荒先锋,字节的吴永辉则是负责基业长青的建筑师,负责复杂的跨部门协同与全球视野统筹 [25] 五、一场必然的权力交接 - 此次权力交接的核心驱动力是知识更新速度彻底覆盖了经验积累速度 [27] - 大模型是非线性跳跃,旧经验失效,新道路全是未知,年轻一代从第一天起就致力于构建智能原生技术与应用,这种未被旧逻辑驯化的纯粹技术信仰最具价值 [28] - 当AI进化到需要用数学和物理逻辑推演未来时,习惯用人情世故和市场营销定义世界的旧精英注定退居幕后 [29] - 未来的职场竞争是对新技术感应速度的博弈,踩准节奏比长久深耕更重要,保持认知同步比积累资历重要得多 [31]
AI来了,大厂为什么留不住高管? | 巴伦精选
钛媒体APP· 2026-01-26 18:44
文章核心观点 - 当前正经历从互联网流量时代向人工智能时代的技术范式转移 这引发了中国科技大厂核心高管的新一轮离职创业潮 其背后的核心矛盾是大厂追求确定性的组织文化与AI早期探索所需的不确定性之间的结构性冲突 [2][3][4] - 风险投资机构将拥有大厂背景的AI人才视为新的“确定性锚点” 通过一套成熟的“捕猎机制”追逐并投资这些创业者 用人的确定性来对冲技术方向的不确定性 [24][26][27] - 人才的迁徙方向是经济景气度与生产力范式转移的“晴雨表” 资金、技术和人才的汇聚点将是下一个时代利益分配的中心 [14][15] 高管离职创业的驱动因素 - **主动逃离(看到内部无法实现的“非共识”机会)**:创业者在大厂内部已洞察到技术范式转移(如从CV转向NLP大模型)或AGI的提前到来 但大厂的决策流程、资源分配逻辑无法支撑其将想法变为现实 典型案例包括闫俊杰离开商汤创立MiniMax 姜大昕离开微软创立阶跃星辰 [5][6] - **被动出走(被大厂的“免疫系统”排斥)**:创业者提出的创新项目或产品构想(如Noam Shazeer在Google内部推动的Meena聊天产品)因不符合公司当前策略或风险偏好而被否决 迫使人才离职自行创业 [7][8] - **本质冲突**:驱动离职的深层原因是工业时代设计的大厂“确定性文化”(强调流程、KPI、可预测回报)与AI早期“不确定性探索”(需要快速试错、容忍失败)之间的根本性冲突 [8][9] 大厂面临的人才挽留困境 - **决策链条无法压缩**:即便给予独立团队和资源 AI项目的关键决策仍需漫长审批 管理层“风险最小化”的决策逻辑与创业者“机会最大化”的需求相悖 有案例显示内部耗时三个月被否决的方案 外部一周即可获得投资条款 [10][11] - **利益分配机制无法重构**:大厂能提供高额年薪(如从400万提升至600万)和股权激励 但无法提供创业所带来的阶级跨越和未来增长的全部想象空间 [10][11] - **试错空间被挤压**:大厂内部项目失败会导致负责人承受业绩压力和边缘化风险 而创业失败则被视为迭代的一部分 [12] - **国际巨头的“自救”尝试**:Google通过合并AI团队、赋予自主权营造“大厂里的初创公司”氛围 英伟达通过“Jensen特别奖”等极高薪酬和股权激励(使约80%员工成为百万富翁)将人员流失率压制在2.7% OpenAI则通过新员工入职即可获得股权来争夺人才 [12][13] 创业高管画像与创业阶段特征 - **AI 1.0时代(2022-2023年):“技术信仰者”**:首批创业者多为对Transformer架构等有深度理解、坚信Scaling Law的技术专家 如贾扬青(Lepton AI)、杨植麟(月之暗面)、王小川(百川智能) 他们致力于解决“从0到1”的模型能力问题 追求技术极致 [17][18][19] - **AI 2.0时代(2024-2025年):“商业翻译官”**:第二批创业者多为擅长产品定义、商业化落地的产品经理和业务负责人 如裴沵思(Noumena)、潘宇扬(心感智影)、苏铁(湃岛科技)、王腾(今日宜休) 他们的核心能力是找到产品市场契合度(PMF)和可付费场景 [17][20][21][22] - **赛道分布**:智能硬件、AI应用、具身智能成为最集中的创业赛道 [3] 风险投资的逻辑演变与投资偏好 - **逻辑迁移**:投资逻辑从互联网时代追逐“流量的确定性”和可复制的方法论 转变为AI时代追逐“人的确定性” 将有大厂成功经验的高管视为对冲认知不确定性的“锚点” [23][24] - **看重高管的特质**: - **整合资源的能力**:高管拥有笼络顶尖人才的网络和信用 能组建跨领域精英团队 [25] - **对垂直行业的深度洞察**:深耕过具体业务线的高管对行业痛点敏感 能精准定位AI可规模化填补的洼地 如前钉钉副总裁王铭针对海外TikTok创作者需求打造AI智能体Moras [25] - **融资与公关能力**:高管擅长管理预期 用数据和叙事说服多方利益相关者 如前小米高管王腾在产品未问世时便获得数千万元种子轮融资 [26] - **成熟的“捕猎机制”**:投资机构通过定期组织私密晚宴、FA混入高管社交圈等方式 构建“潜在项目库” 敏锐捕捉创业意向 形成猎人与猎物的共谋 [26][27] 人才流动的宏观图景与数据 - **创业事件数量**:整个2025年 创始人背景带有科技大厂的创业融资事件数量超过70起 其中大疆、字节、腾讯、华为、阿里5家的高管创业事件数量领先 [3] - **代表性案例与交易**: - 阶跃星辰于2023年8月发布Step-1千亿参数模型 综合性能超越GPT-3.5 [6] - 2024年 Google以27亿美元价格回购了其前员工创立的Character.AI的技术和团队 [8] - 2025年3月 Lepton AI被英伟达以数亿美元收购 [18] - 大疆如影产品线在其负责人领导下累计营收达数十亿元 [21]
哈佛辍学“三剑客”,做AI芯片,刚刚融了35亿
创业邦· 2026-01-24 12:10
公司概况与融资 - 人工智能芯片初创公司Etched.ai由三位哈佛辍学的00后创立,专注于开发专用于Transformer架构的ASIC芯片[3][4] - 公司于2022年正式成立,团队吸引了包括英特尔前副总裁、来自谷歌、微软、亚马逊等科技巨头的数十位专业人士加入[13] - 公司近期完成了5亿美元的A+轮融资,由Stripes Group领投,Ribbit Capital、Peter Thiel以及Palantir等跟投,此轮融资后公司估值接近50亿美元,总融资额接近10亿美元[4][19] - 此前融资历程包括:2023年种子轮融资536万美元,由Primary Venture Partners领投;2024年A轮融资1.2亿美元,由Positive Sum和Primary Venture Partners共同领投[19] 核心技术:Transformer专用ASIC - Etched.ai的核心产品是名为Sohu的ASIC芯片,该芯片专为运行Transformer架构的AI模型而设计,放弃了图形渲染单元和对CNN/RNN等传统模型的支持[16][18] - Sohu芯片采用台积电4nm工艺,其设计大幅简化,硬件利用率高达90%,而通用GPU平均仅为30%[16][18] - 在性能上,由8块Sohu芯片组成的服务器,其性能相当于160块英伟达H100 GPU,且功耗更低[18] - 公司宣称,在运行文本、图像和视频转换器时,Sohu的速度比英伟达的Blackwell GB200 GPU快一个数量级,价格也更低[18] 市场定位与竞争逻辑 - 公司认为Transformer架构将主导人工智能领域,其市场切入点是AI推理这一细分市场,旨在通过极致的垂直优化挑战英伟达[15][20] - 行业逻辑在于,随着AI模型架构趋向稳定,99%的算力都在运行同一种架构,专用ASIC芯片在性能和能耗上相比通用GPU具有显著优势[22] - 公司采用“All in or nothing”的业务模式,完全专注于Transformer架构,这意味着如果未来该架构不再流行,芯片价值将大打折扣,但投资人仍看好此模式[18] 行业趋势:专用芯片崛起 - AI硬件领域正涌现一批专注于专用芯片的挑战者,大致可分为三类:极致推理先锋(如Etched.ai、Groq)、巨型架构挑战者(如Cerebras Systems)以及专注于国产替代的国内ASIC劲旅(如寒武纪、后摩智能)[23][24][25][26] - 根据统计,多家AI ASIC创业公司已获得高估值,例如:Etched.ai估值50亿美元,Groq估值69亿美元,Cerebras估值220亿美元,d-Matrix估值20亿美元,Tenstorrent估值40亿美元,后摩智能估值超10亿美元[27] - 这些初创公司正试图通过极致的垂直优化,在效率与成本的竞赛中,于英伟达主导的市场开辟一片属于专用芯片的新森林[27]
在OpenAI“创新已经变得困难”,离职高管深喉爆料
36氪· 2026-01-23 21:12
OpenAI的创新与结构性困境 - 随着竞争加剧与组织急速膨胀,OpenAI正逐渐陷入一种难以再承担真正高风险研究的结构性困境,一些前沿创新的研究方向已经难以在内部推进 [1] - 成本、增长压力等多重因素影响了OpenAI对风险的“胃口”,同时该公司尚未找到良好的跨团队研究协作模式 [3] - 对OpenAI来说,“集中力量办大事”已经变得有些困难,阻碍AI Lab研究的因素不是算力短缺,而是缺乏专注 [5] 行业竞争格局与路径趋同 - 当前全球范围内争夺“最佳AI模型”的竞争异常激烈且严苛,几乎所有主要AI公司都面临持续展示实力、不断推出最强模型的巨大压力 [8] - 目前大概有五家严肃的AI公司,使用几乎相同的技术配方,在同一技术基础上构建略有差异的产品,模型之间缺乏真正的多样性 [14][15] - 谷歌的崛起与其说是“回归”,不如说是OpenAI自己犯了错误,没能充分把握住自己的领先优势,OpenAI本应该持续领先 [3][47] 技术发展方向与AGI展望 - Transformer架构肯定不是最终形态,模型仍然可以通过多种方式改进,而其中许多路径至今尚未被系统性地实践 [12] - 实现AGI仍然缺失关键拼图,架构创新与持续学习是两大重要方向,AGI预计将会在2029年左右实现 [5][28][32] - 强化学习将卷土重来,在强大的世界表征(通过大规模预训练获得)之上,通过强化学习构建能力层级是未来的方向 [26][27] 人才流动与创新环境 - AI领域的人才争夺战已演变成一场肥皂剧,有些人频繁地更换工作,而真正投入到工作的时间不多 [4][44] - 明星AI研究员并不是驱动创新的核心因素,公司本身能否打造个人责任感强、允许探索和做大事的环境,可能更为关键 [4][66][67] - 研究人员的高薪酬水平可能带来副作用,使人们变得不愿意失去工作,更倾向于追逐短期回报,从而抑制了冒险精神 [18] OpenAI的内部文化与执行力 - OpenAI从2019年约30人发展到现在的几千人,但公司瞄准AGI、改变世界的野心始终没变 [7] - OpenAI早期有相当高比例的波兰裔员工,他们以勤奋和能识破“忽悠”著称 [45][46] - OpenAI真正擅长的是把研究从1推进到100,即采纳初步验证的想法,并找出如何让它们在大规模训练前沿模型时可靠地工作 [64] 对其他AI公司的评价 - 在过去一年里,对Anthropic的钦佩程度大幅上升,其起步更晚、资源受限,但成功构建了正在改变软件开发方式的卓越产品 [53][54] - Meta的策略可能是利用行业已掌握的AI技术来构建连接人和打造体验的产品,从其作为一家极其盈利的社交网络公司角度来看,这可能是一种相当不错的策略 [50][51][52]
学界大佬吵架金句不断,智谱和MiniMax太优秀被点名,Agent竟然能写GPU内核了?!
AI前线· 2026-01-23 17:18
文章核心观点 - 文章围绕“通用人工智能(AGI)能否成为现实”展开了一场深度辩论,两位来自学术界与产业界的一线研究者基于对算力、模型架构、应用落地的不同理解,阐述了各自对AGI定义、发展现状及未来趋势的判断 [6][7] - 尽管对AGI的实现路径存在分歧,但双方均认为,相较于抽象定义,AI技术(尤其是智能体)的实际“实用性”及其对工作方式的变革才是关键,并一致看好小模型、开源模型、新硬件及多元化架构的未来发展 [15][23][55] 关于AGI定义的争论 - **定义视角**:AGI的定义主要有两种主流视角,一种关注模型覆盖的认知任务广度,另一种则从经济角度出发,看其是否引发新的工业革命并改变生产方式 [14][35] - **共识与分歧**:双方达成共识,认为AGI的具体定义并不重要,关键在于它是否改变了人类的工作方式 [15][55]。丹·傅认为,以5-10年前的标准看,当前的语言模型在写代码、生成语言等方面已实现早期设想的AGI,并可能引发软件工程领域的工业革命 [34]。蒂姆·德特默斯则认为,当前关于AGI的狂热预测源于特定社群的信息茧房,缺乏对计算现实的考量 [36] 算力增长的潜力与极限 - **算力极限论**:蒂姆·德特默斯认为“计算是物理的”,内存迁移、带宽、延迟及冯·诺依曼瓶颈决定了算力不可能无限扩张,指数增长终将放缓,Scaling Law也不例外 [10][37]。他指出,从DRAM到HBM等硬件创新已接近物理极限,量化技术(如4位精度)也已发展至尽头,功能和硬件潜力均已被充分挖掘 [40][42][43] - **算力潜力论**:丹·傅认为当前谈“算力见顶”为时过早,现实系统中算力被严重低估和浪费,大量性能消耗在内核调度与系统开销上 [12]。他指出,当前评测的“最强模型”多基于一两年旧的算力集群训练,未能代表当下硬件的真实上限 [12][49]。通过新一代硬件(性能提升约2–3倍)、系统与工程优化(算力利用率提升约3倍)及更大规模集群(规模效应约10倍)三者叠加,理论上可用算力有接近90倍的提升空间 [13][18][46] 智能体(Agent)的发展与应用 - **拐点时刻**:丹·傅指出,2025年6月是Agent发展的关键拐点,当时代码智能体成功攻克了被视为编程领域终极难题之一的“GPU内核编程”,使其个人工作效率提升了5倍,其团队也能快速完成原本需耗时数月的复杂系统开发 [17][20][62][63] - **高度通用性**:蒂姆·德特默斯认为代码Agent本身就是高度通用的Agent,因为代码几乎可以描述和解决所有数字化问题,并断言超过90%的代码和文本本应由Agent生成 [20][66] - **应用与管理范式**:双方将Agent比作“需要精细化管理的实习生”,人类需提供明确背景、拆解任务并设定约束,而将注意力聚焦在方向把控与结果校验上 [21]。丹·傅强调,专业知识越深厚的专家,Agent能为其创造的效率增量就越显著 [21][74] - **必备技能**:蒂姆·德特默斯强调“要么善用Agent,要么被时代淘汰”,使用Agent并有效检查、编辑其输出(约10%的工作)将成为未来核心技能,能带来巨大的生产效率提升 [20][67][68] 人工智能行业未来趋势预判 - **小模型与开源模型**:双方均认为小模型将成为行业新热点,针对特定领域数据训练的小模型部署难度低、性能出色,将更具吸引力 [23][81]。开源模型(如GLM-4.7)的能力将进一步飞跃,并开始媲美最优秀的前沿模型 [23][26][83] - **硬件多元化与专业化**:硬件赛道将走向多元化发展,训练与推理环节的专业化分化会加剧 [23][24]。推理芯片将更侧重在手机、笔记本电脑等终端设备本地运行 [61] - **架构创新**:Transformer架构独霸天下的时代将落幕,状态空间模型(SSM)、线性注意力及各类混合架构等新架构将登上舞台 [25][84][86]。中国团队在架构创新上更敢于探索多种可能性,通过架构创新或极致性能让开源模型脱颖而出 [26][85] - **多模态与端侧AI**:多模态领域(如视频生成)及端侧AI(在笔记本电脑、手机等设备上运行的AI)预计将有进一步发展 [23][83] - **中美发展路径差异**:相比美国“先做出最强模型,再等待应用出现”的思路,中国模型团队的发展思维更务实,更关注模型能否真正落地并在现实场景中产生价值 [26][55]
马斯克罕见低头:开源𝕏推荐算法,自嘲“很烂”不过未来月更
量子位· 2026-01-21 12:09
算法开源事件与背景 - 马斯克旗下社交媒体平台(原Twitter)完整开源了其“For You”信息流的推荐算法系统 [1] - 开源文件表明,该系统是一个几乎完全由AI模型驱动的算法系统,移除了所有人工设计特征和绝大多数启发式规则 [2] - 马斯克本人转发了工程团队原帖,并低调表示该算法“很蠢(dumb)”,需要大幅改进,但强调其透明性,并指出其他社交媒体公司都没有这样做 [3][4][5] - 此举是马斯克自2022年收购该平台前多次批评其过于封闭后,兑现承诺的延续 [6][7] 纯AI驱动推荐系统的运作机制 - 系统基于Grok-1同款Transformer架构打造,通过学习用户的历史互动行为(点赞/回复/转发)来决定内容推荐 [9] - 流程始于用户打开“For You”标签,客户端向服务器发送请求 [10] - 系统首先构建“实时用户画像”,通过收集两类原始用户信息,而非人工构造特征 [12][13] - 行为序列:代表最直接、最强烈的兴趣信号,如最近点赞、回复、转发、点进、停留过什么 [14] - 属性:代表长期属性,如关注列表、声明的兴趣主题、地理位置、使用设备等 [14] - 系统采用“去人工化”和“端到端”方法,将原始数据直接喂给模型,让模型自行学习规律 [15] - 构建用户画像后,系统兵分两路,从海量推文中快速筛选出几千条“可能相关”的推文 [15] - 一路通过“Thunder”模块,抓取用户关注的所有人的最新推文(熟人圈) [16] - 另一路通过“Phoenix Retrieval”核心检索模块,抓取来自未关注账号但用户可能感兴趣的推文(外部) [17] - 两类来源的信息在后续阶段被统一对待 [19] - 系统通过“Hydration”模块补全候选推文ID的详细信息,包括推文全文、作者详情、媒体内容及历史互动数据 [21] - 在正式计算前,通过“Filtering”模块淘汰明显不需要的内容,如重复帖子、用户自己发布的内容、来自拉黑/静音账号的帖子等 [22] 核心排序模型与最终呈现 - 剩余内容被逐条送入基于Transformer的“Phoenix”排序模型进行独立打分 [24] - 模型同时接收用户的行为序列与属性信息,以及单条候选帖子的内容与作者信息 [25][27] - 模型预测用户对某条推文执行各种操作(如点赞、拉黑)的概率,并按预设权重加权组合,形成最终排序分数 [25] - 系统设置了“候选隔离机制”,确保模型在评分时,每条候选帖子“看不见”其他候选帖子,分数一致且可高效缓存复用 [26][34] - 系统会进行少量工程调节,如控制作者多样性,防止单一账号刷屏 [26] - 所有候选帖子按最终得分排序,系统选出Top-K条帖子作为推荐结果 [29] - 返回客户端前,进行最后一轮安全校验,移除已删除、垃圾信息或违规内容 [30] - 经历重重筛选后的信息根据分数高低,依次展示给用户 [31] 系统成功运转的五大关键设计 - 纯数据驱动,拒绝人工规则:由AI模型直接从原始用户数据中学习,摒弃人工定义复杂规则 [33] - 采用候选隔离机制,独立评分:确保每条帖子的分数不会因同批次其他帖子而变化,分数一致且可高效缓存复用 [34] - 哈希嵌入,实现高效检索:检索和排序都使用多个哈希函数进行向量嵌入查找,提高效率 [35] - 预测多元行为,而非单一分数:AI模型对多种用户行为同时进行预测,而非输出模糊的“推荐值” [36] - 模块化流水线,支撑快速迭代:整个推荐系统采用模块化设计,各个组件可以独立开发、测试、替换 [37] 开源反响与未来计划 - 社区对开源行为表示赞赏,认为其透明性在行业中罕见 [2] - 有网友指出算法存在“缺陷”,例如代码显示“被大量用户屏蔽”是强负面信号,但缺乏针对该信号的时间衰减机制,可能导致历史屏蔽记录持续影响账号推荐分数 [39][40][41] - 马斯克本人在相关评论下承认“是的,这算法太烂了” [42] - 公司计划持续保持开源,未来每4周将重复一次开源更新 [44]
马斯克刚刚真把 𝕏 平台推荐算法给开源了,核心也是Transformer
机器之心· 2026-01-20 19:24
平台推荐算法开源事件 - 公司(原Twitter)已将其核心的“For You”信息流推荐算法完全开源,该算法由与xAI的Grok模型相同的Transformer架构驱动[1] - 公司创始人马斯克曾承诺在7天内开源算法,虽略晚于承诺,但最终实现,并希望未来能遵循每4周更新一次的承诺[4] - 马斯克表示开源是为了透明,承认算法目前“很笨拙”但会持续改进,并声称没有其他社交媒体公司这样做[4] 开源背景与潜在动因 - 此次开源可能部分源于监管压力,2025年7月巴黎检察官曾调查公司涉嫌算法偏见和数据提取问题,马斯克称之为“政治动机的刑事调查”[4] - 2023年12月,欧盟对该公司处以1.2亿欧元罚款,原因是其违反了《数字服务法案》下的透明度义务,涉及“蓝V”订阅、广告库及未向研究人员提供公共数据等问题[4] 新推荐系统技术架构 - 新系统彻底抛弃传统手工规则,大幅减少启发式方法,采用完全的神经网络方式[7] - 系统核心由两个组件构成:Thunder(基于内存的帖子存储与实时数据摄取系统)和Phoenix(机器学习核心组件)[8] - Thunder组件功能包括:从Kafka消费帖子事件、为每个用户维护多种帖子存储、提供亚毫秒级查询,其作用是高速获取用户关注账号的最新内容(站内关系内容)[9][10] - Phoenix组件包含召回(双塔模型)和排序(带候选隔离的Transformer)两大功能模块[10] - 召回模块通过用户塔和候选内容塔将特征编码为向量,并通过向量点积相似度检索最相关的Top-K帖子(站外发现内容)[11] - 排序模块以用户上下文和候选帖子为输入,使用特殊的注意力掩码机制,预测不同互动行为(如点赞、回复、转发)的概率,最终排序分数是这些预测概率的加权组合[8][11] 新算法的推荐逻辑与流量密码 - 新推荐逻辑不再主要依赖点赞数量,而是基于系统对深度互动行为的预测,包括引用评论、私信分享、复制链接、个人主页点击与关注以及停留时长[12] - “不感兴趣”、静音、拉黑、举报等负面行为会被赋予负权重,显著压低内容分发[12] - 情绪化标题和短期刺激型内容的收益正在下降,算法会捕捉后续负反馈,从而惩罚低质量、不可持续的互动模式[13] - 发布频率越高不等于覆盖面越广,系统会对同一作者在同一信息流中的多条内容进行递减加权,刷屏式发布反而会被压制[13] - 关注关系的重要性上升,来自关注者网络的内容保持满权重,而推送给非关注用户的内容会被系统性折扣,降低了“纯病毒式传播”的成功概率[13] - 总体来看,推荐系统正在明确优化长期关系和内容质量,而非短期热度,旨在建立稳定、正向的互动关系以获得更可持续的曝光[14]
AI如何才能通过“终极考验”?让它重走人类来时的路
观察者网· 2026-01-20 09:08
文章核心观点 - 上海财经大学王献华教授提出名为“Nigiro Challenge”的测试方案,旨在通过一项“社会性虚拟造字测试”来评估通用人工智能是否真正拥有智能 [1][4][17] - 该方案认为,如果人工智能体能够在模拟的社会互动中,像人类发明文字一样,重新发明、创新并系统化构建一套可外化的文字体系来记录其文明,则意味着其拥有了可与人类相比的智能水平 [1][17][18] - 该观点源于对人类文字(特别是楔形文字)起源的逆向思考,将人工智能理解语言的过程视为一种“逆向工程”,并试图以此回应关于AI是否真正理解意义的哲学性质疑 [4][11][14][17] 人类文字起源与智能发展的关联 - 楔形文字的起源与三种前文字现象密切相关:陶筹(Token,用于计数和记录交易,公元前8000年已出现)、印章(用于确认归属和保证交易,公元前7000纪已使用)以及早期的数学计数系统 [4][6][8] - 文字的形成和发展与社会复杂性的增长密切相关,约在公元前3500年至公元前3000年间,楔形文字在行政管理和社会管理压力增大的背景下应运而生,从纯数字泥板发展到“数字+表意符号” [8][10] - 文字的出现被视为人类集体智能的结晶,完成了从具象计数到抽象符号的跨越,其发明能力与人类作为集体的发展相关联 [10][11] 人工智能理解语言的路径与挑战 - 现代大语言模型处理语言的核心步骤是词元化,其发展经历了从“词级”到“字符级”,再到主流的“子词”词元化的过程,以在词汇表规模和语义捕捉间取得平衡 [11][12] - Transformer架构是关键模型,它基于自注意力机制,可并行处理整个文本序列并捕捉长距离词语关系,这被认为是GPT等大模型能生成连贯文本的关键 [12] - 人工智能面临“符号接地问题”的根本性质疑,即纯粹的符号系统内部操作是否能赋予符号真正的指称和意义,还是仅仅在统计符号间的共现关系 [14] - 有观点认为,真正的人工智能应通过“具身交互”学习,即通过感知、行动与世界互动来获得理解,以解决符号接地问题 [14] 对现有智能测试的反思与新方案的提出 - 经典的“图灵测试”被反思为可能更像一面镜子,反映的是提问者的水平而非机器本身的智能,因此其作为智能检验标准受到质疑 [15][17] - “Nigiro Challenge”旨在提供一种超越图灵测试的、具有“终极”意义的测试方案,其名称“Nigiro”是“Origin”的反写,象征着对人类智能的逆向探索 [4][17] - 该测试聚焦于人工智能的“社会性”,要求智能体在模拟社会环境中互动并发明文字,这呼应了人类智能在社会环境中逐渐发展的历史观 [17] - 该方案提出,如果一个智能体社会能够独立发明文字系统,或许可以被接纳为人类社会的“合格成员”,因为文字的发明是人类文明有形的结晶 [17][18]