Llama4
搜索文档
田渊栋的2025年终总结:关于被裁和26年的研究方向
自动驾驶之心· 2026-01-06 08:28
文章核心观点 - 文章是一位资深AI研究员对个人职业变动与年度研究方向的回顾与总结 其核心观点在于强调大模型推理效率提升与模型可解释性研究是当前及未来人工智能领域两个至关重要且充满前景的方向 同时分享了个人从大公司离职加入初创企业的职业选择 [3][5][6][10] 个人职业变动与感悟 - 作者于2025年1月底被要求加入Llama4项目进行“救火” 尽管项目最终结果超出其最初设想的四种可能 但在此过程中团队在强化学习训练的核心问题上进行了多项有价值的探索 [3] - 作者在Meta工作十年多后最终离职 尽管此前因经济和家庭原因多次犹豫 但最终将此次变动视为一个积极的转折点 并决定加入一家初创公司担任联合创始人 [4][5] - 作者回顾了2021年的一项工作 该工作起初未受关注但后来在ICML会议上获得了最佳论文荣誉提名 并成为表征学习领域一篇较知名的文章 [5] 大模型推理研究方向 - **连续隐空间推理**:作者团队在2024年末公开的连续隐空间推理工作(COLM‘25)在2025年引发研究热潮 随后团队在2025年上半年发表了一篇理论分析文章(NeurIPS‘25) 阐述了该方法的优势所在 [6] - **推理效率提升**:团队通过多项研究致力于提高大模型推理效率 - **Token Assorted(ICLR‘25)**:通过VQVAE学习隐空间的离散token 并将其与文本token混合进行后训练 在降低推理代价的同时提升了性能 [7] - **DeepConf**:通过检测生成token的置信度来决定是否提前终止推理路径 从而显著减少推理所用token数量 在多数投票场景下性能更优 [7] - **ThreadWeaver**:通过制造并行推理的思维链并进行后训练来加快推理速度 [7] - **其他尝试**:包括在dLLM上用强化学习训练推理模型 以及在小模型上学习推理 [7] 模型可解释性研究方向 - **关注动机**:作者认为无论人工智能通过规模扩展最终成功或失败 可解释性研究都至关重要 是确保AI向善或寻找替代方案的关键 且人类探索的天性也驱使其研究“黑盒” [10] - **Grokking(顿悟)现象**:作者团队通过分析Grokking这一从记忆到泛化的特征涌现现象 来探索模型学习的表征与数据结构的关联 2024年的初步工作(NeurIPS‘25)后 近期在可证明的缩放定律研究上取得较大突破 [8] - **RL与SFT行为差异**:作者团队年末的工作从权重层面解释了强化学习与监督微调行为不一致的原因 指出SFT因使用非当前策略数据导致权重主分量被大幅修改 引发灾难性遗忘 而RL使用当前策略数据 主要改变权重次要分量 避免了该问题 [9] - **研究现状与愿景**:作者指出当前通过寻找“电路”来打开模型黑箱仍处于初步阶段 真正的挑战在于从第一性原理解释模型为何会涌现出解耦、稀疏、模块化等特征 其愿景是实现从“收集证据”到“推导原理”的范式转变 最终指导下一代模型设计 [11]
143亿打水漂?Meta惨翻车,谷歌逆袭OpenAI拉响红色警报
搜狐财经· 2026-01-06 00:50
文章核心观点 - 2025年AI行业呈现激烈竞争与分化格局,既有突破性进展,也存在显著挫折与未达预期的领域 [1] 行业关键事件与竞争格局 - DeepSeek年初发布性能追平OpenAI且更便宜的大模型并开源,打破了美国技术神话,并带动强化学习成为行业热点 [3] - Anthropic为强化学习投入100亿美元建设模拟训练环境 [3] - 谷歌在年底凭借Gemini 3.0实现逆袭,摆脱了AI落后者标签,并对OpenAI构成威胁,但其用户量仍落后于ChatGPT [5][7] - OpenAI、Anthropic以及中国的智谱AI、MiniMax等公司均在寻求上市,试图趁行业热度套现 [7] 公司具体表现与战略 - Meta遭遇重大挫折,其Llama 4模型市场反响不佳,公司随后投入143亿美元用于挖角人才,但新团队仅开发出未获成功的视频应用Vibes,最终导致内部重组与人才流失 [5] - AI公司出现“循环融资”模式,即从微软、英伟达等公司获得融资,再用于购买这些公司的芯片和算力服务 [7] 技术发展瓶颈与挑战 - AI机器人发展未达预期,特斯拉Optimus机器人行动前需先摘除头显,家务机器人仍需人类远程操控,实用性不足 [9] - AI的持续学习能力仍是技术难点,专家们尚未提出可靠方案,实现AGI(通用人工智能)仍需时间 [9] - 行业专家卡帕西对AI工具的态度发生转变,从认为大模型编程无用转为认可整合新工具可提升十倍效率 [11]
LeCun曝Meta作弊刷榜,田渊栋:我没想到这个结局
量子位· 2026-01-04 13:21
Meta内部管理与Llama 4事件 - 公司为应对竞争压力,要求GenAI部门加速AI开发和部署,并调派原FAIR团队人员参与Llama 4项目[6] - 团队内部沟通破裂,管理层倾向于已验证的、可直接落地的技术,而研究团队希望探索新方向[7] - Llama 4在基准测试中存在结果被篡改的问题,团队对不同基准测试使用了不同的模型以获取更好结果[1] - Llama 4项目表现不佳且涉及排行榜造假,导致管理层对团队失去信心,并将相关人员边缘化[10] - 事件引发公司团队大换血,一方面天价从外部挖人,另一方面大刀阔斧裁减老员工[11] 关键人物动态:田渊栋 - 田渊栋及其团队在一月份被临时调入Llama 4项目救火,十月份在Llama 4.5训练完成后即被裁撤[13] - 团队被迫放下原有工作,在距离发布截止日期仅剩2个月的情况下接手项目并处理所有棘手工作[14] - 田渊栋曾预想四种可能结局,但最终遭遇第五种结局:未被问责,但整个团队被裁撤[15][16] - 田渊栋在Meta工作十多年,近年已抱有“公司快把我开了吧”的心态,此次变动为其小说创作提供了新素材[18] - 在强化学习与大模型推理方面取得新探索,包括连续隐空间推理(coconut)、Token Assorted、DeepConf、ThreadWeaver等方法提升推理效率,并在可解释性方面研究Grokking现象[19] - 田渊栋已正式宣布创业,将担任一家新初创公司的联合创始人,并拒绝了其他大厂的邀请[33] 关键人物动态:LeCun - LeCun离职后批评公司对大语言模型(LLM)过度沉迷,尤其点名批评新挖来的超级智能实验室成员年轻且缺乏经验[22][23] - LeCun认为LLM本质受限于语言,是实现人类水平智能的“死胡同”,强调需通过世界模型理解物理世界规律[25][26] - LeCun创立新公司Advanced Machine Intelligence (AMI),全力投入开源世界模型研发,其本人担任执行主席而非CEO[27][28][29] - 新公司研究聚焦于V-JEPA架构,旨在通过视频和空间数据学习理解物理世界,使AI具备规划、推理和长期记忆能力[32] - LeCun预计将在12个月内见证该技术的初始版本,并在近几年内实现大规模进展[32] 行业竞争与影响 - DeepSeek的横空出世给公司带来巨大压力,导致Llama 4在发布前即被视为落后,促使公司疯狂加码AI投资[4][5] - 公司内部因竞争压力和高层决策,引发了核心研究人员离职并转向创业的浪潮[3]
Google的反击之路,AI巨头的竞争与分化
新财富· 2025-11-27 16:39
AI行业竞争格局与市场表现 - 资本市场对AI行业存在泡沫担忧但更害怕错过 对竞争格局的投票结果显示谷歌和博通在2025年表现更好 [4] - 截至2025年11月25日纳斯达克100指数累计上涨19.07% 谷歌和博通分别上涨70.49%和67.26% 英伟达上涨32.44% 微软、META、亚马逊涨幅均低于指数平均值 [5][7] - 谷歌股价上涨得益于Gemini 3发布 META下跌因Llama4产品不及预期及团队波动 [6] Gemini 3的技术突破 - Gemini 3 Pro在LMArena排行榜以1501分登顶 在"人类最后的考试"获37.5%分数 GPQA Diamond测试获91.9%高分展示博士级推理能力 [9] - 数学领域MathArena Apex测试得分23.4% 远超GPT-5.1的1% 多模态推理MMMU-Pro测试81% Video-MMMU测试87.6% [9] - 代码能力突出 可生成复杂交互页面并实现自我验证调试优化 LiveCodeBench Pro测试Elo评分达2439分 Vending-Bench 2测试净价值均值5478.16美元 [10] - 推出Antigravity开发平台 将AI编程从辅助工具转变为协作伙伴 实现跨界面操作和真正的AI agent [11] Google的技术演进与市场反击 - Google是Transformer架构发明者 但长期押注BERT等理解型模型 因与搜索广告业务更契合 [14][15] - OpenAI基于Transformer推出GPT系列 确立"生成式+大规模"战略 ChatGPT两个月获一亿用户促使Google发布红色警报 [16][17][18] - Gemini 3发布前市场份额从5-6%提升至14% 凭借Nano Banana表现两周内实现2300万用户增长 反超ChatGPT成App Store榜首 [18][19] 巨头生态与战略分化 - Google拥有多元C端入口 搜索占90%市场份额 具备从TPU芯片到终端应用的全栈自研生态 呈现厚积薄发之势 [21][23] - META因缺少云业务 AI投入变现路径单一 Llama4训练不及预期及中国开源模型影响导致战略受挫 进行团队大幅调整 [24][25] - 微软重点发力软件+云方向 优先推广OpenAI API 亚马逊侧重算力提供但缺乏核心壁垒 行业竞争从模型强度转向生态融合与商业价值 [25]
中兴发了一篇论文,洞察AI更前沿的探索方向
机器之心· 2025-11-26 09:36
文章核心观点 - 当前基于Transformer架构的大模型面临算力消耗大、效率低、与物理世界脱节等核心瓶颈,通用人工智能的实现路径亟待突破 [2] - 行业正从“规模竞赛”转向“效率革命”,探索超越自回归Transformer的新计算范式,特别是物理第一性原理模型与新型硬件的融合 [2][38] - 中兴通讯的论文为下一代AI大模型计算范式提供了重要参考,其自身在微架构创新和新型算法硬件探索方面的实践抢占了技术高地 [2][36][38] LLM现状及瓶颈 - 大模型性能遵循规模扩展定律,依赖计算量、参数量和训练数据量的堆叠,但训练沉没成本极高,例如Grok4模型在20万卡集群耗时半年才完成预训练 [4][5] - Transformer架构计算效率低,算术强度仅为2,远低于卷积神经网络的数百,导致模型算力利用率低,并高度依赖先进工艺和高带宽存储器 [6] - 随着模型参数和上下文长度增加,Transformer架构瓶颈与摩尔定律放缓的矛盾将更突出,面临“功耗墙”和“内存墙”挑战 [7] - 现有LLM存在幻觉、可解释性差等问题,其“Next Token Prediction”核心被部分学者认为难以真正理解物理世界,智能进步严重依赖“暴力缩放” [9] LLM自回归模式的工程改进和优化 - 算法层面通过优化注意力机制(如GQA、MLA、Flash-Attention)和采用低精度量化(如4-bit)来提升效率,但量化会引入误差 [13][14] - 循环递归参数复用架构(如Universal Transformer)通过参数共享提升算术强度,但其大规模扩展后的能力尚不明确 [15] - 集群系统采用张量、数据、流水线和专家并行等范式,混合专家模型可将计算量缩减为原来的1/32,预填充和解码阶段分离部署可提升硬件利用率 [16] - 端云AI协同搭建“快慢思考”系统,端侧处理实时推理,云端处理复杂任务 [17] 硬件工程创新 - 微架构领域专用化,引入异步数据搬移和混合精度训练;通过Scale Up和Scale Out域划分进行互联优化,Scale Up域采用Nvlink提供200纳秒超低延迟 [18] - 光电混合集群和“存算一体”等新型计算范式是构建万卡以上集群、突破“内存墙”的关键技术 [18][19] - 基于光IO技术重构计算体系结构和基于3D DRAM构建新型内存体系是两大前瞻性硬件工程技术 [21] - 万卡以上集群部署需通过算网存仿真平台进行优化 [20] 下一代AI大模型计算范式演进和展望 - AGI的实现需根本性变革,产业界正探索不以Next-Token Prediction为核心的新范式,基于能量、动力学等第一性原理的模型成为重要方向 [23][24] - 新模型发展分为两类:一是改进的Transformer架构,如Diffusion LLM可将推理吞吐量提升10倍以上,能耗减少至1/10;二是基于物理第一性原理的架构,如液态神经模型和基于能量的模型 [26][27][28] - 未来AI计算更受能耗限制,催生三大新型计算范式:物理原理启发(光计算、量子计算、电磁计算)、基于材料特性(概率计算、吸引子网络、热力学计算)和生物启发(类脑计算、DNA计算)的架构 [29][30][31][32][33][34] 中兴通讯的探索与实践 - 公司在微架构层面进行创新,如利用8T SRAM数字存内计算技术实现高能效AI加速器,其XPU-PIM异构架构在能效和吞吐量上相比常规GPU有数量级提升 [36] - 公司探索从物理第一性原理出发的新路线,如循环式Transformer架构可在减少超50%参数量的同时保持模型表达能力,基于FPGA的稀疏玻尔兹曼机将训练时间从超过10小时缩短至5分钟,加速超2个数量级 [36][37] - 公司在光连接、新型内存等支撑性工程技术以及大规模仿真平台等架构技术方面展开前瞻性研究 [37]
Meta(META.US)宣布撤裁600个AI岗位 此前启动史上最大外部融资
智通财经· 2025-10-23 06:33
公司组织架构调整 - 公司在"超级智能实验室"裁撤约600个岗位,占该部门数千名员工的一小部分,旨在让公司人工智能组织更灵活、更具响应力 [1] - 裁员波及Facebook Artificial Intelligence Research研究部门,以及围绕产品型AI与AI基础设施的相关团队,新成立的TBD Lab不受影响 [1] - 公司于今年6月重组AI团队,将基础模型、产品AI以及FAIR团队并入Superintelligence Labs,此前公司经历资深人员流失,其开放式模型Llama4市场反馈不佳 [2] - 为提振AI研发,公司CEO亲自领导了该部门的激进招募 [2] 公司战略与资源分配 - 减少团队人数旨在加快决策效率,并提升团队成员的职责广度、影响力与产出权重 [1] - 公司鼓励受影响员工申请内部其他岗位 [1] - 公司与Blue Owl Capital达成一项规模达270亿美元的私募融资协议,是公司有史以来最大一笔私人资本合作 [1] - 融资资金将用于公司有史以来最大的数据中心项目,部分分析师指出此举有望帮助公司推进其庞大的AI野心,同时把大量前期资本投入与风险转移给外部资金方 [1] 人工智能业务发展历程 - 公司自2013年起布局AI,通过成立FAIR团队招募深度学习权威Yann LeCun [2] - 目前Superintelligence Labs包括基础模型、FAIR、产品AI以及开发下一代模型的TBD Lab,成为推动公司全面AI转型的核心阵地 [2]
小扎“亿元俱乐部”开招白菜岗,年薪20-30万美元,网友:是时候招牛马干苦力了
36氪· 2025-08-19 13:11
Meta超级智能实验室招聘策略 - 公司前期以高薪吸引顶尖人才,部分岗位年薪上亿美元,现阶段转向招聘中端人才填补运营缺口,产品运营经理年薪总包20-30万美元,仅为前期高端人才薪酬的1/5至1/100 [1][4] - 此次招聘岗位年薪122000-177000美元/年,包含奖金、股权及福利,与公司产品经理常规薪资水平(16-31万美元/年)基本持平 [4][7] - 超级智能实验室团队规模已超2500人,其中99%为非高薪岗位,显示公司从核心研发向规模化运营过渡的战略调整 [9] 岗位职责与要求 - 产品运营经理需协调跨部门资源,确保AI模型(GenAI)产品顺利上线,工作涵盖数据收集、流程优化、问题预判及团队协作 [6] - 核心能力要求包括:6年以上经验、数据管道构建、SQL分析、跨部门沟通及高管级仪表盘开发经验,8年以上经验或全球团队管理经验为加分项 [7] - 岗位需通过数据驱动决策,优化AI自动化模型工作流程,提升产品质量与发布效率,并设计端到端运营性能改进计划 [6][7] 行业与市场反应 - 市场对超级智能实验室"普通薪资"岗位关注度较高,因与前期亿元级高薪招聘形成强烈反差,引发关于团队结构阶段的讨论 [4][8] - 网友调侃该薪资为"无薪实习",反映硅谷对Meta薪酬策略的认知差异,同时暗示公司可能已完成核心团队搭建 [8][9] - 未公开的奖金与股权部分可能构成实际薪酬重要组成部分,需结合公司当前市值综合评估 [10]
计算机ETF(512720)涨超1.6%,国产大模型技术突破或催化算力需求
每日经济新闻· 2025-08-11 11:56
计算机ETF表现 - 8月11日计算机ETF(512720)涨幅超过1 6% [1] - 该ETF跟踪CS计算机指数(930651) 覆盖沪深市场计算机硬件 软件及服务领域的上市公司证券 [1] - CS计算机指数具有高成长性和波动性特征 反映计算机相关上市公司的整体表现 [1] Kimi K2模型技术突破 - Kimi K2模型以320亿激活参数实现万亿级规模扩展 采用自研MuonClip优化器突破训练稳定性瓶颈 [1] - 在代码 数学 工具调用三大核心赛道全面超越Gemma3和Llama4等国际开源模型 跻身大模型竞技场总榜TOP5 [1] - 通过ACEBench启发的智能体数据合成技术覆盖数千种工具场景 显著提升任务泛化能力 [1] - 可自主生成复杂前端代码并精准拆解指令为结构化序列 [1] 商业化与应用前景 - 开源策略将降低AI Agent开发成本 推动应用层创新爆发 [1] - B端企业级API与C端多模态Kimi-VL形成全栈产品矩阵 验证长文本 视觉交互等场景落地潜力 [1] - 同等性能下 Kimi K2推理成本优势明显 有望加速智能体从概念验证向商业化盈利过渡 [1] 相关基金产品 - 无股票账户的投资者可关注国泰中证计算机主题ETF联接A(160224)和国泰中证计算机主题ETF联接C(010210) [2]
OpenAI将启动5000万美元基金,支持非营利组织和社区组织;Kimi K2登顶全球开源模型冠军丨AIGC日报
创业邦· 2025-07-20 09:15
Manus联合创始人总结经验教训 - Manus联合创始人季逸超发布技术解析长文 复盘公司从年初爆火至今的开发思路与教训 [1] - 公司近期被曝裁员、清空国内多平台账号等消息 [1] 中国开源模型全球领先 - 全球开源模型排行榜中 Kimi K2、DeepSeek R1、Qwen3等3个中国模型排名前三 [2] - Kimi K2成为全球最强开源模型 领先谷歌Gemma3和Meta旗下Llama4 [2] - 榜单由数千位开发者通过动态盲测进行投票 [2] OpenAI启动5000万美元基金 - OpenAI宣布启动5000万美元初始基金 支持非营利组织和社区组织 [3] - 基金将用于教育、经济机遇、社区组织和医疗保健等领域 扩大AI影响力并促进创新 [3] - 公司还将支持社区主导的研究和创新 利用AI促进公共福祉 [3] Perplexity挑战谷歌移动市场地位 - Perplexity正与移动设备制造商洽谈 希望在智能手机上预装Comet AI移动浏览器 [4] - 公司CEO表示说服OEM将默认浏览器从Chrome改为Comet并不容易 [4] - 强调了移动平台上用户惯性带来的挑战 [4]
重新审视AI明星工程师的天价薪酬
经济观察网· 2025-07-19 00:56
科技巨头AI人才争夺战 - Meta、OpenAI等科技巨头以数百万美元薪资争夺AI顶尖研究员,高级AI科学家年薪普遍在300万至700万美元之间,个别超过1000万美元,较2022年上涨约50% [2] - Meta的AI工程师薪酬中位数为56万美元,最高可达350万美元以上;OpenAI工程师薪酬中位数为87万美元,高级工程师可达134万美元,远高于普通软件工程师的18.5万美元中位数 [2] - OpenAI首席研究官批评Meta在假期挖人,公司正在调整薪酬结构和奖励制度以留住人才 [2] - Meta因大语言模型Llama4表现不佳而紧急转向,投资148亿美元入股数据标注公司ScaleAI并组建"超级智能"团队 [3] 人才争夺战的历史演进 - 人才争夺战概念最早由麦肯锡1997年提出,指出知识经济时代人才是企业最稀缺资源,企业竞争实质是人才竞争 [4] - 互联网泡沫时期出现对明星工程师的狂热追捧,企业通过高薪、期权和"联合创始人"头衔吸引人才 [5] - 2002-2019年大数据、云计算时代新兴岗位如数据科学家、算法工程师成为热门资源 [6] - 2022年ChatGPT引爆AI热潮,LLM研究员、推理算法专家等AI人才身价飙升,行业巨头展开战略先发权竞争 [6] 人才争夺战的管理弊端 - 企业常设不切实际招聘门槛,希望直接雇用"即插即用"员工,而非投资内部培训 [7] - 人才被视为可变成本而非资本投资,企业面临短期压力时倾向削减培训,导致更高流动率和绩效问题 [8] - 中小企业因FOMO情绪盲目跟随高薪抢人,导致薪酬体系失衡、文化紊乱等问题 [9][10] - 高薪抢人策略使中小企业偏离产品与客户战略,陷入高成本竞争和"招人无项目"困境 [11] 人才战略的长期主义转向 - 高价挖角并非破解AI人才短缺的通用办法,企业需注重内部人才发展与系统性能力建设 [13] - 未来人才战略将从"争夺"转向"吸引与培育",体现在选才逻辑改变、雇主吸引力提升和内部机制完善 [14] - 丰田、微软、美的等企业案例显示长期成功依赖系统性组织能力而非高薪挖人 [15] - 真正人才战略不是快一步而是走得远,需构建稳定、适配、可持续的人才生态 [16]