Llama4
搜索文档
田渊栋的2025年终总结:关于被裁和26年的研究方向
自动驾驶之心· 2026-01-06 08:28
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 最近太忙,只能把年终总结放到1月1日之后再写了,不管怎样,能开始动笔就是好事。 作者 | 田渊栋@知乎 编辑 | 大模型之心Tech 原文链接: https://zhuanlan.zhihu.com/p/1990809161458540818 关于被裁 在2025年1月底被要求加入Llama4救火的时候,作为一直以来做强化学习的人,我事先画了一个2x2的回报矩阵(reward matrix),计算了一下以下四种可能(虽然在 那时,因为来自上面的巨大压力,不同意是几乎不可能的): | | 同意帮忙 | 拒绝帮忙 | | --- | --- | --- | | Llama4项目成功 | 成为英雄 | 被边缘化 | | Llama4项目未成功 | 为公司尽力 | 被人骂在公司需要时不出力 | 当时想的是我们去帮忙的话,即便最后项目未能成功,也至少尽力而为,问心无愧。不过遗憾的是,最后发生的是没在计算之内的第五种可能,这也让我对 ...
143亿打水漂?Meta惨翻车,谷歌逆袭OpenAI拉响红色警报
搜狐财经· 2026-01-06 00:50
在阅读文章前,辛苦您点下"关注",方便讨论和分享。作者定会不负众望,按时按量创作出 更优质的内容 文 |小戎 这波操作直接打破了美国技术的"神话滤镜",后续带火的强化学习更是成了香饽饽,各大实验室全跟风 搞"奖惩式训练",Anthropic甚至豪掷100亿美元建模拟环境,这是要让AI先在"虚拟考场"卷起来啊! 有人欢喜有人愁,Meta今年纯属"花钱买罪受",Llama4没人买账,小扎急了砸143亿挖人,结果新团队 就搞出个没人用的视频应用Vibes,最后只能内部重组、人才跑路,属实是"钞能力失灵"名场面。 反观谷歌,总算摆脱了"AI落后者"标签,年底的Gemini3.0一出手,直接让OpenAI拉响"红色警戒"。 谷歌逆袭OpenAI 哈喽,大家好,小戎这篇评论,主要来分析2025年AI圈关键事件,聊聊DeepSeek炸场、谷歌逆袭等名 场面,对比各方兴衰与行业槽点。 家人们,2025年AI圈这出大戏总算谢幕了!外媒总结的十大关键事件,简直比热搜连续剧还抓马—— 有逆袭炸场的,有逆风翻盘的,还有砸钱打水漂的,咱用唠嗑模式快速过一遍! Meta惨翻车 开年第一炸就是DeepSeek,直接把大模型开源甩出来,号称 ...
LeCun曝Meta作弊刷榜,田渊栋:我没想到这个结局
量子位· 2026-01-04 13:21
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI (扶额苦笑.jpg) Anyway,至于离职后的打算,两位大神都不约而同地表示: 创业! 离职的LeCun,反手就给Meta一记重锤:差评如潮的Llama4真的作弊刷榜了! 结果的确被篡改了一点。 为了更好的结果,团队 对不同基准测试使用了不同的模型 。 都说别惹离职er,不止LeCun,田渊栋也在个人年终总结中透露了一点内幕。 明明是被拉来给Llama4救火的,事先预想了四种可能,结果小扎给了我第五种…… Llama4刷榜引发的离职潮 DeepSeek还是给小扎压力太大。 此前就有消息爆料, DeepSeek 的横空出世,让Llama 4还没发布就被甩在身后,逼得小扎疯狂加码AI投资。 这一点也得到了LeCun的证实。 小扎确实慌了,对内push上强度,要求GenAI部门加速AI开发和部署,还拉来原FAIR团队的田渊栋救火。 结果就是,团队之间沟通直接破裂。LeCun他们想要做些新东西,但小扎更想要已经被验证过的、可以直接落地的技术。 真正的导火索则来自于 Llama 4 的惨败。 不仅输了,还因为排行榜造假名声大跌,于是小扎彻底对团队所有人失去了信心, ...
Google的反击之路,AI巨头的竞争与分化
新财富· 2025-11-27 16:39
AI行业竞争格局与市场表现 - 资本市场对AI行业存在泡沫担忧但更害怕错过 对竞争格局的投票结果显示谷歌和博通在2025年表现更好 [4] - 截至2025年11月25日纳斯达克100指数累计上涨19.07% 谷歌和博通分别上涨70.49%和67.26% 英伟达上涨32.44% 微软、META、亚马逊涨幅均低于指数平均值 [5][7] - 谷歌股价上涨得益于Gemini 3发布 META下跌因Llama4产品不及预期及团队波动 [6] Gemini 3的技术突破 - Gemini 3 Pro在LMArena排行榜以1501分登顶 在"人类最后的考试"获37.5%分数 GPQA Diamond测试获91.9%高分展示博士级推理能力 [9] - 数学领域MathArena Apex测试得分23.4% 远超GPT-5.1的1% 多模态推理MMMU-Pro测试81% Video-MMMU测试87.6% [9] - 代码能力突出 可生成复杂交互页面并实现自我验证调试优化 LiveCodeBench Pro测试Elo评分达2439分 Vending-Bench 2测试净价值均值5478.16美元 [10] - 推出Antigravity开发平台 将AI编程从辅助工具转变为协作伙伴 实现跨界面操作和真正的AI agent [11] Google的技术演进与市场反击 - Google是Transformer架构发明者 但长期押注BERT等理解型模型 因与搜索广告业务更契合 [14][15] - OpenAI基于Transformer推出GPT系列 确立"生成式+大规模"战略 ChatGPT两个月获一亿用户促使Google发布红色警报 [16][17][18] - Gemini 3发布前市场份额从5-6%提升至14% 凭借Nano Banana表现两周内实现2300万用户增长 反超ChatGPT成App Store榜首 [18][19] 巨头生态与战略分化 - Google拥有多元C端入口 搜索占90%市场份额 具备从TPU芯片到终端应用的全栈自研生态 呈现厚积薄发之势 [21][23] - META因缺少云业务 AI投入变现路径单一 Llama4训练不及预期及中国开源模型影响导致战略受挫 进行团队大幅调整 [24][25] - 微软重点发力软件+云方向 优先推广OpenAI API 亚马逊侧重算力提供但缺乏核心壁垒 行业竞争从模型强度转向生态融合与商业价值 [25]
中兴发了一篇论文,洞察AI更前沿的探索方向
机器之心· 2025-11-26 09:36
文章核心观点 - 当前基于Transformer架构的大模型面临算力消耗大、效率低、与物理世界脱节等核心瓶颈,通用人工智能的实现路径亟待突破 [2] - 行业正从“规模竞赛”转向“效率革命”,探索超越自回归Transformer的新计算范式,特别是物理第一性原理模型与新型硬件的融合 [2][38] - 中兴通讯的论文为下一代AI大模型计算范式提供了重要参考,其自身在微架构创新和新型算法硬件探索方面的实践抢占了技术高地 [2][36][38] LLM现状及瓶颈 - 大模型性能遵循规模扩展定律,依赖计算量、参数量和训练数据量的堆叠,但训练沉没成本极高,例如Grok4模型在20万卡集群耗时半年才完成预训练 [4][5] - Transformer架构计算效率低,算术强度仅为2,远低于卷积神经网络的数百,导致模型算力利用率低,并高度依赖先进工艺和高带宽存储器 [6] - 随着模型参数和上下文长度增加,Transformer架构瓶颈与摩尔定律放缓的矛盾将更突出,面临“功耗墙”和“内存墙”挑战 [7] - 现有LLM存在幻觉、可解释性差等问题,其“Next Token Prediction”核心被部分学者认为难以真正理解物理世界,智能进步严重依赖“暴力缩放” [9] LLM自回归模式的工程改进和优化 - 算法层面通过优化注意力机制(如GQA、MLA、Flash-Attention)和采用低精度量化(如4-bit)来提升效率,但量化会引入误差 [13][14] - 循环递归参数复用架构(如Universal Transformer)通过参数共享提升算术强度,但其大规模扩展后的能力尚不明确 [15] - 集群系统采用张量、数据、流水线和专家并行等范式,混合专家模型可将计算量缩减为原来的1/32,预填充和解码阶段分离部署可提升硬件利用率 [16] - 端云AI协同搭建“快慢思考”系统,端侧处理实时推理,云端处理复杂任务 [17] 硬件工程创新 - 微架构领域专用化,引入异步数据搬移和混合精度训练;通过Scale Up和Scale Out域划分进行互联优化,Scale Up域采用Nvlink提供200纳秒超低延迟 [18] - 光电混合集群和“存算一体”等新型计算范式是构建万卡以上集群、突破“内存墙”的关键技术 [18][19] - 基于光IO技术重构计算体系结构和基于3D DRAM构建新型内存体系是两大前瞻性硬件工程技术 [21] - 万卡以上集群部署需通过算网存仿真平台进行优化 [20] 下一代AI大模型计算范式演进和展望 - AGI的实现需根本性变革,产业界正探索不以Next-Token Prediction为核心的新范式,基于能量、动力学等第一性原理的模型成为重要方向 [23][24] - 新模型发展分为两类:一是改进的Transformer架构,如Diffusion LLM可将推理吞吐量提升10倍以上,能耗减少至1/10;二是基于物理第一性原理的架构,如液态神经模型和基于能量的模型 [26][27][28] - 未来AI计算更受能耗限制,催生三大新型计算范式:物理原理启发(光计算、量子计算、电磁计算)、基于材料特性(概率计算、吸引子网络、热力学计算)和生物启发(类脑计算、DNA计算)的架构 [29][30][31][32][33][34] 中兴通讯的探索与实践 - 公司在微架构层面进行创新,如利用8T SRAM数字存内计算技术实现高能效AI加速器,其XPU-PIM异构架构在能效和吞吐量上相比常规GPU有数量级提升 [36] - 公司探索从物理第一性原理出发的新路线,如循环式Transformer架构可在减少超50%参数量的同时保持模型表达能力,基于FPGA的稀疏玻尔兹曼机将训练时间从超过10小时缩短至5分钟,加速超2个数量级 [36][37] - 公司在光连接、新型内存等支撑性工程技术以及大规模仿真平台等架构技术方面展开前瞻性研究 [37]
Meta(META.US)宣布撤裁600个AI岗位 此前启动史上最大外部融资
智通财经· 2025-10-23 06:33
公司组织架构调整 - 公司在"超级智能实验室"裁撤约600个岗位,占该部门数千名员工的一小部分,旨在让公司人工智能组织更灵活、更具响应力 [1] - 裁员波及Facebook Artificial Intelligence Research研究部门,以及围绕产品型AI与AI基础设施的相关团队,新成立的TBD Lab不受影响 [1] - 公司于今年6月重组AI团队,将基础模型、产品AI以及FAIR团队并入Superintelligence Labs,此前公司经历资深人员流失,其开放式模型Llama4市场反馈不佳 [2] - 为提振AI研发,公司CEO亲自领导了该部门的激进招募 [2] 公司战略与资源分配 - 减少团队人数旨在加快决策效率,并提升团队成员的职责广度、影响力与产出权重 [1] - 公司鼓励受影响员工申请内部其他岗位 [1] - 公司与Blue Owl Capital达成一项规模达270亿美元的私募融资协议,是公司有史以来最大一笔私人资本合作 [1] - 融资资金将用于公司有史以来最大的数据中心项目,部分分析师指出此举有望帮助公司推进其庞大的AI野心,同时把大量前期资本投入与风险转移给外部资金方 [1] 人工智能业务发展历程 - 公司自2013年起布局AI,通过成立FAIR团队招募深度学习权威Yann LeCun [2] - 目前Superintelligence Labs包括基础模型、FAIR、产品AI以及开发下一代模型的TBD Lab,成为推动公司全面AI转型的核心阵地 [2]
小扎“亿元俱乐部”开招白菜岗,年薪20-30万美元,网友:是时候招牛马干苦力了
36氪· 2025-08-19 13:11
Meta超级智能实验室招聘策略 - 公司前期以高薪吸引顶尖人才,部分岗位年薪上亿美元,现阶段转向招聘中端人才填补运营缺口,产品运营经理年薪总包20-30万美元,仅为前期高端人才薪酬的1/5至1/100 [1][4] - 此次招聘岗位年薪122000-177000美元/年,包含奖金、股权及福利,与公司产品经理常规薪资水平(16-31万美元/年)基本持平 [4][7] - 超级智能实验室团队规模已超2500人,其中99%为非高薪岗位,显示公司从核心研发向规模化运营过渡的战略调整 [9] 岗位职责与要求 - 产品运营经理需协调跨部门资源,确保AI模型(GenAI)产品顺利上线,工作涵盖数据收集、流程优化、问题预判及团队协作 [6] - 核心能力要求包括:6年以上经验、数据管道构建、SQL分析、跨部门沟通及高管级仪表盘开发经验,8年以上经验或全球团队管理经验为加分项 [7] - 岗位需通过数据驱动决策,优化AI自动化模型工作流程,提升产品质量与发布效率,并设计端到端运营性能改进计划 [6][7] 行业与市场反应 - 市场对超级智能实验室"普通薪资"岗位关注度较高,因与前期亿元级高薪招聘形成强烈反差,引发关于团队结构阶段的讨论 [4][8] - 网友调侃该薪资为"无薪实习",反映硅谷对Meta薪酬策略的认知差异,同时暗示公司可能已完成核心团队搭建 [8][9] - 未公开的奖金与股权部分可能构成实际薪酬重要组成部分,需结合公司当前市值综合评估 [10]
计算机ETF(512720)涨超1.6%,国产大模型技术突破或催化算力需求
每日经济新闻· 2025-08-11 11:56
计算机ETF表现 - 8月11日计算机ETF(512720)涨幅超过1 6% [1] - 该ETF跟踪CS计算机指数(930651) 覆盖沪深市场计算机硬件 软件及服务领域的上市公司证券 [1] - CS计算机指数具有高成长性和波动性特征 反映计算机相关上市公司的整体表现 [1] Kimi K2模型技术突破 - Kimi K2模型以320亿激活参数实现万亿级规模扩展 采用自研MuonClip优化器突破训练稳定性瓶颈 [1] - 在代码 数学 工具调用三大核心赛道全面超越Gemma3和Llama4等国际开源模型 跻身大模型竞技场总榜TOP5 [1] - 通过ACEBench启发的智能体数据合成技术覆盖数千种工具场景 显著提升任务泛化能力 [1] - 可自主生成复杂前端代码并精准拆解指令为结构化序列 [1] 商业化与应用前景 - 开源策略将降低AI Agent开发成本 推动应用层创新爆发 [1] - B端企业级API与C端多模态Kimi-VL形成全栈产品矩阵 验证长文本 视觉交互等场景落地潜力 [1] - 同等性能下 Kimi K2推理成本优势明显 有望加速智能体从概念验证向商业化盈利过渡 [1] 相关基金产品 - 无股票账户的投资者可关注国泰中证计算机主题ETF联接A(160224)和国泰中证计算机主题ETF联接C(010210) [2]
OpenAI将启动5000万美元基金,支持非营利组织和社区组织;Kimi K2登顶全球开源模型冠军丨AIGC日报
创业邦· 2025-07-20 09:15
Manus联合创始人总结经验教训 - Manus联合创始人季逸超发布技术解析长文 复盘公司从年初爆火至今的开发思路与教训 [1] - 公司近期被曝裁员、清空国内多平台账号等消息 [1] 中国开源模型全球领先 - 全球开源模型排行榜中 Kimi K2、DeepSeek R1、Qwen3等3个中国模型排名前三 [2] - Kimi K2成为全球最强开源模型 领先谷歌Gemma3和Meta旗下Llama4 [2] - 榜单由数千位开发者通过动态盲测进行投票 [2] OpenAI启动5000万美元基金 - OpenAI宣布启动5000万美元初始基金 支持非营利组织和社区组织 [3] - 基金将用于教育、经济机遇、社区组织和医疗保健等领域 扩大AI影响力并促进创新 [3] - 公司还将支持社区主导的研究和创新 利用AI促进公共福祉 [3] Perplexity挑战谷歌移动市场地位 - Perplexity正与移动设备制造商洽谈 希望在智能手机上预装Comet AI移动浏览器 [4] - 公司CEO表示说服OEM将默认浏览器从Chrome改为Comet并不容易 [4] - 强调了移动平台上用户惯性带来的挑战 [4]
重新审视AI明星工程师的天价薪酬
经济观察网· 2025-07-19 00:56
科技巨头AI人才争夺战 - Meta、OpenAI等科技巨头以数百万美元薪资争夺AI顶尖研究员,高级AI科学家年薪普遍在300万至700万美元之间,个别超过1000万美元,较2022年上涨约50% [2] - Meta的AI工程师薪酬中位数为56万美元,最高可达350万美元以上;OpenAI工程师薪酬中位数为87万美元,高级工程师可达134万美元,远高于普通软件工程师的18.5万美元中位数 [2] - OpenAI首席研究官批评Meta在假期挖人,公司正在调整薪酬结构和奖励制度以留住人才 [2] - Meta因大语言模型Llama4表现不佳而紧急转向,投资148亿美元入股数据标注公司ScaleAI并组建"超级智能"团队 [3] 人才争夺战的历史演进 - 人才争夺战概念最早由麦肯锡1997年提出,指出知识经济时代人才是企业最稀缺资源,企业竞争实质是人才竞争 [4] - 互联网泡沫时期出现对明星工程师的狂热追捧,企业通过高薪、期权和"联合创始人"头衔吸引人才 [5] - 2002-2019年大数据、云计算时代新兴岗位如数据科学家、算法工程师成为热门资源 [6] - 2022年ChatGPT引爆AI热潮,LLM研究员、推理算法专家等AI人才身价飙升,行业巨头展开战略先发权竞争 [6] 人才争夺战的管理弊端 - 企业常设不切实际招聘门槛,希望直接雇用"即插即用"员工,而非投资内部培训 [7] - 人才被视为可变成本而非资本投资,企业面临短期压力时倾向削减培训,导致更高流动率和绩效问题 [8] - 中小企业因FOMO情绪盲目跟随高薪抢人,导致薪酬体系失衡、文化紊乱等问题 [9][10] - 高薪抢人策略使中小企业偏离产品与客户战略,陷入高成本竞争和"招人无项目"困境 [11] 人才战略的长期主义转向 - 高价挖角并非破解AI人才短缺的通用办法,企业需注重内部人才发展与系统性能力建设 [13] - 未来人才战略将从"争夺"转向"吸引与培育",体现在选才逻辑改变、雇主吸引力提升和内部机制完善 [14] - 丰田、微软、美的等企业案例显示长期成功依赖系统性组织能力而非高薪挖人 [15] - 真正人才战略不是快一步而是走得远,需构建稳定、适配、可持续的人才生态 [16]