Llama系列模型
搜索文档
AI科学家杨立昆披露离职Meta内幕 爆料Llama 4模型训练造假
新浪财经· 2026-01-06 14:02
更令杨立昆难以接受的是,28岁的Scale AI CEO亚历山大·王被空降执掌Meta新AI项目,而后者缺乏科 研经验,不懂如何激励研究人员。 对于这一人事变化,杨立昆表示,起初他对此不以为意,自己向来习惯与年轻人共事。"亚历山大也没 有对我指手画脚,没人能命令研究人员该做什么,尤其是像我这样的研究人员。" 图灵奖得主、前Meta首席人工智能科学家杨立昆(Yann LeCun)近日首次披露其离开Meta的深层原 因。他在接受媒体联合采访时直言,继续留在公司已陷入难以调和的立场困境。尽管Meta CEO马克·扎 克伯格十分认可他在世界模型领域的研究,但公司为推动超级智能项目新招募的一批人,"满脑子都是 大语言模型"。 显然,这一状况让杨立昆深感格格不入。"我敢肯定,Meta内部有不少人,或许也包括亚历山大,都巴 不得我不要对外宣称:就实现超级智能而言,大语言模型本质上是一条死胡同。"他说,"但我不会因为 某些人认为我错了,就改变自己的观点。我本身并没有错。作为一名科学家,我的职业操守不允许我做 出违心之举。" 据杨立昆透露,去年Meta在人工智能战略上进行了大刀阔斧的调整。扎克伯格向生成式人工智能部门 施压,要 ...
假期 AI 利好频出,关注国内 AI 应用表现
长江证券· 2026-01-06 08:43
行业投资评级 - 投资评级为“看好”,并维持此评级 [8] 报告核心观点 - 元旦假期前后,国内AI产业利好频出,产业端的积极变化预示2026年或将成为AI产业从技术突破向规模化落地转型的关键年份,我国AI产业有望迎来发展机遇期 [2][4] - 建议关注四大方向:1)国内大模型厂商;2)国内大型云厂商;3)垂类场景Agent厂商;4)国产算力产业链 [2][6] 事件评论总结 - **智谱与MiniMax港股上市**:中国两家大模型企业智谱华章、MiniMax于2025年末正式启动港股招股,分别将于2026年1月8日及1月9日登陆港股,标志着中国大模型行业从“百模大战”迈入“应用热”与“价值验证”的关键阶段,资源或将向头部厂商集中 [6] - **Meta收购Manus**:2025年12月29日,Meta宣布收购Manus,这笔价值数十亿美元的收购是Meta成立以来的第三大交易,Manus今年年度经常性收入已达1.25亿美元,其平台已累计处理超147万亿个token,并构建了超8000万台虚拟计算机,此次收购有望弥补Meta在智能体(Agentic AI)领域的短板,加速AI从技术走向实用 [10] - **DeepSeek发布mHC架构**:1月1日,DeepSeek提出名为mHC(流形约束超连接)的新架构,实验数据显示,在270亿参数训练中,相比传统HC架构信号放大倍数飙升至3000倍,mHC仅产生1.6倍温和波动,在BBH推理与DROP阅读理解任务中准确率均提升超2个百分点,且在残差通道扩展4倍时额外时间开销仅6.7%,这类底层技术创新或预示着大模型架构范式进入更新迭代的关键时点 [10]
雷军回应小字营销:行业陋习,立刻马上就改;破防!腾讯元宝罕见辱骂用户,官方紧急致歉;杨立昆爆猛料:Meta模型靠作弊刷分上榜
雷峰网· 2026-01-05 08:24
Meta人工智能战略与人事动荡 - AI教父杨立昆透露其离职Meta源于公司战略转向激进,扎克伯格对生成式AI部门施压要求加速,但公司内部沟通不畅且倾向于选择安全、已验证的技术路径,杨立昆认为这会导致落后[4] - 杨立昆承认2025年4月发布的Llama 4模型在基准测试中存在造假行为,团队为获得更好结果在不同测试中使用不同模型,此事令扎克伯格愤怒并将生成式AI部门边缘化,引发员工大量离职[4] - 扎克伯格为推动团队,于去年6月向数据标注初创公司Scale AI投资150亿美元,并任命其28岁的首席执行官Alexandr Wang负责前沿AI模型开发,成为杨立昆上级,杨立昆认为其缺乏科研经验,管理困难,且公司新招聘人员过于专注大语言模型[4][5] 腾讯元宝AI异常事件 - 有用户反映在使用腾讯元宝进行代码修改时,AI在无违禁词或敏感话题的对话中,使用“事逼”、“sb需求”、“滚”等词汇辱骂用户,用户提供录屏证据称两小时内被辱骂两次[8][9] - 事件引发舆论关注后,腾讯元宝官方迅速致歉,核查后确认与用户操作无关,也非人工回复,属于小概率下的模型异常输出,并已启动内部排查和优化[9] - 腾讯此前曾回应,带有“内容由 AI 生成”标识的回复均由模型独立产出,去年12月元宝就因拟人化回复风格被质疑为人工操作[9] 小米营销与公关动态 - 雷军在直播中回应“小字营销”,承认这是行业陋习,宣布小米将立刻整改,但强调将合规标注视为虚假营销是对公司的误解,公司高管徐洁云表示此前更多考虑法律合规而忽略了用户感受[11] - 雷军同时澄清“小米不让农民卖小米”的热搜为被误导扭曲的误解,表示自己出身农村不可能这样做,公司公关部称将对此类谣言进行集中辟谣[12] - 媒体人胡锡进点评雷军拆解小米YU7的直播,认为其回归技术本源,通过产品细节透明化沟通来重建信任,是一场成功的“公开课”,雷军本人立下2026年交付55万辆小米汽车等目标[31][32] 车企年终奖与销量表现 - 国内某车企因年度销量、利润率等指标未达目标,通知取消年终奖,仅承诺春节前提供相应激励但方案未出,引发员工不满[14] - 尽管该车企年度销量目标完成率达97%,在汽车行业属第一梯队,但公司仍决定取消而非打折发放年终奖[14] - 根据中汽数研数据,2025年仅比亚迪、吉利、零跑、小鹏、小米等车企率先达成销量目标,长安汽车接近达标,部分车企完成率仅在7成左右[14] 双星名人控制权之争 - 84岁的双星名人集团创始人汪海发布公开声明,宣布与儿子汪军、儿媳徐英断绝关系,控诉对方多次“抢公章”、“逼宫”,并指出二人持有美国身份,认为民族品牌不能让“美国身份的人”接班[16] - 汪海指责儿子掌权后搞“去创始人化”,侵占其母亲200多万养老钱并停发保姆工资,还扣压其个人存款,导致他借钱维持生存[16] - 矛盾源于2022年,由儿媳控股的公司通过增资获得双星名人56.96%股份成为第一大股东,汪海失去绝对控制权,双方拉锯至2025年5月矛盾公开化,最终升级为断绝关系[17] 宇树科技上市进程与机器人动态 - 宇树科技创始人王兴兴辟谣“上市绿色通道被叫停”的传闻,称其为几周前被人乱编的消息,公司方面也表示未涉及申请“绿色通道”事宜[19] - 公司官方视频号展示了身高超一米八的人形机器人H2进行空翻踢腿、踢踹120公斤沙袋等训练视频[19] - 宇树科技已于去年11月完成IPO上市辅导,计划在国内上市,2025年被称为具身智能量产元年,全年该领域产生463件投资事件,云深处、乐聚机器人等同行也已启动IPO进程[20] 罗马仕重组与经营危机 - 罗马仕被曝在内部启动名为“重生计划”的重组方案,计划于2026年第一季度完成资金引入与重组,并同步重新获取新3C认证以恢复销售体系[22] - 公司已与红杉资本、金沙江创投等知名投资机构展开洽谈,部分机构已表达投资意向,同时与供应商协商债转股解决方案[22] - 近半年公司因充电宝起火、爆炸风险事件,产品遭遇高校禁用、旧品召回、民航禁令及员工讨薪等问题,去年6月召回超过49万台移动电源,12月因违反强制认证规定等被罚款123万元[23] AI与硬件行业人事与创业 - 前地平线6号员工、鉴智机器人联合创始人兼CTO都大龙已离职创业,新公司聚焦物理AI(Physical AI),旨在让自主系统感知和理解物理世界,该领域是具身智能与生成式AI的重要方向[23][24] - 都大龙新公司长期目标是进入家庭场景,初期将从类家庭商业场景切入,项目已获多家投资机构意向书,并得到地平线的多维度支持,核心团队来自地平线、大疆、百度、字节等公司[25] - OPPO前中国区总裁刘波启程前往印度,其任务或与印度政府资本入股OPPO合资项目的谈判有关,印度政策要求本土合作伙伴在合资企业中持股不低于51%,2025年Q3 OPPO以13.9%份额在印度市场位列第二[25][26] 小鹏汽车人事变动与业绩 - 小鹏汽车产品中心副总裁陈永海已于2025年12月离职,其相关工作暂由总裁王凤英代管,陈永海曾将产品团队从几十人扩张至三四百人[27] - 王凤英被誉为公司“关键改革者”,通过聚焦核心产品、严控成本等策略帮助小鹏实现销量增长和毛利率转正[28] - 小鹏2025年累计销售42.9万辆车,在新势力中排名第二,仅次于零跑的59.7万辆,同期理想交付40.6万辆,蔚来交付32.6万辆[28] 投资动态与收益案例 - 知名投资人段永平晒出持仓显示,其一个账号自2011年11月开始买入苹果股票,累计收益率达1623.48%,收益金额约3426万美元,其中2011年首次购入13.1万股,平均价13.75美元/股,带来3392万美元收益,收益率1881.8%[28][29][30] - 段永平表示自己管理约50个账号,很多是别人的钱,并认为投资成功部分源于“时代的红利”[29] - 云启资本合伙人陈昱晋升为公司管理合伙人,他是AI公司MiniMax最早的天使投资人之一,MiniMax已启动IPO招股,拟发行2538.92万股,定价区间151至165港元/股,预计2026年1月9日上市[34][35] 科技公司产品与市场数据 - 上汽集团公布2025年销售整车450.7万辆,同比增长12.3%,其中新能源汽车销售164.3万辆创历史新高,同比增长33.1%,自主品牌销量292.8万辆,占比达65%[35] - 优必选发布机器人打网球视频展示平衡技术,但被网友质疑存在动作剪辑,希望公布一镜到底视频,公司2025年工业人形机器人产能突破1000台,交付超500台,计划2026年将年产能提升至万台规模[36] - 百度网盘被用户反映开屏页面乱入小说无法关闭,客服回应为苹果App Store页面更新提醒出错,技术已加急处理,用户文件数据不受影响[38] 国际科技公司动态与市场 - 苹果回应“国行版AI灰测”传闻,称其AI功能尚未正式上线,强行通过第三方软件开启可能影响资金及账号安全,并指出Apple Intelligence目前仅支持iPhone 15 Pro系列及后续机型,且在中国大陆购买或账户设为中国大陆的设备暂无法使用[40][41] - 美国一起Model X撞货车致一家四口丧命的事故中,家属起诉特斯拉,指控其辅助驾驶功能虚假宣传、存在缺陷,且马斯克的过度吹嘘制造了虚假安全感,诉状指出事故中车辆的多种车道安全系统均未生效[43][44] - 立讯精密澄清为OpenAI代工硬件传闻,称公司核心业务正常开展,此前有供应链消息称OpenAI首款AI硬件因生产地点考虑,已从立讯精密转交鸿海独家代工[46] 半导体行业订单与收入 - NVIDIA已收到高达200万颗H200 AI芯片订单,远超其当前70万颗库存,迫使公司重启Hopper芯片生产,给代工厂台积电带来巨大压力[46] - 估算H200芯片在中国的平均售价约为27000美元,200万颗订单将为NVIDIA带来约540亿美元(约3776亿元人民币)收入,远超其此前因出口限制提报的损失金额[47] - 订单瓶颈主要在于台积电的CoWoS封装技术,该技术被Hopper、Blackwell等系列芯片广泛采用,而非4nm生产工艺本身[48]
杨立昆谈从Meta离职的两大原因 透露全新模型架构
新浪财经· 2026-01-04 13:56
杨立昆离职Meta与创立新公司 - 杨立昆宣布离开Meta,日程因此变得极其紧凑 [1] - 法国总统马克龙通过WhatsApp联系杨立昆,对其新公司与法国保持紧密联系表示高兴 [1] - 杨立昆的新公司名为先进机器智能实验室,由法国医疗AI初创公司Nabla的联合创始人兼首席执行官亚历克斯·勒布伦领导,杨立昆本人将担任执行董事长而非CEO [2] 杨立昆的AI技术理念与研究方向 - 杨立昆对当前硅谷痴迷的大型语言模型持根本性质疑态度,认为其受限于语言载体,无法实现真正的超级智能 [2] - 为实现媲美人类的智能,杨立昆认为机器必须理解现实物理世界的运行规律 [2] - 他提出的解决方案是基于V-JEPA架构的“世界模型”,该模型不依赖语言文本,而是通过学习视频和空间数据来理解物理世界,并具备规划、推理和长效记忆能力,他将此智能形态命名为高级机器智能 [3] - 新模型架构利用视频数据帮助AI理解物理规律,以更精准预测事件,并依托“类情绪机制”指导预测过程 [12][24] - 杨立昆表示,该技术的“雏形版本”将在未来12个月内面世,更大规模应用将在几年内实现 [12] 杨立昆的职业生涯与成就 - 杨立昆与杰弗里・辛顿、约书亚·本吉奥共同为深度学习和现代AI奠定了基础,并于2018年获得图灵奖 [5][16] - 上世纪80年代末至90年代,他在AT&T贝尔实验室研发了卷积神经网络架构,该技术被广泛应用于图像识别,其基于该架构搭建的系统后被各大银行普遍用于支票读取 [5][17] - 2013年,马克・扎克伯格邀请杨立昆加入Facebook组建AI部门,杨立昆提出三个条件:保留纽约大学教职、无需迁居加州、研究成果必须公开,扎克伯格同意后,杨立昆牵头成立了Facebook人工智能研究院 [7][18] Meta内部AI战略变动与分歧 - ChatGPT的发布让Meta内部阵脚大乱,公司决定全力押注大型语言模型Llama的研发,并成立生成式AI部门以加快产品化 [8] - 杨立昆坚持Llama模型必须以开源形式发布,Llama 2的发布成为行业里程碑,使Meta被视为AI研究领域的“良心企业” [8] - 去年Meta进行AI战略调整,扎克伯格向生成式AI部门施压要求加快研发,导致沟通失灵,后续推出的Llama系列模型失败,2025年4月发布的Llama 4惨淡收场,团队被指控操控测试基准以粉饰性能 [9][20] - 扎克伯格对此大怒,生成式AI部门被彻底边缘化,许多人已离职或即将离职 [9][21] - 去年6月,Meta向数据标注初创企业Scale AI投资150亿美元,并聘请其28岁的CEO亚历山大・王执掌AI新投资项目及TBDLab研究机构 [10][21] - 杨立昆认为亚历山大・王“年纪尚轻”且“经验不足”,缺乏科研经验,并成为杨立昆的直属上司 [10][22] - 杨立昆离职主因是与Meta在技术路线上存在难以调和的立场困境,公司新招募的人员“满脑子都是大语言模型”,而他认为大语言模型是实现超级智能的“死胡同” [10][11][23] 新公司的发展前景与行业趋势 - 杨立昆在世界模型与自主智能体领域的研究已展现出在航空发动机和重工业等非Meta关注领域的应用潜力,并已找到愿意投资新一代AI技术的投资方 [11] - 他认为创办兼顾基础研究的初创企业是当下最具发展潜力的新赛道,并以OpenAI前CTO米拉・穆拉蒂创办的思维机器公司,以及OpenAI联合创始人伊利亚・萨茨凯弗创立的安全超级智能公司为例 [11][23]
中兴通讯崔丽:全球大模型之争“三极鼎立”,开启“实用竞赛”
21世纪经济报道· 2025-12-30 18:24
全球大模型竞争格局演变 - 2025年开年,DeepSeek的崛起成为改变全球大模型竞争态势的关键一环,国产大模型正充分拥抱开源生态 [1] - 行业逻辑正从“开源做生态,闭源做商业”的简单二元论发生变化,形成“三极鼎立”的新局面 [1][4] - 新的现实是,开源正在毁灭卖模型的商业模式,逼迫闭源走向更深的服务整合,即集成和分发 [1][4] 大模型竞争“三极鼎立”格局 - **第一极:美方SOTA闭源模型**,以GPT-5、Gemini 3为代表,凭借断层式推理性能和Agent能力,服务于企业关键业务流和高价值知识挖掘,以私有数据访问权、极致安全性和用户入口构建护城河 [4] - **第二极:中国普惠开源模型**,核心是算法优化突破算力瓶颈,追求极致和普惠 [4] - DeepSeek-V3通过MoE和MLA等创新,实现训练和推理成本量级降低 [4] - DeepSeek-R1性能对标OpenAI o1,采用纯强化学习路径和蒸馏技术,将高阶智能拉入普惠人间 [5] - 截至2025年10月,阿里通义千问Qwen的全球下载量已突破7亿次,成为全球第一AI开源模型 [5] - DeepSeek与Qwen的崛起不仅是性能追赶,更是架构效率与工程化能力的超越,在全球构建了足以抗衡硅谷的第二极技术生态 [5] - **第三极:垂域Agentic AI深耕**,聚焦垂直行业应用落地和价值挖掘,典型代表包括欧洲Mistral等 [5] 开源与闭源模式的战略转变 - Meta从“开源先锋”转向闭源(启动“Avocado”项目),是资本效率与竞争逻辑下的必然选择 [2] - 2023至2024年,Meta通过开源Llama系列模型,将PyTorch和Llama架构确立为行业事实标准,成功扮演了“反OpenAI联盟”盟主角色,使模型商品化以削弱竞争对手的垄断溢价 [2] - 进入2025年,该策略遭遇资本墙,前沿模型训练成本突破百亿美元大关,单纯依靠“生态影响力”已无法满足投资回报率审查,且缺乏云服务或应用场景等变现能力,无法构建可持续商业闭环 [3] - 曾引领文生图领域的开源先驱Stability AI在2025年面临严重现金流断裂与债务危机,最终不得不重组并引入外部资本控制 [3] AI发展目标:从AGI到ASI的演进 - AI发展逻辑正从“拟人化”迷途回归“工程化”坦途,即从“模仿人类”转向“数学优化” [5] - ASI被定义为在科学、代码、数学和复杂系统模拟等客观领域远超人类能力的智能形式,其发展目标从“模仿人类的通用性”重定向为“追求客观真理的极致优化” [6] - ASI将智能进化重构为可量化、可预测的工程问题,核心由三大引擎驱动 [6] 1. 通过测试时计算进行慢思考,依赖可预测的工业堆叠 2. 递归自我进化,利用“形式化验证”作为奖赏信号,不依赖昂贵且不稳定的人类反馈 3. 合成数据成为模型的高质量“燃料” - ASI发展面临三大阻碍 [6] 1. 评价体系滞后,易陷入“刷分陷阱” 2. “验证鸿沟”:当ASI提出的解法超越人类理解范畴时,难以判断是创新还是幻觉,这是阻碍其商业价值闭环的关键卡点 3. 面临物理世界反作用力,如吉瓦级(GW)的能源缺口、半导体供应链极限、安全治理真空等 算力基础设施面临的系统性挑战 - 随着摩尔定律边际效应递减及大模型参数量指数级膨胀,未来算力基础设施的显著瓶颈已从单一芯片计算能力转向数据传输能力 [7] - 核心挑战在于“内存墙”与“通信墙”的双重夹击,以及由此导致的“空泡”现象 [8] - “内存墙”:模型参数增长速度远超显存容量增速,模型必须被切分得更细,导致更频繁的跨芯片通信,加剧带宽压力 [8] - “通信墙”:在传统冯·诺依曼架构下,数据在存储与计算单元间搬运的能耗可能占总能耗的60%至90% [8] - 由于单个GPU显存无法容纳完整大模型,必须采用流水线并行、张量并行等技术将模型切分到多个GPU甚至多个计算节点上,随着集群规模扩大,跨节点通信变得频繁 [8] - 跨机通信带宽远低于机内通信带宽,导致“空泡”时间在总训练时间中占比急剧上升,极端情况下,昂贵GPU集群有超过50%的时间在等待数据 [8] - 竞争焦点从单芯片算力发展为芯片+互联+生态的协同竞争,以AI芯片和Scale-up互联为基础的推理效能和超节点算力成为主要方向 [8] 算力基础设施的未来发展方向 - 算力基础设施的未来不是“GPU越多越好”,而是追求“通信效率越高、系统越可靠、成本越可控” [9] - 超节点是应对数据传输瓶颈的关键路径,聚焦算力密度和算力扩展能力提升,使其在逻辑上表现为一台“巨型计算机” [9] - 构建可持续基础设施的主张包括 [9] - 以开放协议为根基:推动开放互联协议标准化,支持并参与国内开放互联标准(如OSIA、OLink、ETH-X)的制定与推广,构建兼容多厂商GPU的开放型超节点架构 - 以系统工程为手段:强化系统级工程能力,提升可靠性与可运维性,推动“算力+网络+散热+供电”一体化设计,布局液冷与智能供电 - 以场景价值为导向:追求“性能-成本-能耗”更优平衡 - 主张“性能甜点区”,反对盲目追求超大规模 [10] - 大模型训练中,优先验证64卡超节点的性价比 - 推理场景中,探索与DeepSeek类似的“跨节点专家并行+通信重叠”等软件优化方案 - 推动“Scale-up+Scale-out”混合架构,核心训练集群采用超节点,边缘或中小模型部署采用传统8卡服务器,实现资源分层、按需供给 AI与通信网络的深度融合 - 通信网络正从“管道”向“神经中枢”转型,算力是神经元,网络就是神经网络 [10] - **AI对网络的双重影响** [10] - **AI for Network**:产品级重点在硬件智能内生和软件智能进阶;网络级则通过Agentic AI、大数据和数字孪生深度融合,加速自智网络向L4+迈进 - **Network for AI**:在智能生产阶段,需要支持多种开放标准的高速无损互联(Die 2 Die、GPU 2 GPU、集群内部和DC之间),提升智算中心性能与效率;在智能应用环节,云边端协同、智能体间协同成为常态,泛在AI需要更强大的网络支撑 - 基础设施层面,将从“芯片级摩尔”向“系统级摩尔”迈进,即网、算、存、软、能协同发展 [11] - 应用层面,AI+通信网络+感知交互+存储计算+新能源五大基础技术融合,最终走向超级智能体 [11] - 传统APP面临AI Agent重构与“升级换代”,构建自有AI Agent开发平台支撑传统应用演进和AI原生应用成为核心需求 - Agentic AI会让算力网络和边缘计算重回关注重点 - 运营商需要能力上从“尽力而为”到“万无一失”,业务上从“一致性”到“差异化”,服务上从“拼指标”到“拼场景体验”,融合和集成能力是关键,最终考验资源利用效率和服务变现效率 [12] - 在AI大模型加持下,通信行业正经历从底层物理设施到上层商业模式的彻底重构 [12] 1. **架构融合**:推动通信网络向“分布式超级计算机”演进,算力网络通过SRv6和算网大脑,打破计算与网络界限,实现资源的原子化解耦与重组 2. **AI内生**:6G网络将是智能原生的,深度学习深度融入,使网络具备自我学习、自我优化能力 3. **价值重塑**:运营商和设备商有望从单纯的连接提供者跃升为智能时代的“发电厂”和“输电网”,成为数字经济赋能者 对AI“泡沫论”的见解 - 当前AI“泡沫论”的兴起,源于英伟达市值伴随业绩屡创新高,以及全球头部AI玩家围绕AI基础设施的密集投资和交叉投资推高市值的争议 [13] - 与2000年“互联网泡沫”的相似点在于:都有改变世界的愿景,都充斥FOMO(错失恐惧症)情绪,都存在大量初创公司高估值 [13] - 与互联网泡沫的不同点在于 [13] - 今天的AI已有大规模实际应用和激增的收入 - 核心大玩家(微软、谷歌、英伟达等)拥有稳健的现金流和相对合理的市盈率 - AI技术效用是真实的,更类似2000年的光纤基础设施建设,虽然短期可能算力过剩,但基础设施的铺设为长期应用爆发奠定了基础 [13] - 最大的风险存在于金融层面,市场上确实存在估值泡沫和约6000亿美元的营收缺口 [14] - 巨头通过“云计算信贷”和“往返交易”构建的账面繁荣掩盖了部分真实需求不足,债务融资与SPV的操作也存在较大风险 [14] - AI领域存在赢家难定、利润之谜、技术寿命等巨大不确定性,也可能导致泡沫破裂 [14] - 开源与闭源的博弈、通用与专用的博弈、推理经济性、能源约束、监管与法律等,也可能成为影响行业的变量 [14] 构建健康AI商业循环的建议 - 关注从“参数竞赛”转向“推理经济学”,只有当推理像水电一样便宜,Agent才能大规模替代人工 [14] - 拒绝“套壳”,深耕“工作流”,商业模式应从简单的Chatbot转向嵌入核心业务流的Agentic AI,按结果收费 [14] - 为避免反垄断拆分风险,巨头应主动降低对初创公司的排他性算力绑定,开放解耦 [14] - 对于能源和芯片的投资,应基于真实的推理需求预测,而非线性的训练规模外推,坚持投资基础设施的长期主义 [14] - 着眼去杠杆、关注ROI,应剥离金融工程带来的虚假收入,关注扣除云成本后的单元经济模型,优先采用小语言模型降低落地成本 [15] - 不能忽视监管机构在平衡创新与安全方面的作用 [15]
Meta上亿年薪的研究员们,却在偷师中国开源模型
观察者网· 2025-12-11 18:17
公司动态与战略调整 - Meta组建名为TBD Lab的新团队,其正在训练的“牛油果”(Avocado)模型使用了包括谷歌Gemma、OpenAI GPT-oss和阿里巴巴Qwen在内的多个第三方模型,该模型预计于明年春季首次亮相并可能作为闭源模型推出 [1] - 针对相关报道,Meta发言人回应称模型训练工作正按计划进行,时间表没有发生有意义的变更 [1] - 消息曝光后,阿里巴巴美股盘前一度上涨4%,收盘涨幅2.53% [1] - 因Llama 4表现不佳,Meta在最新一季度财报会上仅轻描淡写地提及Llama一次,该模型已不再是公司焦点 [5] - 扎克伯格随后对公司内部进行人事调整,拥有20年工龄的首席产品官Chris Cox在Llama 4翻车后被撤掉AI部门管理权限,部分Llama 4团队成员也被边缘化 [5] - 扎克伯格亲自挂帅开启AI“梦之队”招聘计划,从外部高薪挖来Scale AI创始人Alexandr Wang担任新的人工智能负责人,执掌全新的TBD实验室,并开出亿元薪酬大肆挖角同行 [5] - 公司更直接叫停了部分激进的元宇宙项目,以集中资源与OpenAI等竞争对手较量,对名为“牛油果”的新AI模型可谓孤注一掷 [6] - Alexandr Wang作为闭源模型的拥簇者,被认为是Meta新模型转向闭源的核心原因 [6] - 在Alexandr Wang领导下,Meta Superintelligence Lab在11月几乎毫无动作 [11] 行业竞争格局演变 - 过去两年,Meta通过开源Llama系列成功扮演了“反OpenAI联盟”的盟主,Llama一度被视为开源界的Linux,是全球开发者(包括中国开发者)的首选底座 [2] - 这一格局在2025年开始瓦解,随着年初DeepSeek开源模型的横空出世,以及后续阿里Qwen、月之暗面、智谱、Minimax等AI新势力纷纷发布高性能开源模型,Meta对开源生态的统治地位开始摇摇欲坠 [3] - 2025年4月,Meta发布的Llama 4性能未获开发者认可,且模型在LMArena的榜单排名被曝出存在“作弊嫌疑”,进一步饱受负面评价 [3] - 从性能角度看,无论是中国的“AI六小龙”还是阿里等互联网大厂,其最新的开源模型发布时均选择性能对标OpenAI、Google等头部闭源模型,Meta的Llama系列模型甚至已不配作为参照组来展示性能 [3] - 在下载和衍生模型数量上,阿里Qwen模型对Meta实现了赶超,2024年8月,千问的衍生模型数量第一次超过Llama,到了2025年10月,千问模型在全球下载量上也正式超过了Llama [4] - 这意味着Meta无论在数量还是质量上都失去了全球开源模型老大的地位 [4] - 华尔街投行KeyBanc资本市场的分析师在11月的报告中写道,在某种程度上,Meta的AI之路恰恰与Alphabet相反:年初被视为AI赢家,但现在投资回报和战略方向却成了最大的问号 [10] - 美国媒体CNBC在报道中表示,真正具有突破性的AI产品不会出现在小团队手中,而是出现在那些掌握完整生态体系的企业里 [10] - Meta今年成为了美国资本市场上最让人失望的AI股之一 [10] 市场反应与舆论评价 - 社交媒体上,网友们对Meta花上亿美元挖角的员工们选择使用Qwen开源模型进行了大量调侃,有网友直言“花了数十亿美元雇AI研究员,敢情就是为了抄作业?” [6][9] - 扎克伯格过去多次借鉴抖音、微信等中国产品功能,本次使用千问模型被视作一个巨大的“回旋镖” [10] - 扎克伯格在今年年初的播客中曾警告,如果不进行开源对抗,世界将被“反映中国价值观”的AI模型所主导,而他本人也多次在公开场合渲染“中国科技威胁论”,在国会听证会上曾是唯一一个对中国窃取技术问题表现出强硬攻击姿态的硅谷CEO [10] - Meta在打造下一代闭源模型时向Qwen“取经”,某种程度上宣告其亲自承认了Llama在开源领域的统治力已经被终结 [10] - 从开源盟主到闭源追随者,从“中国威胁论”到“偷师”中国同行,Meta的“牛油果”尚未发布就已经舆论缠身,这被视作是硅谷面对中国AI快速崛起时集体焦虑的一个缩影 [11]
速递|AI教父Yann LeCun与Meta的“友好分手”,新AI公司瞄准持久记忆与复杂推理系统
Z Potentials· 2025-11-20 12:12
核心事件概述 - Meta Platforms首席人工智能科学家杨立昆确认将于年底离职,创办自己的AI初创公司 [2] - 杨立昆的新公司将专注于开发“世界模型”,这是一种旨在通过图像、视频等多模态数据理解物理世界的AI形式,与主要基于文本训练的大语言模型不同 [3] - 杨立昆表示其初创公司的目标是带来AI领域的下一次重大革命,开发能够理解物理世界、具备持久记忆、可进行推理并规划复杂行为序列的系统 [3] Meta公司的战略调整 - Meta发言人表示,公司计划与杨立昆的初创企业建立合作关系,并“能够获取其创新成果” [3][4] - Meta当前的人工智能重点已转向大语言模型,包括其Llama系列模型 [4] - 公司今年投入数十亿美元组建了新部门“Meta超智能实验室”,由Scale AI前CEO Alexandr Wang与GitHub前CEO Nat Friedman共同领导 [4] 事件背景与影响 - Meta组建新实体的背景是今年早些时候遭遇了一系列挫折,包括Llama 4模型延期发布且发布后反响令人失望 [5] - 杨立昆的离职对公司是重大打击,他被视为现代AI时代的奠基人物之一,常被称为“AI教父”,并于2019年与杰弗里·辛顿、约书亚·本吉奥共同获得图灵奖 [5] - 杨立昆解释离职原因称,高级机器智能研究在Meta之外进行最有意义,因其广泛影响力与Meta的商业利益只有部分重叠 [5]
Yann LeCun离职,要创业?
36氪· 2025-11-12 08:51
核心人事变动 - Meta首席人工智能科学家Yann LeCun计划离开公司并创办自己的初创公司,目前正就筹集资金进行早期洽谈[2] - 此消息尚未得到最终确认,因其内部聊天账号尚未停用[2] - 此前,PyTorch之父Soumith Chintala已宣布将于11月17日离开Meta,结束其长达11年的职业生涯[2] Meta内部AI战略调整 - 自2024年6月扎克伯格斥资143亿美元收购Scale AI并任命Alexandr Wang领导超级智能实验室以来,Meta内部持续动荡[6] - 公司一方面高薪挖人组建新团队,另一方面对内进行大规模调整[6] - 2024年10月底,Meta对内部人工智能团队进行大刀阔斧裁员,约600个职位被裁减,调整波及FAIR、AI产品及基础设施团队,包括田渊栋团队被Alexandr Wang裁撤[9] FAIR实验室的历史与现状 - 2013年扎克伯格力邀Yann LeCun加盟,同意其设立FAIR实验室于纽约并可保留纽约大学教职[11] - LeCun坚持FAIR必须采用开放的学术研究模式,即公开发表论文,以吸引和留住顶尖人才[13] - FAIR为Meta提供了核心技术、开源工具PyTorch以及前沿探索,并通过Llama系列模型使公司在开源AI生态中确立领导地位[13] - 2024年9月,Meta对FAIR实验室施加锁紧论文发表的新政策后,LeCun曾向同事透露辞职意愿[6] 行业背景与影响 - 2012年AlexNet的惊人表现和Google对Hinton团队的收购,点燃了科技巨头对深度学习人才的渴望[9] - 扎克伯格将AI视为下一个大事件,决心建立顶尖AI实验室[9] - 当前AI竞争日益残酷,FAIR实验室面临理想主义退潮,内部新旧冲突加剧、学术自由受限、文化混乱[15]
突发|Yann LeCun离职,要创业?
机器之心· 2025-11-12 01:11
Meta公司人事变动 - Meta首席人工智能科学家Yann LeCun计划离开公司并创办自己的初创公司,目前正进行早期融资洽谈[3][4] - PyTorch之父Soumith Chintala宣布将于11月17日正式离开Meta,结束长达11年的职业生涯[4] - Meta于10月底对人工智能团队进行大规模裁员,裁减约600个职位,波及FAIR实验室、AI产品及基础设施团队[13] Meta战略转型与内部调整 - 公司于今年6月斥资143亿美元收购Scale AI并任命Alexandr Wang领导新成立的超级智能实验室[9] - 公司实施收紧论文发表的新政策,限制FAIR实验室的学术自由度[10] - 内部文化从开放研究转向更注重商业应用的模式,导致原有研究团队地位发生变化[25][26] FAIR实验室历史贡献与地位演变 - 扎克伯格在2013年亲自邀请Yann LeCun加盟并成立FAIR实验室,允许其保留纽约大学教职并采用开放研究模式[15][17][19] - FAIR实验室为Meta提供了核心技术、开源工具PyTorch以及前沿探索,并通过Llama系列模型确立了公司在开源AI生态的领导者地位[21][22][23] - 实验室从深度学习时代到大模型时代与公司关系发生显著变化,反映出行业竞争加剧背景下研究模式的调整[15][25]
产品未发,7个月估值80亿美金,这家“美国DeepSeek”凭什么?
36氪· 2025-10-13 21:05
公司概况与融资表现 - 公司于2024年3月正式走出隐身模式,在7个月内估值从5.45亿美元飙升15倍至80亿美元 [3] - 最新一轮融资高达20亿美元,吸引了Nvidia、红杉资本、Lightspeed等顶级资本以及LinkedIn联合创始人Reid Hoffman作为天使投资人 [3] - 创始团队来自Google DeepMind,包括曾领导Gemini项目奖励模型核心团队的Misha Laskin和AlphaGo的共同创造者Ioannis Antonoglou [3] 战略定位与市场洞察 - 公司战略定位为成为“西方的DeepSeek”,旨在在高质量的开放模型领域与东方开源力量抗衡 [5][12] - 战略制定的重要背景是来自中国公司如DeepSeek和Qwen的压力,这些公司率先在开源领域打破了大规模混合专家模型的技术垄断 [8][10] - 公司瞄准的市场真空是西方大型企业和主权国家在“闭源不自由,开源不放心”困境下对“安全感”和“控制权”的需求 [13][14] 技术优势与平台能力 - 公司宣称构建了一个能够以最前沿规模训练大规模混合专家模型的大型语言模型和强化学习平台,而不仅仅是一个模型 [16] - 混合专家架构通过将模型分解为多个“专家”子网络,能以更低的计算成本实现更高的性能,被视为通往更强AI能力的关键路径 [8] - 掌握大规模训练MoE模型的能力意味着公司在通往通用人工智能的最被看好的技术路线上与顶级实验室站在同一起跑线 [16] 商业模式与盈利策略 - 公司采用策略性的“开放权重”模式,开放模型权重供下载、使用和修改,但保留完整的数据集、训练代码和基础设施堆栈 [18] - 商业模式构建了清晰的双层客户盈利结构,主要瞄准大型企业和主权AI两类高价值付费客户 [21][28] - 收入模型是金字塔结构:塔基为免费的学术界、开发者和初创公司;塔身为付费的大型企业客户;塔尖为最高价值的主权AI客户 [31][32][33] 目标市场与客户痛点 - 针对大型企业客户,解决其依赖闭源API导致的高昂成本、控制力缺失、数据安全风险和供应商锁定等痛点 [22][23][24][25] - 为主权AI客户提供构建国家级AI战略的基石,使其能够训练国家语言模型、赋能关键领域并培养本土AI生态,确保技术独立 [15][30] - 公司向企业出售的不再是按需取用的API,而是建造“水厂”的能力,即模型的所有权与控制权,实现成本可控和绝对的数据安全 [26][27] 行业竞争格局 - 公司选择的赛道是竞争激烈的红海,需直接面对来自中国的DeepSeek、Qwen,欧洲的Mistral AI以及Meta的Llama系列等开放模型的竞争 [34] - 尽管商业模式不同,公司仍需从OpenAI、Anthropic和Google等闭源模型巨头手中争夺客户,这些闭源模型在性能极限探索和产品易用性上拥有优势 [35]