Llama 3
搜索文档
大模型长脑子了?研究发现LLM中层会自发模拟人脑进化
36氪· 2026-01-15 09:26
研究核心发现 - 大型语言模型在学习过程中会自发演化出一种类似于生物大脑的“协同核心”结构 [1] - 该协同核心结构是模型获得能力的标志性产物,而非其初始架构所固有 [19] - 这种组织模式与人脑的生理结构形成了精确的映射,表明智能演化存在趋同性 [18][27] 实验方法与模型 - 研究团队利用部分信息分解框架,对Gemma、Llama、Qwen和DeepSeek等具有代表性的模型系列进行了深度剖析 [5][7] - 实验向模型输入了涵盖语法纠错、逻辑推理、常识问答等6个类别的认知任务提示词,并记录每一层的激活值 [8][9] - 通过计算输出向量的L2范数作为激活强度,并应用整合信息分解框架,将注意力头对间的交互分解为“持续性协同”和“持续性冗余” [10][11][12] - 通过计算协同值与冗余值的排名差,得到了关键指标“协同-冗余秩”,用以量化模型组件处理信息的倾向 [12] 模型内部架构规律 - 模型内部信息处理存在明确的空间分布规律:中层表现出极强的协同处理能力,而底层和顶层则更偏向于冗余处理 [6][13] - 协同分布呈现出显著的“倒U型”曲线:模型的早期层和末期层构成“冗余外周”,信息处理以冗余模式为主;模型的中层则构成“协同核心”,进行高级语义集成和抽象推理 [13][15] - 这种“协同核心”的涌现具有跨架构的一致性,在基于注意力头的模型和基于专家模块的模型(如DeepSeek V2 Lite)中均被观察到,表明其可能是实现高级智能的一种计算必然 [16][17] 协同核心的功能与影响 - 消融实验表明,消融高协同性节点会导致模型出现灾难性的性能下降和行为背离,远超消融冗余节点的影响,证明协同核心是模型智能的核心驱动力 [22] - 微调实验发现,在强化学习微调场景下,仅针对协同核心进行训练获得的性能提升显著优于针对冗余核心或随机子集的训练;而在监督微调中这种差异不明显 [23] - 识别协同核心有助于设计更高效的模型压缩算法,或通过更有针对性的参数更新来加速训练 [27]
大模型长脑子了?研究发现LLM中层会自发模拟人脑进化
机器之心· 2026-01-15 08:53
文章核心观点 - 一项由帝国理工学院、华为诺亚方舟实验室等机构的研究发现,大型语言模型在学习过程中会自发演化出一个“协同核心”结构,该结构在功能和组织模式上与人脑的联合皮层相似,表明实现高级智能可能遵循某种共同的计算必然性,而非特定架构的工程巧合 [1][17][29] 研究模型与方法 - 研究团队利用部分信息分解框架对Gemma、Llama、Qwen和DeepSeek等多个具有代表性的大型语言模型系列进行了深度剖析 [5] - 实验向模型输入了涵盖语法纠错、逻辑推理、常识问答等6个类别的认知任务提示词,并记录每一层中所有注意力头或专家模块的激活值,以计算其激活强度 [9][10][11] - 研究应用整合信息分解框架,将注意力头对之间的交互分解为“协同”和“冗余”等原子项,并计算“协同-冗余秩”指标来量化模型组件处理信息的倾向 [12][13] 模型内部结构发现 - 研究发现模型内部存在一致的空间组织规律:中层表现出极强的协同处理能力,而底层和顶层则更偏向于冗余处理,在归一化层深图上协同分布呈显著的“倒U型”曲线 [6][14] - 这种“协同核心”结构在Gemma、Llama、Qwen等不同架构的模型中普遍存在,甚至在DeepSeek V2 Lite模型中以“专家模块”为分析单位也观察到相同特征,表明其跨架构的收敛性 [8][15][16] - 该结构与生物大脑形成映射:模型高冗余的底层和顶层对应人脑的感官和运动区域,而高协同的中层核心则对应负责复杂认知功能的联合皮层 [17] 协同核心的形成与功能 - 协同核心结构并非Transformer架构固有,而是通过学习习得:在随机初始化的Pythia 1B模型中不存在“倒U型”分布,随着训练步数增加该结构才逐渐稳定形成 [19] - 研究将模型结构分为“冗余外周”与“协同核心”:冗余外周(早期层和末期层)负责基础的解词元化、局部特征提取及Token预测和输出格式化;协同核心(中层)则负责高级语义集成和抽象推理 [21] - 在拓扑性质上,协同核心具有高“全局效率”以利于信息快速集成,而冗余外周则表现出强“模块化”以适用于专门化处理,这与人类大脑的网络架构形成平行关系 [23] 协同核心的功能验证 - 消融实验表明,消融高协同性节点会导致模型出现灾难性的性能下降和行为背离,其影响远超消融冗余节点,证明协同核心是模型智能的核心驱动力 [25] - 微调实验发现,在强化学习微调场景下,仅针对协同核心进行训练获得的性能提升显著优于针对冗余核心或随机子集的训练;在监督微调中这种差异不明显,研究者认为这反映了强化学习促进通用化而监督微调更多倾向于记忆的特性 [27] 研究意义与启示 - 对于人工智能领域,识别协同核心有助于设计更高效的模型压缩算法,或通过更有针对性的参数更新来加速训练 [29] - 对于神经科学,这提供了计算上的验证,预示着协同回路在强化学习和知识迁移中可能扮演至关重要的角色 [29] - 研究指出,大模型在追求智能的过程中不约而同地走向了与生物大脑相似的组织模式,这种智能演化的趋同性可能是揭开通用智能奥秘的关键线索 [29]
Manus和它的“8000万名员工”
虎嗅APP· 2026-01-13 08:49
文章核心观点 - Manus代表的“多智能体系统”标志着人工智能从“只会生成内容”转向“能自主完成任务”的范式转变,是AI应用的“DeepSeek时刻”[6] - Manus模式的核心价值在于:它是拥有超过8000万名“AI员工”的公司,本质是一套“人工智能操作系统”,其技术模式将推动人类文明实现0.5个级别的跃升[7] - 多智能体系统通过分工协作,实现了“1+1>2”的协同效果,使AI从“助手”阶段正式进入“工作者”阶段,商业价值从“提升效率”转变为“替代劳动力”[16][20] - 全球科技巨头与国内大厂均已加速布局多智能体领域,下一场“囚徒困境”式的AI战争即将爆发[29][30][31] - 多智能体系统将引发人类角色的历史性转变,从“操作者”变为“管理者”,并深刻重塑生产力与生产关系[34][37] - 多智能体系统的发展路径已不可逆,其成熟标志着AI进入“替代完整工作流”的新阶段,但伴随的数据主权与系统安全挑战亦不容低估[39][46] Manus模式的核心价值与颠覆性 - Manus创建了超过8000万台独立的云端虚拟机实例,每一台都是一个由AI自主操作的“数字工作单元”,相当于8000多万名功能不同的AI员工[9][10] - 其模式的核心操作者从人变成了AI,支撑这一转变的Manus系统本身就是AI的操作系统——多智能体系统[11] - 该模式意味着人类正迎来“文明级”生产力飞跃,所有数字经济相关劳动岗位均可被AI接管,相当于文明提升0.5个级别;未来若算力充裕,AI员工规模扩展将彻底重构物理世界的所有生产工具[12] - Manus的年度经常性收入在推出不到一年内突破1亿美元,远超大多数SaaS初创公司同期表现,目前还有超过250万人在排队等待试用[20] 多智能体系统的技术突破与优势 - Anthropic的研究显示,在多智能体架构下,Claude Opus处理复杂任务的性能比单个智能体提升了90.2%[14] - 多智能体系统不追求单一的“超级大脑”,而是打造分工明确、协同工作的“智能社会”,其核心优势在于智能体间的协作能力[16][19] - 该系统依赖多项核心技术:虚拟机提供安全隔离的执行环境;池化与编排技术实现高效的资源调度,能将单个任务的token消耗降至行业平均水平的1/3;强大的工程化能力保障了系统的稳定与可扩展性[22][24][26][27] - 在专门评估AI处理现实复杂任务的GAIA基准测试中,Manus在所有三个难度级别均取得最好成绩,分数超过OpenAI的DeepResearch[19] 行业竞争格局与“囚徒困境” - 全球科技巨头均在加速布局多智能体:Meta内部应用提升30%效率;Google公开了开源框架;微软将其集成至企业产品;亚马逊AWS新增相关功能[30] - 国内市场同样活跃:阿里、腾讯、百度、字节跳动等公司均有明确的多智能体技术布局或需求[31] - 本土模型新势力“月之暗面”已完成5亿美元C轮融资,估值达30亿美元,融资主要用途之一是加强多智能体系统研发,目标在一年内实现1亿美元ARR[33] - DeepSeek即将推出对标Anthropic编程能力的新模型,此举有望为中国AI多智能体应用扫清关键技术障碍[33] - 大厂必须跟进的原因在于:多智能体是模型能力的“放大器”;它重新定义了人机交互方式;其平台可能成为新的生态中心,错过将面临被边缘化的风险[32] 对人类角色、生产力与生产关系的重塑 - 人类与AI的关系正从“操作者-工具”转变为“管理者-团队”,编程语言成为AI间协作的“通用语言”[35] - 多智能体能自动化“创造性工作里的执行环节”,短期内不会取代人类的战略判断与价值取向,但会将人类从繁琐执行中解放出来[36] - 这将导致初级、中级创造性工作需求减少,同时高阶创造性工作的价值被放大,推动职业进化而非消失[37] - 生产力的飞跃将带动生产关系调整,企业层级结构将趋于扁平,“智能体团队”本身成为核心生产资料[37] - Manus的定价模式本质是“数字劳动力租赁服务”,例如39美元/月可同时运行2个任务,199美元/月可运行5个任务,使企业能灵活调整“数字员工”规模[38] 多智能体系统的发展路径与未来展望 - 短期(1-2年):垂直领域的多智能体应用将爆发,市场竞争异常激烈[48] - 中期(3-5年):多智能体系统将从“工具”进化为“平台”,成为AI应用的基础设施[48] - 长期(5-10年):人机协作进入“融合”阶段,工作流程深度整合,工作将由人机系统共同完成[48] - 多智能体系统是协作方式革新的又一次里程碑,它让机器具备了基于共同目标、分工协调的有机协作能力[49]
LeCun 手撕 Meta:Llama 4 造假,小扎直接废掉整个 AI 团队,锐评 28 岁新上司:不懂研究还瞎指挥
AI前线· 2026-01-03 15:56
Meta AI团队动荡与Llama 4丑闻 - 核心观点:Meta前首席科学家Yann LeCun在专访中揭露公司AI研发存在严重问题,包括Llama 4基准测试结果人为操纵、团队被边缘化、战略方向存在根本分歧,这导致其本人离职并创立新公司押注全新AI架构[2][4] - Meta的Llama 4模型基准测试结果存在人为操纵,工程师针对不同测试采用不同模型变体以优化分数,而非展示真实能力[4] - 该事件导致首席执行官Mark Zuckerberg对现有AI团队失去信任,整个生成式AI团队被边缘化,多人已离职或即将离开[5] - 为应对失利,Meta于2025年6月斥资约150亿美元收购数据标注初创企业Scale AI大量股份,并聘请其28岁的首席执行官Alexandr Wang牵头组建新的前沿AI研究部门TBD实验室[5] - 公司还展开了声势浩大的挖人行动,据称向竞争对手的顶尖研究员开出了1亿美元的签约奖金[6] 管理层变动与内部矛盾 - 对Alexandr Wang的任命造成了令人错愕的上下级反转,作为图灵奖得主和领域奠基人的LeCun需向这位28岁、主业为数据标注的年轻人汇报[8] - LeCun直接批评Wang毫无研究经验,既不懂研究如何开展与落地,也不知道如何吸引研究员[8] - LeCun强调无人能对他这样的研究员指手画脚,尽管有汇报关系,但Wang实际上并未对他发号施令[8] - 双方更深层的矛盾源于根本性的理念分歧:Wang代表Meta押注语言模型规模化的战略方向,而LeCun认为这一范式从根本上误入了歧途[9] 对大型语言模型技术路线的批判 - LeCun认为,Meta沿用OpenAI已触及天花板的架构方案进行竞争,该方案无法实现公司宣称要追逐的智能目标[9] - 他长期批判大型语言模型局限性过大,指出语言载体对于培养真正智能存在根本性的带宽不足问题[10] - 他测算,通读互联网全部文本(约2×10¹³字节)需要17万年,而一个四岁孩童通过视觉输入接收的信息量(约10¹⁵字节)就比LLM从全部书面语料中提取的内容多出50倍[10] - 训练大型语言模型如同仅通过阅读书籍学习木工,无法理解物理原理,这解释了AI在驾驶、清洁等需要物理交互的任务上长期存在短板[10][11] - 2025年11月,OpenAI前首席科学家Ilya Sutskever也表示,领域正从“规模化时代”迈向“研究时代”,单纯算力扩张的边际效益递减[11] LeCun的新技术路径与创业 - LeCun提出名为联合嵌入预测架构的世界模型架构,通过对视频与空间数据训练,培养系统基于物理原理的认知能力和持久记忆[13] - 他给出了该架构的落地时间表:12个月内推出雏形版本,数年内实现更大规模部署应用[14] - 他创办的初创公司命名为“先进机器智能”,技术路径正是他所主张的、比大型语言模型更具优势的方案,他将出任执行董事长而非CEO[14] - LeCun预测,具备动物级智能水平的AI将在五到七年内实现,而达到人类级智能则需要十年时间[14]
对谈刘知远、肖朝军:密度法则、RL 的 Scaling Law 与智能的分布式未来丨晚点播客
晚点LatePost· 2025-12-12 11:09
文章核心观点 - 大模型的发展存在“规模法则”和“密度法则”两条主线,前者追求能力跃迁,后者追求效率提升,即单位算力/参数下智能的最大化 [12][13][18] - 行业正从盲目追求模型规模转向追求能力密度,效率提升将加速端侧智能(如手机、汽车)和分布式智能的发展,最终实现每个人的“专属大模型” [9][10][35] - 强化学习尚未出现清晰的Scaling Law,是当前主要瓶颈,未来的关键方向是自主学习(Self-Learning)和“AI造AI” [24][34][36] 大模型演进的明线与暗线 - **明线:规模法则 (Scaling Law)**:自2018年预训练模型出现后,每隔几年模型能力就会跳跃一次,模型正变得更通用,甚至开始接近或超越人类在某些领域的能力 [12] - **暗线:密度法则 (Densing Law)**:这是大模型时代的“摩尔定律”,关注如何用更少的计算和数据资源更高效地获得智能,核心是追求单位计算带来的智能最大化 [13][14][18] - **密度法则的量化表现**:根据研究,大模型的能力密度(衡量单位参数/算力下模型能力的指标)每3.5个月翻一倍,自2023年1月ChatGPT出现后,这一速度在加快 [4][7] 提升模型能力密度的具体方法 - **模型架构优化**:核心方向包括采用稀疏化的混合专家系统以降低算力消耗,以及对注意力机制进行各种效率改进以应对长文本和Agent任务的需求 [19][20] - **数据治理与合成**:通过高质量的数据清洗、精选和合成,可以大幅提升训练效率,例如将预训练数据集精炼至不到原始容量的1/10,效果反而更好 [22][23] - **学习算法演进**:当前重点转向强化学习,但其尚未出现清晰的Scaling Law,主要瓶颈在于难以构建可扩展的环境和可验证的激励 [24][25] - **软硬一体协同优化**:结合芯片制程进步(摩尔定律)与模型能力密度提升,共同推动端侧设备承载以往只能在云端运行的大模型能力 [30][31] 强化学习的现状与未来探索方向 - **当前瓶颈**:强化学习缺乏像预训练那样清晰的Scaling Law,大多数训练仅几千步,如何持续稳定训练并构建“不可破解”的学习环境是核心挑战 [24][25] - **两条探索路径**:一是继续扩大RL的规模,探索开放域的激励定义;二是寻找更高效的新学习方式,提高样本效率,让模型能像人一样通过少量反馈学习新任务 [26][27] - **RL的已验证能力**:只要有足够数据和反馈,强化学习已能在数学、代码等特定任务上达到人类前0.1%甚至0.01%的水平,预示了打造垂直领域“超级专家模型”的潜力 [25] 端侧智能与分布式智能的未来 - **端侧算力规模**:2023年全国端侧算力(主要是手机)是数据中心算力的12倍,信息化本质是分布式算力和信息的结构,智能化也将遵循这一路径 [9][35] - **端侧部署时间表**:结合密度法则提升和芯片路线图,预测到2030年左右,端侧可部署600亿以上参数的模型,5年内端侧很可能承载GPT-4至GPT-5能力的模型 [32] - **具体应用进展**:车端模型量产速度非常快,已与多家车企合作;预计2027年成为关键节点,届时手机可实现大规模强化学习,支持个人数据训练“专属大模型助理” [32][33] - **未来形态**:智能将分布式存在,形成“智能体的互联网”,个人拥有基于终端数据持续成长的“个人大模型”,云端则存在各垂直领域的“专家大模型” [10][35][36] 下一阶段的范式演进:自主学习与AI造AI - **核心方向**:预训练和强化学习之后,下一个大的方法改进是自主学习,即模型能作为一个高效的学习者,根据用户需求在终端上持续学习新技能 [34] - **发展三阶段**:第一阶段是实现自主学习;第二阶段是具备自主学习能力的AI之间的协作;第三阶段是具备创造新符号关系乃至新符号系统的创新能力 [34][35] - **AGI的雏形**:最早的AGI形态可能不是面向消费者的产品,而是面向生产的系统,具备“AI造AI”的能力,即能自主完成数据生产、环境构建、模型训练和部署的全流程 [36]
一手实测Nano Banana Pro后,我总结了8种全新的超神玩法。
数字生命卡兹克· 2025-11-21 06:25
文章核心观点 - Nano Banana Pro模型在图像生成、文字处理(特别是中文)和多模态推理能力方面有显著提升,进化幅度超出预期[2] - 该模型支持直出4K图像和自定义比例,文字稳定性和知识推理能力得到巨幅提升[2] - 基于Gemini 3构建的多模态模型展现出强大的应用潜力[27] 漫画处理功能 - 可实现黑白漫画翻译、上色、换材质一条龙服务,将日文漫画转化为彩色中文版[3][4] - 支持生成自定义主题漫画并转换风格,如生成中文炭治郎和海绵宝宝玩耍的日文漫画后再转为彩色中文版[7][8] - 能够不断变换漫画风格,包括3D毛绒效果、中世纪石头马赛克风格、铜制浮雕材质等[10][11][12] 海报设计能力 - 文字处理能力显著提升,尤其中文表现突出,可生成高质量中英文电影海报[15][16][17] - 支持复杂中文文字设计,能稳定生成赛博朋克主视觉海报[24] - 可制作中国传统风格艺术海报,如《天书奇谭》中国山水画风格海报,保持文字清晰可辨[25] 知识解说与教育应用 - 利用多模态推理能力生成知识解说图,如应县木塔结构解说图、苏绣工艺详解图[29][31] - 可生成赛博义眼拆解图等专业图解[33] - 具备解题功能,能画出数学题的完整解题过程草稿[35][36][37][38] 内容转换与游戏界面生成 - 可将论文或长篇文章转换为详细的白板照片,如转换92页Llama 3模型PDF[40][43] - 在游戏UI界面生成方面表现稳定,能生成《潜水员戴夫》、《使命召唤》等多种游戏风格界面[48][49] - 可生成游戏内社交互动场景,如英雄联盟和王者荣耀的玩家聊天界面[52][54] 产品渲染与创意设计 - 文字一致性保持效果极佳,支持产品场景化渲染,如周杰伦CD在不同环境中的展示[57][58][59] - 支持多种场景转换,包括唱片店、悬浮时空、演唱会等复杂场景[61][64][66] - 在拼豆风格生成上表现特别稳定,能生成精致手办盒、小狗等3D拼豆图像,文字清晰无变形[69][70][72]
成为具身智能“大脑”,多模态世界模型需要具备哪些能力?丨ToB产业观察
钛媒体APP· 2025-11-05 12:01
多模态大模型技术突破 - 北京智源研究院发布悟界·Emu3 5多模态世界大模型,参数量达34B,训练数据包含790年视频时长,通过自研DiDA技术将推理速度提升20倍,并验证了“Next-State Prediction”范式 [2] - 模型采用原生统一架构,基于单一Transformer和自回归架构实现多模态理解与生成的原生统一,避免了组合式架构导致的模态间信息损耗和性能折损问题 [3] - 组合式架构模型在处理长视频时文本理解准确率显著下降,视觉生成的时空一致性受损,在跨模态任务中逻辑断裂率高达28%,而原生统一架构模型仅为9% [3] 市场规模与增长 - 2024年中国多模态大模型市场规模达138 5亿元,同比增长67 3%,预计2025年攀升至236 8亿元 [2] - 2025年全球多模态大模型市场规模预计突破4200亿元人民币,中国市场占比达35%,成为全球第二大单体市场 [2] - 2024年中国具身智能市场规模达8634亿元,同比增长65%,预计2025年突破9731亿元,其中多模态技术贡献了约42%的增长动力 [6] 数据挑战与解决方案 - 高质量多模态数据获取成本极高,2024年有68%的初创企业因数据成本放弃自主训练,模型难以从碎片化的互联网数据中学习深层物理规律和因果逻辑 [4] - Emu3 5突破的关键在于大规模使用长视频数据,如纪录片和教学视频,这些数据包含丰富的上下文和连贯的叙事逻辑,是模型学习世界运作的绝佳教材 [4] - 医疗、金融等领域的多模态数据包含隐私信息,企业在应用模型赋能过程中因担心合规问题不敢大规模训练 [4] 性能效率平衡与应用瓶颈 - 模型性能提升往往以牺牲效率为代价,2024年前主流模型生成5秒视频平均耗时超3秒,组合式架构模型在手机端生成3D模型的响应延迟达1 2秒,无法满足实时交互需求 [5] - Emu3 5的发布验证了多模态Scaling Law,成为继语言预训练、后训练推理之后的“第三范式” [5] 具身智能应用 - 多模态大模型为具身智能提供“大脑”,推动机器人从“机械执行”向“自主决策”进化,解决智能无限可能性与物理硬件及数据极端匮乏的核心矛盾 [6] - Emu3 5的“Next-State Prediction”能力使智能体具备物理直觉,能在执行动作前模拟不同行动方案的后果,从而在动态真实环境中做出更安全高效的决策 [7][8] - 采用统一模型端到端处理“感知-认知-行动”完整回路,可取代模块化设计,降低高级机器人技能开发门槛,加速具身智能在工业分拣、仓储物流等场景的应用 [8] 行业应用案例 - 在医疗领域,多模态大模型融合到医学影像技术中实现疾病早期发现与精准治疗,某县医院部署后疑难病例诊断准确率从68%提升至89%,患者外转率下降41% [9] - 智能诊疗系统通过分析患者影像、基因图谱、治疗史等多模态数据生成定制化治疗方案,测试显示采用个性化方案的患者中位生存期延长6 8个月,治疗副作用发生率降低34% [10] - 系统使用涵盖12万患者的多中心数据集,包含45万份影像、18万份病历与9万条基因序列,通过自监督学习掌握治疗手段与患者反应的关联规律 [10]
斯坦福新发现:一个“really”,让AI大模型全体扑街
36氪· 2025-11-04 17:53
研究背景与核心问题 - 聊天机器人用户数据显示,有超过100万人在对话中表现出自杀倾向,凸显了AI在涉及人类情绪时正确理解用户情感的重要性[1] - 大语言模型在医疗、法律、新闻等高风险领域应用时,能否像人类一样区分“个人想法”和“客观事实”成为关键问题[1] - 若缺乏区分能力,大语言模型不仅可能误导判断,还可能在无意中放大错误信息的影响[1] 研究方法与数据集 - 斯坦福大学James Zou教授团队通过“原子化”语言任务对大语言模型的认知局限进行系统性检验[1] - 相关研究论文发表在权威科学期刊《自然·机器智能》上[2] - 研究采用名为“知识与信念语言评估”的数据集,包含13个任务的13000道题目,覆盖历史、文学、医学和法律等10个领域[3] - KaBLE数据集巧妙结合来自《大英百科全书》等权威来源的事实陈述与保持相似语义但引入细微偏差的虚假版本[3] 模型分类与评估框架 - 研究人员将大语言模型分为两组:GPT-4o发布之前的模型归为旧一代“通用型”模型,包括GPT-4、Claude 3和Llama 2/3[6] - GPT-4o发布之后的模型归为新一代“推理导向型”模型,包括o1和DeepSeek R1,这些模型经过强化学习训练,具备复杂推理能力[6] 模型表现与局限性 - 旧一代大语言模型在识别错误信息时准确率仅49.4%,识别真实信息的准确率为89.8%,揭示了不稳定的决策边界[7] - 新一代大语言模型在“识别错误信息”上更敏锐,判断逻辑更鲁棒,能主动质疑输入内容[8] - 即使是先进的推理型模型,也难以识别以第一人称表达的错误想法,例如GPT-4o处理错误想法时准确率从98.2%骤降至64.4%[10] - 大语言模型在处理想法时会根据归属于“谁”而表现不同,确认第三人称错误信念时准确率明显更高[13] - 对“递归知识”的评估显示,部分以推理为导向的模型表现良好,但也有一些模型表现不佳,表明可能在进行表层模式匹配而非真正掌握逻辑本质[14] - 大语言模型对语言细节非常敏感,例如在判断语句中多加一个“really”就会导致准确率大幅下降[15] 行业影响与未来方向 - 研究结果对大语言模型在新闻业、医疗、法律推理、教育及科学交流等领域的应用具有深远影响[15] - 研究中揭示的局限性甚至存在于先进模型之中,凸显亟需改进人工智能系统在“信念、知识与事实”表征和推理方面的能力[15] - 未来大语言模型不仅需要熟练区分“个人观点”与“客观事实”的细微差异,还必须理解“人们为何会相信某个信息是真或假”[16]
Is Meta Placing an Unrealistic Bet on AI?
PYMNTS.com· 2025-10-31 21:00
公司战略目标 - 公司首席执行官明确表示非常专注于将公司确立为领先的前沿人工智能实验室并致力于为每个人构建个人超级智能[1] - 公司将其AI愿景描述为介于数字助手和个性化操作系统之间的模型该模型能够从用户在公司旗下多个社交平台和设备上的行为中学习[5] - 公司首席执行官强调正积极前置建设能力以便为最乐观的情况做好准备并认为进行显著更大的投资很可能在未来某个时期带来盈利[7][10][11] 资本支出与投资 - 公司首席财务官预计2026年的资本支出将明显高于2025年总费用将以显著更快的速度增长主要成本集中在数据中心云合约和AI人才上[3] - 公司首席财务官指出随着扩大计算能力以支持AI路线图资本支出预计将面临进一步的上行压力[3] - 公司对于资本支出何时恢复正常化没有具体时间表并表示将继续看到投资于长期AI优先事项的机会[11] 技术能力与市场定位 - 公司目前的大模型在推理和多模态基准测试上落后于前沿领导者包括OpenAI的GPT-4Anthropic的Claude和谷歌的Gemini[6] - 与竞争对手将其基础模型授权给开发者和企业不同公司采用开源模式发布其模型并不从中获得直接收入[6] - 公司将AI技术主要用于提升用户参与度推荐引擎广告排名以及内部工具而非像部分同行那样通过云服务等途径直接创收[8] 运营风险与历史参照 - 公司在未明确定义成功标准的情况下大规模建设基础设施这使其面临与之前押注元宇宙时类似的风险模式[7] - 据路透社报道公司元宇宙部门Reality Labs每季度运营亏损仍超过40亿美元自2020年以来在该领域的总投入已超过600亿美元凸显了追逐缺乏商业验证的愿景所带来的风险[7] - 公司首席执行官承认内部和外部对额外计算能力存在非常高需求但在最坏情况下公司可能会暂时放缓新基础设施建设步伐[9]
Tale of Two Mag 7 Earnings: GOOGL's Rally v. META's Sell-Off
Youtube· 2025-10-31 08:00
Meta业绩与市场反应 - 公司股价在财报发布后下跌超过11% [1] - 晨星维持850美元的公允价值估计 认为公司营收将保持强劲 主要由AI改进驱动 [1] - 市场担忧2026年评论对运营支出和资本支出的影响 可能导致利润率下降 [2] - 公司AI投资长期有望产生可观回报 但当前未被市场充分定价 [2] Meta与同行对比劣势 - 缺乏公有云业务 无法像亚马逊 微软和Alphabet通过外部客户分散AI投资风险 [4] - 公司需要基于AI技术对营收的改善或新收入来源来论证投资回报率 [5] - 最新季度营收增长约26% 为过去15个季度中最高水平(除2024年第一季度) [6] Meta的AI投资逻辑 - 营收增长主要由AI基础设施投资驱动 包括GPU和更广泛的AI系统 [7] - 更好的广告定位和内容推荐等优势会随时间复合增长 [7] - 公司拥有35亿日活用户 使用第三方生成式AI模型将产生巨额运营支出 [11] - 自建数据中心被认为是最佳成本结构 不使用AWS Azure或GCP等超大规模云服务 [12] Alphabet业绩表现 - 搜索业务增长15% 为ChatGPT推出以来最强增长 [16] - 谷歌云待处理订单环比增长约40% 同比增长79% 预示2026年强劲增长 [16] - 公司使用7-8年历史的TPU芯片且利用率达100% 延长资产使用周期可提升增量利润率 [16] - 晨星将公允价值估计上调至340美元 认为公司是AI领导者而非落后者 [14][17] AI投资范式转变 - AI被视为类似互联网的范式转变 公司需要自主控制基础设施和分销渠道 [10] - 与元宇宙投资不同 AI投资被视为更具战略必要性的基础设施投入 [10] - Meta需要提供更多投资回报证明点 类似谷歌云和Gemini被市场认可后的转变过程 [8]