Scaling Law
搜索文档
2025AI盘点:10大“暴论”
36氪· 2025-12-26 08:52
有人喜欢它,认为Vibe代表了一种耳目一新的产品理念,彰显了一种面向未来的AI能力,呈现了人与AI和 谐共存的美好愿景;但也有人厌恶它,认为Vibe代表了一种似是而非的语言泛滥,会模糊掉AI产品真正重 要的东西,形成一种"做作"的小圈子文化。 Vibe词语从一开始过于理想,它高估了目前AI的能力,低估了人类积累的专业门槛。这让人们从能力层面 越来越忘记它,但却依然舍不得在叙事层面割舍它。无论如何,Vibe的论调从诞生伊始便拥有了强烈的生 命力,带有一种颠覆性气质的暴论底色,迎合了人们对大时代变革的叙事冲动。想必,Vibe这个词在明年 还将继续陪伴我们。 愿你刚刚度过了Vibe的一年。 (一) "有一种新的编程方式,我叫它vibe coding。 你把自己完全交给感觉,拥抱指数增长,忘记代码本身的存在。" ——Andrej Karpahy 年初,硅谷人民精神导师Andrej Karpahy 的这条推特引发了持续至今的AGI造词运动。起初人们以为他说 的只是Coding,但很快Vibe便占领了AGI的每一个角落。从Vibe Coding到Vibe Design、Vibe Marketing,最 后变成了Vibe ...
算力芯片行业深度研究报告:算力革命叠浪起,国产 GPU 奋楫笃行
华创证券· 2025-12-24 13:32
行业投资评级 - 报告对算力芯片行业给予“推荐”评级,并维持该评级 [2] 核心观点 - 大模型遵循Scaling Law法则持续演进,对算力产生确定且不断增长的刚性需求,使以GPU为核心的AI硬件成为关键基础设施,具备长期投资价值 [7] - 英伟达凭借顶尖的GPU硬件性能与深厚的CUDA软件生态,构建了难以撼动的市场壁垒,与主要云厂商的战略合作进一步巩固了其主导地位 [5][7] - 美国持续升级高端GPU出口管制,从外部加速了国产算力自主可控的紧迫性,为国内GPU芯片厂商创造了明确且广阔的市场窗口 [5][7] - 以寒武纪、海光信息、摩尔线程、沐曦股份为代表的国内企业,正依托差异化技术路径与快速迭代的产品,逐步切入从训练到推理的各类算力场景 [5][7] 行业需求与市场格局 - **GPU技术优势**:GPU由大量简单核心构成,擅长并行计算,相比CPU更适用于AI训练和推理中的海量矩阵与张量运算 [5][11][12] - **市场主导者**:在数据中心GPU市场,英伟达占据绝对主导地位,2023年全球数据中心GPU出货量达385万颗,其市场份额为98% [5][21] - **市场需求增长**:全球及中国GPU市场规模持续大幅增长,预计到2029年,全球GPU市场规模将达36,119.74亿元人民币,中国市场规模将达13,635.78亿元人民币,占比从2024年的15.6%提升至37.8% [24] - **AI算力驱动**:中国AI智算GPU市场规模从2020年的142.86亿元人民币增至2024年的996.72亿元人民币,年均复合增长率达62.5%,预计到2029年将达10,333.40亿元人民币 [24] - **下游应用闭环**:大模型应用落地与算力消耗已形成可量化的商业闭环,例如谷歌月度Tokens调用量从2025年5月的480万亿大幅上升至10月的1300万亿,用户正加速向付费用户转化 [5][40][43] 海外巨头动态与英伟达优势 - **资本开支激增**:北美科技巨头持续加码AI基础设施投资,2025年前三季度Meta、亚马逊、谷歌、微软的资本开支总和达2574.2亿美元,同比增长65% [46] - **战略合作密集**:2025年以来,英伟达、微软、OpenAI、Oracle等北美AI巨头签订了大规模投资与战略合作协议,例如英伟达计划向OpenAI投资最高1000亿美元 [5][51] - **英伟达业绩高增**:英伟达数据中心业务收入持续高速增长,在截至2025年10月26日的财季(Q3 FY26)达512.2亿美元,同比增长约66.4%,占公司总收入约89.8% [56] - **产品性能迭代**:英伟达GPU产品性能快速革新,GB200的LLM推理性能是H100的30倍,训练性能是H100的4倍,并进一步推出专为推理任务设计的GB300 [5][57] - **软件生态壁垒**:英伟达的CUDA编程工具大幅降低了开发门槛,构建了深厚的软件生态护城河,进一步巩固了其在AI智算领域的竞争壁垒 [5][61] 国产替代进程与主要厂商分析 - **政策支持**:国家持续出台政策支持人工智能芯片攻坚创新与算力基础设施建设,为国产算力实现自主可控创造良好条件 [67] - **厂商技术渊源**:国内主要GPU厂商创始团队技术背景深厚,决定了其技术基础与发展路线,例如寒武纪核心成员来自中科院计算所,海光信息核心高管来自中科曙光,摩尔线程创始成员来自英伟达,沐曦股份创始成员多数来自超威半导体 [5][96] - **海光信息**:以CPU和DCU(GPGPU)双线发展,CPU产品受益于信创需求带动收入较快起量,2021年已实现全年盈利 [5][77][100] - **寒武纪**:深耕AI智能芯片,收入放量依赖于互联网等大客户验证及部署,2025年前三季度实现营收46.07亿元人民币,同比增长2386.38%,并于2024年第四季度实现单季度盈利 [5][100][102] - **摩尔线程与沐曦股份**:均提供通用GPU产品,覆盖AI计算、图形处理等多领域,但由于成立时间较短,仍处于商业化落地前期,收入规模相对较小,2025年前三季度营收分别为7.85亿元人民币和12.36亿元人民币 [5][101] - **盈利爬坡节奏**:GPU行业早期因高额研发投入通常处于亏损,海光信息于2021年转盈,寒武纪于2024Q4单季度转盈,摩尔线程预计最早于2027年实现合并报表盈利,沐曦股份预计最早2026年实现盈亏平衡 [5][102] 投资建议 - 报告建议关注两大方向:一是算力芯片设计公司,包括寒武纪、海光信息、摩尔线程、沐曦股份等;二是算力芯片代工公司,包括中芯国际、华虹公司/华虹半导体等 [5][7]
倒反天罡,Gemini Flash表现超越Pro,“帕累托前沿已经反转了”
36氪· 2025-12-22 18:12
Gemini 3 Flash性能表现 - 在SWE-Bench Verified测试中获得78%的分数,超越自家旗舰Gemini 3 Pro的76.2% [1][5] - 在AIME 2025数学测试中,结合代码执行能力得分高达99.7%,逼近满分 [5] - 在Humanity's Last Exam测试中,不使用工具得分为33.7%,与Pro版37.5%的成绩处于同一梯队 [5] - 在多项核心基准测试中表现超越上一代旗舰Gemini 2.5 Pro,并在编程和多模态推理等维度反超GPT-5.2 [5] - 响应速度是Gemini 2.5 Pro的3倍,Token消耗量减少30% [7] 产品定价与成本效益 - Gemini 3 Flash输入价格为每100万Token 0.50美元,输出价格为每100万Token 3.00美元 [2][6] - 价格高于Gemini 2.5 Flash(输入0.30美元/百万Token,输出2.50美元/百万Token),但考虑到性能和速度提升,仍具吸引力 [7] - 其成本显著低于Gemini 3 Pro(输入2.00美元/百万Token,输出12.00美元/百万Token) [2][6] - 在竞品中,其输入成本低于Claude Sonnet 4.5 Thinking(3.00美元/百万Token)和GPT-5.2 Extra high(1.75美元/百万Token),但高于Grok 4.1 Fast Reasoning(0.20美元/百万Token) [6] 技术战略与模型发展路径 - 公司团队揭示战略逻辑:Pro模型的主要作用是“蒸馏”出Flash模型,探索智能上限,而Flash则通过蒸馏技术继承Pro能力并优化延迟、成本和吞吐量 [8][9][11] - 未来Pro模型可能主要作为“生成器”,专门生产高质量的Flash模型 [11] - 团队认为Scaling Law并未失效,通过持续扩大规模仍能实现性能飞跃,前方“看不到墙” [11] - 未来扩展重点将从预训练阶段的算力堆叠,转移到推理侧的扩展(Test-time Compute) [12] - 后训练(Post-training)被认为是目前最大的“未开垦绿地”,在开放式任务上提升空间巨大 [12] 行业影响与技术启示 - Flash的表现打破了“模型越大越好”和“参数至上”的迷信,证明了更便宜、更快的模型可以更聪明 [3][13] - 这一结果标志着“帕累托前沿”发生反转,挑战了行业对“旗舰版”的盲目崇拜 [3][14] - 技术关键在于强化学习,Flash集成了最新的Agentic RL研究成果,而非Pro的简单蒸馏版 [13] - 证明提升模型能力不单纯依赖堆砌参数,通过先进的后训练算法(如RL),小模型可实现“降维打击” [14]
信仰与突围:2026人工智能趋势前瞻
36氪· 2025-12-22 17:32
文章核心观点 - 人工智能行业在ChatGPT发布三周年之际,竞争白热化,模型性能差距缩小,发展面临天花板质疑,但产业对AGI的到来仍充满信仰与探索 [1] - 行业展望2026年,将面临智能瓶颈与投资回报焦虑,同时也在规模法则、多模态、研究探索、物理AI仿真数据、AI for Science、模型应用一体化、个性化软件、行业落地ROI验证、AI眼镜及AI安全等多个方向寻求突围 [1] Scaling Law与AGI进化路径 - 行业主流信仰通过增加算力、数据、参数的Scaling Law可驱动智能持续增长直至AGI,但近期模型智能升级放缓及数据枯竭论引发质疑 [2] - 反对观点认为大模型仅是拟合语言相关性,而非真正理解世界,智能需包含抽象、因果推理等,且规模法则正接近极限,未来突破需更好的学习方式而非简单扩展规模 [2] - 在底层架构与训练方法无颠覆性变革背景下,Scaling Law仍是目前最可靠、实用的增长路径,因其能力提升可预测、产业投入可评估、人才与工程体系可延续迭代 [3] - 近期Gemini 3的表现与DeepSeek V3.2研究印证了规模法则现阶段依然有效 [3] - 美国AI新基建规划大型数据中心总装机容量超45吉瓦(GW),预计吸引超2.5万亿美元投资,黄仁勋提出在预训练、后训练强化学习及推理过程中均存在规模法则,支撑算力持续增长 [3] - 数据是当前大模型进化最迫切难题,高质量可用数据稀缺,行业正探索通过合成数据、推理过程数据、强化学习数据、多模态数据等构建可工程化、可规模化的数据生成体系 [4] - 未来将是New Scaling Law时代,不仅堆砌算力,更注重数量与质量扩展,结合算力资源充沛,有望通过算法与架构优化带来底层突破,AGI可能来自规模与结构性创新(如世界模型、具身智能等)的结合 [4] 多模态技术的突破与意义 - 谷歌Gemini、OpenAI Sora等多模态模型实现了对内容的深度理解与生成,迎来了多模态的ChatGPT时刻 [5] - 多模态技术从感知(如视觉)方向探索智能进化,类比生物进化中视觉的出现触发了认知能力的阶段性跃迁,有望推动AI智能出现非线性跃升 [5][7] - 大语言模型仅通过文本学习经过人类加工的“二手世界”,多模态模型通过图像、视频等对世界状态的直接投射,包含空间、时间及物理约束信息,为形成更稳健的世界模型提供可能 [9] - 多模态为人工智能打开了“感知-决策-行动”闭环的可能性,与工具使用、机器人控制结合,可通过环境反馈持续优化,实现智能跃升 [10] 研究探索与创新方向 - 研究驱动是大模型行业核心范式,以小团队多方向并进的赛马机制有效,预计2026年在底层架构、训练范式、评测方法、长期记忆、Agent等领域有望诞生更多突破 [11] - 全球涌现一批非共识的技术实验室:伊利亚的SSI聚焦安全超智能,融资30亿美金 [12];Mira的Thinking Machines Lab推出产品Tinker帮助微调模型 [12];李飞飞的World Labs专注空间智能 [12];杨立昆的AMI目标构建理解物理世界的系统 [12];欧洲的H Company研发能解决复杂现实问题的超级Agent [12] - 底层架构与训练范式出现创新研究:日本的Sakana AI站在Scaling Law对立面,探索演化式模型与群体智能协作以降低算力依赖 [13];Liquid AI开发可连续演化的液体神经网络架构 [14];谷歌提出嵌套学习(Nested Learning)概念,设计快慢系统协同解决灾难性遗忘问题 [14] - 评测牵引成为重要研发范式,行业正探索应对静态刷榜数据污染等挑战的新方法,包括构建面向Agent与长期任务的跨步、跨工具评测体系(如SWE-bench、AgentBench),以及基于游戏、模拟世界的动态交互式仿真环境评测 [15] 仿真数据在物理AI中的应用 - 机器人物理世界数据采集成本高(真机采集一条数据成本1-10美元)、速度慢,仿真生成数据边际成本趋近于零且可并行,在早中期研发中将成为主流,Sim-to-Real鸿沟正被生成式AI填平 [17] - 仿真数据在规模覆盖、可控可复现、跨本体迁移方面具有优势,能低成本覆盖长尾场景,支持多机器人多任务训练统一对齐 [18] - 产学研界已有实践:上海人工智能实验室的合成数据集InternData-A1包含超63万条轨迹、7433小时数据,覆盖4种具身形态、70项任务,基于其预训练的模型在仿真与真实任务上表现与官方模型相当 [18];银河通用发布灵巧手合成数据集DexonomySi,包含超950万条抓取姿态,覆盖超1万个物体,并基于此开发了具身大模型GroceryVila实现机器人双手自主取物 [18];谷歌的Genie 3为机器人训练提供无限可能的模拟环境 [18] - 仿真存在建模误差(如接触、材料、传感器噪声)及难以覆盖真实世界无穷意外组合的局限,尤其在软体物体、长周期可靠性、高风险人机共处等场景 [19][20] - 在物理AI早中期研发中,仿真预计承担90%以上的数据与验证工作,真机数据用于物理锚定与校准,仿真正成为物理AI的数据基础设施 [21] AI for Science (AI4S)的进展 - AI4S最具象征意义的成果是AlphaFold,但普遍质疑其离产业应用仍远,未能根本改变药物研发等领域的周期与成本 [22] - 2026年可能成为转折点,AI4S正从模型驱动的学术突破转向系统工程化的科研生产力 [22] - 核心障碍在于验证太贵太慢且难复制,当前积极变化是AI正被直接嵌入实验系统:谷歌DeepMind计划2026年在英国建立基于AI的自动化科研实验室,形成假设生成、机器人执行、数据回流的闭环,首次让AI4S从建议者变成执行者 [23] - 国家层面推动:美国通过《启动创世纪任务》行政令,将AI4S上升为国家战略,由能源部牵头建立全国性AI科学平台,整合联邦科研数据、超算资源和AI模型,聚焦先进制造、生物技术等关键领域,有望解决高质量科学数据匮乏的痛点 [25] - 2026年可能在某些领域出现研发周期数量级压缩,自动化实验与AI workflow成为头部机构标准配置,科研组织开始围绕AI agents重构分工 [26] 模型应用一体化与网络效应 - 大模型目前能力虽强但平台效应弱,未形成类似移动互联网的网络效应,ChatGPT周活接近10亿,但模型不会因用户增多自动变强,用户间连接弱 [27] - “裸模型”阶段因交互是一次性、私有的,难以直接回流训练与复用,且创造的价值源于对个体能力提升而非用户间关系密度,因此AI更多是生产力工具而非平台 [28] - 模型与应用一体化是破局点,当模型拥有稳定身份、长期记忆并持续参与用户工作流时,AI才具备成为平台的能力 [28] - 一个方向是模型接入更多应用(+AI),如GPT推出智能购物、群聊功能,Sora2推出Cameo个人数字形象功能以建立社交关系链 [29] - 更具颠覆性的方向是构建智联网新形态(AI+),即个人、团队、组织拥有自己的Agent并彼此协作,形成AI原生的网络效应 [31] - 未来Agent网络效应可能出现多种形式:交易型网络(形成服务型Agent与用户Agent的双边市场)[32];知识型网络(用户打磨的隐性技能库使模型越用越聪明)[32];工作流型网络(复杂任务流程被模块化、标准化并广泛复用)[32];社交型网络(AI成为组织内的超级连接器促进协作)[32] - 模型应用一体化的真正意义在于构建以模型为认知核心、应用为关系容器、Agent为基本节点的智能网络 [33] 个性化软件与AI编程 - AI Coding逼近普适生产力,软件正从工业化产品变为高度个性化、情境化、即时化的工具,进入软件3.0时代 [35] - Anthropic首席执行官预测未来3-6个月AI将编写90%的代码,12个月内几乎所有代码可能由AI编写 [35] - 美团内部已有52%的代码由AI生成,90%的工程师频繁使用AI工具,部分团队依赖AI完成90%以上代码编写 [35] - 腾讯月均新增代码3.25亿行,超90%工程师使用AI编程助手CodeBuddy,50%的新增代码由AI辅助生成 [35] - 软件生产核心瓶颈从编码能力转向问题定义能力,自然语言等成为主要编程接口,出现“vibe coder”称谓 [38] - 编程供给充裕将激活需求侧长尾市场,软件可千人千面,实现从人适应软件到软件适应人的范式转移,满足曾因市场规模小而被忽略的个性化需求 [39] - 部分解决通用问题的微软件将被分享复用,形成小规模生态(如Hugging Face Spaces上的小应用、Chrome插件)[39] - 软件平权时代来临,编写软件像写文章一样简单,核心竞争力转向共情、问题定义与想象力 [40] 行业落地与ROI验证 - AI行业落地从早期概念验证(PoC)进入核心业务流程,企业关注点从技术先进性转向可衡量的业务价值,ROI与性价比成为第一性问题 [41] - 麦肯锡报告显示,至少在一个职能中常态化使用AI的企业比例从78%升至88%,但多数仍处探索或试点阶段,企业层面规模化部署稀少,AI高绩效企业仅6% [41] - OpenAI企业调研显示,ChatGPT Enterprise周消息量增约8倍,员工人均消息量提升30%,组织平均推理token消耗增长约320倍,75%员工认为AI提升工作速度或质量,平均每日节省40-60分钟,重度用户每周节省超10小时 [42] - 早期AI应用多以Copilot形态承担边缘任务,对组织整体效率影响有限,当前积极变化是AI开始深入行业流程中后段 [43] - 下一步可验证收益将来自生产效率、客户响应、营销指标、研发生产力提升,未来深度收益将来自流程再造、智能体协同、供应链智能化等领域 [44] - 工作模式向“一个人+N个智能体”转变,企业管理逻辑将重构为以结果交付、质量稳定性和风险控制为中心的新范式 [44] AI眼镜的发展前景 - AI眼镜销量达1000万台是成为大众消费品的临界点,预测Meta Ray-Ban等产品2026年单品牌有望冲击此目标,巴克莱研究预测2035年销量将达6000万副 [45] - 雷朋制造商依视路将提前实施年产能1000万件可穿戴设备计划以满足需求 [45] - 硬件做减法是成功关键,Meta放弃高成本显示模组,将重量控制在50克以内,结合大模型多模态能力,首先成为合格穿戴与拍照设备,降低制造难度与用户门槛 [47] - AI眼镜将改变软件生态,操作逻辑从以应用为中心转向以意图为中心,自然语言交互主导,技能商店(Skill)可能取代应用商店 [48] - 眼镜摄像头产生的第一视角海量数据可为机器人训练提供数据,并可能催生基于视觉关注度的全新推荐与广告模式 [48] - 个人隐私、数据脱敏及相关法律伦理规范在AI眼镜领域尤为重要 [48] AI安全与治理 - AI能力提升与AGI逼近使安全关注度提升,调研显示66%受访者经常使用AI,但超半数(58%)认为其不可信赖,公众信任度呈下降趋势 [50][51] - 安全算力成为重点,预计超10%的算力将投入安全领域(涵盖安全评估、对齐实验、红队测试等)[54] - OpenAI曾承诺将20%算力用于超级智能对齐研究但未兑现,伊利亚成立的SSI公司专注超人工智能安全,融资30亿美金,估值320亿美元 [54] - 美欧法规提案将高风险模型的系统测试、评估、监控列为强制义务,安全算力将形成刚性成本,且随着模型能力增长,安全评估对算力需求指数级放大 [54] - AI治理委员会成为趋势,越来越多企业建立深度嵌入研发全流程的安全伦理机构 [55] - 例如:Google DeepMind有Responsibility & Safety团队参与全过程 [55];微软有Aether委员会其结论纳入工程必选流程 [55];Anthropic设立长期利益信托(LTBT)机制并推动宪法AI(Constitutional AI)将安全嵌入训练 [55] - AI安全与负责任正演变为与算力、算法、数据同等重要的基础性要素,缺乏可信安全机制的模型将难以进入关键行业与主流市场 [56]
信仰与突围:2026人工智能趋势前瞻
腾讯研究院· 2025-12-22 16:33
文章核心观点 文章回顾了人工智能行业自ChatGPT发布三年来的发展历程,指出当前大模型性能差距缩小、发展面临天花板质疑,但同时产业对AGI的信仰与探索依然坚定[2] 展望2026年,行业在焦虑与分歧中,有望在技术路径、多模态、研究范式、数据生成、行业应用及新硬件等多个方向实现突围[2] 1. 规模法则的演进与争议 - **对规模法则的质疑声增大**:随着大模型智能升级放缓及数据枯竭论出现,业界对Scaling Law的质疑增多,认为其可能接近极限,真正的智能需要抽象化、因果建模等能力,而非简单扩展规模[3] - **规模法则现阶段依然有效且演进**:在底层架构无颠覆性创新的背景下,Scaling Law因其能力提升可预测、产业投入可评估、人才工程体系可延续等优势,仍是可靠的工程化增长路径[4] 谷歌Gemini 3和DeepSeek V3.2的表现印证了其现阶段有效性[4] - **向“新规模法则”时代迈进**:未来的发展将不仅是堆砌算力,而是向数据数量扩大与质量提升两个方向扩展,结合世界模型、具身智能等结构性创新,以寻求底层突破[5][7] 2. 多模态技术的突破与意义 - **迎来“多模态的ChatGPT时刻”**:谷歌Gemini、OpenAI Sora等模型已能深度理解并生成多模态内容,标志着关键突破[8] - **多模态是智能非线性跃升的关键**:类比生物进化中视觉的出现触发了认知能力跃迁,多模态技术让AI从学习“二手”文本世界转向感知更接近真实世界的结构性约束,为形成稳健的世界模型提供了可能[8][12] - **开启“感知-决策-行动”闭环**:多模态与工具使用、机器人控制结合,使AI能在环境中通过反馈持续优化,实现智能跃升[13] 3. 研究探索与组织创新 - **研究驱动与赛马机制**:以小团队开展多方向并行实验是OpenAI等机构的有效组织方式,契合技术快速迭代的特点[15] - **涌现多元化的前沿实验室**:包括聚焦安全超智能的SSI(已融资30亿美元)、专注可靠性的Thinking Machines Lab、研究空间智能的World Labs、追求高级机器智能的AMI以及研发超级Agent的H Company等[16] - **底层架构与训练范式创新活跃**:如Sakana AI探索演化式模型与群体智能以降低算力依赖;Liquid AI开发可连续演化的液体神经网络;谷歌提出嵌套学习以解决灾难性遗忘问题[17] - **评测范式向动态与复杂任务演进**:为解决静态刷榜和数据污染问题,行业正构建围绕Agent能力、需要多步规划与长期记忆的评测体系,如SWE-bench、AgentBench等[17] 4. 仿真数据在物理AI中的核心作用 - **仿真数据成本优势显著**:机器人真机采集一条数据成本在1-10美元,而仿真生成边际成本趋近于零,且能并行运行数万实例[19] - **仿真数据覆盖长尾场景并具可复现性**:能以指数级低成本覆盖极端光照、稀有故障等长尾场景,并锁定变量,便于问题诊断与回归测试[20] - **产学研实践验证其有效性**:上海人工智能实验室的InternData-A1数据集包含63万条轨迹,基于其训练的模型在多项仿真与真实任务上表现与官方模型相当;银河通用发布的DexonomySi数据集包含超950万条抓取姿态,并基于此开发了端到端具身大模型[20] - **形成“仿真主供给、真机强纠偏”工业范式**:在物理AI研发中,仿真预计承担90%以上的数据与验证工作,真机数据则用于物理锚定与最终验收,该范式已在NVIDIA、DeepMind等公司实践[23] 5. AI for Science 迈向系统工程化 - **从模型突破转向科研生产力**:AI4S正从AlphaFold式的象征性成果,转向系统工程化的科研生产力提升,这是行业被真正改变的前兆[24] - **AI嵌入自动化实验闭环**:谷歌DeepMind计划2026年建立AI自动化科研实验室,AI将负责假设生成与实验编排,与机器人执行形成可规模化的闭环,首次让AI从建议者变为执行者[25] - **国家战略推动数据与资源整合**:美国通过《启动创世纪任务》行政令,将AI4S上升为国家战略,旨在整合联邦科研数据、超算资源训练科学基础模型,解决高质量数据匮乏的痛点[28] - **2026年可能成为研发模式转折起点**:虽难言全面商业落地,但某些领域研发周期可能出现数量级压缩,自动化实验与AI工作流成为头部机构标准配置[29] 6. 模应一体与智联网雏形 - **大模型缺乏原生网络效应**:ChatGPT周活近10亿,但用户交互是一次性、私有的,难以形成反馈闭环与用户间连接,AI是生产力工具而非平台[31][32] - **模型与应用一体化是破局点**:当模型拥有稳定身份和长期记忆,并深度参与用户工作流时,才具备成为平台的基础[32] 探索方向包括模型接入更多应用(如GPT的智能购物、群聊功能)以及构建以Agent为节点的智联网[32][34] - **智联网可能催生多种网络效应**:包括交易型网络(Agent间形成服务双边市场)、知识型网络(用户打磨的技能经验共享)、工作流型网络(生产范式持续进化)以及社交型网络(AI成为超级连接器)[35][36] 7. 软件生产进入个性化时代 - **AI编程接近普适生产力**:Anthropic CEO预测未来12个月内几乎所有的代码都可能由AI编写;美团内部已有52%的代码由AI生成;腾讯超过90%的工程师使用AI编程助手,50%的新增代码由AI辅助生成[37] - **软件生产核心瓶颈转移**:从编码能力转向问题定义能力,自然语言成为主要编程接口,出现“vibe coder”[40] - **激活长尾需求与实现软件平权**:极低的构建成本使软件能千人千面,满足曾因市场规模小而被忽略的个性化、情景化需求,软件成为人类表达与解决问题的基本媒介[40][41] 8. 行业落地聚焦性价比与ROI - **企业关注点转向可衡量业务价值**:AI行业应用的第一性问题从技术先进性转向投资回报率与性价比[43] - **规模化部署仍存差距但使用量增长**:麦肯锡报告显示,88%的企业至少在一个职能中使用AI,但进入规模化阶段的比例很低,AI高绩效企业仅6%[43] OpenAI调研显示,ChatGPT Enterprise周消息量增约8倍,75%的员工认为AI提升了工作速度或质量,重度用户每周可节省超10小时[44] - **应用深入流程中后段并重构工作范式**:AI正从边缘任务深入核心业务流程,未来收益将来自流程再造、智能体协同等领域[44] 工作最小单元可能变为“一个人+N个智能体”,企业管理逻辑将转向以结果交付为中心[45] 9. AI眼镜迈向千万台临界点 - **出货量有望突破千万台分水岭**:预测Meta Ray-Ban等产品在2026年单品牌销量有望冲击1000万台;巴克莱预测2035年销量达6000万副;制造商依视路计划实施年产能1000万件的生产计划[45] - **“硬件减法”策略成功**:Meta通过放弃高成本显示模组,将眼镜重量控制在50克以内,结合大模型多模态能力,优先作为穿戴拍照设备,降低了制造难度与用户门槛[47] - **重塑交互逻辑与软件生态**:交互从以应用为中心转向以意图为中心,自然语言为主导;技能商店可能取代应用商店;摄像头产生的第一视角数据将赋能空间智能研发并可能催生新的推荐与广告模式[48] 10. AI安全成为研发与应用必选项 - **公众信任度下降凸显安全重要性**:全球调研显示,尽管66%受访者经常使用AI,但超半数(58%)认为其不可信赖,信任度较2022年呈下降趋势[50] - **安全算力投入成为热点**:预计超10%的算力将投入安全评估、对齐实验等领域;伊利亚成立的SSI公司已融资30亿美元,专注超智能安全;欧美法规可能使安全算力成为刚性成本[53] - **企业建立深度嵌入的治理机构**:如Google DeepMind的Responsibility & Safety团队、微软的Aether委员会、Anthropic的长期利益信托与宪法AI机制,将安全深度嵌入研发全流程[54] - **安全演变为基础性要素**:可信安全机制成为进入关键行业的前提,监管框架使安全实践从最佳实践变为准入门槛[55]
倒反天罡!Gemini Flash表现超越Pro,“帕累托前沿已经反转了”
量子位· 2025-12-22 16:01
文章核心观点 - Gemini 3 Flash 模型在多项关键性能基准测试中超越了其旗舰版本 Gemini 3 Pro 及上一代产品,同时具备显著的成本和速度优势,这挑战了“模型越大越好”的传统观念,并揭示了谷歌在模型开发战略上的重大转变,即通过旗舰模型“蒸馏”出更高效、更强大的轻量版模型 [1][4][6][19] 模型性能表现 - **编程能力反超**:在衡量软件工程能力的权威测试 SWE-Bench Verified 中,Gemini 3 Flash 获得 **78.0%** 的分数,超越了 Gemini 3 Pro 的 **76.2%** 以及上一代 Gemini 2.5 Pro 的 **59.6%** [1][2][6] - **数学能力顶尖**:在 AIME 2025 数学基准测试中,结合代码执行能力的 Gemini 3 Flash 得分高达 **99.7%**,已无限逼近满分,不使用工具时也达到 **95.2%**,略高于 Pro 版的 **95.0%** [2][7] - **多模态与推理能力强劲**:在 Humanity‘s Last Exam 学术推理测试中,Flash 在不使用工具的情况下获得 **33.7%** 的分数,与 Pro 版的 **37.5%** 处于同一梯队;在 MMMU-Pro 多模态理解测试中,Flash 以 **81.2%** 的成绩与 Pro 版的 **81.0%** 基本持平 [2][7] - **全面领先上一代**:Gemini 3 Flash 在几乎所有基准测试中的表现都全面超越了上一代的 Gemini 2.5 Pro 和 2.5 Flash [2][6] 成本与速度优势 - **定价极具竞争力**:Gemini 3 Flash 的输入成本为 **0.50美元/百万Token**,输出成本为 **3.00美元/百万Token**,显著低于 Gemini 3 Pro 的 **4.00美元/百万输入** 和 **12.00美元/百万输出** [2][8][9] - **速度与效率提升**:Gemini 3 Flash 的推理速度是 Gemini 2.5 Pro 的 **3倍**,同时 Token 消耗量减少了 **30%** [9] - **性价比突出**:相较于性能提升,其价格虽略高于 Gemini 2.5 Flash,但仍被认为极具吸引力 [9] 战略定位与技术路径 - **Pro 模型的新角色**:谷歌团队明确表示,旗舰 Pro 模型的主要作用之一是作为“蒸馏”轻量版 Flash 模型的来源,旨在不计成本地探索智能上限,而 Flash 则负责继承能力并极致优化延迟、成本和吞吐量 [10][12][13] - **技术实现路径**:Flash 的性能超越并非简单蒸馏的结果,而是集成了大量最新的代理强化学习研究成果,证明了通过先进的后训练算法,小模型可以实现对更大参数模型的“降维打击” [20][21][22] - **Scaling Law 的演变**:团队认为单纯依靠预训练阶段堆砌参数的路径正在逼近极限,未来的扩展重点将从预训练算力堆叠转移到推理侧的计算扩展和后训练优化 [15][16][17] 行业影响与竞争格局 - **挑战传统观念**:Flash 的表现直接打破了“参数至上”和“旗舰版迷信”,证明了更便宜、更快的模型可以同时是更聪明的模型,引发了关于“帕累托前沿”反转的讨论 [4][19][23] - **横向对比保持竞争力**:在与主要竞品的对比中,Gemini 3 Flash 在多项测试中表现优异,例如在 SWE-Bench Verified 测试中得分 **78.0%**,高于 Claude Sonnet 的 **77.2%**,接近 GPT-5.2 Extra high 的 **80.0%** [8] - **未来演进方向**:行业认为后训练是目前最大的“未开垦绿地”,在代码、推理等封闭任务被“击穿”后,提升模型在开放式任务上的能力将成为关键 [17][18]
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law
量子位· 2025-12-22 12:41
文章核心观点 - MiniMax海螺视频团队开源了其视觉分词器预训练框架VTP,并揭示了当前图像/视频生成模型性能瓶颈的关键原因:传统视觉分词器过度追求像素级重建,忽视了高层语义理解,导致投入的算力无法有效转化为生成质量的提升 [1][2][3][4] - 团队提出的VTP框架通过联合优化理解、重建与生成目标,首次证明了视觉分词器也存在明确的Scaling Law,仅通过提升分词器的预训练规模,即可在不改变下游主模型的情况下,实现端到端生成性能的倍数级提升 [5][6][37][50] 传统视觉分词器的局限与问题 - 当前主流图像生成采用两阶段框架:第一阶段由视觉分词器将图像压缩至潜在空间,第二阶段由扩散模型在该空间内生成图像 [7][8] - 视觉分词器是关键组件,它大幅降低了计算复杂度,使模型能在消费级显卡上运行,其生成的潜在表征质量直接决定了生成模型的上限 [9][10] - 行业普遍通过要求模型精准复刻原始像素来提升质量,但传统分词器过度捕捉局部纹理和噪点等低层信息,忽视了生成任务所需的高层语义与整体结构 [10][11] - 这导致了“预训练缩放问题”:更好的像素级重建精度并不能带来更高质量的生成效果,随着算力投入增加,生成性能会趋于饱和甚至下降 [12][15] - 实验数据显示,仅基于重建目标训练时,重建指标rFID从2.0降至0.5(效果变好),但生成指标gFID从55.04升至58.56(效果变差)[39] VTP框架的设计理念与突破 - VTP的设计原则是融合所有已知有效的表征学习方法,构建一个自带理解能力、对生成模型友好的视觉分词器 [26][35] - 其核心是从“像素级重建”转向强调理解力的“通用表征学习”,实现了从只练“重建”到“理解、重建、生成”的联合优化 [25][29] - 具体通过三重目标联合优化: - **图文对比学习**:建立高层语义理解,要求图像压缩后的潜在编码保留与文本对齐的语义结构 [30] - **自监督学习**:结合掩码图像建模和自蒸馏,迫使模型理解图片的空间关系和物体结构 [31][32] - **重建目标**:定位转变为保留生成所需的纹理、颜色与边缘等必要底层视觉细节,而非追求越准越好 [33] - 团队选择从头预训练而非直接使用现有模型,是因为认为表征至关重要且需要做到极致,市面上没有能很好融汇这些方法的模型,且从头训练才能保证Scaling潜力 [36] VTP的实验结果与关键发现 - **理解力是驱动生成的关键**:一旦注入“理解力”,模型的生成质量会随着理解能力的提升同步变好,二者呈现明显正相关,且提升会随训练计算量增加持续推进 [40][41] - **联合训练效果最佳**:在同等算力下,“CLIP+SSL+AE”的联合训练方式上限最高,生成与理解指标均最优 [43] - **性能表现**:VTP-L-d64模型在ImageNet上的零样本分类准确率达到78.2%,超过原版CLIP的75.5%;重建指标rFID低至0.36,超过Stable Diffusion的VAE;生成指标gFID低至2.81,超过此前的改进方法VA-VAE [44][47] - **训练效率提升**:在达到相同生成质量的前提下,VTP的训练收敛速度比LDM快5.7倍、比VA-VAE快4.1倍,大幅降低了训练成本 [47] - **首次展示Tokenizer的Scaling Law**:生成性能可以随预训练中投入的计算量、参数量和數據规模有效增长 [50] - 仅通过放大Tokenizer的预训练计算量,就能为最终生成效果带来65.8%的性能提升,且提升曲线仍未触顶 [50] - 相比之下,传统自编码器的性能在仅投入约1/10计算量时便已饱和,继续增加算力收益微乎其微甚至可能导致质量倒退 [51] 对行业的意义与影响 - 研究结论表明,除了在主模型上投入更多资源,还可以通过Tokenizer的scaling来提升整个生成系统的性能,Tokenizer成为一个值得长期投入且具备明确scaling回报的核心环节 [52][58] - VTP改变了Tokenizer长期被视为“前置模块”、够用就行的观念,首次将其作为scaling的主角,展现出全面的scaling曲线和扩展方向 [53][54] - VTP在Tokenizer层面统一了语义对齐、结构认知和细节表达,其产出的视觉表征天然具备多任务协同潜力,适合用来构建“理解-生成统一模型” [55][56][57] - VTP的开源为行业提供了一条新的、被实验证明有效的路径,其价值不仅在于提供了一个组件,更在于指明了新的研究方向 [58]
Scaling Law没死,Gemini核心大佬爆料,谷歌已有颠覆性密钥
36氪· 2025-12-22 09:05
公司技术路线与战略 - Google DeepMind的Gemini预训练负责人Sebastian Borgeaud预测,未来一年内,大模型预训练领域将在提升长上下文处理效率以及扩展上下文长度方面迎来重大技术创新 [1][2] - 公司内部认知发生根本性转变,工作重心从“训练模型”转向构建一个完整的、可长期运行和迭代的“系统”,这是Gemini 3实现颠覆性进步的关键 [6][7][8][31][32] - 公司高层(Jeff Dean, Oriol Vinyals, Noam Shazeer)在描述Gemini时,刻意强调其是一个“系统”而非“模型”,这反映了公司追求构建一套能反复使用、不断进化的智能工业体系,而非昙花一现的成品 [31][32][34] 行业技术发展趋势 - AI发展范式正在经历潜在转移,从过去依赖“无限数据”扩大数据集的粗放模式,转向在“数据有限”体制下,更高效利用数据资源、精雕细琢的精细模式 [10][12] - Scaling Law(缩放定律)并未消亡,而是正在演变 [6] - 未来的行业竞争焦点将从“谁的数据中心更大”转向“谁的学习算法更高效”、“谁的模型架构更优雅”、“谁能从有限数据中提取更多智慧” [12] 关键技术前沿方向 - **长上下文处理**:超长上下文能力将持续创新,未来一年左右将在使长上下文更高效、并进一步扩展上下文长度方面看到更多创新,这将把模型变成真正的数字工作台,为复杂多步任务和深度研究提供可能,是迈向更强大“智能体”的关键基础设施 [1][14][16] - **注意力机制进化**:在注意力机制上已有一些真正有趣的发现,这将塑造未来几个月的大量研究,可能从底层显著提升模型的理解、推理和计算效率 [4][18] - **检索技术整合**:长期的答案是以可微分的方式让模型在训练和推理时学习检索外部知识库,实现检索与推理更原生的结合,动态从海量知识源获取信息,从而突破参数规模的知识容量限制 [19] - **效率与成本革命**:随着用户激增,模型部署和服务成本变得至关重要,未来研究将不再只追求性能峰值,还必须关注如何让强大模型变得“便宜又好用” [21][22] 模型能力发展重点 - 当前模型并不缺“聪明”,缺的是持续思考并在复杂任务中反复修正的能力,即“慢思考”(Slow Thinking)能力 [29][30] - 模型评估标准正在变化,榜单衡量的瞬时表现重要性下降,而模型的可靠性、迁移能力以及在复杂任务中持续自我修正的能力变得更为关键 [30] - 大模型的规模依然重要,但它不再是决定一切的唯一变量,单纯靠堆参数就能不断前进的道路已接近边界 [29] 研发理念与信心 - 进步源于无数细微改进的聚合,是庞大团队中日复一日发现的那些“旋钮”和优化 [10] - 尽管面临数据瓶颈、成本挑战等现实问题,但一线研究者对AI进步的总体判断依然充满信心,认为有大量细微但确定的改进空间,整个领域尚未枯竭的创造活力,至少在未来几年,这种进步势头不会放缓 [23][25]
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026
量子位· 2025-12-21 13:45
文章核心观点 - 具身智能模型应被视为一个独立于、平行于语言模型和多模态模型的全新基础模型,是专门为物理世界构建的智能底座,而非仅仅是现有模型的一个应用 [1][6][7][61] 对具身智能模型独立性的论证 - 物理世界与虚拟世界存在本质差异:物理世界充满连续性、随机性、不完全可观测性,以及大量与力、接触和时序强相关的过程,而虚拟世界是高度可复现、低随机性的符号世界 [2][10][12] - 现有以语言和视觉为中心的建模范式存在结构性错位:语言和视觉并非描述动作和物理过程的理想工具,语言难以描述精细操作(如10秒以下的事件),图像则面临工具使用、遮挡等局限,无法处理涉及力和接触的过程 [17][19][20] - 将具身智能视为独立基础模型将彻底改变模型架构、数据范式、推理方式乃至硬件形态的研发视角 [3][9][12] 模型架构与学习范式的变革 - 感知与决策方式需革新:人类在物理世界通过主动感知和交互感知进行学习,这与虚拟世界中基于静态图片的统计学习范式有根本不同,是多模态模型未来的重要发展方向 [28][29][30] - 需构建完全端到端的统一基础模型:该模型应整合视觉-语言-动作能力,并同时具备世界模型、空间智能和语言能力,而非让这些能力相互替代 [12][33][40][41] - 需专门设计以适应端侧部署和快速推理:当前架构在推理速度上的权衡是暂时的,根本解决方案是设计一个专为物理世界、考虑端侧推理的新模型 [33][34] 数据与Scaling Law的演进 - 现实世界数据是主要来源:训练需分阶段,包括预训练和后训练数据 [49] - 发现第三个Scaling Law:在后训练之后,可通过推理时的思维链等拓展方式进一步提升模型表现 [49] - 持续学习范式更优:物理世界中的机器人应能实时利用新数据进行体验式学习,这优于集中式批次训练,但对体系架构和硬件提出了新要求 [52][53] 硬件与商业化路径 - 必须让AI定义硬件:应软硬一体同步发展,而非先制造完美硬件再适配AI模型 [54] - 公司已实现软硬一体产品化:自主研发并开始销售轮式底盘人形机器人及高自由度灵巧手 [55] - 模型具备领先的泛化与执行能力:公司模型在跨本体泛化(如从夹爪迁移到20个自由度的灵巧手)和复杂任务执行速度上表现优异,速度快于人类遥操作 [34][35][37][38] 行业影响与长期愿景 - 具身智能可能反向吞噬多模态模型的生存空间:以十年为周期,物理世界基础模型的影响力可能超越现有虚拟世界模型 [12][32] - 具身智能是实现通用人工智能的关键:其发展能突破“人手劳动”的瓶颈,实现“机器制造机器”的指数增长,从而为AGI/ASI提供更多算力、芯片、电力和数据资源 [55][56][58][60] - 公司已推出开源模型:自研的WALL-OSS是领先的开源物理世界基础模型,具备视觉-语言-动作控制能力 [42]
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026
量子位· 2025-12-21 10:00
文章核心观点 - 生成式AI与大模型的发展已进入一个关键阶段,其核心魅力在于模型规模扩大时可能出现的非线性“能力涌现”,这带来了巨大的不确定性,但也可能带来超越想象的性能突破 [3][18][19] - 当前行业面临的核心挑战在于如何让机器从擅长“言”(语言)进步到真正的“知”(知识)与“行”(行动),实现“知行合一”,这关涉重大的理论与方法创新 [15][33][35][38] - 在Scaling Law(规模定律)边际成本高昂且前景不确定的背景下,行业发展路径应遵循“致广大而尽精微”的战略:极少数顶级团队可继续探索规模极限,而绝大多数公司应将重心放在垂直领域的“精微”应用上 [7][15][60][69][74] 大模型发展态势与现状 - 基于深度学习的AI在近8年内(约2017-2025年)快速进入预训练模型和大模型时代,发展呈现“苟日新、日日新、又日新”的常态 [11][14] - 关键模型发布的时间节点密集:GPT-3发布距今约5年,ChatGPT发布约3年,中国代表模型DeepSeek出现刚满1年 [16] - 文本、代码、多模态大模型的基础能力已达到相当高的水平,几乎“踏平”了所有基准测试(Benchmark) [20][26] - 在“人类最后的考试”(Humanity‘s Last Exam)这类无标准答案的难题测试中,顶尖人类高手可能只得5分,而大模型已能拿到三四十分 [23][24] - 可以预期,未来几年内,一切有标准答案的人类考试都将难不住机器 [15][25] - 在2025年的世界大学生程序竞赛中,人类第一名已不敌大模型 [25] Scaling Law的挑战与风险 - AI发展严重依赖Scaling Law,即大模型、大数据、大算力的持续投入,形成了“无止境的FOMO”(错失恐惧症),无人敢停 [2][6][38] - 任何信息系统发展到一定阶段都可能趋于性能饱和,Scaling Law存在失效风险,继续投入可能得不偿失 [15][40] - 支撑Scaling的代价极其昂贵,投入巨大到“让华尔街直冒冷汗” [42][43] - 以OpenAI为例,其当前计算能力约2GW,计划到2033年提升125倍至250GW,这相当于250个核反应堆的平均发电能力 [44][47] - 为实现该目标,对应的投资规模可能高达10万亿美元,且不包括电力成本 [47] - 这种激进的投入蕴含着很高的风险,但行业又“不能不跟”,因为担心错过可能出现的“能力涌现”而导致落后 [45] 具身智能与“知行合一”的挑战 - 大模型已具备较强的系统一(快思考)和系统二(慢思考)能力,为走向现实世界的具身智能奠定了基础 [27] - 然而,当前大模型强于“言”,弱于“知”与“行”。“知”不完整、不体系化,“行”则面临质的飞跃的困难 [33][35][36] - 实现“知行合一”是AI当前面临的最大挑战 [15][38] - 从文本到图像、视频,再到具身智能(四维:三维空间+时间),Next Token Prediction策略的有效性逐级下降,面临根本性理论挑战 [49][50][52] - 未来五年内,人形机器人进入通用开放环境(如家庭照顾老人)自主完成复杂任务“几乎是不可能的” [15][52] - 图灵奖得主Hinton建议,AI要具备水管工的能力“还差得很远” [53][54] - 具身智能更可能在有限的任务空间和特定场景中实现突破性应用 [55][56] 行业发展路径:“致广大”与“尽精微” - 行业发展应借鉴“致广大而尽精微”的理念 [60][63] - “致广大”指不计成本地追求模型规模极限,以美国为代表,投入巨大(如计划使用上亿张GPU),旨在通过可能出现的“能力涌现”形成断层领先优势 [64][65][66] - 国内仅有极少数实力雄厚的大厂可能具备条件在“致广大”路径上跟随国际前沿,但过程艰辛 [67][74] - 尽管当前中美大模型性能差距不大,但在“致广大”路径上,未来几年仍存在非常大的不确定性 [68] - “尽精微”指深耕垂直领域应用,将AI与具体行业深度融合,这是国内当前应重点采取的战略选择 [69][74] - 以DeepSeek、千问为代表的开源基座模型已具备扎实基础,为垂直应用提供了可能 [69] - 垂直领域应用挑战大,但风险相对较小,且中国在应用场景、工业基础及人才方面具备优势,有望在该领域取得领先 [74] - “尽精微”本身也可能孕育出新的人工智能算法,从而成为一种“致广大” [71] - 建议绝大多数AI公司将主要精力放在“尽精微”上,同时保持对“致广大”前沿的密切关注 [74]