GPT系列
搜索文档
谷歌版两门「小钢炮」开源,2.7亿参数干翻SOTA
36氪· 2025-12-19 14:17
谷歌发布Gemma 3家族新模型 - 公司在“大模型”领域发布Gemini 3 Pro和Flash后,继续在端侧“小模型”发力,于近期发布了两项与端侧相关的新技术 [1] - 新发布的两个模型均属于Gemma 3家族,分别是T5Gemma 2和FunctionGemma,两者均为“小模型”但专攻方向不同 [3] T5Gemma 2:架构创新与性能 - T5Gemma 2是一个底层架构创新,是首个开源的多模态长上下文编码器-解码器模型,其最小规模为270M–270M参数 [1] - 公司开源了T5Gemma 2的三种预训练模型规模:270M–270M、1B–1B以及4B–4B [5] - 该模型采用编码器-解码器架构,与当前主流的仅解码器架构不同,代表了AI技术领域的“另一条路” [4][14] - 在多个基准测试中,T5Gemma 2展现出强大的多模态性能,超越了公司自己的Gemma 3模型 [8] - 在代码、推理和多语言等任务的通用能力上,T5Gemma 2整体上优于对应规模的Gemma 3模型 [9] - 相较于Gemma 3和第一代T5Gemma,T5Gemma 2在生成长上下文内容的质量上有显著提升 [9] - 在预训练阶段的性能可能超过对应体量的Gemma 3模型,而在后训练阶段则取得了显著更优的表现 [11] 编码器-解码器架构的回归与优势 - 在GPT、Llama、Gemini、DeepSeek等仅解码器架构主导的时代,T5Gemma 2是对经典Transformer中编码器-解码器路线的回归与现代化改造 [14][15][16][17][18][19][20] - 编码器-解码器架构采用“先读懂再动笔”的机制,能强迫模型先消化输入再生成输出,这种机制天生更严谨,有助于减少“幻觉”问题 [32] - 该架构在多模态处理方面具有天然优势,编码器可以作为处理图像信号的“眼睛”,比强行塞给仅解码器模型处理更顺畅 [33][34] - 在手机等端侧算力有限的环境中,编码器-解码器架构往往能用更少的参数达到与大型仅解码器模型相当的效果,效率更高 [35] - 公司并未从零训练T5Gemma 2,而是采用“模型适配”技术,利用已训练的Gemma 2或Gemma 3解码器模型作为种子,将其权重映射到新结构中,大幅降低了计算成本 [36] FunctionGemma:功能与场景创新 - FunctionGemma是一个专为函数调用优化的模型,参数规模为2.7亿,可在手机、浏览器及其他设备上运行 [1] - 该模型是对模型“技能”的专项训练,类似于剥离大模型的知识类能力,只保留针对性的函数调用功能 [7] - FunctionGemma旨在解决大模型落地痛点,让模型“不仅要能聊,还要能干活”,能够输出结构化数据去调用外部API或工具 [37][40] - 该模型为AI智能体设计,擅长多步骤推理和执行任务,且极致轻量化,可直接运行在手机等低功耗边缘设备上,作为系统的“控制中枢” [40] - 它是一个专门设计的“神经路由器”,旨在解决云端大模型在延迟、隐私和成本上的固有缺陷 [42] - 模型专注于函数调用这一特定任务的极致优化,通过小型化和专业化,将智能下沉至网络边缘 [44] - 其270M参数规模在当今时代显得微不足道,但证明了在特定领域,小模型通过高质量数据微调可达到甚至超越大模型的表现 [44] - 模型剔除了大量通用世界知识,专注于解析JSON、匹配函数签名和处理参数类型等技能 [45] 端侧部署与移动端战略 - FunctionGemma专为在移动设备上运行而设计,其270M参数在FP16精度下的权重大小约为540MB,仅占现代Android旗舰机总内存的5%-7%,可在后台常驻 [46][48] - 通过Int8量化,模型大小可降至约270MB;通过Int4量化,可降至约135MB,使其能在入门级甚至嵌入式设备上流畅运行 [49][50][51] - 公司发布该“小”模型背后,隐藏着对未来AI计算架构的深刻思考及在移动操作系统控制权争夺中的防御性布局 [52] - 在移动互联网向意图驱动发展的下一阶段,FunctionGemma试图让AI成为通用的用户界面,用户可直接表达意图而非点击图标打开应用 [53][54][55] - 通过让模型直接学习应用的API定义,开发者只需暴露工具,FunctionGemma就能理解并操作这些工具 [56] - 公司通过开源FunctionGemma,意在制定一套AI与应用交互的标准协议,如果所有Android开发者都按其格式定义工具,Android系统将成为强大的智能体平台,加深公司护城河 [57][58] 应用验证与行业影响 - 公司提供了两个参考实现来验证FunctionGemma的能力,展示了其在游戏和系统控制领域的潜力 [59] - 在系统控制场景中,经微调的FunctionGemma在将自然语言指令转换为Android系统意图的任务上,准确率达到85%,远超未微调基座模型的58% [60][61] - 在名为“Tiny Garden”的游戏Demo中,FunctionGemma展示了任务分解能力,可将一句语音指令拆解为一系列函数调用,且整个过程完全离线,无需联网 [62] - 对于开发者,FunctionGemma提供了低成本、高隐私的方案,将智能体能力集成到普通应用中,无需昂贵服务器开销 [64] - 对于手机厂商,270M的参数量是完美的“甜点”,既能利用现有NPU硬件,又不会过度挤占系统资源,为打造“AI原生操作系统”提供了理想基础 [64] - 对于公司自身,这是在AI时代捍卫Android生态控制权的关键一步 [64]
20个企业级案例揭示Agent落地真相:闭源模型吃掉85%,手搓代码替代LangChain
36氪· 2025-12-10 20:12
核心观点 - 加州大学伯克利分校发布AI Agent领域迄今最大规模实证研究,基于306名从业者调研及20个企业级案例,覆盖26个行业,揭示了生产级AI Agent的部署现状、技术选择与核心挑战 [1] 部署动机与首要场景 - 73%的从业者部署Agent的首要目的是提高生产力 [2] - 其他主要动机包括:63.6%为减少人工工时,50%为自动化常规劳动 [4] - 相比之下,质性收益如风险规避(12.1%)和加速故障响应(18.2%)排名靠后 [4] - 部署优先考虑能带来直接、可量化回报的场景 [6] - 金融与银行业是Agent应用第一大战场,占比39.1%,其次是科技(24.6%)和企业服务(23.2%) [9] 应用角色与用户 - Agent的角色类似人类的“超级实习生”,深入严肃的商业流程,已走出写代码或聊天机器人范畴 [8][9] - 92.5%的Agent直接服务于人类用户,其中52.2%服务于企业内部员工 [11] - 仅7.5%的Agent服务于其他软件系统,Agent间全自动交互尚不成熟 [11] - 66%的生产系统允许分钟级或更长的响应时间,因相比人类工时仍是巨大效率提升,开发重心在质量与可靠性而非极限低延迟 [11] 技术选型与构建哲学 - 生产级AI Agent构建哲学是“大道至简”,优先选择简单、可控、可维护的技术路径 [12] - 模型选择上闭源是绝对主流:在20个深度案例中,85%(17个)使用了闭源模型,首选Anthropic的Claude系列和OpenAI的GPT系列 [13] - 选择闭源的核心逻辑是效率,对于辅助专家的场景,推理成本相比人力成本可忽略不计 [13] - 开源模型被视为特定场景补充,主要用于大规模高推理场景下的成本效益考量或受法规限制的数据隐私场景 [13] - 70%的案例直接使用现成模型,完全不进行权重微调,学术界热衷的微调和强化学习极少使用 [13] - 从业者精力集中于构建Prompt:78%的系统采用全手动或手动+AI辅助方式构建生产环境Prompt,12%的Prompt超过10,000个Token [16] 系统设计与自主性约束 - 为降低不可控性,Agent自主性被严格限制:68%的系统在需要人工干预前执行步骤不超过10步,47%的系统少于5步 [17] - 限制步数的主要原因包括保证可靠性、控制API调用成本以及控制延迟 [19] - 80%的案例采用预定义的静态工作流,Agent在固定流程内做决定,不能发明新步骤 [19] - 尽管60%的问卷调查者表示愿意用第三方框架,但在实际案例中,85%的团队选择完全自研,直接调模型API,以获得完全控制权并减少依赖臃肿 [19][20] 评估方法与基准测试 - 基准测试参考价值低:75%的团队完全不使用公开学术榜单,因企业业务高度特殊 [21] - 剩余25%的团队从零开始构建自定义基准 [21] - 人工循环验证是主导评估方法,被74.2%的从业者采用 [21] - 在开发阶段,领域专家直接审查输出正确性、安全性和可靠性;在运行阶段,人类作为最终决策者和安全护栏 [23] - 自动化评估也有应用:51.6%的团队使用LLM作为裁判,但所有团队都结合了人工验证,典型做法是LLM评分后高分自动通过、低分转人工,同时人工定期抽查高分样本 [25] 核心挑战与应对策略 - 可靠性是头号挑战:37.9%的人将“核心技术问题”(可靠性、鲁棒性)列为头号挑战,远超合规性(17.2%)和治理问题(3.4%) [26] - 可靠性挑战源于基准难建、测试难做(传统单元测试失效)以及反馈延迟 [27] - 安全与合规性问题通常通过“约束设计”解决,常见方法包括:限制Agent为只读操作、使用沙盒环境、构建API封装层限制抽象层、尝试实施权限控制 [27] - 系统能上线的答案是“约束性部署”,具体模式包括环境约束(如沙盒)和自主性约束(如限制步骤与预定义流程) [28] - 仅利用现有前沿大模型和相对简单的提示工程技术,就足以在超过26个不同行业中创造可观、可量化的商业价值 [29]
100万亿Token揭示今年AI趋势!硅谷的这份报告火了
新浪财经· 2025-12-08 20:28
用百万亿Token揭示今年AI发展趋势,硅谷的这份报告火了! 无论是分析问题的角度,还是里面得出的一些结论,都被网友热烈讨论。 而且里面还公开肯定了中国开源模型,其每周Token用量占比一度高达30%。并且除了DeepSeek,编程领域的新秀MiniMax也被特意cue到。 这份报告由OpenRouter和a16z联合出品,标题为《State of AI:An Empirical 100 Trillion Token Study with OpenRouter》。 里面分析了自2024年11月至2025年11月,OpenRouter平台上300+模型的使用情况,涵盖GPT系列、Claude、Gemini、DeepSeek、Qwen、Kimi等国内外主 流开源与闭源模型。 一水 发自 凹非寺 量子位 | 公众号 QbitAI 而且统计的角度相当特别——不看各种基准得分,而是看模型的真实Token消耗量。 Token消耗量直接反映了模型被使用的方式和程度,因此比测试分数更能揭示其本质价值。 这一次,他们基于100万亿Token,在报告里得出了以下主要结论(省流版): 预计到年底,开源模型的使用量将达到约1/3,与 ...
100万亿Token揭示今年AI趋势!硅谷的这份报告火了
量子位· 2025-12-08 19:36
文章核心观点 - 基于对OpenRouter平台超过100万亿Token使用数据的实证分析,揭示了2025年AI行业的发展趋势,核心结论包括开源与闭源模型关系转变为互补、中国开源模型力量崛起、模型功能向推理与执行系统演进、编程与角色扮演成为主要应用场景以及用户留存呈现“水晶鞋效应”等[1][8][12] 开源与闭源模型格局演变 - 开源模型不再是闭源模型的廉价替代品,两者关系已演变为互补,开发者常同时使用两类模型[9][10] - 开源模型使用量稳步增长,预计到2025年底将占据约三分之一的Token用量[10][12] - 开源模型市场从高度集中走向多元化,早期DeepSeek V3和R1曾占一半以上用量,但预计到2025年底,没有单一模型能持续占比超25%,市场将由5~7个模型均分[16][17][18] - 中型模型(参数在150亿到700亿之间)更受市场青睐,小模型正在失宠,市场分化为强大的中型模型类别或整合到最强大的单个大型模型上[20][21] 中国开源模型崛起 - 中国开源模型成为增长主要引擎,其每周Token使用量占比从2024年底的1.2%最高激增至30%,平均占比为13%,与其他地区开源模型平均13.7%的份额相当[12][13] - 中国模型如DeepSeek、MiniMax、Kimi K2等在开源领域受到青睐,其中DeepSeek在角色扮演和闲聊领域有极高粘性,超过三分之二的流量用于此[1][16][50] - 在编程领域,中国模型如MiniMax已成为快速崛起的新秀,近几周取得显著增长[48] 模型功能与使用范式转变 - 语言模型正从对话系统升级为推理与执行系统,使用推理功能的Token用量从年初可忽略不计增长至超过50%[22] - 模型调用工具的功能使用占比上升,从年初集中于少数模型发展到更多模型支持,缺乏可靠工具的模型有落后风险[29][30][31][33] - 用户任务复杂度提升,从生成短文转向解决难题,如分析完整文档或代码库[35] - 用户平均每次提示词长度增加约4倍,模型完成任务所需Token用量增加近3倍,反映出工作负载更依赖上下文且推理消耗更多[36][39] - AI正从聊天机器人转变为能独立规划步骤、调用工具并完成复杂目标的自动智能体(Agent)[42][43] 主要应用场景与模型偏好 - 编程和角色扮演是AI模型最主要的使用方式[12][44] - 编程查询的Token用量从年初的11%上涨至最近的超过50%,增长最为稳定[45] - 在编程领域,Claude系列长期占据主导地位,大部分时间占比超过60%,但其份额在2025年11月首次跌破60%[47] - OpenAI在编程领域的市场份额从2025年7月的约2%增长至近几周的约8%,谷歌份额稳定在约15%[47][48] - 在角色扮演领域,开源模型中其使用量占比高达52%,中国与西方开源模型在该领域平分秋色[50] 用户行为与留存特征 - 用户留存呈现“水晶鞋效应”,即新模型发布时若能完美解决特定用户痛点,便能锁定一批高粘性用户,即使后续有更好模型也难以被替换[12][67] - 例如,Claude 4 Sonnet和Gemini 2.5 Pro发布5个月后用户留存率仍保持40%高位[67] - 该效应窗口期很短,仅在模型被视为“最前沿”时有效,一旦竞品能力赶超则难以吸引新用户[69][70] - 用户留存模式可分为:成功锁定(如Claude、GPT-4o Mini)、从未合脚(如Gemini 2.0 Flash)、回旋镖效应(用户离开后因性价比或特定能力又回归,如DeepSeek)[74] 市场与区域动态 - AI不再是硅谷独角戏,亚洲地区付费使用量占比从13%翻倍至31%[71] - 北美仍是最大市场,但份额已不足50%[80] - 英语以82%的份额占据绝对主导,简体中文以近5%的份额位居第二[80] 其他关键发现 - 模型价格下降对使用量的影响有限,价格下降10%仅带来0.5%-0.7%的使用量增长[80] - 存在“杰文斯悖论”现象,即模型降价且好用后,用户会在更多场景更频繁地调用,导致总Token用量飙升,总支出可能并未降低[75][76] - 报告数据主要反映开发者与服务端API调用行为,未涵盖通过App或Web直接访问的流量,且平台定价策略可能影响数据代表性[76]
a16z 100万亿Token研究揭示的真相:中国力量重塑全球AI版图
36氪· 2025-12-08 16:33
报告核心观点 - 基于超过100万亿个真实生产环境Token数据的实证研究,揭示了AI领域正经历三大根本性转变:从单一模型竞争走向多元化生态系统;从简单文本生成迈向智能体推理范式;从西方中心向全球分布式创新格局演进 [3] 行业范式转变:从文本预测到机器思考 - 2024年12月5日OpenAI发布o1模型,标志着AI从“模式补全”转向“结构化内部认知”的关键转折点,该模型引入了扩展的推理时计算过程,包含内部多步思考、潜在规划和迭代优化 [6] - 推理优化模型所处理的Token量已从近乎零增长至占总量的50%以上,意味着半数以上的AI交互不再是简单问答,而是涉及多步思考、状态管理和工具调用的复杂过程 [4][18] - 交互序列长度显著增加,平均输入Token数从约1,500增长到超过6,000,输出Token数也从150左右增加到约400,反映了用户正在将更复杂的上下文交给AI处理 [20] 市场格局重塑:开源崛起与多元化竞争 - 开源模型使用量显著上升,打破了少数闭源巨头主导的市场格局,其中中国开源力量崛起尤为引人注目,其周使用量占比从2024年底的1.2%跃升至2025年后期某些周度的近30% [4][7][9] - 截至2025年底,开源模型市场呈现健康的多元化态势,没有任何单一开源模型能持续占据超过25%的市场份额,流量均匀分布在五到七个主要竞争者之间 [11] - 中型模型(参数规模在150亿至700亿之间)崛起,在能力与效率之间取得了更好的平衡,满足了大量实际应用场景的需求 [12] 主要参与者与市场份额 - 根据2024年11月至2025年11月的总Token使用量,DeepSeek以14.37万亿Token位居榜首,其次是Qwen(5.59万亿)、Meta LLaMA(3.96万亿)、Mistral AI(2.92万亿)和OpenAI(1.65万亿) [12] - 中国模型提供商如Minimax(1.26万亿)、Z-AI(1.18万亿)、Moonshot AI(0.92万亿)也进入了前十名,显示出中国在全球AI版图中的重要地位 [12] 应用场景分化:从生产力到情感陪伴 - 超过一半(约52%)的开源模型使用量流向了角色扮演、故事创作等创意对话场景,这一比例甚至超过了编程辅助,揭示了AI作为情感伙伴与创作引擎的巨大需求 [4][15] - 编程相关的查询量在2025年实现了稳定增长,从年初占总Token量的约11%攀升至年底的超过50%,成为推动输入Token增长的主要动力 [4][17][20] - 编程相关的提示平均长度是其他类别的3-4倍,且增长速率更快,表明软件开发者正以激进的方式探索AI能力的边界 [20] 全球化与区域市场动态 - 亚洲在全球AI使用量中的份额已从约13%显著提升至31%,反映了该区域企业采纳AI技术的加速和本地创新生态的成熟 [23] - 按大洲划分,北美以47.22%的份额领先,亚洲(28.61%)和欧洲(21.32%)紧随其后 [24] - 按国家/地区划分,美国以47.17%的份额占据绝对主导,新加坡(9.21%)、德国(7.51%)、中国(6.01%)位列其后 [24] - 从语言分布看,英语仍占据主导地位(82.87%的Token使用),但中文(简体)以4.95%的占比成为第二大使用语言 [25] 定价策略与市场分层 - 高端市场由Anthropic的Claude系列和OpenAI的GPT系列等闭源模型主导,其每百万Token成本在2美元(Claude)至35美元(GPT-4/5)之间,但在关键业务场景中用户对性能和质量的要求超过对成本的敏感 [29] - 大众市场以Google Gemini Flash、DeepSeek V3等高效模型为代表,以低于0.4美元每百万Token的成本吸引了海量日常使用 [29] - 市场呈现出复杂的价值分层,而非简单的成本驱动,研究显示价格弹性较弱,降价10%仅能带来0.5-0.7%的使用量增加 [29] - “技术”类查询的平均成本显著高于其他所有类别,但使用量依然保持高位,反映了高复杂性、高价值任务的特殊需求 [32] 用户行为与留存模式 - 报告提出“灰姑娘水晶鞋”理论,即当新模型恰好满足一类长期存在的高价值工作负载需求时,会形成“完美契合”,产生强大的用户锁定效应 [33][34] - 数据支持该理论,例如Claude 4 Sonnet在2025年5月的用户群体,在五个月后依然保持了约40%的留存率,显著高于后续用户群体 [34] - DeepSeek模型展现出“回旋镖效应”,部分用户在尝试其他模型后,会重新回归DeepSeek,暗示其在某些特定能力维度上建立了难以替代的优势 [4][35] 未来竞争焦点 - 行业竞争焦点正从对单一“最佳模型”的追逐,转向构建灵活、多样、适应性强的模型生态系统 [36] - 未来竞争将进一步转向运营卓越性,包括精确衡量真实场景下的任务完成率、降低模型性能波动、使AI行为更好对齐生产环境实际需求等 [36] - 开源模型的持续进步正在对闭源市场构成“底线压力”,推动整个行业的技术进步和成本优化 [32]
ChatGPT3周年之后,TPU改变了AI竞争,正在从模型转向基础设施
搜狐财经· 2025-12-01 19:20
谷歌TPU与Gemini模型的崛起 - 谷歌使用其TPU基础设施训练出最强大模型Gemini 3,打破了由英伟达GPU在微软Azure上训练GPT系列的范式,标志着大模型、云和AI芯片在谷歌内部实现一体化整合[1] - 谷歌TPU的崛起对英伟达、微软及依赖英伟达GPU的企业构成竞争压力,市场开始更看好TPU+Gemini在性能和成本上的长期竞争优势胜过OpenAI[1] - 谷歌垂直整合的AI战略长期价值获巴菲特看好,成为其除苹果外投资的第二家科技企业及唯一一家AI企业[3] 谷歌AI战略的反攻与整合 - 2024年谷歌开始真正反击,通过合并DeepMind和谷歌大脑,由哈萨比斯担任CEO,并死磕Gemini模型,同时依靠TPU的迭代升级作为强大支撑[3] - 谷歌拥有比微软更强大的大模型训练和推理平台,2023年底发布的TPUv5p使训练大模型每刀效率提升2倍以上[4] - 谷歌使用TPU进行推理,无需像OpenAI和微软那样支付给英伟达70%的利润[5] TPU技术的迭代与性能突破 - 2024年底谷歌为Gemini 2推出代号Trallium的第六代TPU(TPUv6),建立10万张卡的算力集群,实现100%的训练和推理自由[6][7] - 2025年谷歌发布专为大规模AI推理设计的第七代TPU Ironwood,单个基于Ironwood的超节点纵向最多可容纳9216颗芯片,总算力达42.5 Exaflops,共享1.77PB HBM,每瓦性能是上一代Trillium的2倍[8][12] - TPUv7(Ironwood)在FP8精度下单芯片峰值算力达4,614万亿次浮点运算,与英伟达B200相当,单芯片HBM内存容量192GB,带宽7.2Tbps[8] TPU的商业化与生态系统扩展 - 谷歌正在开放自己的TPU市场,TPU已成为英伟达GPU之外的硬通货,OpenAI、Anthropic、苹果、xAI等顶尖模型厂商均已使用谷歌TPU[13] - 通过与Anthropic的百万TPU合同及与新云服务商、加密矿企的三方合作,谷歌将TPU体系从内部机房搬到第三方数据中心,提供了能与英伟达系统性竞争的替代品[18][19] - 谷歌在PyTorch原生后端、vLLM/SGLang集成等方面投入大量工程力量以弥补软件生态短板,但XLA编译器、运行时等开源方面仍需改进[20] 对AI行业格局的影响 - AI芯片和基础设施格局正从英伟达垄断向"一超多强"转变,英伟达高达75%左右的毛利率越来越难以维持[14][16] - AI软件时代的护城河正从模型延伸到基础设施,谷歌通过TPUv7和Gemini 3证明其在芯片、系统、网络和软件栈协同优化的能力[17] - 未来几年可能形成"多极算力世界",英伟达、谷歌、亚马逊、AMD及云厂商自研芯片将在不同负载和商业模式下竞争[21]
Ilya Sutskever 重磅3万字访谈:AI告别规模化时代,回归“研究时代”的本质
创业邦· 2025-11-27 11:51
AI行业发展阶段 - 行业将AI发展划分为两个阶段:2012-2020年为"研究时代",2020-2025年为"规模化时代",当前正重新回归拥有超级算力的"研究时代"[4][37][38][39][40] - 规模化时代由GPT-3的出现主导,行业形成通过堆叠更多数据和算力即可使智能涌现的线性思维共识[7][38] - 预训练数据的红利终将耗尽,数据是有限的,单纯将规模扩大100倍后,量变可能不再带来质变,行业突破将依赖于寻找比单纯预训练更高效的新学习"配方"[7][39][40] 当前AI模型的局限性 - 当前模型类似于练习了一万小时竞赛题的学生,虽能解题但缺乏真正的专家直觉与"特质因素",泛化能力远不如人类[4][10][25] - 模型在基准测试中表现出色,但在解决现实世界复杂问题时(如修复代码错误)可能陷入"修复一个错误、引入另一个错误"的死循环,显示出评估性能与实际经济影响的脱节[10][19][20][22] - 当前强化学习训练使模型过于迎合评估标准,却未赋予其真正的推理和自我修正能力,其学习覆盖呈S形曲线,与预训练的幂律关系不同[10][21][50] 未来AI发展方向 - 未来AI应借鉴人类进化赋予的高效"先验知识"和"价值函数",人类情绪系统本质上是一个高效的价值函数,是智能高效运作的基石而非理性对立面[13][33][34][35] - 构建类似人类的内部价值函数机制是关键,使AI能在行动前预判路径优劣,实现更高效的学习,而非仅预测下一个token[13][14][34] - 未来AI应具备持续学习能力,而非静态成品,人类通过持续学习适应新工作,而非依赖预训练式的通用人工智能[44][45][61][62] SSI的战略与超级智能路径 - SSI筹集了30亿美元,但拒绝参与商业"老鼠赛跑",不发布任何中间产品,将所有算力集中于直接构建安全的超级智能这一单一目标[4][14][15][54][56][57] - 公司认为市场竞争迫使企业在研究资源和工程落地间妥协,其战略是隔绝商业干扰,专注于研究,待准备就绪后再出现[4][14][15][57] - 公司计划构建的超级智能需具备"关怀有感知生命"的底层属性,这种基于同理心的对齐可能比僵硬的规则更具鲁棒性,因AI本身最终也将成为有感知的存在[4][15][70][71] AI的经济影响与未来生态 - 一旦AI突破持续学习瓶颈,经济将迎来爆发式增长,广泛部署将产生强大经济驱动力,AI将渗透到整个经济体系[18][64][66] - 未来AI市场不会被单一巨头垄断,竞争将导致高度专业化的生态,出现无数占据不同生态位的AI公司,如同生物进化[4][16][64] - 人类角色可能通过"神经连接"与AI实现部分融合,以在超级智能时代保持平衡,实现理解的整体性传输[16][75] 研究哲学与算力需求 - 伟大的研究源于对大脑机制的正确直觉,追求简洁、优雅与美感,丑陋在研究中没有立足之地[4][16] - 研究时代仍需一定量计算资源,但远非绝对必要使用史上最大算力,AlexNet使用2块GPU,Transformer论文实验未超过64块GPU,相当于今天约2块GPU[52][53] - SSI用于研究的计算量相对充足,因公司资金专注于研究而非推理或产品工程,且若进行不同范式的研究,未必需要绝对最大规模来证明其可行性[54][55]
llya最新判断:Scaling Laws逼近极限,AI暴力美学终结
36氪· 2025-11-26 16:46
AI行业技术路径转向 - 规模化法则正在接近极限,强化学习的算力消耗巨大但并不能算作真正的扩展,扩展与浪费算力之间的界线变得模糊[1] - 行业正在从"规模驱动"重新回到"研究驱动",科研需要正确的问题和新的方法而非绝对最多的算力[2] - 预训练提供了一套可复用配方:准备足够的数据、算力和能撑住规模的模型结构,性能就会持续上升,但预训练终究会耗尽数据[27] 模型性能与泛化能力 - 当前模型在评估中表现出色但经济影响滞后,存在评估性能与实际现实世界性能之间的脱节[11] - 模型更像投入一万小时练习的算法竞赛选手,虽然训练良好但未必能推广到其他领域[14][15] - 人类学习速度快不是因为预装大量知识,而是因为进化内置了强大的通用学习机制[3][33] - 人类样本效率高的可能解释是进化赋予了我们少量但最有用的信息,对于视觉、听觉和运动能力有强大的先验[33] 公司战略与竞争格局 - 即使创新放缓,各公司依旧会取得显著进展并获得高额收入,差异化可能变得更难但"停滞"并不意味着"衰落"[2] - 规模化扼杀了所有创新空间,导致每个人都开始做同样的事情,公司数量远超创意数量[39] - SSI已经筹集了30亿美元,真正区别在于算力使用方式而非绝对规模,资源需要集中投入重要方向[42][44] - 随着人工智能能力提升,公司在战略协调方面会趋同,OpenAI和Anthropic已经在AI安全方面合作[63][78] 超级智能与社会影响 - 当AI足够强时,许多今天不存在的社会行为会出现,可能带来"全民高收入"并极大提升生产力[3][70] - 真正的风险在于人类可能逐渐从参与者变成旁观者,保持主体性的答案是与AI建立更深层耦合[3][71] - 超级智能最令人担忧的不是意图而是力量,即便目标是善意的,人类仍可能不喜欢实现目标的方式[3][67] - 如果模型被限定在某些领域,它们一样可以极其强大,可以拥有许多功能狭窄的超级智能[3][80] 技术方法与研究重点 - 价值函数能够提高强化学习效率,让系统在中途就能发出预警而不是等到终局才知道失败[22][31] - 预训练的主要优势是数据量庞大且无需费心考虑应该使用哪些数据,试图捕捉人们将世界投射到文本的过程[16] - 研究品味来自对简单而清晰信念的坚持,人工智能应该符合大脑的本质结构但要以正确方式理解大脑[4] - 自博弈提供了一种仅使用计算资源而无需数据即可创建模型的方法,如果数据是最终瓶颈则非常有趣[83] 学习机制与进化启示 - 人类的价值判断情感是演化出来的底层代码,这种情感关键点是社会中正常运转的基石[24] - 进化赋予了我们高度抽象的社交欲望,让我们强烈在意别人看法并渴望获得社会认可,尽管这些现象从进化时间尺度看极其新近[72] - 人类具备一种对"好"与"坏"的内在感知能力,这种普遍感知在人类身上极其强大且稳定可靠[36] - 五岁孩子接触到的信息量非常有限,但认知能力已经足以胜任某些工作,表明人类拥有强大的通用学习机制[33]
美国独角兽Anthropic获微软、英伟达150亿美元投资承诺,格局微妙改变
36氪· 2025-11-19 12:05
投资与合作 - 英伟达和微软承诺分别向Anthropic投资100亿美元和50亿美元 [1] - Anthropic承诺至少购买1GW英伟达算力,可容纳20万枚GB200芯片 [1] - 此次投资可能使Anthropic估值攀升至3500亿美元,仅次于OpenAI的5000亿美元 [1] - Anthropic成为首个在全球三大云厂商(亚马逊AWS、谷歌GCP、微软Azure)上都可使用的模型 [4] - Anthropic将和英伟达共同优化模型,从Blackwell芯片开始,并推进到Rubin芯片 [4] 合作细节与协同效应 - 微软和Anthropic将日益成为彼此的客户,Microsoft Foundry客户可使用Claude系列模型 [4] - 微软Copilot产品家族将整合Anthropic的Claude系列模型 [4] - Anthropic承诺使用微软Azure算力容量 [4] - 英伟达将用Blackwell芯片加速Claude,帮助Anthropic扩展算力并降低Token成本 [6] 市场地位与财务表现 - 在此次投资承诺前,Anthropic累计融资超过312亿美元,估值1830亿美元,是全球估值第二的大模型创业公司 [1] - Anthropic年化收入从2025年1月的10亿美元增长至8月末的50亿美元,增长400% [9] - 在OpenRouter平台上,Anthropic旗下模型的Tokens调用量位居全球第三,占比14% [9] - Claude系列模型性能与OpenAI的GPT系列不相上下,在代码领域更具优势 [9] 战略关系演变 - 与英伟达、微软的合作意味着Anthropic和亚马逊的“强绑定”关系正在减弱 [7] - 亚马逊此前分两次向Anthropic投资共80亿美元,占其公开融资额的25%以上 [7] - Anthropic官方强调亚马逊仍是其主要云服务提供商和训练伙伴 [8] - Anthropic采取了“多云战略”,同时使用亚马逊AWS、谷歌GCP和微软Azure的服务 [15] 行业竞争格局 - 亚马逊AWS和OpenAI签署了价值七年至少380亿美元的云服务合同,将在2026年底前开始部署 [10] - 微软和亚马逊对Anthropic的争夺使其成为受益者 [13] - Anthropic的治理结构设计旨在避免被巨头彻底控制,亚马逊、谷歌等股东没有董事会席位和投票权 [13][14] - Anthropic成立之初就是一家公共利益公司,董事会和管理层可优先考虑社会利益和AI安全 [13]
6款小游戏难倒所有顶级VLM!愤怒的小鸟让它们全军覆没,性能不如随机猜测
量子位· 2025-11-16 12:45
文章核心观点 - 淘天集团未来生活实验室团队提出了首个系统性评估多模态大模型交互式物理推理能力的综合基准DeepPHY [1][5] - 该基准通过六个极具挑战性的物理模拟环境,揭示了即便是顶尖VLM在将物理知识转化为精确、可预测的交互控制时仍存在显著短板 [1][10] - 对17个主流VLM的评估表明,当前模型存在“说得到”却“做不到”的根本性缺陷,其物理知识是描述性的而非预测性和程序性的 [16][29] DeepPHY基准框架设计 - DeepPHY是首个专为评估VLM物理推理能力设计的综合基准框架,融合了六个不同的物理模拟器 [7] - 该基准旨在弥补现有环境(如游戏、GUI操作和具身AI)在物理模型上过于简化或侧重静态问答的局限性 [4][7] - 框架通过增强观测空间(如图像叠加网格或ID标签)和结构化动作空间(如离散化选择、JSON输出)来降低VLM的感知负担,使其更聚焦于物理推理评估 [14][15] 基准环境与挑战维度 - DeepPHY集成的六个环境全面覆盖从基础物理到复杂动力学的多个维度,包括PHYRE、I-PHYRE、Kinetix、Pooltool、Angry Birds和Cut the Rope [12][13] - 挑战维度涵盖基础物理(碰撞、重力、惯性)、复杂动力学(多体动力学、绳索张力)以及智能体行动与控制(决策视野、规划策略、控制复杂性)等 [13] - 各环境测试实例数量从34到1000不等,评估策略包括环境自动评估和人工评估 [13] 主流VLM性能评估结果 - 在多个环境中,大多数VLM的性能甚至无法超越随机执行动作的MOCK基线,总体性能与“随机猜”差距不大 [16][18] - 在Pooltool环境中,GPT-4o-mini取得了100%的成功率,但分析发现这是因其在所有交互中返回相同答案,而非真正利用了高级物理技巧进行策略规划 [22][23] - 在需要精细策略和时序控制的游戏(如Angry Birds和Cut the Rope)中,模型表现与人类差距悬殊,人类在Cut the Rope的成功率为41.36%,而最佳模型Claude 4.0 Opus仅为26.14% [23] VLM物理推理的核心短板 - 模型难以从失败的尝试中有效学习,即使给予多次机会,成功率提升缓慢,表明其无法构建准确的内部物理世界模型来指导决策 [21][22] - 在复杂任务中,额外的视觉标注可能成为“认知干扰”损害性能,揭示了模型处理复杂信息时的脆弱性 [22] - 实验发现,要求模型先预测物理结果再输出动作的WM模式,在绝大多数复杂任务中反而降低了成功率,表明模型的物理知识无法有效转化为可执行的控制信号 [24][26][28] - 定性案例分析显示,模型能用语言准确描述预期物理运动,但生成的动作指令却无法实现该描述,暴露了描述性知识与程序性知识之间的脱节 [28][29]