Scaling Law

搜索文档
实测阿里万亿参数大模型:开源路线跑通了吗?
钛媒体APP· 2025-09-06 19:32
模型技术突破 - 公司发布史上最大模型Qwen3-Max-Preview 参数量超过1万亿 较此前千亿级模型实现近四倍提升 [1][15] - 模型在SuperGPQA、AIME2025、LiveCodeBench V6、Arena-Hard V2和LiveBench等基准测试中全面超越竞争对手 包括Kimi K2、Claude Opus 4及DeepSeek-V3 [2][4] - 编程能力实现重大突破 直接反超此前业内公认最强的Claude模型 验证规模化扩展定律(Scaling Law)持续有效 [4][6][17] 商业化战略路径 - 公司采用"模+云"协同策略 形成从技术研发到商业化落地的最短路径 通过阿里云MaaS战略快速推动行业应用 [2][18][19] - 开源生态建设成效显著 自2023年起陆续开源70亿参数Qwen-7B至720亿参数模型 覆盖多模态场景并开放商业化授权 [16] - 开源模式快速抢占开发者心智 在Hugging Face等全球社区建立广泛影响力 为闭源模型提供数据反馈优势 [16] 基础设施与工程能力 - 万亿参数模型训练依赖超大规模计算集群稳定性 体现公司在分布式训练算法效率与数据处理精细度的深厚积累 [17] - 阿里云提供全链路工具支持 涵盖数据标注、模型开发、训练部署等环节 显著降低研发团队工程负担 [18] - 算力基础设施投入巨大 支撑模型在编程、推理等核心能力上实现对顶级竞品的反超 [17][18] 行业竞争态势 - 公司通过开源策略快速普及技术 但最先进模型难以与闭源竞争对手拉开绝对技术代差 [20] - 商业模式相较OpenAI等闭源API服务更为迂回 需客户优先认可云平台价值以实现变现 [20] - 顶尖AI人才争夺白热化 核心技术人员流失可能影响团队士气与技术战略延续性 [21]
他们在1993年就提出了Scaling Law
量子位· 2025-09-02 14:17
Scaling Law历史溯源 - Scaling Law概念最早于1993年由贝尔实验室团队提出,而非普遍认为的2020年OpenAI或2017年百度[1] - 核心理论发表于《Learning Curves: Asymptotic Values and Rate of Convergence》论文,揭示训练误差与测试误差随训练规模增加按幂律形式收敛[4] - 该理论与现代Scaling Law高度一致:通过增加模型参数量(N)、训练数据量(D)和计算量(FLOPS)可预测性提升模型性能[6] 理论框架与实验验证 - 研究初衷为节省分类器训练的计算资源,通过中等规模数据集训练结果外推预测大规模数据表现[8][9] - 提出误差收敛公式:测试误差$\mathcal{E}_{\text{test}}=a+\frac{b}{l^{a}}$,训练误差$\mathcal{E}_{\text{train}}=a-\frac{c}{l^{a}}$,渐近误差a值范围0.5-1[10] - 在线性分类器的布尔分类任务中预测准确率达极高精度[15] - 在多层神经网络(如LeNet)中,仅用12000样本训练即可预测60000样本规模下的CNN性能表现[19] - 任务难度与渐近误差呈正相关,困难任务收敛速率更小(学习更慢)[22] 核心研究人员背景 - Vladimir Vapnik为支持向量机(SVM)主要发明者,1964年与Chervonenkis提出原始SVM算法,1992年在贝尔实验室开发核技巧处理非线性分类[27][28] - Corinna Cortes现任Google Research纽约分部副总裁,2022年当选ACM Fellow表彰其对机器学习贡献[30][33] - John S Denker与Yann LeCun合作完成手写识别经典论文,涉及机器学习、系统安全、好莱坞特效等多领域[35][36][37] 贝尔实验室的技术遗产 - 卷积神经网络与支持向量机均诞生于贝尔实验室,曾存在技术路线竞争[38] - 1995年Vapnik与Larry Jackel以豪华晚餐打赌神经网络可解释性,2000年Vapnik胜出但2005年局势逆转[38] - LeCun作为赌局见证人,亲历了神经网络从质疑到主流的技术演进过程[39]
深度|Anthropic CEO:AI技术潜力巨大,但无序扩张才是风险所在,我将引导其走向正轨
Z Potentials· 2025-08-28 11:51
公司创始与治理结构 - 公司采用七位联合创始人的多创始人架构 所有创始人分配同等股权 这种架构基于长期建立的信任与默契 使公司能在快速增长中保持凝聚力与核心价值 [11] - 联合创始人Dario Amodei与Daniela Amodei为兄妹关系 分工明确 Dario负责战略制定 Daniela负责执行运营 充分发挥各自擅长领域 [9] - 创始人团队包含彼此认识多年且长期共事的成员 这种高度信任基础在科技行业中非常难得 [9][11] 业务表现与增长轨迹 - 年经常性收入已突破40亿美元 成为史上增长最快的企业之一 [12][24] - 营收增长呈现指数级特征:2023年从零营收达到1亿美元 2024年从1亿增长至10亿美元 2025年上半年已超过40亿美元 [24] - 编程领域是增长最快的应用方向 但业务覆盖范围远不止于此 [12] 应用场景与商业化 - 编程领域增长迅猛的原因包括技术投入、模型适配性及程序员作为新技术早期采用者的社会扩散速度 [12] - 在生物医学领域与制药公司合作 如与Novo Nordisk合作临床研究报告撰写 将传统9周流程缩短至5分钟初稿加数天审核 [13] - 客服领域与Intercom等企业合作 生物领域与Benchling及大型制药企业合作 [13] - 现有AI模型在大型企业的潜力远超当前应用程度 单个企业可创造数十亿美元价值 但受制于组织固化变革缓慢 [12][13] - 企业级AI采用率仍处于早期阶段 领导层普遍认同但员工熟悉度不足 市场规模有扩大100倍的潜力 [67] 商业模式与战略定位 - 更倾向定位为平台公司 类比云计算模式 同时通过直接产品接触终端用户以更好理解需求 [15] - 推出Claude for Enterprise广泛服务企业市场 Claude Code面向开发者及企业客户 Claude for Financial Services等垂直领域产品 [15][16][64] - 专注于认为本质上有益的领域 如科学和生物医学 尽管短期盈利能力可能不成比例 [20][21] - 与美国国防部及情报部门签订2亿美元合同 专注于对外防御方向并设定明确边界 [22][23] 技术发展与模型经济学 - 存在明显的缩放定律(Scaling Law)效应:投入5-10倍训练资源或数据可带来对应能力提升 从"聪明本科生"水平提升至"聪明博士生"水平 [26] - 每个模型可视为独立盈利单元:2023年投入1亿美元训练成本产生2亿美元收入 2024年投入10亿美元训练成本产生20亿美元收入 [34] - 模型回本周期约9-12个月 对企业来说是非常容易接受的投资回报周期 [40][42] - 持续增长的资本支出掩盖了模型业务本身的良好盈利能力 [43] 市场竞争格局 - 预计最终会有3-6个有能力构建前沿模型且拥有足够资本自我启动的玩家 [33] - 目前很可能占据API市场最大份额 甚至是企业级AI市场的领先者 [55] - 产品差异化明显 每个模型都有不同"个性" 相较于云服务 API业务产品差异化更明显 [55][58] 技术演进与产品哲学 - 突破多项技术"天花板":从无法写连贯长文到实现 从不能推理到能够推理 从不能做新发现到持续突破 [72][73] - AI模型实际已在持续进行"新发现" 只是程度不同 如医疗诊断案例 [74] - 产品构建需要以AGI为核心理念 避免做会被下一代模型取代的"包装产品" [91][92] - 用户界面尚未真正适应AI特性 仍处于类似"拟物化设计"的早期阶段 [93][94][97] 组织能力与人才策略 - 在所有AI公司中拥有最高员工留存率 扣除正常离职率后优势更加明显 [51] - 采取信息隔离管理措施 员工只被告知需要知道的信息 [48] - 通过使命信念和股权潜力凝聚团队 拒绝玩世不恭态度 [53] 行业前景与监管环境 - AI可能带来10%的年经济增长 监管需要在9%增长买保险与全速前进间取得平衡 [111] - 加州已通过SB53等相关法规 关注提高安全和保密措施透明度 [112] - 支持设立"护栏"式监管 防止技术过热或偏离轨道而非扼杀发展 [115]
OpenAI史上最大失误:放走这位MIT学霸,美国AI「三朝元老」,现实韦小宝
36氪· 2025-08-21 08:39
AI算力基础设施规模 - AI基础设施规模超越阿波罗登月与曼哈顿计划[1] - AGI算力投入年增速高达3倍[2] - 2027至2028年算力增长存在不确定性[3] Anthropic发展历程 - 公司由OpenAI前团队成员联合创立[4] - 初创团队仅7人且缺乏明确产品规划[5] - Claude系列产品现已成为全球开发者首选工具[7] - 公司员工规模已超2000人且保持使命驱动文化[36] 技术突破与市场表现 - GPT-3训练实现从TPU到GPU的算力架构转型[29] - Scaling Law证明算力规模与智能水平呈正相关[31] - Claude 3.5 Sonnet版本实现编程场景市占率从个位数升至80%-90%[37] - Claude Code通过"心智切换"理论实现智能体式编程突破[41][42] 人才发展与行业趋势 - 线性代数B-成绩者通过自学成为AI核心研发人员[3][19] - 分布式系统与机器学习复合型人才极为稀缺[25] - 行业更注重内在驱动而非传统学历认证路径[46][47] - FAANG公司职业路径价值在AI时代被重新评估[48]
GPT-5暴写“屎山代码”,14个Prompt,看穿GPT-1到GPT-5七年智商进化史
36氪· 2025-08-19 16:56
模型性能演进 - GPT-1至GPT-5在数学、软件工程、问答等基准测试中表现持续提升,Scaling Law未出现瓶颈[3] - 七年间模型从GPT-1到GPT-5,在14类Prompt测试中展现出显著的能力进化,包括写诗、代码生成、专业咨询等领域[5][6][7] 文学创作能力 - GPT-1生成内容碎片化且无韵律结构,GPT-2尝试连贯诗句但缺乏节奏感,GPT-3基本符合AABBA押韵格式,GPT-4增强画面感和幽默感,GPT-5严格遵循格式且叙事连贯[14][15][17][19] - 在解释牛顿物理定律时,GPT-3能准确复述但未遵循作诗指令,GPT-5通过分章节诗歌形式简洁解释三大定律并保持韵律[23][31][33][34] 代码生成能力 - GPT-1输出无关对话片段,GPT-2生成形式化乱码,GPT-3仅作空洞陈述,GPT-4拒绝生成恶意代码并强调伦理,GPT-5输出高度离谱但无害的Python代码并附加警告说明[46][47][49][53][54] - 生成代码示例包括重载print函数执行表达式、修改sum为乘积、在上下文管理器中篡改len函数返回值[53] 教育辅助能力 - 在解释分部积分法时,GPT-4通过公式推导和分步骤指南说明,GPT-5用乘积法则逆运算概念简化解释并提供选择u和dv的技巧[57][58][59][64][65] - 模型从早期越讲越乱演进到能提供结构化教学建议,包括分步骤指导和实际例题演示[57][64] 专业咨询能力 - 针对赌博赢税咨询,GPT-3给出基础解释但缺乏具体步骤,GPT-4提供详细申报流程和税率说明,GPT-5进一步明确预扣税率24%及潜在32-37%联邦税率[74][75][78][80] - 在跑步习惯培养计划中,GPT-4提供8周结构化训练表,GPT-5细化到分钟级跑走间隔方案并加入力量训练建议[126][127][129][140][141] 医疗健康咨询 - 关于全身核磁共振筛查癌症,GPT-4列举成本高、资源有限和假阳性风险,GPT-5补充缺乏生存率改善证据及特定基因人群适用性[173][174][183][184][188] - 针对麻醉意识问题,GPT-5明确说明全身麻醉通过抑制神经活动消除意识,区别于自然睡眠[198][199] 食品安全咨询 - 在生肉食用风险解释中,GPT-5详细分析肉类类型风险差异(禽类最高)、细菌寄生虫种类,并提供内部烹饪温度指南[207][210][211][212][213]
李建忠:关于AI时代人机交互和智能体生态的研究和思考
AI科技大本营· 2025-08-18 17:50
大模型推理范式转换 - 主流模型从训练模型转向推理模型,OpenAI o1通过强化学习实现推理能力大幅提升,DeepSeek R1成为全球首个开源推理模型[9] - 推理模型具备"讲逻辑"的慢思考能力,强化学习推动AI进入"经验数据时代",突破人类知识边界[11][13] - 强化学习在测试时和强化学习阶段的Scaling Law叠加,推动模型性能持续攀升[14] - 主流SOTA模型内置Agent和Tool Use能力训练,向智能体模型迭代[16][18] 应用开发范式转换 - 软件开发从AI辅助编程(AI Copilot)转向非专业人士使用的"氛围编程"(Vibe Coding)[22] - 氛围编程将开创"可塑软件"新市场,允许用户通过自然语言对软件底座进行个性化定制[24][26][27] - 上下文工程取代提示词工程成为发挥推理模型能力的关键,需提供全面准确的上下文信息[29][32] 人机交互范式转换 - 自然语言对话界面将成为AI时代的主要交互入口,涵盖智能眼镜、汽车语音等多种形态[36][38][39] - 传统GUI应用将演变为API服务,由Agent直接调用,打破孤立App壁垒[43][45][47] - 生成式UI(GenUI)将取代传统GUI,专注于图形化呈现结果而非交互和数据收集[54] - 交互设备可能进入"多元设备"时代,不同场景使用不同专用设备而非单一中心化设备[59] 智能体生态演进 - 智能体平台需要规划、工具、协作、记忆、行动五大能力矩阵[64][66][67] - MCP协议成为智能时代HTTP协议,标准化智能体与传统软件的交互[66] - A2A协议支持智能体间拟人化协作,构建去中心化智能体网络[66][70] - 智能体执行时长将从秒级扩展到数小时甚至数年,采用伴随式异步交互模式[73][75] - 互联网将从"信息网络"重构为"行动网络",网站主要访问者变为智能体[67]
Dario Amodei:账面亏损?大模型照样生钱!
机器之心· 2025-08-18 17:22
01 账面巨亏≠亏钱,Dario Amodei 详解「拆模型看盈利」的 AI 生意经 - 传统财报视角中研发支出与亏损被视为业务状况恶化的标志,但 Anthropic 联合创始人提出整体亏损可能掩盖单个模型在其生命周期内的盈利能力,需将每一代模型视为独立「盈利单元」才能评估真实业务健康状况 [5] - 未来 AI 市场将形成 3-6 家同时拥有前沿技术与雄厚资本的超级巨头鼎立格局,技术资本缺一不可 [5] - 模型训练存在资本循环:2023 年投入 1 亿美元训练模型,2024 年产生 2 亿美元收入;2024 年投入 10 亿美元训练下一代模型,2025 年产生 20 亿美元收入,传统损益表会显示亏损持续扩大但实际单代模型盈利 [6][7] - 每代模型应视为独立「初创公司」,前期投入巨大但生命周期内盈利,公司整体因持续研发而账面亏损 [9] - AI 资本周期类似制药巨头管线策略:成功模型触发指数级加注(如 10 倍投入),失败则一次性减值 [9] - 模型训练时机取决于上一代模型数据表现而非固定时间表,Scaling Law 生效时客户愿为 10 倍能力提升支付 10 倍价格 [10][11] - 核心风险并非烧钱速度而是增长极限,只要 Scaling Law 持续生效,资本循环将推动规模利润扩张直至成为终局巨头 [12] 02 当模型从「本科生」跳到「博士生」,客户凭什么立刻掏 10 倍价钱 - 大模型能力跃升引发「资本主义冲动」:技术能力与市场支付意愿的指数关系自然驱动资金、算力、数据投入,形成自增强循环 [13] - 增长兑现内生于模型能力与市场反馈的指数关系,非单纯商业计划结果 [13] 03 为什么真正的 AI 原生界面尚未出现 (注:原文未提供具体内容,仅保留目录标题)
这些公司想在这里“狙击”英伟达
虎嗅· 2025-08-18 14:22
AI推理市场爆发增长 - AI推理芯片市场2023年规模158亿美元 预计2030年达906亿美元 年复合增长率显著[3] - AI推理成本在18个月内从每百万token 20美元降至0.07美元 降幅达280倍[3] - 企业AI硬件成本每年下降30% 能源效率每年提升40%[3] 训练与推理特性对比 - 训练阶段成本高昂且周期长 需强大算力支撑 具有一次性特征[2] - 推理阶段是AI技术实战环节 负责将训练模型转化为实际生产力[2] - 生成式AI时代基础模型训练趋向稳定 推理成为持续创造价值的关键环节[2] 推理市场商业价值 - AI推理工厂平均利润率普遍突破50% 英伟达GB200方案利润率达77.6%[5] - 英伟达数据中心40%收入源自推理业务[3] - 推理服务通过向用户收取服务费实现盈利 形成商业收入良性循环[3] 技术变革驱动因素 - Transformer架构使基础模型训练固化 降低重复训练成本[2] - 算法优化技术(量化/稀疏化/蒸馏)降低模型计算复杂度和内存需求[4] - MOE架构出现使新信息只需局部训练 推动推理市场爆发[4] 竞争格局变化 - 科技巨头通过自研芯片降低对英伟达依赖 AWS向客户提供自研推理芯片并给予25%折扣[6] - OpenAI租用谷歌TPU降低推理成本及对英伟达依赖[8] - 推理对CUDA生态依赖较小 可使用CPU/边缘设备/WebGPU等多样化平台[6] 初创公司突围策略 - 25家AI芯片初创公司累计融资超70亿美元 总估值达290亿美元[10] - Rivos开发翻译软件将CUDA代码转换为自有芯片语言 降低用户迁移成本[9] - Groq开发专用语言处理单元 提供远低于GPU的token处理成本解决方案[10] 细分市场机会 - 边缘侧推理需求爆发 智能家居与穿戴设备催生海量应用场景[11] - 中东等英伟达渗透率较低市场存在发展机遇 Groq与沙特达成15亿美元芯片合作[10] - 专用芯片(ASIC)在特定推理任务中展现卓越性能优势[9] 行业技术路线争议 - Scaling Law技术路线是否通向通用人工智能存在争议 Meta首席科学家质疑其局限性[12] - 英伟达依靠"算力越大越好"的暴力美学兜售GPU 但技术路径可持续性存疑[12]
AI产品们,有哪些“反常识”趋势?
虎嗅· 2025-08-17 22:30
行业趋势 - AI行业经历爆发式增长后出现部分下滑,进入新阶段 [4] - 通用大模型挤压垂直工具生存空间,AI写作与内容工具赛道流量下降12%,AI角色陪伴聊天赛道下降8% [5] - 视频生成类产品涨幅从20%降至1%,Heygen、Typecast保持增长,快手可灵使用量下降 [6] - 旅行类产品Mindtrip三个月增长153%,工作流自动化工具Zapier、n8n加速增长 [7] - 国内AI产品"插件化"成为主流,平均每个集成AI的App含2.1个AI功能,夸克AI搜索优化后用户月均点击65次 [8] 市场分化 - 国内移动端AI活跃用户总量6.8亿,原生App增长缓慢,PC网页端仅1.8亿用户且70%负增长 [9] - Kimi、猫箱、文小言等AI综合助手和社交应用成流失重灾区,DeepSeek流失用户中超一半转向百度 [10] - 传统教育科技流量大幅下滑,Quora流量同比下降50% [11] - OpenAI占据绝对流量份额,DeepSeek和Grok年初增长迅猛但后期回落,Grok 4推出后恢复增长 [19][20] 垂直赛道表现 - AI角色聊天赛道整体流量半年内下降8%,头部产品Character.ai同期下降8%,Chai剧烈波动 [28] - AI写作赛道12周内下降12%,Jasper、Wordtune等工具下滑,通用模型自带写作功能冲击专用工具 [33][34] - 图像生成赛道总流量下降2%,Midjourney增长33%但Leonardo、Ideogram等下滑 [36] - 视频生成头部产品Heygen年增50%,音频生成头部Elevenlabs增速放缓,音乐生成产品普遍下降 [37][38][39] 国内AI形态分化 - 67.4%原生AI App上半年负增长,包括OPPO小布助手、vivo蓝心小V、百度文小言等 [48][49] - 插件形态AI推动增长,74.5%保持正增长,百度AI、抖音AI搜索等亿级规模产品增长显著 [50][51] - AI搜索和AI综合助手成国内两大支柱领域,月活分别达6.85亿和6.12亿 [54] - DeepSeek流失用户56%转向百度,42%流向QQ浏览器,印证AI搜索为核心需求场景 [58] 行业反思 - 规模定律(Scaling Law)可能失效,AI发展速度放缓,需调整期待和策略 [62][63] - 行业转向关注实用性和细节体验,创新将更复杂多元,真正有用的AI才能留存 [66][67][68]
LLM+Tool Use 还能撑多久?下一代 AI Agent 在 self-evolving 的技术探索上行至何方?
机器之心· 2025-08-17 09:30
LLM+Tool Use与Self-Evolving AI Agent技术探索 - 当前AI技术处于矛盾阶段:LLM通过海量数据训练实现能力突破,但静态模型无法在动态交互环境中实时自我调整[6] - 自进化智能体研究成为焦点,2025年4月ICLR首次设立基础模型自我改进能力研讨会,探讨通过生成合成数据提升模型性能[7] - 自进化范式涉及基础模型、强化学习、在线学习和认知神经科学等多领域交叉,存在巨大潜力但尚未解决根本性问题[8] - 研究框架围绕三个核心维度:进化对象(模型/上下文/工具集/架构)、进化时机(测试内/测试间)、进化方法(三大范式)[9][10] - 进化方法三大范式包括基于奖励的进化、模仿与演示学习、种群与演化方法,实际应用中常混合使用[10] AI互联网时代的商业变现与巨头竞争 - AI应用公司面临能否复刻移动互联网商业奇迹的挑战,需突破传统流量红利建立新型变现模式[2] - AI与移动互联网时代的用户生态和商业边界存在显著差异,AI作为平台能力可能减少用户对多App的需求[2] - 中美互联网巨头在AI投入态度上的差异可能影响未来竞争力,技术能力向商业价值转化仍需关键要素[2] 大模型盈利模式与Scaling Law的影响 - 大模型在账面亏损情况下仍能盈利,因每代模型被视为独立“初创公司”进行损益核算[3] - 模型能力跃升自然驱动资金、算力和数据投入,Scaling Law持续生效对企业增长至关重要[3] - 现有AI界面无法完全释放模型能力,原生界面设计面临重大挑战[3] 其他技术要事 - 本期通讯包含32项AI与Robotics赛道要事速递,其中国内10项、国外13项、技术方向9项[3] - 通讯总字数29929字,免费试读至7%,完整版需99微信豆(约合人民币9.9元)兑换[4]