Workflow
规模定律(Scaling Law)
icon
搜索文档
对话陈锴杰:做你的Personal Agent,更要做你的“高情商Agent”|NEXTA创新夜谈
36氪· 2025-11-19 15:33
AI行业范式转变 - AI行业正从依赖增加参数和数据的“规模定律”时代迈向“经验时代”,高质量数据消耗殆尽导致模型智能提升遇到瓶颈[3][4] - 未来智能系统的竞争力将不再由规模参数决定,而是取决于从真实用户经验中持续学习和进化的能力[3][6] - 互联网数据量有限,当前训练数据量级约为14TB,能训练的模型参数量上限约1万亿,主流模型参数量很难超过此上限[4] 经验时代与强化学习核心 - “经验时代”由DeepMind科学家提出,主张用真实产品和用户反馈数据推动模型进步,而非仅依赖预训练[6] - 强化学习通过真实互动提供蕴含因果关系的高质量数据,其信息价值密度远高于被动观看视频[7] - 强化学习的核心优势是目标对齐,能将训练目标与用户价值目标对齐,例如训练写代码或服务用户等真实任务[8] 奖励模型与训练机制 - 奖励模型(Reward Model)作为“教师模型”是关键环节,通过预测用户偏好来判定答案优劣,其本身是万亿参数级别的大模型[9] - Cursor采用“Agent RL”每两小时聚合用户数据迭代模型,使模型智能分从40分提升至60分,并有望超越顶尖模型[8] - 为解决“学生模型”欺骗“教师模型”的Hacking Problem,需在两者投入同级算力使其公平博弈共同进化[10] 马卡龙AI产品战略 - 马卡龙AI定位为“Personal Agent”(个人智能体),上线后用户已创建超过10万个覆盖旅行、健康、理财等场景的个性化小应用[11] - 产品刻意避免社区功能,专注于私密、专属的交流环境,以探讨恋爱、家庭等生活话题[3] - 公司明确产品非工作Agent,不做PPT或深度研究,而是专注“生活记录与规划”领域[13] 记忆系统技术创新 - 记忆系统不依赖传统关键词检索(RAG),而是将记忆内化为模型可训练的“记忆区块”,通过强化学习不断更新[11] - 系统以用户满意度为指标训练带推理能力的Reward Model,模型自主决定记忆内容并动态更新[11][14] - 技术采用蚂蚁集团开源的Text Diffusion技术,可同时生成千字文本并支持直接修改中间内容[12] 产品形态与未来愿景 - 长远愿景是让AI在聊天中交付各种小组件(如外卖卡片)来创造价值,而非仅通过文字回复[15] - 当前因技术限制将小应用生成功能独立为Mini App,未来目标是与对话系统融合[15] - 公司相信未来每个人都会拥有AI生活管家,可能替代手机大部分后排应用,形态包括设闹钟、管理日历、电商下单等[16]
AI研究员田渊栋:“AI顿悟”的真相、大模型如何学会压缩世界
36氪· 2025-10-31 18:39
Meta AI部门裁员与团队贡献 - Meta首席执行官批准AI部门约600名员工的裁员计划,这是公司今年在人工智能领域规模最大的一次调整,主要波及核心研发机构[1] - Meta FAIR团队负责人田渊栋确认其与部分团队成员受到裁员影响,FAIR团队是公司“超智能实验室”科研体系的核心支柱之一[1] - 田渊栋澄清其团队在Meta大模型开发中做出大量贡献,包括率先发现预训练模型中的chunk attention等关键问题,并推动解决方案落地,有效提升long-context RL稳定性[8][9] - 团队贡献还包括数据集生成和评测、RL基础设施构建优化,以及攻克大模型训练中上下文长度训练的稳定性难题,解决训练中常见的blow up问题[9][10] - 团队面临的最大挑战并非技术本身,而是需要花费大量时间精力通过实验数据说服产品团队接受其技术判断,这体现了研究员在有限信号下识别结构性问题的核心价值[12][13] AI学习机制突破与Grokking理论研究 - 田渊栋研究揭示AI学习核心突破:在群运算任务中,模型仅需O(M log M)个样本即可实现泛化,相比传统认为需要M²种组合的理论大幅降低数据需求,以M=1000为例,新理论仅需约7000个样本,而以往需要百万级样本[3][4] - Grokking现象被证明不是神秘涌现,而是可计算的能量景观动力学,其数学机制揭示从记忆到泛化是优化动力学过程:数据不足时“记忆峰”占优,数据增多时“泛化峰”升高,一旦泛化峰略高,参数集体翻越产生顿悟现象[7][34] - 该研究为数据受限时代的高效训练提供理论依据,表明AI无需“看遍世界”式的暴力学习也能从极少样本中顿悟深层结构,尤其在数据触顶、样本稀缺时,机理导向的改进能突破Scaling Law局限[4][27][33] - 泛化的本质是让模型学会“压缩”世界,从冗余记忆中提炼可重复使用结构,真正理解的标准包括在新情形下给出正确答案,以及将复杂问题还原为简洁通用逻辑[7][33] 研究路径比较与未来方向 - 当前AI研究存在两种路径:黑盒Scaling Law强调堆参数调配置,短期高效;机制理解则追求解释与结构,长期天花板更高[23][27] - 当数据触顶、样本稀缺时,Scaling Law失效,唯有机理导向的改进才能突破局限,特别是在小众领域数据稀缺情况下,对模型机理的深入理解可通过改进训练算法或架构实现少样本学习[30][32][40] - 损失函数只是优化的代理信号,其作用是生成合适梯度流引导表征更新,不同损失函数若诱导出相似梯度结构就能学到近似表征,目标函数本身是优化的“可计算代理”[37][42] - 未来方向包括基于机理理解改进训练算法或架构,降低“费数据”特性,使优化过程更容易抵达“泛化峰”,这在小样本稀疏世界中实现“结构性迁移”尤为重要[40][41] AI在科研中的角色演变 - AI正在成为科研中的“共创者”,田渊栋透露其关于Grokking的论文部分思考是与GPT-5对话后产生的,虽然需要给模型一些洞察和思考才能获得不一样输出[4][45] - 研究范式正在发生变化,未来可能出现“AI Scientist”或Agent框架协助研究,但真正重要的洞察仍需人类提供,AI目前更像“新来的博士生”,话多却抓不住核心[44][46] - “讲清楚”的能力蕴含着理解深度与美感,这种能力很难被建模成损失函数,如何让模型具备这样的能力可能是下一个值得探索的科学问题[47][49]
AI下半场,大模型要少说话,多做事
虎嗅· 2025-07-01 09:33
大模型性能与竞争格局 - DeepSeek模型性能快速提升 2024年4月排名靠后 8月进入TOP10 12月成为基础能力第一的开源模型[1] - 基础模型TOP10中中国占6个 美国占4个 包括通义千问 豆包 混元 文心等[3] - 模型排名轮动加速 GPT-4o曾保持200天第一 现在十几天就会变化[7] - 训练成本高企 每次至少几百万美元 保鲜期短导致玩家减少[8] 模型训练技术趋势 - 预训练与后训练并存 预训练提升基础能力 强化学习从实战中学习潜力大[14] - 下游企业减少参与训练 转向提示词工程 检索增强 工作流等工程化方法[9] - 智谱AI坚持预训练路线 技术团队实力和资源储备是关键[12] Agent发展与应用 - Agent成为运行在大模型上的软件 自主规划能力显著提升[21] - 提示词仍重要 精心设计的系统提示词可充分激发模型能力[22] - Agent可能不是单一产品 而是多功能集合 开发平台将成关键[29] - 未来或形成个位数基座模型+垂直行业应用平台的格局[30] 基准测试体系价值 - "方升"测试体系包含700万条数据 聚焦产业实战应用[1][44] - 测试方法标准化 题目非开源 每次抽取1-2万题后作废[47][48] - 基准测试是指挥棒 定义方向 中美差距缩小因目标一致[51] 技术路线与产业方向 - 谷歌DeepMind强化学习路线被低估 在生物 材料等领域价值巨大[34][37] - 当前模型缺乏世界模型能力 需突破空间关系 物理定律等[38] - AI下半场需减少信息过载 增强意图理解 任务规划等能力[52]
英伟达:Blackwell推动收入强劲增长-20250303
浦银国际证券· 2025-03-03 11:23
报告公司投资评级 - 略微下调目标价至 143.0 美元,潜在升幅 19%,重申"买入"评级 [1] 报告的核心观点 - 英伟达 FY4Q25 的 Blackwell 收入达 110 亿美元超预期,FY1Q26 预计环比大幅增长,此前延期问题解决且市场已消化影响 [1] - 受 DeepSeek 创新影响,AI 大模型行业发展带动算力需求,英伟达是行业发展初期红利最大受益者之一 [1] - 英伟达当前市盈率 25.9x 较 2024 年 7 月高点下行明显,估值低于历史均值以下一倍标准差,估值吸引力上升 [1] 分组1:收入与利润情况 - 2025 财年四季度英伟达收入 393.3 亿美元,同比增长 78%,环比增长 12%,高于指引上限及市场预测;预期 FY1Q26 收入中位数 430 亿美元,高于市场预测 [2] - FY4Q25 毛利率 73.0%,同比降 2.9 个百分点,环比降 1.5 个百分点;指引 FY1Q26 毛利率中位数 70.6%,环比下降且略低于市场预测;预计下半年毛利率向 75%靠拢 [2] - 四季度净利润同比增长 80%,环比增长 14%,高于市场一致预测;根据业绩及指引,上调 2024 年、2025 年盈利预测 [2] 分组2:业绩会要点及展望 - 四季度 Blackwell 销售额达 110 亿美元超预期,大型云服务提供商客户收入约占数据中心业务一半,同比接近翻倍 [3] - 汽车板块业务收入预计 FY2026 增加至 50 亿美元 [3] - 中国区域销售额低于出口管制前水平,未来收入占比预计大体保持稳定 [3] - 英伟达 GPU 配合软件生态,将受益于 AI 大模型规模定律带来的行业增长,包括初创公司需求 [3] 分组3:财务报表分析与预测 - 预计 FY2024 - FY2028E 营业收入净额分别为 609.22 亿、1304.97 亿、2013.05 亿、2523.21 亿、2921.64 亿美元,总收入同比增速分别为 126%、114%、54%、25%、16% [4] - 预计 FY2024 - FY2028E 净利润分别为 297.60 亿、728.80 亿、1091.93 亿、1431.18 亿、1601.14 亿美元,净利润同比增速分别为 581%、145%、50%、31%、12% [4] - 预计 FY2024 - FY2028E 目标 PE(x)分别为 119.7、48.2、32.0、24.4、21.8 [4] 分组4:业绩回顾及预测调整 - FY4Q25 营业收入 393.31 亿美元,同比增长 78%,环比增长 12%;毛利润 287.23 亿美元,同比增长 71%,环比增长 10%等 [15] - FY4Q25 分地区收入中,中国台湾 53.07 亿美元,同比增长 20%;中国大陆 55.34 亿美元,同比增长 184%;美国 199.39 亿美元,同比增长 63%等 [16] - FY4Q25 分产品收入中,数据中心 355.80 亿美元,同比增长 93%;游戏 25.44 亿美元,同比下降 11%等 [17] 分组5:估值 - 英伟达当前远期市盈率 25.9x,历史均值 39.5x,均值以下一倍标准差 30.0x [22] - 乐观情景目标价 178.2 美元(概率 15%),悲观情景目标价 103.8 美元(概率 15%) [28]