Workflow
后训练
icon
搜索文档
喝点VC|YC对谈Anthropic预训练负责人:预训练团队也要考虑推理问题,如何平衡预训练和后训练仍在早期探索阶段
Z Potentials· 2025-10-16 11:03
预训练核心策略 - 预训练的核心目标是推动损失函数下降,这是模型开发中持续追求的唯一目标[5] - 自回归语言建模(预测下一个词)已成为主流预训练方法,其优势在于能从互联网海量无标签数据中自动生成密集的学习信号,并且其损失函数能直接反映模型生成文本的核心能力[8][9] - 扩展定律表明,模型性能(损失值下降)与计算资源、数据量或模型参数的增加之间存在可预测的幂律关系,这构成了技术商业正反馈循环的基础:更好的模型带来产品收入,进而投入更多算力训练更优模型[9][10] - 在模型架构选择上,只要不出现极端配置错误,持续增加算力对模型性能的提升作用远大于超参数微调带来的边际效益[11][13] 大规模工程挑战 - 大规模模型训练面临复杂的工程难题,需要将计算任务在成千上万个GPU上进行分布式并行,涉及数据并行、流水线并行和模型并行等多种模式的极致优化[18][19] - 硬件层面的极限调试至关重要,包括需要理解芯片的物理布局、机房网络延迟,甚至通过聚类算法来推测和解决由硬件故障或连接问题导致的训练瓶颈[17][28] - 随着算力规模从单个机房扩展到整个园区,系统可靠性面临严峻挑战,最小的硬件故障(如单块GPU损坏、供电波动或电容不足)都可能导致耗时数月的训练任务崩溃[28][29] - 技术栈的复杂性要求团队具备全栈调试能力,问题可能出现在从高级机器学习动态到底层网络协议或芯片架构的任何层面,而能跨越多层级进行问题诊断的人才非常稀缺[66] 数据与评估瓶颈 - 高质量数据的可用性是一个核心挑战,尽管互联网数据量巨大,但其有用部分的规模增长可能慢于算力增长,且数据的质量与数量需要权衡[35][36] - 使用AI模型生成的数据来训练新模型存在根本性风险:新模型只会学习到原始模型的分布,如果原始分布存在错误,新模型将无法接近真实知识,这可能导致性能瓶颈或模式崩塌[43][44] - 损失函数仍然是评估预训练效果最直接有效的指标,理想的评估标准应同时满足三点:反映真实关心目标、低噪声、快速易用,其中明确“真实关心目标”是最困难的部分[47][48] - 对于AGI级别的评估,需要设计能捕捉复杂智能行为的任务(如模拟医生与患者的长时间对话),但这类评估通常噪声高、执行慢,难以直接用于快速迭代[50] 对齐与组织管理 - AI对齐的核心问题是让模型的目标与人类目标一致,尤其是在模型比人类更聪明时,当前主要通过后训练(如强化学习)快速迭代调整模型行为,而非在预训练阶段直接嵌入[51][56] - 在组织设计上,需要避免因团队分工(如预训练团队与后训练团队)而导致科学决策被团队本位主义绑架,应保持合作以共同产出最优模型[34][35] - 团队构成以工程能力为核心,最需要的是能解决极难工程问题、实现大规模系统正确性的工程师,而非仅专注于发表论文的研究人员[67][68] - 预训练团队需要与推理团队紧密合作,在模型设计阶段就考虑推理效率,避免模型过于庞大或引入不必要的通信步骤影响最终用户体验和服务的经济性[70][71][73] 未来发展方向 - 当前AI研究最大的瓶颈之一是计算资源受限,而非算法突破,这限制了模型训练和实验迭代的速度[5][74] - 未来可能出现范式转变,例如向强化学习倾斜更多算力,但最令人担忧的风险是难以察觉的代码错误,这些细微的bug可能使耗时数月的训练任务失效且难以排查[62][63] - 对于创业公司,机会在于利用当前模型智能,专注于能快速落地的具体应用,但需避免构建过于复杂的中间层(脚手架),因为下一代更强大的模型可能使其变得多余[76] - 行业存在对专业化工具和服务的需求,例如能精确检测芯片计算错误的服务,或能帮助快速扩展AI团队、管理组织问题的解决方案[77]
黄仁勋最新对话直面争议,并称中国科技仅慢“纳秒”而已
聪明投资者· 2025-09-29 15:04
AI推理革命与市场前景 - AI推理业务已占公司收入超过40%,其增长潜力被量化为"十亿倍"级别,标志着全新工业革命的开始[8] - 当前AI演进由预训练、后训练和推理三条规模定律共同驱动,其中推理过程强调模型需通过"思考"提升答案质量,而非一次性输出[9][10][11] - AI代理系统已发展为多模型、多模态的复杂系统,能够同时调用工具并处理多样化任务,增强了推理增长的确定性[12] 与OpenAI的合作逻辑 - 公司对OpenAI的股权投资被视为押注未来万亿美元市值巨头的机会,与采购行为无直接关联[5][53] - 合作涵盖芯片、软件、系统及"AI工厂"建设,支持OpenAI向自营超大规模公司转型[16][17] - OpenAI面临用户数增长与单次计算量需求的双重指数级增长,推动其基础设施投入[18][19] 加速计算与AI基础设施市场 - 全球数万亿美元的计算基础设施正从通用计算转向加速计算,这一迁移过程将创造数千亿美元的市场机会[23][24][26] - AI增强人类智能可能影响全球约50万亿美元的经济活动,未来AI基础设施年资本支出有望达到5万亿美元[29][32] - 超大规模公司如阿里巴巴计划将数据中心电力容量提升10倍,公司收入与电力消耗呈正相关关系[34] 产能与供应链管理 - 在通用计算全面转向加速计算完成前,出现供过于求的可能性极低,此过程仍需数年[5][43] - 供应链已覆盖晶圆厂、封装及HBM内存等环节,具备需求翻倍即产能翻倍的响应能力[44] - 客户需求预测持续被低估,公司长期处于追赶状态,且预测值逐年显著上升[45][46] 公司竞争壁垒与战略 - 公司通过极致协同设计同时优化模型、算法、系统与芯片,实现Hopper到Blackwell芯片30倍的性能提升[64][68] - 竞争壁垒建立在协同设计的极致性与规模的极致性基础上,客户需部署数十万块GPU以形成规模效应[71][72] - 公司定位为AI基础设施合作伙伴,而非单纯芯片供应商,支持灵活采购模式[76][77] 技术路线与行业生态 - 年度产品发布节奏为应对token生成速度的指数级增长,确保性能提升与成本控制[59][62] - 公司开源大量软件并推动开放生态,如NVLink Fusion技术整合英特尔等合作伙伴,扩大AI工厂影响力[93] - 针对ASIC竞争,认为其适用于有限市场,而AI核心计算需适应快速变化的工作负载,依赖可重构系统[90][92] 全球市场与地缘视角 - 中国科技产业被评价为充满活力且现代化程度高,技术差距仅以"纳秒"衡量,强调直面竞争的必要性[98] - 公司主张开放市场竞争符合中美双方利益,支持技术产业全球化布局[101][103] - AI与机器人技术融合可能在五年内实现,推动个性化AI助手普及,并延伸至生命科学数字孪生应用[105][108] 行业发展建议 - 面对指数级加速的AI技术变革,企业应尽早融入生态而非预测终点,以动态适应变化[109][110]
GPT-5 为啥不 “胡说” 了?OpenAI 新论文讲透了
腾讯研究院· 2025-09-12 16:58
文章核心观点 - OpenAI最新研究揭示语言模型幻觉产生的根本原因在于其统计学习本质,且后训练过程在当前评估体系下未能有效抑制幻觉,GPT-5可能通过非二元评估技术显著降低幻觉率 [9][12][24][32] 幻觉产生的必然性 - 幻觉是语言模型预训练阶段不可避免的副产品,因模型本质是通过统计规律生成内容,而非真实判断 [11][12] - 模型通过"是否有效"(IIV)判断器评估句子概率,但面对数据稀疏、复杂概念或训练数据错误时必然失效 [13][14] - 生成模型的错误率至少是IIV判断器错误率的2倍,因单个判断错误会衍生多种幻觉(如1+1=3和1+1≠2均属幻觉) [15][16] 后训练的局限性 - 后训练通过偏好反馈改变概率分布,将概率集中到"最佳答案"以减少不确定性幻觉,但可能增加过度自信风险 [19][20] - 主流评估基准(如GPQA、MMLU-Pro、SWE-bench)采用二元评分制,仅区分正确(1分)或错误(0分),系统性地惩罚"我不知道"的回答 [21][23] - 当前评估标准奖励猜测行为而非诚实回答,导致后训练在实践中未能有效引导模型降低幻觉 [24] 模型性能对比与技术路径 - DeepSeek R1采用二元奖励模型(ORM),在Vectara HHEM测试中幻觉率达14.3%,远高于其预训练模型DeepSeek V3的3.9% [30][31] - OpenAI o3使用过程奖励模型(PRM),通过逐步推理反馈降低幻觉率至6.8%,仅为DeepSeek R1的一半 [32] - GPT-5可能引入Universal Verifier技术,采用非二元评估标准(如评分细则Rubric),从根源上减少二元激励的负面影响 [32] 解决方向 - 后训练需引入带惩罚的评分机制,例如答对得1分、答错扣1分、过度自信答错扣9分,迫使模型成为"风险评估器"而非"得分优化器" [33] - 模型需专注于真实性而非单纯得分优化,才可能从根本上解决幻觉问题 [34]
娃哈哈宗馥莉被起诉,原告自称是同父异母弟妹|首席资讯日报
首席商业评论· 2025-07-14 12:10
大中矿业临武项目争议 - 公司澄清网传临武项目基础用水用电无法保证的消息不属实 [1] - 公司矿产资源中目前未发现稀土相关元素 [1] A股市场展望 - A股连续3周大涨,股权风险溢价指标显示仍处机会水平,"上台阶"行情有望延续 [2] - 银行板块表现强势,财政注资叠加化债推进带来估值修复,险资提供资金面支撑 [2] - 低利率环境下,长周期考核配合OCI账户凸显银行板块配置价值 [2] - 建议关注中报业绩和反内卷主题,重点行业包括有色、建材、电力设备等10个领域 [2] - A股中报业绩向好率高于去年同期,建议布局高景气TMT、全球竞争力中游制造等结构性方向 [3] 公司动态 - 雷军回应李想关于理想i8发布会场地问题,提出"相互致敬"化解竞争 [4] - 娃哈哈宗馥莉因资产纠纷在香港被起诉,三名自称同父异母弟妹的原告要求获得各7亿美元信托基金权益 [5][6][7] - 中国神华前6月煤炭销售量204.9百万吨,同比下降10.9% [8] 行业数据 - 上半年全国铁路完成固定资产投资3559亿元,同比增长5.5% [9] - 白羽肉鸭行业已淘汰900万只种鸭,日产苗量降低200万只,未来或有三成种鸭企业退出 [11] - 韩国6月经合组织领先指数连续第七个月上升至101.08,为2021年11月以来最高 [13] 政策与规则 - 上交所明确个人投资者参与科创成长层股票交易门槛仍为"50万元资产+2年经验" [10] 科技与创新 - Perplexity CEO表示可能利用月之暗面Kimi K2模型进行后训练 [12] - 岚图FREE+上市,三款车型售价21.99-27.99万元,搭载华为乾崑智驾方案 [14][15]
迎接AI——理性看待变革,积极布局未来
创业邦· 2025-07-07 18:27
AI技术发展现状与趋势 - 大模型进入能力边界与不确定性并存阶段,单纯追逐参数规模意义有限,需与产品深度融合创造可持续场景价值[1][5] - 模型核心能力源自预训练而非后训练,高质量训练数据已大部分耗尽,模型解析能力提升将趋于平稳[6][7] - 模型不具备真正智能且存在"幻觉"问题,需理解其不确定性特点才能有效融入产品[5] - 模型结构化数据处理能力增强,可能替代传统数据库功能[10] AI应用落地实践 - APUS在代码生成领域实现70%代码由模型生成,旧代码维护33%由模型辅助完成[11] - 设计团队规模缩减85%,AI可基于爆量素材日生成数千个同类素材[12] - 圣经类产品升级为多媒体形式并引入AI牧师功能,覆盖美国10%人口[13] - 医疗大模型已在三甲医院应用,累计服务超100万人,实现初步诊断与分诊[14] - 开发具备情报分析能力的Agent系统,应用于商业与政治情报领域[15] 企业AI战略与组织变革 - 企业常见误区是高估AI短期价值而低估长期潜力,需围绕"为什么做-做什么-怎么做"构建战略路径[19] - AI不仅是生产资料更是生产力,需重新定义生产关系以适配新型生产力[23] - 组织需培养复合型AI项目负责人,需同时理解AI原理、知识流转机制和业务细节[22] - 生产力释放后需重新规划人员技能方向和组织架构,如客服岗位裁减80%后团队结构调整[23] CEO实施AI的建议 - 从上而下定义AI应用场景,从公司P&L价值和长期战略角度思考[26] - 从下而上推动文化变革,通过细微效率提升促进组织对AI的理解[26] - 从后往前做建设,以终为始明确场景再倒推技术需求[26] - 避免在大模型主航道上构建壁垒,否则会被快速迭代的技术碾压[27] - CEO需明确适合引入AI的业务环节,避免空喊口号[27] - 面对AI要巧思而非硬来,发挥人类创造力找到适配应用方式[28] 行业展望 - AI将如同移动互联网深刻影响每家企业业务形态,需全力以赴拥抱[29] - 全球大模型企业已从两年前的众多竞争者缩减至不超过10家具备持续发展能力[27]
公元:DeepSeek只打开一扇门,大模型远没到终局 | 投资人说
红杉汇· 2025-05-11 13:09
人工智能与具身智能赛道现状 - 当前AI与具身智能赛道处于类似互联网初期的百花齐放阶段,底层技术和垂直细分领域机会众多[5] - 具身智能领域可能处于类似2018年LLM的阶段,尚未出现GPT时刻,但AGI的长期前景被普遍看好[8][9] - 行业变化极快,AI领域"一天相当于人间一年",模型迭代速度远超传统商业模式演进速度[7] DeepSeek的影响 - DeepSeek的R1模型通过开源后训练方法论实现了"技术平权",将全球AI研发重新拉回同一起跑线[6] - 该突破改变了国内大模型行业格局,但预训练与后训练技术仍需双轮发展,行业终局尚未确定[6] - 春节期间的技术突破导致行业认知发生剧烈变化,两个月内从"后训练重要"转向"预训练重要"[6] 投资逻辑变化 - 传统基于DAU/MAU的商业评估模式失效,用户可能因技术突破瞬间转移[7] - 投资人需要快速建立对AGI能力的感知,而非依赖传统商业指标[7] - 具身智能投资的核心逻辑是押注物理世界AGI的实现概率[9] 创业范式转变 - 新时代创业更强调技术颠覆创新而非明确商业化路线[1] - 当前创业者难以清晰描述具体应用场景,更多聚焦技术路线本身[8] - 成功要素转变为对AGI的信念而非传统商业计划[9] 行业参与者特点 - 顶级投资人需保持高度热爱和好奇心以应对快速变化的技术环境[10] - 国内大模型可能形成DeepSeek、千问和豆包三强格局的预测出现[6]
AI Agent:算力需求空间?
2025-05-06 10:28
纪要涉及的行业 AI算力行业 纪要提到的核心观点和论据 1. **算力需求增长逻辑** - **AI应用渗透推动推理需求**:AI应用逐渐渗透到生活和工作各环节,改变使用习惯,使算力推理需求快速增长,微软、谷歌等大厂推理需求占比可能达60%-70%,主要源于老应用改造而非开发全新APP [1][2] - **细分领域仍有增长潜力**:训练环节市场预期悲观,但实际可能更好,预训练边际效应减缓,后训练增速不明显,但细分领域如AI Agent有增长潜力 [1][4] 2. **市场预期情况** - **算力产业链与AI应用分化**:从2024年5月开始,除ASIC外,算力产业链边际走弱,英伟达股价未创新高,市场对整体算力需求预期悲观;而AI应用领域表现强劲,如Palantir股价创新高,市场对AI应用预期较高 [1][5] 3. **解决算力需求问题方向** - **训练与推理两手抓**:解决算力需求青黄不接问题需关注训练和推理两方面,训练算力需求短期难提升,推理依赖Agent发展,Agent在特定场景已有所起色 [1][7] 4. **2025年算力需求来源** - **老应用改造、新衍生应用与Post Training**:2025年算力需求主要来自老应用改造(如推荐引擎在海外大厂的应用)、新衍生应用(如Agent)以及Post Training阶段,Agent面向ToB/ToD场景,特定领域需求显现 [1][12] 5. **Chatbot与Agent对比** - **应用场景与爆款潜力不同**:Chatbot面向ToC市场,易形成爆款;Agent面向ToB和ToD场景,不易成为爆款,其算力需求难被资本市场迅速感知 [13] - **任务复杂度与交互方式差异大**:Chatbot单次交互量约1000个TOKEN,一对一、一问一答式交互;Agent完成单个任务所需TOKEN量达几万甚至十万个,多任务、多Agent协作执行,消耗数据量和TOKEN数量远高于Chatbot [25] - **存储和算力需求有别**:Chatbot对存储和内存要求低;Agent执行任务各步骤需连贯操作,对存储和内存要求高,对计算能力和存储都有较高需求 [27][28] 6. **算力需求计算与评估** - **训练与推理算力需求公式**:训练算力需求预期约为6ND,推理算力需求预期约为2ND,N代表模型参数量,D代表数据集 [16] - **评估服务器或GPU卡数量**:通过总需求除以单个GPU卡的算力估算所需设备数量,同时考虑设备实际利用率 [34] 7. **模型选择与优化** - **优先选择小模型**:选择模型参数时优先考虑小模型,大厂做推理应用倾向先上小模型,降低成本,提高可接受性 [31] - **优化模型访问和推理方法**:使用低精度计算、模型蒸馏,结合硬件优化如KV缓存优化,可降低内存消耗,提高整体效率 [35] 其他重要但是可能被忽略的内容 1. **后训练情况**:后训练自2024年9月推出,对市场影响不明显,从事厂商数量有限,数据难跟踪,在模型参数量上维持在几万亿量级,虽算力需求预期不明显,但能提升推理能力,如DeepSeek R1体现后训练扩展法则 [8][9][19] 2. **AI Agent产品表现**:一些AI Agent产品如Mariner在美国市场表现良好,融资和用户增长迅速,在海外人力成本高的地区受众广泛,但在中国市场难推广 [2] 3. **大型科技公司资本开支**:微软和Meta本季度未削减资本开支,对未来算力需求持坚定态度,若后续应用进展顺利,算力规划短期内不会下降 [40] 4. **过去一季度AI应用发展**:过去一个季度多个AI应用发展迅速,如Mariner 3月月活访问量达2310万,Cursor有2000多万,微软3月产生50万亿个TOKEN,占季度总量一半 [38]