专用模型
搜索文档
现有路径不通?OpenAI、亚马逊考虑改变大模型训练方式
美股研究社· 2026-01-26 18:27
文章核心观点 - AI行业正酝酿从“先预训练后微调”的通用模型范式,向“在训练早期就引入与特定任务高度相关的精选数据”的专用模型范式进行根本性转变 [6] - 这一转变旨在解决现有模型的效率低下和“裂脑问题”等技术瓶颈,将深刻改变AI开发格局、模型形态及公司组织架构 [6][8] - 同时,硬件创新(如光子芯片)与资本押注、行业整合与竞争动态也在加速演进,共同塑造AI产业的未来 [10][11] AI训练范式的根本性转变 - 研究人员(来自OpenAI、Thinking Machines Lab、亚马逊)正探讨放弃“先预训练、后后训练”标准流程,转向针对特定任务更早引入精选数据的训练模式 [6] - 核心观点认为,若模型最终用途已确定,在预训练阶段就引入高度相关的精选数据更为合理,可避免为学习无关领域(如诗歌或园艺)而浪费算力 [6][8] - 这种方法论调整将推动市场从“一个通用模型适应所有场景”走向“基于不同数据集构建专用模型”的时代 [6] 范式转变的影响与现状 - 转变将迫使开发者在训练初期就严格筛选数据,直接决定模型在特定领域的专长与短板 [6][9] - 未来AI市场可能涌现大量基于不同基础数据集训练的专用模型,而非依赖对同一预训练模型进行后期修补 [9] - 市场已出现分化迹象:OpenAI正通过路由器将ChatGPT查询分流至不同模型处理,并开发了如GPT-5-Codex等专用模型 [7][9] - 若深化此路线,OpenAI等公司可能需要对研究团队进行彻底重组,以适应完全不同的模型训练需求 [7][9] 硬件创新与资本押注 - 光子芯片初创公司Neurophos完成由比尔·盖茨旗下Gates Frontier领投的1.1亿美元A轮融资,微软M12也参与其中 [10] - Neurophos致力于设计利用光进行AI运算的芯片,目标是在2028年交付一款速度与效率是英伟达Blackwell芯片50倍的芯片 [10] - OpenAI定制推理芯片正在进行“流片”(制造前最后一步) [10] - OpenAI去年宣布的价值超过5000亿美元的Stargate基础设施项目已建成过半,进展超乎想象,并已在甲骨文的Stargate园区服务器上训练模型 [10] 行业整合与竞争动态 - 定制AI模型的软件公司Lightning AI与数据中心提供商Voltage Park合并,新公司估值超过25亿美元 [11] - Yelp同意以3亿美元收购AI代理初创公司Hatch [11] - 谷歌DeepMind通过许可协议聘请了语音AI初创公司Hume AI的CEO及多位顶尖工程师 [11] - 苹果正与谷歌谈判,计划利用谷歌云基础设施及TPU芯片来推出更新版Siri,并计划最早于2027年推出AI驱动的可穿戴设备 [11] - 英伟达CEO黄仁勋据报正准备前往中国,试图在该战略市场重新站稳脚跟 [11] 监管、伦理与宏观影响 - Anthropic发布了Claude的新版“宪法”,相比2023年初版,新文件减少了指令性,给予模型更多判断空间,并罕见提及模型可能具有某种“意识”或“道德地位”的可能性 [11] - 白宫经济顾问委员会发布报告预测,生成式AI将引发美国经济的深刻转型,有望显著提振生产力和增长 [11]
现有路径不通?OpenAI、亚马逊考虑改变大模型训练方式
硬AI· 2026-01-25 19:33
AI研究范式转变 - 行业顶尖研究人员正探讨放弃“先预训练、后微调”的通用训练范式,转向在训练早期就为特定任务引入精选数据的新模式 [2][3] - 新方法旨在解决现有模型的效率低下和“裂脑问题”等缺陷,核心观点是若模型最终用途已确定,预训练阶段就应引入高度相关的数据 [3][6] - 这一根本性转变由亚马逊的David Luan等人倡导,OpenAI和Thinking Machines Lab的研究人员也表示认同 [3][6] 行业格局与开发模式重塑 - 方法论调整将深刻改变AI行业开发格局,市场将从“一个通用模型适应所有场景”走向“基于不同数据集构建专用模型”的时代 [4] - 开发团队可能不再需要按预训练和微调阶段进行人为分割,而是整合为统一的训练团队,以提高针对性 [6] - 训练早期决定纳入哪些数据将直接决定模型的能力边界,例如增加数学和代码数据可能造就卓越编程助手,但牺牲创意写作能力 [8] 公司战略与市场分化 - OpenAI已通过路由器将ChatGPT查询分流至不同模型处理,并开发了如GPT-5-Codex等专用模型,反映出消费者需求与公司高端目标间的差异 [4][8] - 若进一步深化专用模型路线,OpenAI可能需要彻底重组其研究团队以适应完全不同的模型训练需求 [4][9] - 市场已出现分化迹象,未来AI市场将涌现大量基于不同基础数据集训练的专用模型,而非对同一预训练模型进行后期修补 [8] 硬件创新与资本动向 - 光子芯片初创公司Neurophos完成由比尔·盖茨旗下基金领投的1.1亿美元A轮融资,其目标是在2028年交付一款速度效率是英伟达Blackwell芯片50倍的芯片 [11] - OpenAI定制推理芯片正在进行“流片”,即制造前的最后一步,且价值超过5000亿美元的Stargate基础设施项目已建成过半 [11] - 微软高管Marc Tremblay表示,现代AI推理对电力和算力需求巨大,行业需要计算层面的突破 [11] 行业整合与竞争动态 - 软件公司Lightning AI与数据中心提供商Voltage Park合并,新公司估值超过25亿美元 [13] - Yelp同意以3亿美元收购AI代理初创公司Hatch,谷歌DeepMind通过许可协议聘请了语音AI初创公司Hume AI的CEO及多位顶尖工程师 [13] - 苹果正与谷歌谈判,计划利用其云基础设施及TPU芯片来推出更新版Siri,并计划最早于2027年推出AI驱动的可穿戴设备 [13] - 英伟达CEO黄仁勋据报正准备前往中国,试图在这个战略市场重新站稳脚跟 [13] 监管、伦理与宏观经济影响 - Anthropic发布了Claude的新版“宪法”,新文件减少了指令性,给予模型更多判断空间,并罕见提及模型可能具有某种“意识”或“道德地位”的可能性 [14] - 白宫经济顾问委员会发布报告预测,生成式AI将引发美国经济的深刻转型,有望显著提振生产力和增长 [14]
现有路径不通?OpenAI、亚马逊考虑改变大模型训练方式
华尔街见闻· 2026-01-23 14:42
AI模型训练范式变革 - 行业顶尖研究人员正质疑并探讨放弃“先预训练、后后训练”的通用标准流程,转而采用在训练早期就为特定任务引入精选数据的新模式 [1] - 这一转变旨在解决现有模型的效率低下和“裂脑问题”等缺陷,核心观点是如果模型最终用途确定,预训练阶段就应引入高度相关的数据 [1] - 方法论的调整将深刻改变开发格局,市场可能从“一个通用模型适应所有场景”走向“基于不同数据集构建专用模型”的时代 [1] 专用模型发展趋势与组织影响 - 市场已出现分化迹象,OpenAI正通过路由器将ChatGPT查询分流至不同模型处理,并开发了如GPT-5-Codex等专用模型 [2] - 训练早期决定纳入哪些数据将直接决定模型能力边界,例如增加数学和代码数据可能造就卓越编程助手但牺牲创意写作能力 [4] - 未来若转向为不同目的训练完全独立的模型,将要求公司对研究团队进行彻底重组 [2][4] 硬件创新与资本动向 - 光子芯片初创公司Neurophos完成了由比尔·盖茨旗下Gates Frontier领投的1.1亿美元A轮融资,微软旗下M12也参与其中 [5] - Neurophos致力于设计光子AI芯片,目标是在2028年交付一款速度与效率是英伟达Blackwell芯片50倍的芯片 [6] - OpenAI的定制推理芯片正在进行“流片”,且价值超过5000亿美元的Stargate基础设施项目已建成过半,进展超乎想象 [6] 行业整合与竞争动态 - 软件公司Lightning AI与数据中心提供商Voltage Park合并,新公司估值超过25亿美元 [7] - Yelp同意以3亿美元收购AI代理初创公司Hatch [7] - 苹果正与谷歌谈判,计划利用谷歌云基础设施及TPU芯片来推出更新版Siri,并计划最早于2027年推出AI驱动的可穿戴设备 [7] - 英伟达CEO黄仁勋据报正准备前往中国,试图在这个战略市场重新站稳脚跟 [7] 监管、伦理与宏观经济影响 - Anthropic发布了Claude的新版“宪法”,新文件减少了指令性,给予模型更多判断空间,并提及模型可能具有某种“意识”或“道德地位”的可能性 [7] - 白宫经济顾问委员会发布报告预测,生成式AI将引发美国经济的深刻转型,有望显著提振生产力和增长 [7]