Pre-training

搜索文档

喝点VC｜红杉美国对谈OpenAI前研究主管：预训练已经进入边际效益递减阶段，其真正杠杆在于架构的改进

Z Potentials· 2025-07-04 11:56

AI技术发展现状与趋势 - 预训练、后训练和推理构成AI发展的"三位一体"框架预训练已进入边际效益递减阶段真正杠杆在于架构改进后训练聚焦模型个性与智能表现推理能力训练则引导AI自主摸索链式思维[4][8] - 2025年成为"推理之年" 各大实验室重点转向推理优化但后续进展将越来越困难[5][7] - 预训练收益递减源于基本规律模型智能水平与计算资源呈对数线性增长提升智能需指数级增加计算资源[7][8] Agent商业模式与竞争格局 - Agent价格将趋近计算使用成本普适性和性价比将颠覆传统人力密集型领域[6][18] - 简单重复性任务由AI完成复杂需人类理解的服务保持价值稀缺性[19][26] - 创业公司机会在于构建网络效应和规模经济而非依赖高价Agent[21][26] 机器人技术突破与商业化 - LLMs为机器人提供低成本语言接口结合强大视觉编码器赋予处理通用任务的先发优势[24][25] - 机器人领域正处于研究最后阶段距离商业化仅数月到数年时间[22][25] - 技术突破使机器人能快速解决多样化任务如叠衣服、搬运纸箱等[25] 编程领域变革与未来趋势 - 编程发展呈现非线性加速未来将形成混合模式:人类主导设计+Agent自动编码[32][34] - Agentic工程师处理明确结果的任务如bug修复、代码重构人类负责需"品味"的设计工作[34][35] - 关键挑战在于如何让Agent理解代码库目前仍需人类进行高层次设计[33][35] 专有数据价值重估 - 专有数据价值被高估 "无限智能、无限耐心"的Agent可从公开数据重构替代信息[29][30] - 真正有价值的专有数据是具体客户的深度个性化信息可辅助专业决策而非训练技能[31] - 垂直领域专属模型表现普遍不如下一代通用模型因综合能力远超单纯记忆[29] 企业管理与文化构建 - 技术团队应消除研究员与工程师界限建立平等环境促进全栈理解[37][38] - 管理者核心是真诚关心团队成员建立忠诚度才能推动困难决策[50][51] - 高绩效人才管理需平衡个人创作欲望与团队协作目标[52] AI教育应用与人才培养 - AI最佳应用是帮助用户成为领域专家同时减轻重复性工作负担[42][43] - 教育应聚焦学习过程和自主能动性培养而非特定技能[43][44] - 即时响应式学习能抓住最佳学习时机大幅提升教育效果[46] 安全防御新范式 - AI使攻击能力提升防御措施需更加自主化和智能化[53] - 企业需重构业务流程以适应自主安全系统这为创业公司创造机会[53]

Artificial General Intelligence (AGI)

Artificial Intelligence

Artificial General Intelligence (AGI)

Artificial Intelligence

大模型非共识下，什么是 AGI 的主线与主峰？

海外独角兽· 2025-04-02 20:04

文章核心观点 - 2025年第一季度中美AI领域火热，AGI路线图上智能提升是唯一主线，要围绕智能投资和思考，模型公司壁垒在于成为Cloud或OS，未来模型和产品边界将模糊；最大非共识是pre - training空间大，Coding是实现AGI的最好环境，Agentic AI是未来关键，AGI时代组织和文化竞争力仅次于算力 [3] 重新重视Pre - training - pre - training空间大，还会涌现新能力，下一代SOTA模型能显著超过当前模型，只有pre - training能决定模型内在上限，post training和RL不涌现新能力 [5][6] - OpenAI看似不重视pre - training可能是战略选择和组织问题，战略上O系列刷分快、ChatGPT成长快占用精力，组织上pre - training核心团队动荡 [7] - RL能产生合成数据加入pre - training环节，可解决数据瓶颈问题，但training和RL inference融合难，涉及训练框架的Infra问题 [9] - 期待pre - training涌现新能力，如提升模型tool use能力，Manus是Anthropic tool use能力的“ChatGPT时刻” [9][10] - 对两年内实现AGI有信心，Coding是实现AGI最好的环境，是模型的“手”，现实世界多数任务可用Coding表达，Agent可通过操作电脑和手机任务接近AGI [11][12] - Anthropic在Coding上有领先优势，Cursor是热门编程IDE工具，多数开发者选Sonnet，Coding是$1T级机会，模型公司在AI for Science领域突破可达到$1T或$10T [14][15][16] - Coding应作为技术引擎，产品表达形式待定义，期待Cursor在交互表达上有新突破 [17] ChatGPT只是攀登AGI的第一站 - OpenAI和Anthropic在实现AGI路线上发生分化，OpenAI核心bet是O系列和ChatGPT，重视C端市场和自下而上组织文化；Anthropic专注pre - training、Coding和Agentic，重视B端市场和自上而下组织文化 [18] - 路线分化原因可能是Anthropic团队出身pre - training有信心，OpenAI O系列亮眼获更多资源，且pre - training团队变动大 [19] - O系列刷benchmark快，但不确定能否打开智能天花板，其提升的Coding多为竞赛型，Anthropic做实战型Coding更多 [20] - 硅谷对不同路线分歧大，本质是智能和流量哪个重要，更应相信AGI原教旨主义，智能提升是首要目标 [21][22] - 谁能做出显著领先的base model谁可能是赢家，长期来看Anthropic可能比OpenAI更有价值，OpenAI对pre - training重视不够 [23][24] - 国内公司有必要训练自己的闭源模型，智能处于早期阶段，认知差异可能源于想象力局限 [26] - AGI探索主线是智能提升，ChatGPT是第一站，后续还有Coding、Agent、AI for Science等，AI for Science是珠穆朗玛峰，多模态、Online Learning等大概率在主线上 [30][31] - 智能涌现带来Magic moment和流量迁移，当前AGI模型公司和产品无绝对壁垒，应围绕智能主线推动智能提升，应用承接智能红利 [32][33] - DeepSeek放弃Chat Bot流量是因组织文化和智能本质考量，AI Robotics排在AI for Science后面是因数据采集低效、算法架构未达成一致，AI for Science有自动化实验室和垂直领域基础模型等趋势 [33][34][35] Agent & Online Learning - AGI应用爆发少是因Agent产品供给受限，依赖模型能力，模型和云厂商未做好Infra准备，Agent有文本、Coding、通用日常任务等类型 [48] - Agent落地关键能力是Long Context reasoning、Tool use、Instruction following，对应不同Infra能力，Context很重要，存在支付宝级机会 [49][51] - Long Context对Agent完成多步骤任务很重要，但目前未找到有效突破方式，存在数据、成本、架构等难点，long - term memory可能取代Long Context [51][52][53] - 两年内实现AGI确定性高，路径是现有路径，AGI定义是在电脑或数字环境下满足3个90% [54] - 新的范式级路线可能是Online Learning，让模型自主在线探索学习，但存在无清晰reward和目标定义等挑战，可能通过模型微调等实现 [54][55] - 可通过坐标轴评价路线差异，重视数据，未来pre - training叙事和Agentic对算力刺激大，看好算力需求 [58] - 英伟达想成为云厂商，贾扬清的公司被卖符合其战略 [58] 大模型的壁垒到底在哪？ - 应做研究驱动的应用，AI市场有泡沫，Agent泡沫刚开始，AI产品定价偏低 [60][61] - 通用Agent能否出现取决于pre - training和RL及关键能力，Reward Model泛化性微弱 [62][64] - 模型公司壁垒可能是成为Cloud或OS，OpenAI商业模式可能较好，Anthropic专注模型pre - training [65] - 投资人应投研究推动的应用，应用公司构建壁垒需考虑用户数据使用和独立环境构建，长期做大需具备调整模型和做Research的能力 [66] - 用户数据对提升模型能力作用微弱，模型和产品边界将模糊，应用公司和模型公司会相互渗透 [67][68] - Agent可能影响SaaS公司价值，模型训练是人类面向未来的大基建投入，价值链利润将向后迁移 [69][70][71] - AI市场可能出现黑天鹅，如全新架构、新的Agent产品形态等 [72] 全球AI公司的竞争格局 - OpenAI核心bet是O系列和ChatGPT，Anthropic专注pre - training、Coding和Agent，OpenAI领先优势加强，流量集中度提升，与Anthropic拿走市场revenue的80% [73][74] - Anthropic和xAI背后有Amazon和Musk支持，DeepSeek和xAI Grok跟随OpenAI路线，Google多模态强但其他bet不清晰 [75] - GPT - 4.5可能较强，GPT - 5可能是hybird model，预期今年夏天推出，有GPT - 3.5到GPT - 4量级的提升 [76][79][80] - OpenAI支持Anthropic的MCP协议，两家有竞争但路径分化，OpenAI与微软可能因利益冲突产生裂痕，分家对微软有影响 [81][82][83] - OpenAI整体较安全，但存在base model不够领先的风险，xAI Grok写作能力突出，与Twitter合并为了流量 [84][85][86] - AGI是普通本科毕业生操作电脑水平，ASI是爱因斯坦水平，实现ASI需突破，Mira的新公司团队强，可能做打败ChatGPT的产品 [87][88][89] - Manus和Perplexity执行力强，Manus更吃模型能力，ChatGPT的Deep Research后续会集成更多产品，有两个发展方向 [90][91][92] - Devin解决的问题易被模型公司覆盖，Cursor可能是阶段性产品，期待DeepSeek出现范式级创新 [93] - ilya和Noam对AGI推动贡献最大，其次是Dario和Alec等，Sam对业界贡献大但部分行为可能是烟雾弹 [94][95] 如何构建AGI portfolio - 构建AGI portfolio会投25%给Anthropic，25%给Bytedance，10%给OpenAI，10%给Mira的公司，5%给ilya的公司，5%给Cursor，5%给Manus，15%待定，若DeepSeek融资也会投25% [96] - 字节被低估，营收和利润好，可内生投入AGI，Anthropic团队、Roadmap和战略重点更受看好，Mira公司成功概率高 [97][99] - 未来3 - 5年投资最大的bet是AGI带来科学的文艺复兴，会出现多家市值超$10T的公司和下一个Google、Windows等 [101] 组织文化竞争仅次于算力 - 组织和文化竞争力是仅次于算力的核心竞争力，做AGI要有赌性，人才密度比数量重要 [103] - 判断AGI - native组织要看是否AGI first、Research first等，团队成员要年轻聪明、有想象力和执行力 [103][104] - 大概率OpenAI和Anthropic最早实现AGI，中国字节和DeepSeek等也可能实现，开源可突破地缘封锁 [105] - 中美差距快速缩小，中国人才强，字节Infra能力强，有望在AGI领域有突破 [105][106] - 硅谷多0 - 1创新，中国多1 - 100创新，未来中国创新模式可能变化，需资本充裕和冒险精神 [109] - 应把产品和技术做到极致，跨越地缘问题，激进全球化，期待更多中国跨国公司出现 [110][112]

Artificial General Intelligence (AGI)

Artificial Intelligence

Artificial General Intelligence (AGI)

Artificial Intelligence