Workflow
预训练
icon
搜索文档
硬核「吵」了30分钟:这场大模型圆桌,把AI行业的分歧说透了
机器之心· 2025-07-28 12:24
大模型技术演进与发展之路 核心观点 - 大模型技术从预训练为主转向强化学习主导的范式转变 [10][17][19] - 行业面临Transformer架构局限性、数据枯竭、开源闭源博弈等核心挑战 [31][41][59] - Agent应用爆发与基础模型研发需双轨并行 [53][54][55] 训练范式转变 - OpenAI从GPT-4o的预训练主导转向o1的强化学习后训练,提出测试时间扩展新维度 [13][14][15] - 强化学习可解决行为克隆难以建立目标导向推理能力的问题,但需突破自然语言反馈限制 [21][22][23] - 预训练仍是强化学习冷启动的基础,但需解决奖励机制和算力效率挑战 [25][26][27] 模型架构演进 - Transformer面临O(n²)扩展性、显存占用和长期记忆三大瓶颈 [31] - 优化路径包括RoPE位置编码、分组查询注意力等改进,以及Mamba等非Transformer架构探索 [33][34] - 智能体时代可能推动RNN架构回归,需建模无限上下文能力 [37][38] 数据供给挑战 - 高质量语料预计2028年耗尽,合成数据被Anthropic/OpenAI等广泛应用但存在迭代崩溃风险 [41][42][43] - 英伟达提出物理仿真生成边缘案例,需建立真实世界验证闭环 [44][45] - 行业数据未充分挖掘,应建立非敏感数据共享机制提升预训练质量 [46][48][51] 商业化落地路径 - 2025年Agent产品成爆点(如OpenAI Operator、智谱AutoGLM),但基础模型研发仍持续 [53][54] - 大模型当前相当于自动驾驶L3阶段,距AGI仍有差距 [55] - 金融等领域落地需突破大规模数据处理等技术瓶颈 [56][57] 开源生态影响 - DeepSeek等开源模型性能逼近闭源,冲击传统GPU/闭源产业链 [60][61] - 开源推动资源合理配置并形成行业压力,但需解决分叉滥用问题 [63][64][67] - 英伟达支持开源算力引擎,未来可能走向混合模式 [65][66]
迎接AI——理性看待变革,积极布局未来
创业邦· 2025-07-07 18:27
AI技术发展现状与趋势 - 大模型进入能力边界与不确定性并存阶段,单纯追逐参数规模意义有限,需与产品深度融合创造可持续场景价值[1][5] - 模型核心能力源自预训练而非后训练,高质量训练数据已大部分耗尽,模型解析能力提升将趋于平稳[6][7] - 模型不具备真正智能且存在"幻觉"问题,需理解其不确定性特点才能有效融入产品[5] - 模型结构化数据处理能力增强,可能替代传统数据库功能[10] AI应用落地实践 - APUS在代码生成领域实现70%代码由模型生成,旧代码维护33%由模型辅助完成[11] - 设计团队规模缩减85%,AI可基于爆量素材日生成数千个同类素材[12] - 圣经类产品升级为多媒体形式并引入AI牧师功能,覆盖美国10%人口[13] - 医疗大模型已在三甲医院应用,累计服务超100万人,实现初步诊断与分诊[14] - 开发具备情报分析能力的Agent系统,应用于商业与政治情报领域[15] 企业AI战略与组织变革 - 企业常见误区是高估AI短期价值而低估长期潜力,需围绕"为什么做-做什么-怎么做"构建战略路径[19] - AI不仅是生产资料更是生产力,需重新定义生产关系以适配新型生产力[23] - 组织需培养复合型AI项目负责人,需同时理解AI原理、知识流转机制和业务细节[22] - 生产力释放后需重新规划人员技能方向和组织架构,如客服岗位裁减80%后团队结构调整[23] CEO实施AI的建议 - 从上而下定义AI应用场景,从公司P&L价值和长期战略角度思考[26] - 从下而上推动文化变革,通过细微效率提升促进组织对AI的理解[26] - 从后往前做建设,以终为始明确场景再倒推技术需求[26] - 避免在大模型主航道上构建壁垒,否则会被快速迭代的技术碾压[27] - CEO需明确适合引入AI的业务环节,避免空喊口号[27] - 面对AI要巧思而非硬来,发挥人类创造力找到适配应用方式[28] 行业展望 - AI将如同移动互联网深刻影响每家企业业务形态,需全力以赴拥抱[29] - 全球大模型企业已从两年前的众多竞争者缩减至不超过10家具备持续发展能力[27]
硅谷模型大厂变化:对预训练和Capex的影响?
2025-07-02 23:49
纪要涉及的行业和公司 - **行业**:AI 行业、大模型领域 - **公司**:Meta、OpenAI、谷歌、Anthropic、Deepseek、Amazon、微软、Xia、Oracle 纪要提到的核心观点和论据 - **硅谷模型大厂变化及影响**:Meta 积极挖角,收购 Skill AI 并加速集群建设,推动下一代模型发展;OpenAI 核心团队成员流失,促使其加快发展;2025 年下半年科技公司回归预训练阶段,Meta 侧重数据,谷歌优化架构,OpenAI 坚持大集群战略;近期硅谷变化加快全球大模型 AI 演绎节奏,美国将进入新一轮大模型迭代,中美大模型差距或重新拉大,创新将扩散到应用端和端侧 [1][2][29] - **美国 AI 领域军备竞赛特点**:竞争激烈程度超预期,Meta 挖人加速进程,提前增加 AI 算力需求;OpenAI 计划 2027 年完成百万卡集群并签 300 亿美元订单,Meta 可能成第三家拥有百万卡集群企业,AI 产业链成投资重点 [3] - **Meta 相关情况** - **挖人背景**:LLAMA4 模型表现不佳,为提升竞争力推动下一代大模型发展并强化全球市场地位 [6] - **模型优化侧重点**:利用庞大社交数据优势,采用小参数模型降低运行成本,通过开源策略力图在开源领域保持最强位置,但 Deepseek 在通缩方面更出色,Meta 推出新架构效果不理想 [8] - **丢失开源第一宝座后措施**:扎克伯格焦虑,采取换人和重新设计模型架构措施,通过收购和挖人加强团队实力,挖人集中在多模态处理等核心领域 [9] - **数据方面**:拥有庞大用户数据,但需引入技术筛选有效信息,收购 Skill AI 解决此问题 [14] - **AI 领域布局**:AI 部门更名 MSL,由 Alex 王任首席 AI 主管,乐坤阳是重要人物 [14] - **发展历程**:可追溯到 2013 年,成立 FAIR 部门后更名 MSL,早期集中于视觉技术,招募乐坤阳主导 [15] - **技术团队实力**:目前缺乏大模型专家,但扎克伯格有管理和技术吸收能力,未来需挖掘更多人才提升竞争力 [19] - **大模型领域战略**:招聘大量人才弥补技术不足,花费几亿美金,预计加快集群建设,推动美国进入下一代模型预训练阶段 [26] - **数据策略**:收购 Skill AI 筛选有效数据弥补参数量小的问题,需提高数据质量并结合其他变量优化,加快集群建设提供计算资源支持 [31] - **其他公司情况** - **OpenAI**:O1 模型核心团队成员流失,采取大集群战略,预计 2027 年实现百万卡目标,2027 年与 Oracle 签 300 亿美元订单用于建设星际之门百万卡集群 [12][33][34] - **谷歌**:明确自身定位,暂时不进行大型模型训练,专注优化模型架构 [27][29] - **Xia**:计划 2026 年底完成百万卡集群,目前已达 35 万卡,今年底预计超 50 万卡 [33] - **马斯克**:融资约 100 亿美金用于购买卡片和建设数据中心 [30] - **模型相关情况** - **GROK4 模型**:训练集群预计达 30 万张卡,相比 GROK3 提升幅度不明显 [37] - **GPT5 模型**:是上一代架构,侧重模型参数量及算法优化创新点,今年四季度前后可能展示能力 [37] 其他重要但可能被忽略的内容 - **AI 人才薪酬**:AI 人才薪酬大幅上涨,顶尖人才年薪高达一亿美元,显示科技公司对 AI 人才争夺白热化 [1] - **Palm 模型**:基于 Pathways 架构,是大语言模型第二代,定义了未来 AGI 发展方向,后演变成 Gemini 模型 [13] - **AI 产业演化路径**:过去十年从 CNN 到 RNN,再到 Transformer 架构,部分业内人士认为大语言模型不是通往 AGI 的正确路径 [21] - **全球大模型迭代公司表现**:OpenAI、Anthropic、XAI 在第一阶段竞争存活进入第二轮,第二轮更注重技术实力和创新能力,OpenAI 和 XAI 被认为是“卷王”,Anthropic 较为收敛 [22] - **创始人作用**:OpenAI、XAI 和 Meta 创始人处于领导位置,决策果断、目标明确,推动公司发展 [23] - **下一代模型训练准备**:需要充分人力资源和强大算力支持,关注 CAPEX 资本开支,算力是关键瓶颈 [39] - **新一轮 AI 创新产业影响**:从算力链开始扩散,调整推理需求、训练需求和创新节奏,影响公司发展节奏和相互关系,需调整策略适应行业动态 [40]
端到端GUI智能体首次实现“犯错-反思-修正”闭环,模拟人类认知全过程
量子位· 2025-06-11 16:07
端到端多模态GUI智能体框架GUI-Reflection 核心观点 - 南洋理工大学MMLab团队提出GUI-Reflection框架,通过"反思与纠错"机制系统性提升多模态GUI智能体的任务执行能力,模拟人类"犯错→反思→重试"的认知闭环[1][6][27] - 框架覆盖预训练、离线监督微调、在线训练三阶段,分别实现反思能力认知启发、行为习得与交互强化[6][11][12] - 实验证明引入反思机制后,8B参数模型在AndroidWorld基准任务成功率提升至34.5%,接近闭源大模型水平[19][22] 技术实现 1 GUI预训练阶段 - 首创GUI-Reflection Task Suite任务套件,分解反思行为为三类核心任务:动作验证(Action Verification)、动作回滚(Action Reversal)、基于错误的再尝试(Mistake-Informed Reattempt)[7][14] - 预训练模型在反思任务中表现显著提升,8B参数模型Action Verification准确率达87.56%,超越Gemini-2.5-Pro的88.22%[16][17] 2 离线监督微调阶段 - 设计自动化数据管道,通过目标扰动生成错误行为(修改原始任务目标)和行为插入模拟失误(向成功轨迹插入无效操作)构建带错轨迹[8][9] - 无需人工标注实现"反思注入",使模型在ScreenSpotv2任务中第三次尝试准确率提升3.62个百分点[17][10] 3 在线训练阶段 - 搭建分布式安卓模拟环境,覆盖11个APP和215个任务模板,支持高并发交互[12] - 采用迭代式反思反馈调优算法,模型通过多轮训练逐步提升容错率,InternVL3-8B模型第三次尝试准确率较初始提升3.71个百分点[17][18] 性能表现 - 在相同8B参数规模下,引入反思机制的GUI-Pretrain-Ref模型较基线GUI-Pretrain模型在Action Reversal任务准确率提升53.1个百分点(93.81% vs 40.71%)[17] - 结合在线反思调优后,模型任务成功率从基线14.58%提升至34.72%,增幅达137%[19] - 在端到端模型对比中,GUI-Reflection-8B以34.5%成功率超越Aguvis-72B(26.1%)和OS-Gensis-8B(16.9%)[22] 行业意义 - 突破当前GUI智能体依赖完美离线演示数据的局限,首次实现持续自我优化的能力[1][20] - 验证小规模模型通过系统化反思机制设计可达到商用级性能,为开源生态提供新范式[16][19] - 建立多模态GUI智能体标准化评估体系,包含动作验证、回滚等量化指标[14][17]
三位顶流AI技术人罕见同台,谈了谈AI行业最大的「罗生门」
36氪· 2025-05-28 19:59
AI技术发展路径的共识与非共识 - 预训练技术从2023年的行业共识到2025年面临质疑,OpenAI前首席科学家公开认为"预训练已走到尽头",而DeepSeek R1等强化学习模型崛起[1] - 蚂蚁集团技术开放日圆桌讨论显示,行业分化成两派:曹越、孔令鹏等通过跨架构创新(如语言模型应用Diffusion、视频模型采用自回归)实现突破,阿里则坚持Transformer等传统路径[3][4][14] - 当前行业呈现多元探索态势,参与者形容为"摸彩票",不同技术路线本质是平衡模型偏差与数据偏差的尝试[7][17][18] 主流架构的技术突破 - 扩散模型创新:Dream 7B以7B参数量超越671B的DeepSeek V3,通过双向学习处理并行任务,在数学/代码任务表现突出[3][8][17] - 视频模型革新:曹越团队将自回归应用于视频生成,突破Sora无时序先验的限制,通过编码时间关系提升信息利用率[10][11][12] - Transformer持续主导:阿里内部多次"魔改"Transformer后仍确认其最优性,但承认MOE架构在扩展性上的潜力[5][14][16] 模型优化与效率挑战 - MOE架构进展:DeepSeek实现1:20+稀疏比,阿里测试显示1:10-1:20区间效果最佳,但专家数增加会降低训练稳定性[19][20][22] - 多模态融合创新:通过Attention稀疏化提升跨模态效率,端到端优化Tokenize到联合建模的全流程[24][25][26] - 硬件制约明显:GPU对Transformer训练非最优,行业呼吁软硬一体解决方案[34][35][36] 预训练与数据应用趋势 - 预训练价值分歧:2024年认为数据枯竭是共识,2025年美国新观点认为仍有潜力,阿里证实数据增量仍能提升模型性能[38][39] - 算力驱动创新:历史显示算力增长可激活曾被放弃的技术,当前需重点优化算力利用率[40][41] - 创造本质探索:将创作定义为搜索问题,通过可能性空间遍历实现智能生成[42][43] 行业现存问题与应对 - 幻觉控制难题:强化学习可能加剧错误推理模式,阿里尝试通过稀疏自编码器(SAE)定位并抑制相关特征[30][31] - 架构选择成本:模型结构需同时兼容预训练与强化学习,当前每次技术押注成本显著上升[20][33] - 技术迭代哲学:行业进步类似飞机航道调整,需动态修正而非预测终极形态[44][45]
公元:DeepSeek只打开一扇门,大模型远没到终局 | 投资人说
红杉汇· 2025-05-11 13:09
人工智能与具身智能赛道现状 - 当前AI与具身智能赛道处于类似互联网初期的百花齐放阶段,底层技术和垂直细分领域机会众多[5] - 具身智能领域可能处于类似2018年LLM的阶段,尚未出现GPT时刻,但AGI的长期前景被普遍看好[8][9] - 行业变化极快,AI领域"一天相当于人间一年",模型迭代速度远超传统商业模式演进速度[7] DeepSeek的影响 - DeepSeek的R1模型通过开源后训练方法论实现了"技术平权",将全球AI研发重新拉回同一起跑线[6] - 该突破改变了国内大模型行业格局,但预训练与后训练技术仍需双轮发展,行业终局尚未确定[6] - 春节期间的技术突破导致行业认知发生剧烈变化,两个月内从"后训练重要"转向"预训练重要"[6] 投资逻辑变化 - 传统基于DAU/MAU的商业评估模式失效,用户可能因技术突破瞬间转移[7] - 投资人需要快速建立对AGI能力的感知,而非依赖传统商业指标[7] - 具身智能投资的核心逻辑是押注物理世界AGI的实现概率[9] 创业范式转变 - 新时代创业更强调技术颠覆创新而非明确商业化路线[1] - 当前创业者难以清晰描述具体应用场景,更多聚焦技术路线本身[8] - 成功要素转变为对AGI的信念而非传统商业计划[9] 行业参与者特点 - 顶级投资人需保持高度热爱和好奇心以应对快速变化的技术环境[10] - 国内大模型可能形成DeepSeek、千问和豆包三强格局的预测出现[6]
AI Agent:算力需求空间?
2025-05-06 10:28
纪要涉及的行业 AI算力行业 纪要提到的核心观点和论据 1. **算力需求增长逻辑** - **AI应用渗透推动推理需求**:AI应用逐渐渗透到生活和工作各环节,改变使用习惯,使算力推理需求快速增长,微软、谷歌等大厂推理需求占比可能达60%-70%,主要源于老应用改造而非开发全新APP [1][2] - **细分领域仍有增长潜力**:训练环节市场预期悲观,但实际可能更好,预训练边际效应减缓,后训练增速不明显,但细分领域如AI Agent有增长潜力 [1][4] 2. **市场预期情况** - **算力产业链与AI应用分化**:从2024年5月开始,除ASIC外,算力产业链边际走弱,英伟达股价未创新高,市场对整体算力需求预期悲观;而AI应用领域表现强劲,如Palantir股价创新高,市场对AI应用预期较高 [1][5] 3. **解决算力需求问题方向** - **训练与推理两手抓**:解决算力需求青黄不接问题需关注训练和推理两方面,训练算力需求短期难提升,推理依赖Agent发展,Agent在特定场景已有所起色 [1][7] 4. **2025年算力需求来源** - **老应用改造、新衍生应用与Post Training**:2025年算力需求主要来自老应用改造(如推荐引擎在海外大厂的应用)、新衍生应用(如Agent)以及Post Training阶段,Agent面向ToB/ToD场景,特定领域需求显现 [1][12] 5. **Chatbot与Agent对比** - **应用场景与爆款潜力不同**:Chatbot面向ToC市场,易形成爆款;Agent面向ToB和ToD场景,不易成为爆款,其算力需求难被资本市场迅速感知 [13] - **任务复杂度与交互方式差异大**:Chatbot单次交互量约1000个TOKEN,一对一、一问一答式交互;Agent完成单个任务所需TOKEN量达几万甚至十万个,多任务、多Agent协作执行,消耗数据量和TOKEN数量远高于Chatbot [25] - **存储和算力需求有别**:Chatbot对存储和内存要求低;Agent执行任务各步骤需连贯操作,对存储和内存要求高,对计算能力和存储都有较高需求 [27][28] 6. **算力需求计算与评估** - **训练与推理算力需求公式**:训练算力需求预期约为6ND,推理算力需求预期约为2ND,N代表模型参数量,D代表数据集 [16] - **评估服务器或GPU卡数量**:通过总需求除以单个GPU卡的算力估算所需设备数量,同时考虑设备实际利用率 [34] 7. **模型选择与优化** - **优先选择小模型**:选择模型参数时优先考虑小模型,大厂做推理应用倾向先上小模型,降低成本,提高可接受性 [31] - **优化模型访问和推理方法**:使用低精度计算、模型蒸馏,结合硬件优化如KV缓存优化,可降低内存消耗,提高整体效率 [35] 其他重要但是可能被忽略的内容 1. **后训练情况**:后训练自2024年9月推出,对市场影响不明显,从事厂商数量有限,数据难跟踪,在模型参数量上维持在几万亿量级,虽算力需求预期不明显,但能提升推理能力,如DeepSeek R1体现后训练扩展法则 [8][9][19] 2. **AI Agent产品表现**:一些AI Agent产品如Mariner在美国市场表现良好,融资和用户增长迅速,在海外人力成本高的地区受众广泛,但在中国市场难推广 [2] 3. **大型科技公司资本开支**:微软和Meta本季度未削减资本开支,对未来算力需求持坚定态度,若后续应用进展顺利,算力规划短期内不会下降 [40] 4. **过去一季度AI应用发展**:过去一个季度多个AI应用发展迅速,如Mariner 3月月活访问量达2310万,Cursor有2000多万,微软3月产生50万亿个TOKEN,占季度总量一半 [38]
智谱想给DeepSeek来一场偷袭
虎嗅· 2025-03-31 20:39
文章核心观点 智谱在3月31日中关村论坛闭幕式现场推出新模型反击DeepSeek,同时公司在商业化布局、技术研发等方面有相应规划和思考,以应对行业变化和挑战 [2][6] 公司动态 - 3月31日智谱在智能体产品和基座模型两大维度分别推出"AutoGLM沉思模型"和推理模型GLM - Z1 - Air,Air用32B参数比肩671B的DeepSeek R1模型,价格仅为其1/30,且将于4月14日正式开源 [2] - 智谱CEO张鹏称公司在为IPO铺路但无具体计划,商业化以端侧为切口渗透七大行业,还宣布与东盟十国及“一带一路”沿线国家共建“自主大模型共建联盟” [6] - 智谱2023年开始在Agent领域投入,现阶段认为进入可大规模应用和落地阶段 [16] - 智谱会对具身智能进行相应布局,但还需时间 [19] 行业现状 - 2025年大模型圈“预训练”难成关键词,大模型六小虎中百川智能大批核心成员离职并砍掉部分业务,零一万物放弃万亿参数赛道转向B端业务 [3] - 自2025年初DeepSeek以“成本优势 + 开源”撕开市场缺口,头部云厂商依托生态优势卡位,大模型创业公司用价格力挽狂澜 [9] - 第一季度资本对大模型初创公司失去耐心,除智谱连续拿到地方产投融资,无市场化资本进入其余大模型企业 [4] - 大模型企业面临商业化难题,预训练未能让基座模型厂商形成护城河 [5][6] 对话问答 开源策略与商业化 - 开源是智谱从第一天开始坚持的事,宣布2025年为开源年是考虑DeepSeek对技术生态和认知的影响,公司认为模型即服务(MaaS)会落地,开源与否不是关键问题 [12] 预训练与推理模型 - 预训练仍很重要,是RL等方法的基座模型天花板,其中预训练的架构、数据使用效率等有很多待研究点 [13] - 推理模型在泛用性任务上表现不及预期,但技术改进会产生新可能,其应用受技术发展阶段影响 [14] 融资计划 - 实现AGI路程长,从0到1开拓试错成本高,公司走在前面的部分需加大投入 [15] Agent领域 - Agent核心能力是模型本身能力和感知环境与环境智能交互能力,AutoGLM更早用于手机端,其他端侧也可接入,但存在设备交互方式和硬件适配问题 [17] 战略层面 - 公司定位技术驱动,技术研发和商业化两条腿动态调整,目前核心任务和资源投入仍侧重技术研发 [21] 落地预期 - 去年公司整体实现超100%增长,今年预计市场呈十倍以上增长,公司会保持稳定商业化落地速度和效益 [22]
戴尔第四季度预览:推理 AI 助阵 ,现在是买入好时机吗?
美股研究社· 2025-02-27 18:41
戴尔股价落后原因 - 自11月以来股价落后市场 主要因市场担忧AI数据中心建设放缓 尤其微软资本支出战略变化传闻影响[1] - 市场担忧Blackwell支持的预训练集群效率提升 而AI模型过去三个月未呈指数增长 导致GPU需求增速放缓[1] AI计算范式转变 - 行业正从预训练为中心转向推理计算为中心 后者扩展性更优且成本更低[2] - 推理AI指模型产生预测的过程 相比预训练更快更便宜 预训练则更深入彻底[3] - 未来数据中心将更多采用"推理本田"模式(小型低成本)而非"预训练法拉利"(大型高成本)[3] 戴尔战略合作与技术优势 - 与AMD达成协议 Ryzen AI PRO处理器将为戴尔设备提供实时字幕 语言翻译及更高安全性[4] - AMD CEO指出其MI300X GPU在推理计算TCO上显著优于Nvidia H100 戴尔可通过替代方案降低系统成本[4] - 摩根士丹利数据证实AMD的TCO远低于Nvidia 戴尔将受益于此技术路线[4] 财务表现与预期 - Q4财报预期EPS 2 52美元(同比+14 46%) 收入245 7亿美元(同比+10 09%) 分析师预测区间狭窄显示共识强[5] - 过去三个月EPS预测20次修正中18次下调 收入16次修正中15次下调 但分析师认为存在上行惊喜空间[6][7] 重大商业合作 - 即将与xAI签署50亿美元协议 显著提升AI服务器业务规模[8] - 预计2024-2025财年AI服务器出货量增加40亿美元[9] 估值与增长潜力 - 非GAAP预期市盈率14 5 较行业中值23 87折价39 26% 量化评级A-[9] - 预期市销率0 83 较行业中值3 11低73 43% 量化评级A[9] - 若市盈率回归行业中值 股价潜在涨幅达64 6%[9] 行业趋势支撑逻辑 - 杰文斯悖论显示AI代币使用成本下降将刺激总需求增长 推理计算市场扩张利好戴尔[10] - AI模型工具价值提升推动消费需求 转向低成本推理GPU集群趋势与戴尔战略契合[10] - 与AMD xAI的合作将直接推动销售增长 叠加行业转型形成双重催化剂[11]