Workflow
预训练
icon
搜索文档
OpenAI元老Karpathy 泼了盆冷水:智能体离“能干活”,还差十年
36氪· 2025-10-21 20:42
智能体发展时间框架 - 智能体距离真正成熟还需要十年时间,而非明年爆发 [2] - 当前智能体如Claude、Codex尚不成熟,缺乏多模态能力、持续学习能力和完整认知结构,无法胜任实际工作 [2] - 智能体发展的核心瓶颈在于认知组件不完整,需要系统性工程突破而非单纯计算力提升 [2] AI训练范式与架构革新 - 强化学习存在根本缺陷,其试错学习机制与人类学习方式背道而驰 [11] - 未来AI的关键方向是去知识化,保留核心算法让模型具备自我成长能力 [4] - 需要重建认知结构,当前Transformer仅相当于大脑皮层,缺乏情绪、空间记忆等关键组件 [4] - 真正的智能体需要突破上下文窗口限制,构建长期记忆系统 [4] - 未来认知核心可能仅需十亿参数,关键在于从低质量数据中提取高质量认知结构 [34][35][36] 代码生成能力现状 - 大语言模型在代码生成上存在显著认知缺陷,远未达到自动化AI工程程度 [6] - 模型在结构化、精细化工程设计上表现无力,容易产生幻觉 [7] - LLM训练于常规代码,倾向于防御性编程,无法理解用户架构意图 [7] - 模型有效应用场景包括语言翻译、非关键任务编程和自动补全加速 [9] - 当前LLM编程工具是连续演化的结果,而非突破性革命 [10] AGI落地路径与经济影响 - AGI定义为能完成任何经济价值任务且不逊于人类的系统,但首先应用于数字知识型工作 [38] - AGI将渐进式嵌入经济,不会瞬间颠覆世界,预计占GDP的2% [39][50] - 未来工作模式将是80%由Agent执行加20%人类监督的滑动式自主性 [40] - 代码是LLM最理想的落地沙盒,因其高度结构化、基础设施完备且经济回报明确 [42][43][44] - 部署路径从最结构化任务开始,逐步向上下游迁移,最终重构工作定义 [48][49] 人类学习机制与AI启示 - 人类学习通过思考、发问和讨论构建结构性理解,而非简单预测下一个token [22] - 模型存在悄无声息的崩溃现象,缺乏认知多样性,丧失探索能力 [26] - 做梦可能是进化出的反过拟合机制,通过随机游走维持认知灵活性 [28][29] - 人类记忆差是学习能力的前提,迫使抽象和模式提取,而模型记忆过多缺乏抽象 [32] - 未来AI需要构建梦境机制维持高熵状态,避免陷入死亡回路 [30][31] 自动驾驶技术挑战 - 自动驾驶是不能出错的AI任务,需要将错误概率压到接近零,而非功能完善80%就能上线 [59] - 当前最大障碍是常识推理,涉及社会理解而不仅是计算机视觉任务 [60] - 大语言模型是概率引擎而非保障引擎,不能承诺永远不出错 [61] - 自动驾驶需要全社会协同系统,包括监管、基础设施和伦理判断 [61] - 落地过程将是缓慢、渐进、区域化的系统替代,从高速公路物流开始扩展 [62][63] 智能演化与文化传承 - 人类智能是极端罕见的生物现象,智能不是演化必然终点 [51][52] - 人类独特性在于通过语言、模仿和教育跨代复制知识,绕开基因瓶颈 [53][54][56] - AI训练是为了让其成为文化的下一个节点,扩展文明操作系统 [57][58] - 文化复制可在一天内完成更新,相比基因演化的百万年是一大捷径 [55]
喝点VC|YC对谈Anthropic预训练负责人:预训练团队也要考虑推理问题,如何平衡预训练和后训练仍在早期探索阶段
Z Potentials· 2025-10-16 11:03
预训练核心策略 - 预训练的核心目标是推动损失函数下降,这是模型开发中持续追求的唯一目标[5] - 自回归语言建模(预测下一个词)已成为主流预训练方法,其优势在于能从互联网海量无标签数据中自动生成密集的学习信号,并且其损失函数能直接反映模型生成文本的核心能力[8][9] - 扩展定律表明,模型性能(损失值下降)与计算资源、数据量或模型参数的增加之间存在可预测的幂律关系,这构成了技术商业正反馈循环的基础:更好的模型带来产品收入,进而投入更多算力训练更优模型[9][10] - 在模型架构选择上,只要不出现极端配置错误,持续增加算力对模型性能的提升作用远大于超参数微调带来的边际效益[11][13] 大规模工程挑战 - 大规模模型训练面临复杂的工程难题,需要将计算任务在成千上万个GPU上进行分布式并行,涉及数据并行、流水线并行和模型并行等多种模式的极致优化[18][19] - 硬件层面的极限调试至关重要,包括需要理解芯片的物理布局、机房网络延迟,甚至通过聚类算法来推测和解决由硬件故障或连接问题导致的训练瓶颈[17][28] - 随着算力规模从单个机房扩展到整个园区,系统可靠性面临严峻挑战,最小的硬件故障(如单块GPU损坏、供电波动或电容不足)都可能导致耗时数月的训练任务崩溃[28][29] - 技术栈的复杂性要求团队具备全栈调试能力,问题可能出现在从高级机器学习动态到底层网络协议或芯片架构的任何层面,而能跨越多层级进行问题诊断的人才非常稀缺[66] 数据与评估瓶颈 - 高质量数据的可用性是一个核心挑战,尽管互联网数据量巨大,但其有用部分的规模增长可能慢于算力增长,且数据的质量与数量需要权衡[35][36] - 使用AI模型生成的数据来训练新模型存在根本性风险:新模型只会学习到原始模型的分布,如果原始分布存在错误,新模型将无法接近真实知识,这可能导致性能瓶颈或模式崩塌[43][44] - 损失函数仍然是评估预训练效果最直接有效的指标,理想的评估标准应同时满足三点:反映真实关心目标、低噪声、快速易用,其中明确“真实关心目标”是最困难的部分[47][48] - 对于AGI级别的评估,需要设计能捕捉复杂智能行为的任务(如模拟医生与患者的长时间对话),但这类评估通常噪声高、执行慢,难以直接用于快速迭代[50] 对齐与组织管理 - AI对齐的核心问题是让模型的目标与人类目标一致,尤其是在模型比人类更聪明时,当前主要通过后训练(如强化学习)快速迭代调整模型行为,而非在预训练阶段直接嵌入[51][56] - 在组织设计上,需要避免因团队分工(如预训练团队与后训练团队)而导致科学决策被团队本位主义绑架,应保持合作以共同产出最优模型[34][35] - 团队构成以工程能力为核心,最需要的是能解决极难工程问题、实现大规模系统正确性的工程师,而非仅专注于发表论文的研究人员[67][68] - 预训练团队需要与推理团队紧密合作,在模型设计阶段就考虑推理效率,避免模型过于庞大或引入不必要的通信步骤影响最终用户体验和服务的经济性[70][71][73] 未来发展方向 - 当前AI研究最大的瓶颈之一是计算资源受限,而非算法突破,这限制了模型训练和实验迭代的速度[5][74] - 未来可能出现范式转变,例如向强化学习倾斜更多算力,但最令人担忧的风险是难以察觉的代码错误,这些细微的bug可能使耗时数月的训练任务失效且难以排查[62][63] - 对于创业公司,机会在于利用当前模型智能,专注于能快速落地的具体应用,但需避免构建过于复杂的中间层(脚手架),因为下一代更强大的模型可能使其变得多余[76] - 行业存在对专业化工具和服务的需求,例如能精确检测芯片计算错误的服务,或能帮助快速扩展AI团队、管理组织问题的解决方案[77]
硬核「吵」了30分钟:这场大模型圆桌,把AI行业的分歧说透了
机器之心· 2025-07-28 12:24
大模型技术演进与发展之路 核心观点 - 大模型技术从预训练为主转向强化学习主导的范式转变 [10][17][19] - 行业面临Transformer架构局限性、数据枯竭、开源闭源博弈等核心挑战 [31][41][59] - Agent应用爆发与基础模型研发需双轨并行 [53][54][55] 训练范式转变 - OpenAI从GPT-4o的预训练主导转向o1的强化学习后训练,提出测试时间扩展新维度 [13][14][15] - 强化学习可解决行为克隆难以建立目标导向推理能力的问题,但需突破自然语言反馈限制 [21][22][23] - 预训练仍是强化学习冷启动的基础,但需解决奖励机制和算力效率挑战 [25][26][27] 模型架构演进 - Transformer面临O(n²)扩展性、显存占用和长期记忆三大瓶颈 [31] - 优化路径包括RoPE位置编码、分组查询注意力等改进,以及Mamba等非Transformer架构探索 [33][34] - 智能体时代可能推动RNN架构回归,需建模无限上下文能力 [37][38] 数据供给挑战 - 高质量语料预计2028年耗尽,合成数据被Anthropic/OpenAI等广泛应用但存在迭代崩溃风险 [41][42][43] - 英伟达提出物理仿真生成边缘案例,需建立真实世界验证闭环 [44][45] - 行业数据未充分挖掘,应建立非敏感数据共享机制提升预训练质量 [46][48][51] 商业化落地路径 - 2025年Agent产品成爆点(如OpenAI Operator、智谱AutoGLM),但基础模型研发仍持续 [53][54] - 大模型当前相当于自动驾驶L3阶段,距AGI仍有差距 [55] - 金融等领域落地需突破大规模数据处理等技术瓶颈 [56][57] 开源生态影响 - DeepSeek等开源模型性能逼近闭源,冲击传统GPU/闭源产业链 [60][61] - 开源推动资源合理配置并形成行业压力,但需解决分叉滥用问题 [63][64][67] - 英伟达支持开源算力引擎,未来可能走向混合模式 [65][66]
迎接AI——理性看待变革,积极布局未来
创业邦· 2025-07-07 18:27
AI技术发展现状与趋势 - 大模型进入能力边界与不确定性并存阶段,单纯追逐参数规模意义有限,需与产品深度融合创造可持续场景价值[1][5] - 模型核心能力源自预训练而非后训练,高质量训练数据已大部分耗尽,模型解析能力提升将趋于平稳[6][7] - 模型不具备真正智能且存在"幻觉"问题,需理解其不确定性特点才能有效融入产品[5] - 模型结构化数据处理能力增强,可能替代传统数据库功能[10] AI应用落地实践 - APUS在代码生成领域实现70%代码由模型生成,旧代码维护33%由模型辅助完成[11] - 设计团队规模缩减85%,AI可基于爆量素材日生成数千个同类素材[12] - 圣经类产品升级为多媒体形式并引入AI牧师功能,覆盖美国10%人口[13] - 医疗大模型已在三甲医院应用,累计服务超100万人,实现初步诊断与分诊[14] - 开发具备情报分析能力的Agent系统,应用于商业与政治情报领域[15] 企业AI战略与组织变革 - 企业常见误区是高估AI短期价值而低估长期潜力,需围绕"为什么做-做什么-怎么做"构建战略路径[19] - AI不仅是生产资料更是生产力,需重新定义生产关系以适配新型生产力[23] - 组织需培养复合型AI项目负责人,需同时理解AI原理、知识流转机制和业务细节[22] - 生产力释放后需重新规划人员技能方向和组织架构,如客服岗位裁减80%后团队结构调整[23] CEO实施AI的建议 - 从上而下定义AI应用场景,从公司P&L价值和长期战略角度思考[26] - 从下而上推动文化变革,通过细微效率提升促进组织对AI的理解[26] - 从后往前做建设,以终为始明确场景再倒推技术需求[26] - 避免在大模型主航道上构建壁垒,否则会被快速迭代的技术碾压[27] - CEO需明确适合引入AI的业务环节,避免空喊口号[27] - 面对AI要巧思而非硬来,发挥人类创造力找到适配应用方式[28] 行业展望 - AI将如同移动互联网深刻影响每家企业业务形态,需全力以赴拥抱[29] - 全球大模型企业已从两年前的众多竞争者缩减至不超过10家具备持续发展能力[27]
硅谷模型大厂变化:对预训练和Capex的影响?
2025-07-02 23:49
纪要涉及的行业和公司 - **行业**:AI 行业、大模型领域 - **公司**:Meta、OpenAI、谷歌、Anthropic、Deepseek、Amazon、微软、Xia、Oracle 纪要提到的核心观点和论据 - **硅谷模型大厂变化及影响**:Meta 积极挖角,收购 Skill AI 并加速集群建设,推动下一代模型发展;OpenAI 核心团队成员流失,促使其加快发展;2025 年下半年科技公司回归预训练阶段,Meta 侧重数据,谷歌优化架构,OpenAI 坚持大集群战略;近期硅谷变化加快全球大模型 AI 演绎节奏,美国将进入新一轮大模型迭代,中美大模型差距或重新拉大,创新将扩散到应用端和端侧 [1][2][29] - **美国 AI 领域军备竞赛特点**:竞争激烈程度超预期,Meta 挖人加速进程,提前增加 AI 算力需求;OpenAI 计划 2027 年完成百万卡集群并签 300 亿美元订单,Meta 可能成第三家拥有百万卡集群企业,AI 产业链成投资重点 [3] - **Meta 相关情况** - **挖人背景**:LLAMA4 模型表现不佳,为提升竞争力推动下一代大模型发展并强化全球市场地位 [6] - **模型优化侧重点**:利用庞大社交数据优势,采用小参数模型降低运行成本,通过开源策略力图在开源领域保持最强位置,但 Deepseek 在通缩方面更出色,Meta 推出新架构效果不理想 [8] - **丢失开源第一宝座后措施**:扎克伯格焦虑,采取换人和重新设计模型架构措施,通过收购和挖人加强团队实力,挖人集中在多模态处理等核心领域 [9] - **数据方面**:拥有庞大用户数据,但需引入技术筛选有效信息,收购 Skill AI 解决此问题 [14] - **AI 领域布局**:AI 部门更名 MSL,由 Alex 王任首席 AI 主管,乐坤阳是重要人物 [14] - **发展历程**:可追溯到 2013 年,成立 FAIR 部门后更名 MSL,早期集中于视觉技术,招募乐坤阳主导 [15] - **技术团队实力**:目前缺乏大模型专家,但扎克伯格有管理和技术吸收能力,未来需挖掘更多人才提升竞争力 [19] - **大模型领域战略**:招聘大量人才弥补技术不足,花费几亿美金,预计加快集群建设,推动美国进入下一代模型预训练阶段 [26] - **数据策略**:收购 Skill AI 筛选有效数据弥补参数量小的问题,需提高数据质量并结合其他变量优化,加快集群建设提供计算资源支持 [31] - **其他公司情况** - **OpenAI**:O1 模型核心团队成员流失,采取大集群战略,预计 2027 年实现百万卡目标,2027 年与 Oracle 签 300 亿美元订单用于建设星际之门百万卡集群 [12][33][34] - **谷歌**:明确自身定位,暂时不进行大型模型训练,专注优化模型架构 [27][29] - **Xia**:计划 2026 年底完成百万卡集群,目前已达 35 万卡,今年底预计超 50 万卡 [33] - **马斯克**:融资约 100 亿美金用于购买卡片和建设数据中心 [30] - **模型相关情况** - **GROK4 模型**:训练集群预计达 30 万张卡,相比 GROK3 提升幅度不明显 [37] - **GPT5 模型**:是上一代架构,侧重模型参数量及算法优化创新点,今年四季度前后可能展示能力 [37] 其他重要但可能被忽略的内容 - **AI 人才薪酬**:AI 人才薪酬大幅上涨,顶尖人才年薪高达一亿美元,显示科技公司对 AI 人才争夺白热化 [1] - **Palm 模型**:基于 Pathways 架构,是大语言模型第二代,定义了未来 AGI 发展方向,后演变成 Gemini 模型 [13] - **AI 产业演化路径**:过去十年从 CNN 到 RNN,再到 Transformer 架构,部分业内人士认为大语言模型不是通往 AGI 的正确路径 [21] - **全球大模型迭代公司表现**:OpenAI、Anthropic、XAI 在第一阶段竞争存活进入第二轮,第二轮更注重技术实力和创新能力,OpenAI 和 XAI 被认为是“卷王”,Anthropic 较为收敛 [22] - **创始人作用**:OpenAI、XAI 和 Meta 创始人处于领导位置,决策果断、目标明确,推动公司发展 [23] - **下一代模型训练准备**:需要充分人力资源和强大算力支持,关注 CAPEX 资本开支,算力是关键瓶颈 [39] - **新一轮 AI 创新产业影响**:从算力链开始扩散,调整推理需求、训练需求和创新节奏,影响公司发展节奏和相互关系,需调整策略适应行业动态 [40]
端到端GUI智能体首次实现“犯错-反思-修正”闭环,模拟人类认知全过程
量子位· 2025-06-11 16:07
端到端多模态GUI智能体框架GUI-Reflection 核心观点 - 南洋理工大学MMLab团队提出GUI-Reflection框架,通过"反思与纠错"机制系统性提升多模态GUI智能体的任务执行能力,模拟人类"犯错→反思→重试"的认知闭环[1][6][27] - 框架覆盖预训练、离线监督微调、在线训练三阶段,分别实现反思能力认知启发、行为习得与交互强化[6][11][12] - 实验证明引入反思机制后,8B参数模型在AndroidWorld基准任务成功率提升至34.5%,接近闭源大模型水平[19][22] 技术实现 1 GUI预训练阶段 - 首创GUI-Reflection Task Suite任务套件,分解反思行为为三类核心任务:动作验证(Action Verification)、动作回滚(Action Reversal)、基于错误的再尝试(Mistake-Informed Reattempt)[7][14] - 预训练模型在反思任务中表现显著提升,8B参数模型Action Verification准确率达87.56%,超越Gemini-2.5-Pro的88.22%[16][17] 2 离线监督微调阶段 - 设计自动化数据管道,通过目标扰动生成错误行为(修改原始任务目标)和行为插入模拟失误(向成功轨迹插入无效操作)构建带错轨迹[8][9] - 无需人工标注实现"反思注入",使模型在ScreenSpotv2任务中第三次尝试准确率提升3.62个百分点[17][10] 3 在线训练阶段 - 搭建分布式安卓模拟环境,覆盖11个APP和215个任务模板,支持高并发交互[12] - 采用迭代式反思反馈调优算法,模型通过多轮训练逐步提升容错率,InternVL3-8B模型第三次尝试准确率较初始提升3.71个百分点[17][18] 性能表现 - 在相同8B参数规模下,引入反思机制的GUI-Pretrain-Ref模型较基线GUI-Pretrain模型在Action Reversal任务准确率提升53.1个百分点(93.81% vs 40.71%)[17] - 结合在线反思调优后,模型任务成功率从基线14.58%提升至34.72%,增幅达137%[19] - 在端到端模型对比中,GUI-Reflection-8B以34.5%成功率超越Aguvis-72B(26.1%)和OS-Gensis-8B(16.9%)[22] 行业意义 - 突破当前GUI智能体依赖完美离线演示数据的局限,首次实现持续自我优化的能力[1][20] - 验证小规模模型通过系统化反思机制设计可达到商用级性能,为开源生态提供新范式[16][19] - 建立多模态GUI智能体标准化评估体系,包含动作验证、回滚等量化指标[14][17]
三位顶流AI技术人罕见同台,谈了谈AI行业最大的「罗生门」
36氪· 2025-05-28 19:59
AI技术发展路径的共识与非共识 - 预训练技术从2023年的行业共识到2025年面临质疑,OpenAI前首席科学家公开认为"预训练已走到尽头",而DeepSeek R1等强化学习模型崛起[1] - 蚂蚁集团技术开放日圆桌讨论显示,行业分化成两派:曹越、孔令鹏等通过跨架构创新(如语言模型应用Diffusion、视频模型采用自回归)实现突破,阿里则坚持Transformer等传统路径[3][4][14] - 当前行业呈现多元探索态势,参与者形容为"摸彩票",不同技术路线本质是平衡模型偏差与数据偏差的尝试[7][17][18] 主流架构的技术突破 - 扩散模型创新:Dream 7B以7B参数量超越671B的DeepSeek V3,通过双向学习处理并行任务,在数学/代码任务表现突出[3][8][17] - 视频模型革新:曹越团队将自回归应用于视频生成,突破Sora无时序先验的限制,通过编码时间关系提升信息利用率[10][11][12] - Transformer持续主导:阿里内部多次"魔改"Transformer后仍确认其最优性,但承认MOE架构在扩展性上的潜力[5][14][16] 模型优化与效率挑战 - MOE架构进展:DeepSeek实现1:20+稀疏比,阿里测试显示1:10-1:20区间效果最佳,但专家数增加会降低训练稳定性[19][20][22] - 多模态融合创新:通过Attention稀疏化提升跨模态效率,端到端优化Tokenize到联合建模的全流程[24][25][26] - 硬件制约明显:GPU对Transformer训练非最优,行业呼吁软硬一体解决方案[34][35][36] 预训练与数据应用趋势 - 预训练价值分歧:2024年认为数据枯竭是共识,2025年美国新观点认为仍有潜力,阿里证实数据增量仍能提升模型性能[38][39] - 算力驱动创新:历史显示算力增长可激活曾被放弃的技术,当前需重点优化算力利用率[40][41] - 创造本质探索:将创作定义为搜索问题,通过可能性空间遍历实现智能生成[42][43] 行业现存问题与应对 - 幻觉控制难题:强化学习可能加剧错误推理模式,阿里尝试通过稀疏自编码器(SAE)定位并抑制相关特征[30][31] - 架构选择成本:模型结构需同时兼容预训练与强化学习,当前每次技术押注成本显著上升[20][33] - 技术迭代哲学:行业进步类似飞机航道调整,需动态修正而非预测终极形态[44][45]
公元:DeepSeek只打开一扇门,大模型远没到终局 | 投资人说
红杉汇· 2025-05-11 13:09
人工智能与具身智能赛道现状 - 当前AI与具身智能赛道处于类似互联网初期的百花齐放阶段,底层技术和垂直细分领域机会众多[5] - 具身智能领域可能处于类似2018年LLM的阶段,尚未出现GPT时刻,但AGI的长期前景被普遍看好[8][9] - 行业变化极快,AI领域"一天相当于人间一年",模型迭代速度远超传统商业模式演进速度[7] DeepSeek的影响 - DeepSeek的R1模型通过开源后训练方法论实现了"技术平权",将全球AI研发重新拉回同一起跑线[6] - 该突破改变了国内大模型行业格局,但预训练与后训练技术仍需双轮发展,行业终局尚未确定[6] - 春节期间的技术突破导致行业认知发生剧烈变化,两个月内从"后训练重要"转向"预训练重要"[6] 投资逻辑变化 - 传统基于DAU/MAU的商业评估模式失效,用户可能因技术突破瞬间转移[7] - 投资人需要快速建立对AGI能力的感知,而非依赖传统商业指标[7] - 具身智能投资的核心逻辑是押注物理世界AGI的实现概率[9] 创业范式转变 - 新时代创业更强调技术颠覆创新而非明确商业化路线[1] - 当前创业者难以清晰描述具体应用场景,更多聚焦技术路线本身[8] - 成功要素转变为对AGI的信念而非传统商业计划[9] 行业参与者特点 - 顶级投资人需保持高度热爱和好奇心以应对快速变化的技术环境[10] - 国内大模型可能形成DeepSeek、千问和豆包三强格局的预测出现[6]
AI Agent:算力需求空间?
2025-05-06 10:28
纪要涉及的行业 AI算力行业 纪要提到的核心观点和论据 1. **算力需求增长逻辑** - **AI应用渗透推动推理需求**:AI应用逐渐渗透到生活和工作各环节,改变使用习惯,使算力推理需求快速增长,微软、谷歌等大厂推理需求占比可能达60%-70%,主要源于老应用改造而非开发全新APP [1][2] - **细分领域仍有增长潜力**:训练环节市场预期悲观,但实际可能更好,预训练边际效应减缓,后训练增速不明显,但细分领域如AI Agent有增长潜力 [1][4] 2. **市场预期情况** - **算力产业链与AI应用分化**:从2024年5月开始,除ASIC外,算力产业链边际走弱,英伟达股价未创新高,市场对整体算力需求预期悲观;而AI应用领域表现强劲,如Palantir股价创新高,市场对AI应用预期较高 [1][5] 3. **解决算力需求问题方向** - **训练与推理两手抓**:解决算力需求青黄不接问题需关注训练和推理两方面,训练算力需求短期难提升,推理依赖Agent发展,Agent在特定场景已有所起色 [1][7] 4. **2025年算力需求来源** - **老应用改造、新衍生应用与Post Training**:2025年算力需求主要来自老应用改造(如推荐引擎在海外大厂的应用)、新衍生应用(如Agent)以及Post Training阶段,Agent面向ToB/ToD场景,特定领域需求显现 [1][12] 5. **Chatbot与Agent对比** - **应用场景与爆款潜力不同**:Chatbot面向ToC市场,易形成爆款;Agent面向ToB和ToD场景,不易成为爆款,其算力需求难被资本市场迅速感知 [13] - **任务复杂度与交互方式差异大**:Chatbot单次交互量约1000个TOKEN,一对一、一问一答式交互;Agent完成单个任务所需TOKEN量达几万甚至十万个,多任务、多Agent协作执行,消耗数据量和TOKEN数量远高于Chatbot [25] - **存储和算力需求有别**:Chatbot对存储和内存要求低;Agent执行任务各步骤需连贯操作,对存储和内存要求高,对计算能力和存储都有较高需求 [27][28] 6. **算力需求计算与评估** - **训练与推理算力需求公式**:训练算力需求预期约为6ND,推理算力需求预期约为2ND,N代表模型参数量,D代表数据集 [16] - **评估服务器或GPU卡数量**:通过总需求除以单个GPU卡的算力估算所需设备数量,同时考虑设备实际利用率 [34] 7. **模型选择与优化** - **优先选择小模型**:选择模型参数时优先考虑小模型,大厂做推理应用倾向先上小模型,降低成本,提高可接受性 [31] - **优化模型访问和推理方法**:使用低精度计算、模型蒸馏,结合硬件优化如KV缓存优化,可降低内存消耗,提高整体效率 [35] 其他重要但是可能被忽略的内容 1. **后训练情况**:后训练自2024年9月推出,对市场影响不明显,从事厂商数量有限,数据难跟踪,在模型参数量上维持在几万亿量级,虽算力需求预期不明显,但能提升推理能力,如DeepSeek R1体现后训练扩展法则 [8][9][19] 2. **AI Agent产品表现**:一些AI Agent产品如Mariner在美国市场表现良好,融资和用户增长迅速,在海外人力成本高的地区受众广泛,但在中国市场难推广 [2] 3. **大型科技公司资本开支**:微软和Meta本季度未削减资本开支,对未来算力需求持坚定态度,若后续应用进展顺利,算力规划短期内不会下降 [40] 4. **过去一季度AI应用发展**:过去一个季度多个AI应用发展迅速,如Mariner 3月月活访问量达2310万,Cursor有2000多万,微软3月产生50万亿个TOKEN,占季度总量一半 [38]
智谱想给DeepSeek来一场偷袭
虎嗅· 2025-03-31 20:39
文章核心观点 智谱在3月31日中关村论坛闭幕式现场推出新模型反击DeepSeek,同时公司在商业化布局、技术研发等方面有相应规划和思考,以应对行业变化和挑战 [2][6] 公司动态 - 3月31日智谱在智能体产品和基座模型两大维度分别推出"AutoGLM沉思模型"和推理模型GLM - Z1 - Air,Air用32B参数比肩671B的DeepSeek R1模型,价格仅为其1/30,且将于4月14日正式开源 [2] - 智谱CEO张鹏称公司在为IPO铺路但无具体计划,商业化以端侧为切口渗透七大行业,还宣布与东盟十国及“一带一路”沿线国家共建“自主大模型共建联盟” [6] - 智谱2023年开始在Agent领域投入,现阶段认为进入可大规模应用和落地阶段 [16] - 智谱会对具身智能进行相应布局,但还需时间 [19] 行业现状 - 2025年大模型圈“预训练”难成关键词,大模型六小虎中百川智能大批核心成员离职并砍掉部分业务,零一万物放弃万亿参数赛道转向B端业务 [3] - 自2025年初DeepSeek以“成本优势 + 开源”撕开市场缺口,头部云厂商依托生态优势卡位,大模型创业公司用价格力挽狂澜 [9] - 第一季度资本对大模型初创公司失去耐心,除智谱连续拿到地方产投融资,无市场化资本进入其余大模型企业 [4] - 大模型企业面临商业化难题,预训练未能让基座模型厂商形成护城河 [5][6] 对话问答 开源策略与商业化 - 开源是智谱从第一天开始坚持的事,宣布2025年为开源年是考虑DeepSeek对技术生态和认知的影响,公司认为模型即服务(MaaS)会落地,开源与否不是关键问题 [12] 预训练与推理模型 - 预训练仍很重要,是RL等方法的基座模型天花板,其中预训练的架构、数据使用效率等有很多待研究点 [13] - 推理模型在泛用性任务上表现不及预期,但技术改进会产生新可能,其应用受技术发展阶段影响 [14] 融资计划 - 实现AGI路程长,从0到1开拓试错成本高,公司走在前面的部分需加大投入 [15] Agent领域 - Agent核心能力是模型本身能力和感知环境与环境智能交互能力,AutoGLM更早用于手机端,其他端侧也可接入,但存在设备交互方式和硬件适配问题 [17] 战略层面 - 公司定位技术驱动,技术研发和商业化两条腿动态调整,目前核心任务和资源投入仍侧重技术研发 [21] 落地预期 - 去年公司整体实现超100%增长,今年预计市场呈十倍以上增长,公司会保持稳定商业化落地速度和效益 [22]