推理模型
搜索文档
《大模型的第一性思考》李建忠对话GPT5与Transformer发明者Lukasz Kaiser实录
36氪· 2025-10-13 18:46
对话一:语言对于智能到底意味着什么? - 语言模型在智能构建中扮演核心角色,其成功源于对语言在智能中核心作用的认知,ChatGPT和Transformer的成功均得益于此[6][9] - 语言具备时间维度,总是在生成下一个词,而序列模型(如Transformer)可处理包括语言、蛋白质、音频在内的各种序列,时间序列是表达智能的重要组成部分[7] - 语言训练具有实践优势,互联网上海量的语言数据使得训练非常方便且成本远低于视频训练[9] - 语言模型确实会形成独立于语言的抽象概念,例如在解决数学问题时,尽管用不同语言生成答案,但解题方式和错误类型相同,表明模型在抽象空间进行思考[10] - 然而,未经过大量多模态数据训练的模型,其概念(如"痛苦"或"爱")可能与人类植根于物理世界的真实感受有所不同[11] 对话二:多模态与世界模型的挑战 - 现代大语言模型(如GPT-4)已是多模态模型,能接收和生成图像、音频,并已取得巨大进展,例如ChatGPT的语音模式可以对话、唱歌[12] - 当前多模态处理方式(如通过VQ-VAE将图像/音频编码为特殊代码)有效但不令人满意,未来需要更深入地将多模态融合到模型中,使编码更具可训练性并与语言有更多交互[13] - 语言对于为视觉对象赋予语义含义至关重要,否定语言价值的视觉派研究可能重蹈ChatGPT发布前的错误路线[14] - 现代大语言模型在某种程度上已是世界模型,在文本和数学方面表现卓越,但作为物理模型的表现不如语言模型,部分原因是视频训练数据不足、质量不佳及当前架构限制[14] - 通过改进架构、损失函数并增加更好更多的数据,结合像Sora、Genie和Veo这类从视频学习的模型,正在弥合"世界模型"与"语言模型"之间的差距[15] 对话三:AI编程:自然语言是终极目标,还是新的"巴别塔"? - Transformer架构的创造者在早期就已预见其在自动化编程方面的应用潜力[17] - 未来语言模型将能覆盖大量编程工作,但数学符号和编程语言作为沟通工具,在解释复杂概念时比纯自然语言更高效,因此专业程序员仍需掌握这些概念以实现与模型的快速、高效沟通[18] - 编程的重点在于沟通和抽象,而非特定语言,AI有望帮助更好地使用现有编程语言来改进系统,而非必然需要创造新的为AI设计的编程语言[19] - 新的编程语言需求将来自新的计算硬件架构,而非AI编程本身[20] 对话四:Agent的泛化困境:是方法问题,还是根本限制? - 所谓的"智能体模型"通常指在其推理过程中能调用外部工具(如代码解释器、网络搜索)的推理模型,这些模型使用强化学习训练且效果良好[21] - Agent泛化问题的主要挑战在于缺乏学习信号,当模型使用未经训练的工具时,没有像强化学习训练那样的反馈机制来检查答案正确性[22] - 要实现出色的多智能体系统,需要能够模拟整个环境进行训练,而这在当前难以实现,但即使没有大量训练,聪明的模型也能零样本完成许多任务[23] 对话五:算力与算法:Scaling Law是信仰还是路径依赖? - 预训练的Scaling Law已带来巨大进展,但存在经济上的实践极限,因为用户不愿为每个token支付过高费用,且大模型可被蒸馏成更小模型[25] - 预训练的Scaling Law在解决某些问题(如GSM-8K数学数据集)时速度不可行,而强化学习推理能用小模型解决相同问题,显示出更高的数据效率[26] - 推理模型的Scaling Law(通过强化学习让模型运行更长时间以提升性能)受限于Transformer的上下文长度设计以及强化学习在长序列推理中的信用分配问题[27] - 推理的Scaling Law与预训练的Scaling Law有不同限制,这呼唤新的研究和可能的架构或强化学习算法改进[28] 对话六:具身智能的挑战:是数据问题?还是比特和原子的根本性差异? - 具身智能可能更接近于当前的大语言模型,数据效率正在提高,例如推理模型能用极少样本学会困难任务[29] - 实现具身智能需要一个在大量视频上预训练好的多模态模型作为基础,再结合强化学习进行推理训练,但需要调整架构以适应现实世界行动的速度要求[30] - 第一个版本的具身智能模型可能基于现有成果调整,但未来会出现数据和计算更高效的新一代模型[31] 对话七:强化学习:是超级优化器,还是科学发现的引擎? - 由强化学习驱动的推理模型可被视为一种数据效率更高的新架构或范式,能够从有限数据(如1000道数学题)中学习[32][33] - 强化学习只依赖一个奖励信号,若优化得当,模型有望从研究论文中学习并提出连专业人员都觉得新颖的想法,推动科学发现[33] - 该范式仍处于早期阶段(社区广泛关注约一年),需要更多尝试、发现和改进以提升效率和应用范围[34] 对话八:AI的组织跃迁:如何实现大规模Agent协作? - 实现大规模Agent组织(如成千上万个Agent协作)的最大挑战在于开发下一代推理模型,需要类似Transformer之于RNN的架构创新[35] - 当前推理模型顺序生成token的方式缺乏并行性,未来需要为并行过程提供更多信号,并结合新的架构来融入并行处理[36] 对话九:AI记忆的瓶颈:模型离真正的"原生记忆"还有多远? - 通过将记忆作为工具(如访问互联网或记忆库)并结合强化学习训练,模型可以有效地解决记忆问题,当前方案已相当可行[37][38] - 未来可能出现更优雅的记忆机制,如将记忆转化为连续的向量或通过类似LoRA的适配器微调模型权重,但这仍是待研究的问题[40] 对话十:大模型如何摆脱瞬时学习,而像人类一样持续学习? - 利用上下文学习作为持续学习的记忆是当前已实现的进展,模型将对话信息放入上下文进行处理,但效率并非最高[39] - 通过记忆工具和像LoRA这样的适配器微调技术,实质性修改权重已变得更加可行,为持续学习提供了基础,但如何优化算法仍是研究重点[40] - 下一代推理架构有望实现更并行的处理,推动模型在科学发现等领域的应用,未来并不遥远[41]
“推理模型还处于RNN的阶段”——李建忠对话GPT-5与Transformer发明者Lukasz Kaiser实录
AI科技大本营· 2025-10-10 17:52
对话一:语言对于智能到底意味着什么 - 语言在时间维度上对智能至关重要,语言模型本质是序列模型,处理时间序列是表达智能的重要组成部分 [6][7] - 语言经过人类编码压缩,在智能表征上比视觉更高效,语言边界就是世界边界 [7] - 训练语言数据非常方便,互联网有海量语言数据,用语言训练比用视频便宜得多 [8] - 语言模型会形成抽象概念,当用多种语言训练时,模型在抽象空间解决问题然后表达出来 [9] - 模型概念与人类概念可能存在差异,特别是在与物理世界紧密相关的领域 [10] 对话二:多模态与世界模型的挑战 - 现代大语言模型如GPT-4已经是多模态模型,能接收和生成图像音频,但模态间迁移水平不尽如人意 [12] - 当前多模态处理通过VQ-VAE编码器,感觉不令人满意,需要更深入融合到模型中 [13] - 语言对多模态非常重要,离开语言视觉只是像素信号,语言赋予视觉对象语义含义 [14] - 现代大语言模型在某种程度上就是世界模型,文本数学方面表现优异,但作为物理模型表现不如语言模型 [14] - 通过架构改进、更好数据将弥合世界模型与语言模型差距,Sora等模型显示正在取得重大进展 [15] 对话三:AI编程:自然语言是终极目标,还是新的"巴别塔" - Transformer发明时已考虑自动化编程,认为比处理任意对话更容易 [17] - 语言模型将覆盖大量编程工作,但数学和编程语言是比纯自然语言更好的沟通工具 [19] - 未来复杂系统级软件需要专业程序员使用Copilot模式,应用软件可由大众用户自然语言编程完成 [20] - 编程重点在于沟通和抽象,不一定需要新编程语言,可以使用现有语言但要用得非常好 [20] - 新编程语言需求来自新计算架构,而非AI编程需求 [20] 对话四:Agent的泛化困境:是方法问题,还是根本限制 - Agentic Model缺乏坚实技术实体,指推理过程中调用外部工具的推理模型 [21] - 问题在于使用未经训练工具时缺乏学习信号,效果不好 [22] - 强化学习可泛化到更大系统,但需要训练期间接触所有工具,目前难以实现 [22] - 需要更多工作让系统可训练,即使没有太多训练也可能非常有用 [23] 对话五:算力与算法:Scaling Law是信仰还是路径依赖 - 预训练Scaling Law和强化学习Scaling Law不完全是一回事,有不同限制 [25] - 预训练Scaling Law存在经济限制,离经济极限不远,可将大模型蒸馏成更小模型 [25] - 推理模型不增加参数数量,让模型运行更长时间会变得更好,但有架构限制 [27] - 推理Scaling Law与预训练Scaling Law有非常不同限制,呼唤新研究和不同架构 [28] 对话六:具身智能的挑战:是数据问题?还是比特和原子的根本性差异 - 具身智能将更接近当前LLM,物理世界数据比互联网少,但数据效率在提高 [29] - 需要从多模态模型开始,加入RL训练,允许模型在行动前进行推理 [30] - 现实障碍是推理速度太慢,需要层级式架构输出动作 [30] - 第一个版本建立在现有成果上做调整,之后会有新一代更高效模型 [31] 对话七:强化学习:是超级优化器,还是科学发现的引擎 - 推理模型看作新架构,有思维链推理过程,用强化学习方式可行 [32] - RL数据效率高得多,可从有限数据中学习,如1000道数学题 [33] - RL只得到一个奖励,没有约束,能很好优化就可以学习 [33] - 处于范式早期阶段,需要尝试发现改进才能更高效 [34] 对话八:AI的组织跃迁:如何实现大规模Agent协作 - 最大挑战是开发下一代推理模型,需要Transformer创新级别的推理模型 [35] - 需要更多并行性,不能等模型思考一周才得到奖励 [36] - 需要为并行过程提供更多信号,结合架构融入并行过程 [36] 对话九:AI记忆的瓶颈:模型离真正的"原生记忆"还有多远 - 推理模型可使用工具访问记忆,通过RL训练会学得很好 [37] - 工具方式解决记忆问题对于大多数情况足够好,模型能区分互联网记忆和自己记忆 [37] - 未来架构可能做得更好,但目前有可行解决方案 [38] 对话十:大模型如何摆脱瞬时学习,而像人类一样持续学习 - 利用上下文作为持续学习记忆是进展,但效率不高 [39] - 记忆工具正在出现,模型在推理中访问记忆 [40] - LoRA模块等经济方式修改权重已更可行,每个人可微调自己模型 [40] - 需要更优雅方式实现持续学习,涉及实践和研究考量 [41]
ICPC总决赛被AI统治!GPT-5组合系统12题全对登顶,人类打破头只能争夺第三
量子位· 2025-09-18 08:51
AI在顶级编程竞赛中的表现 - OpenAI的GPT-5与实验性推理模型组合在2025年ICPC世界总决赛中解决了全部12道题目,若计入排名将位居第一 [2][9] - 谷歌的Gemini 2.5 Deep Think模型解决了10道题目,达到金牌水准,若与大学队伍比较将名列第二 [3][18] - 在官方监督的独立“AI实验赛道”中,AI系统与来自全球103个国家、近3000所大学的139支人类队伍面对相同题目和评测标准 [5][6] AI解决关键难题的技术细节 - 没有人类团队能够解决的“问题C”,OpenAI和谷歌的模型组合均成功攻克 [7] - OpenAI系统最有挑战的是“问题G”,由实验性推理模型接力完成,总共提交了9次,而人类选手中仅第一名团队在3次尝试中解决 [11][12] - 谷歌Gemini为解决“问题C”,采用了假设储存库“优先级值”、动态规划算法及嵌套三元搜索在凸解空间中快速找到最优解的方法 [21][25][26] AI模型的技术进展与战略方向 - OpenAI强调参赛的是通用推理模型,并未专门为ICPC进行训练,其团队中有研究员本身是ICPC参赛选手出身 [16] - 谷歌Gemini的成功融合了预训练、后训练、新型强化学习技术、多步推理和并行思维等一系列技术进展 [27][28] - OpenAI研究副总裁表示ICPC之后可能不会参与其他竞赛,下一个前沿领域是将科学和工程技能应用于现实世界问题 [30][32] - 自推理模型范式问世后,AI已在数学奥赛IMO、信息学奥赛IOI和编程大赛ICPC中连续表现出色 [29]
2025年初人工智能格局报告:推理模型、主权AI及代理型AI的崛起(英文版)-Lablup
搜狐财经· 2025-09-11 17:17
技术范式转变 - AI模型性能提升路径从训练时计算转向测试时计算 催生推理模型[1][11][17] - OpenAI的o1模型在数学奥林匹克预选赛准确率达74.4% 但成本高且速度慢[11][19] - DeepSeek的R1模型通过GRPO和多头潜在注意力技术实现与o1相当性能 成本显著降低[11][20][24] - 顶级模型性能趋同 Chatbot Arena排名前10模型分差从2023年11.9%收窄至2025年5.4%[22] - 开源与闭源模型性能差距从早期8.04%缩小至2025年2月1.70%[23] - 未来架构将采用混合策略 自适应推理和智能体搜索成为创新方向[24] 中国AI崛起 - DeepSeek在2025年1月发布R1和V3模型 声称V3模型训练仅耗资560万美元使用2000块NVIDIA芯片[25] - 该事件引发NVIDIA单日最大股价下跌 促使美国公布5000亿美元星门计划[25][51] - Zhipu AI在2025年4月发布GLM-Z1-32B模型 推理速度达200 token/秒 成本仅为R1的1/30[28][31] - 百度在2025年3月发布Ernie 4.5和Ernie X1 并计划开源下一代Ernie 5模型[29] - 中美模型性能差距从两位数百分比收窄至低个位数[29] 地缘政治竞争 - 主权AI成为多国国家安全核心议程 美国推出5000亿美元星门计划[2][13][51] - 英国计划扩大AI研究资源并设立主权AI部门 法国注资支持本土企业建设超算[2] - 日本通过宽松法规促进AI发展 韩国拟五年投入100万亿韩元跻身全球前三[2][13] - 各国面临主权三难困境 难以同时实现技术自主 获取全球创新资源和最大化经济增长[2] 基础设施升级 - AI数据中心向超高密度转型 单机架功率密度超过250kW[12][33] - 液冷和浸没式冷却技术成为高密度AI集群主流解决方案[33] - 边缘计算兴起 微数据中心部署于零售中心和制造基地以降低延迟[33] - 全球数据中心电力需求预计2030年前翻倍 超过日本全国耗电量[34] - 科技巨头转向核能 亚马逊在核电站旁建数据中心 微软与Meta签署核能采购协议[12][35] 硬件市场竞争 - AI硬件市场预计从2024年668亿美元增长至2034年2963亿美元 年复合增长率18%[39] - NVIDIA凭借Blackwell Ultra和Rubin路线图巩固优势 提供端到端AI工厂平台[12][43] - AMD以MI400系列和开源ROCm软件栈挑战 目标占据15-20%市场份额[44] - 高带宽内存需求激增 2024年占DRAM市场47% 美光在2025年7月发布HBM4芯片[39] - 嵌入式NPU市场2025年达150亿美元 年增长率25% 汽车行业年消耗超1亿颗NPU[41][42] 模型专业化趋势 - 2025年上半年前沿模型呈现专业化趋势 在编码 科学推理和多模态领域竞争激烈[14] - Claude 4在SWE-bench验证基准准确率达72.7% 领先编码领域[65] - Gemini 2.5 Pro具备100万token上下文窗口 在WebDev Arena和视频MME基准领先[66] - Grok 3在AIME 2025数学竞赛获93.3%准确率 科学推理表现突出[65] - 编码AI从辅助工具升级为自主队友 但出现生产力悖论现象[14] 企业战略分化 - Mistral AI转型为垂直集成AI云提供商 获10亿美元股权投资建设主权云服务[59] - Lablup专注GPU资源虚拟化技术 通过容器级虚拟化提升硬件利用率[60] - 微软以Copilot品牌整合企业市场 谷歌推行AI优先战略整合Gemini模型[61] - Meta持续引领开源路径 Anthropic聚焦安全性和企业级部署[61] - 行业中间地带消失 企业选择成为国家冠军或专业工具提供商[63]
智谱 GLM-4.5 团队深夜爆料:上下文要扩、小模型在路上,还承诺尽快发新模型!
AI前线· 2025-08-29 16:25
技术发展重点 - 扩展上下文长度是GLM-4.5未来研发重点 目前正在推进相关工作[6][9] - 防幻觉能力源于有效的RLHF流程 显著降低幻觉发生几率[6][11] - 架构选择GQA而非MLA 因MLA在解码阶段计算量更大且可能成为性能瓶颈[6][12] - 权重初始化采用标准差0.02的正态分布 注意力块和MLP输出层权重额外进行1/sqrt(2.0*num_layers)缩放[12] - 未来重点发展MoE模型并发布更小参数版本 稠密模型将专注于边缘设备场景[6][31] - 下一代模型优先提升推理 编程和智能体能力[6][50] 模型参数规模策略 - 前沿实验室模型参数规模已达万亿级别 但实际部署会精简成更小版本[14] - 活跃参数量在代码写作等现实任务中很重要 需根据设计任务决定[25] - 大规模模型在智能体任务和知识储备上更具优势[27] - 计划训练规模与gpt-oss-20b相当的较小MoE模型[28] - 小模型在封闭领域有效但在复杂领域难与大模型媲美[29] - 稠密模型聚焦小规模和边缘设备 目前无大于32B稠密模型计划[31] 多模态与架构探索 - 有多模态模型但未达SOTA水平 GLM-4.5V刚发布未来会提升[22] - 构建全模态模型技术复杂 目前专注LLM和VLM[23] - 探索文本扩散模型但未发现超越自回归Transformer架构的可能[24] - 图像生成功能无法增加大模型智能 厂商探索动力不足[24] - 高效注意力机制随上下文变长越来越重要 线性注意力对超参数更敏感[40] - 非文本模态转换为离散分词可能无法实现最佳性能[41] 数据工程与训练 - 预训练数据规模取决于数据过滤流程 算力资源和项目截止时间[13] - 最大差异在于原始训练token总量和数据工程技巧[34] - 更细致的数据工程是关键 包括丰富数据源 强大解析器和更好分类器[35] - 使用BF16精度训练 发布FP8量化版本且量化几乎不影响准确率[33] - 考虑扩展至MXFP4但FP4精度训练可能带来风险[33] 开源策略与行业定位 - 开源权重让更多人以喜欢方式使用模型 2022年发布首个开源大模型GLM-130B[36] - 开放权重模型与商业模型主要差距在于算力和数据资源[36] - 开源模型与商业模型差距将继续缩小 甚至有望在某些领域反超[36] - 中国开源权重模型落后闭源模型但差距正在缩小[53] - 许多有价值创新来自开源社区 如GLM-4.5训练使用的"slime"框架[53] 推理技术优化 - 推理模型可运用更多算力资源但会带来更严重延迟[17] - 理想情况应整合推理和非推理模式到同一模型中[18] - 缩短CoT长度是待办事项 可能加入与CoT长度反比的奖励信号[18] - GLM-4.5-Air已包含MTP层加速推理[19] - 已向vLLM和SGLang提交PR实现MTP 欢迎开发者适配ollama和llamacpp[20] 应用工具开发 - PPT生成器目前支持PDF导出 内部有PPTX导出测试版[45] - PPT生成结合搜索和HTML页面整理工具 模型具备内部化能力[46] - 推荐Open Code+GLM-4.5或Claude Code+GLM-4.5组合[47] - 将推出月度订阅套餐在Claude Code上订阅GLM-4.5[47] - AutoGLM是中国市场独立产品 高需求可能推出国际版[48]
英伟达CEO:更先进AI模型将推动芯片与数据中心持续增长
搜狐财经· 2025-08-28 14:24
公司业绩与行业地位 - 英伟达上季度营收达到467亿美元 [2] - 公司是AI行业硬件供应商 被比喻为AI淘金热中的"锄头和铲子" [2] - 生成式AI行业呈现惊人增长且没有放缓迹象 [2] AI行业前景预测 - AI基础设施支出到本十年末可能达到3万亿至4万亿美元 [2] - 未来几年乃至整个十年都将看到非常重大的增长机会 [2] - 每一代AI技术的需求只会持续增长 [4] 技术发展与计算需求 - AI推理模型采用"长思考"技术 通过多网站研究 多次尝试和整合信息来提升答案质量 [3] - 推理模型可能需要比传统大语言模型多100倍或更多的计算能力 [3] - OpenAI将推理技术直接整合到GPT-5发布中 采用路由程序分配处理模型 [3] 基础设施需求与影响 - AI数据中心占用大量土地 消耗大量水和能源 [2] - 对周围社区产生重大影响 并对美国电网造成更大压力 [2] - 智能体系统和机器人模型进一步增加了对芯片 能源和数据中心土地的需求 [3]
高盛硅谷AI调研之旅:底层模型拉不开差距,AI竞争转向“应用层”,“推理”带来GPU需求暴增
硬AI· 2025-08-26 00:01
开源与闭源模型性能趋同 - 开源基础模型自2024年中期在性能上追平闭源模型 达到GPT-4水平 而顶尖闭源模型在基准测试上几乎无突破性进展 [3] - 开源社区在不到十二个月内抹平与闭源模型的性能差距 反映其惊人发展速度 [3] - 模型能力日益商品化 纯粹的模型能力不再是决定性护城河 [2][3] AI竞争焦点转向应用层 - 竞争焦点从基础设施层全面转向应用层 真正壁垒在于AI与特定工作流的深度整合、专有数据强化学习及用户生态建立 [2] - 基础模型性能商品化导致竞争优势向上游转移 集中在数据资产、工作流整合和特定领域微调能力 [3] - 顶尖工程团队可在6到8个月内复制任何技术 因此技术本身并非核心壁垒 [4] 推理模型成为新前沿并驱动算力需求 - 以OpenAI o3、Gemini 2.5 Pro和Claude 4 Opus为代表的推理模型正成为生成式AI新前沿 [3][5] - 推理模型单次查询输出token可达1万个 传统LLM仅500个左右 输出量增长20倍 [5][6] - 输出token量20倍增长直接转化为GPU推理算力需求激增20倍 [3][6] - 推理模型通过推导、验证和迭代模拟思维过程 适用于代码合成、法律、金融等严谨分析领域 [6] AI基础设施资本支出持续高企 - GPU需求激增20倍支撑AI基础设施资本支出在可预见的未来保持高位 [2][3] - 运行恒定MMLU基准分数模型的成本从每百万token 60美元降至0.006美元 降幅达1000倍 但整体算力支出未减少 [5] - 高昂的AI基础设施资本支出被视为获取竞争优势的先决条件 尤其对头部AI实验室 [6] AI原生应用护城河构建策略 - 工作流整合与用户生态:成功应用公司将部署时间从数月缩短至几周 例如Decagon在6周内上线自动化客服系统 每投入100万美元可节省300至500万美元成本 [7] - 专有数据与强化学习:静态专有数据在法律和金融等垂直领域价值巨大 动态用户生成数据可通过强化学习循环持续优化模型形成滚雪球优势 [7][8] - 专业人才战略价值:构建高效AI系统需要模型封装、智能体推理和强化学习回路设计等技能 具备自我完善系统构建能力的AI人才极度稀缺 [8] 头部AI实验室向应用层拓展 - OpenAI、Anthropic和Google DeepMind等机构越来越多涉足应用层 利用模型内部结构洞察力构建紧密产品反馈和强化学习循环 [5] - 头部实验室的向下游拓展给独立初创公司带来新的竞争压力 [5]
高盛硅谷AI调研之旅:底层模型拉不开差距,AI竞争转向“应用层”,“推理”带来GPU需求暴增
美股IPO· 2025-08-25 12:44
基础模型性能趋同与竞争焦点转移 - 开源与闭源基础模型性能自2024年中期趋同 达到GPT-4水平 闭源模型在基准测试中无突破性进展 [3][4] - 模型能力不再是决定性护城河 竞争焦点从基础设施层全面转向应用层 [1][3][4] - 竞争优势体现在数据资产 工作流整合和特定领域微调能力上 [4] 推理模型成为新前沿并驱动算力需求 - OpenAI o3和Gemini 2.5 Pro等推理模型单次查询输出token达传统模型20倍 约1万个token(传统模型约500个) [3][6] - 推理模型推动GPU需求激增20倍 直接导致AI基础设施资本支出持续高企 [1][3][6] - 推理模型通过推导和迭代模拟思维过程 适用于代码合成 法律和金融等复杂领域 [6] AI原生应用护城河构建策略 - 护城河核心在于工作流整合 用户习惯培养和分销渠道建立 而非技术本身 [5] - 深度集成专有数据与强化学习循环 利用用户生成数据持续优化模型 [8] - 顶尖工程人才极度稀缺 成为可持续创新的主要瓶颈 [9][10] 应用层具体实践与案例 - Hebbia认为技术可在6-8个月内复制 成功依赖网络效应和超级用户培养 [5] - Decagon在6周内部署自动化客服系统 每100万美元投入节省300-500万美元成本 [7] - Everlaw通过AI深度集成法律文档流程 提供一体化便利和效率 [5] 行业成本与投资趋势 - 模型运行成本三年内从每百万token 60美元降至0.006美元 降幅达1000倍 [6] - VC认为高昂基础设施支出是必要竞争前提 尤其对头部AI实验室 [6] - OpenAI和Google Deepmind等机构正涉足应用层 加剧对初创公司的竞争压力 [5]
推理、智能体、资本:2025年AI行业都认同啥趋势?
搜狐财经· 2025-08-22 18:17
技术演进 - 推理模型成为行业标配,头部大模型具备强大推理能力,通过多步骤逻辑分析和长文本处理解决复杂任务如数学运算和代码生成 [2] - 推理能力持续提升,基础模型性能优化支撑推理能力,强化学习技术推动逻辑严谨性和任务完成度突破 [2] - 智能体成为2025年行业关键词,具备自主规划、工具调用和任务执行能力,实现从语言交互到行为落地的跨越 [2] - 智能体任务处理时长呈现指数级增长,从2019-2025年每7个月翻番缩短至2024-2025年每4个月翻番 [3] - 开源生态强势崛起,中国厂商如DeepSeek和阿里通义千问快速提升能力,缩小与国际闭源模型差距 [5] - 超过70%开源项目增长集中在智能体架构、代码生成和推理优化方向 [5] 产品创新 - 浏览器成为智能体主战场,因其具备连接外部世界能力,适合记忆存储、工具调用和任务执行 [9] - 交互设计采用可视化过程,左侧聊天框输入指令,右侧实时展示推理、搜索和执行过程以增强信任 [9] - 运营策略采用邀请码机制控制用户增长和成本,并通过稀缺性形成病毒式传播 [9] - 早期发布成为常态,产品在0.3-0.9版本就推向市场,通过用户反馈快速迭代 [9] - AI产品价值衡量从功能丰富度转向结果交付能力,定位从工具转变为数字员工 [10] - 产品逻辑通过限定边界和优化流程确保输出可靠性,如美图秀秀AI证件照单次生成收入达15-20元 [10] 资本动向 - 头部AI公司收入激增,OpenAI从2023年10亿美元增至2025年预期130亿美元,Anthropic从不足10亿美元上调至30亿美元 [12] - AI代码工具Coder年收入从2023年底1亿美元增至5亿美元 [12] - 行业估值与年收入深度绑定,头部公司市销率远高于传统科技公司,部分达数百倍 [12] - 2025年成为AI并购大年,并购基于业务协同而非挖团队,如Meta以148亿美元投资Scale AI [13] - 未上市头部AI公司如OpenAI开始并购初创公司完善生态 [13] - 中国市场并购案例增多,如腾讯音乐收购喜马拉雅和百度收购YY [13] - 智能体基础设施成为早期投资焦点,涉及环境搭建、工具调用协议、长时记忆存储和安全支付系统 [14] - 智能体时代需要统一交互协议如AI间协作协议和人机协作协议 [14]
直击WAIC:大模型走进“中场战事”
36氪· 2025-08-01 20:12
行业趋势 - 2025年国内大模型产业呈现三大趋势:推理模型成为技术制高点、应用落地从概念走向实战、国产算力取得突破性进展 [2] - 大模型竞争从"百模大战"的混沌期进入"中场战事",转向产业生态、商业模式和国际竞争力的综合较量 [5] - 推理模型代表从"能回答"到"会思考"的质变,标志性事件是DeepSeek-R1以560万美元低成本实现技术突破 [6][7] 技术发展 - 推理模型呈现"百花齐放"态势:2025年1-7月头部厂商密集发布10款新品,包括腾讯混元T1、百度文心X1、阿里Qwen3等 [8] - 技术路线差异化体现在三方面:混合架构替代纯Transformer(腾讯混元T1采用Mamba架构)、推理机制创新(百度文心X1实现20步自动拆解)、参数策略优化(Kimi K2达1T总参数) [10][11][12] - 评价维度转向推理链条设计、多步骤逻辑处理等非参数指标,反映对未来AI发展方向的不同押注 [14] 应用落地 - 应用场景呈现B/C端分化:腾讯依托微信生态覆盖14亿用户,阿里聚焦智能家居,百度强化AI基础设施,专业厂商深耕垂直领域 [15][16][18] - Agent成为核心落地方向:智谱AI的CogAgent平台API价格仅为Claude 1/10,Kimi推出深度研究智能体处理商务写作+表格分析 [18][20] - 垂直行业渗透加速:金融领域应用风控/投顾,医疗领域覆盖诊断/研发,制造业实现质检/供应链优化 [22] 国产算力 - 华为昇腾384超节点实机展出,通过总线技术实现384个NPU互联,解决集群通信瓶颈 [25] - 国产GPU取得突破:燧原S60推理卡支持千亿参数模型,4天完成美图近万张卡部署 [27] - 行业形成生态协同:阶跃星辰联合10家芯片厂商发起"模芯生态创新联盟" [27] 竞争格局 - 互联网巨头展示平台化能力:腾讯构建"从云到端"全链路,阿里打造空间智能体系,百度推出智能计算操作系统 [15][16] - 专业厂商聚焦差异化优势:Kimi强化代码能力,智谱AI主打性价比,Minimax/阶跃星辰专注多模态 [18][20] - "六小虎"阵营出现分化:零一万物/百川智能缺席WAIC,部分成员转向多模态赛道 [5][20] 市场规模 - 机器人产业参展公司从2024年18家增至2025年80家,占据展馆整层空间 [4] - 阶跃星辰预计2025年多模态业务收入近10亿元,已覆盖Top10手机厂商过半份额 [20] - 阿里/字节跳动日均Token调用量同比增长近100倍,推动算力需求爆发 [24]