Scaling Law(尺度定律)
搜索文档
Transformer能否支撑下一代Agent?
钛媒体APP· 2025-12-22 15:39
文章核心观点 - 多位AI领域顶尖专家和学者认为,当前主导AI发展的Transformer架构存在根本性局限,无法支撑下一代智能体(Agent)和通用人工智能(AGI)的发展,行业正从依赖算力与数据规模扩张的“规模化时代”,回归到底层创新的“研究时代”[1][11][15] Transformer架构的成就与当前地位 - 自2017年Google论文《Attention Is All You Need》提出后,Transformer架构凭借其自注意力机制和并行计算能力,成为过去七年AI模型(如BERT、GPT系列、DeepSeek)的基石,并推动了以英伟达GPU和Scaling Law为核心的AI浪潮[2][3] - 该架构与GPU的结合被比喻为“内燃机遇上了石油”,直接引爆了第三次工业革命级的人工智能浪潮[3] 专家对Transformer局限性的批判 - **缺乏因果推理与物理理解**:Transformer本质上是基于海量数据的概率预测(下一个Token预测),擅长发现统计相关性,但无法理解背后的因果逻辑和物理规律[4][5] - **类比为死记硬背的优等生**:前OpenAI联合创始人Ilya Sutskever比喻当前模型像练习了一万小时、背下所有考题的学生,缺乏真正的泛化能力和深刻直觉,遇到新领域表现会大打折扣[4][5] - **长上下文处理存在“退化”问题**:阶跃星辰张祥雨指出,当前Transformer模型在处理长文本(如超过8万个Token)时,智商(性能)会快速下降,因为其信息流单向、思考深度固定,无法进行“慢思考”[6] - **视觉与物理世界的理解无力**:李飞飞指出,仅靠语言不足以构建AGI,将预测下一个词移植为预测下一帧视频的方法,导致生成的视频缺乏时空一致性[8] - **样本效率低下**:相比人类依靠先验知识和本能快速学习(如十几小时学会开车),AI需要海量数据训练,试图通过穷举数据来掩盖对物理规律认知的匮乏[9][10] 对未来AI架构发展的展望 - **行业进入“研究时代”**:Ilya Sutskever判断,行业正告别“规模化时代”(2020-2025),重新回到注重底层创新的“研究时代”(2012-2020),利用现有巨大算力寻找新配方[11] - **新架构将是系统性重构**:未来架构可能是一种混合体,内核是高度抽象的因果逻辑,接口是丰富的感官世界[12] - **具体技术方向**:包括李飞飞World Labs致力于构建具有“空间智能”的模型;张祥雨透露了“非线性RNN”方向,支持内部循环、反刍和推理;以及发展更高效的强化学习范式,让AI具备持续学习和内部价值函数[12] - **新架构需要新的数据与硬件**:视频数据、物理世界传感器数据、机器人交互数据价值将重估;硬件基础设施可能面临洗牌,专用芯片或受挑战,通用GPU的灵活性可能再次成为优势[13][14] 对行业的影响与结论 - Transformer是一座丰碑但非终点,其在因果推理、物理理解和无限上下文上的缺陷,注定只是通往AGI道路上的垫脚石[15] - 未来五年,Transformer可能逐渐退居幕后成为子模块,一种融合空间智能、具身交互和深度逻辑推理的新架构将走上台前,这对科技公司既是巨大挑战也是难得机遇[15][16]
AI落地的关键堵点,华为用“黑科技”打通了
观察者网· 2025-08-15 12:06
AI推理性能瓶颈 - 传统Scaling Law遇到明显瓶颈 企业开始关注模型推理性能体验以推动商业落地和变现 [1] - AI推理算力需求已超过训练 GPT-5开放首周API调用量超20亿次/分钟 70%请求为复杂推理任务 火山引擎日均token调用量达16.4万亿 70%以上来自线上推理 [4] - 长文本处理 多轮对话以及复杂业务流程的推理需求日益增长 对推理性能要求愈发严苛 [4] 中国AI推理困境 - 基础设施投资仅为美国十分之一 面临算力卡阉割 HBM涨价禁运等困境 [1][6] - 国外主流大模型输出速度达200 tokens/s(时延5ms) 国内普遍小于60 tokens/s(时延50-100ms) 最大差距达10倍 [7] - 海外模型支持100万级Token上下文窗口 国内头部模型仅50万 长文本分析中遗漏关键信息概率超50% [7] 键值缓存技术挑战 - KV Cache需占用GPU显存存储历史Key/Value向量 长文本生成会挤爆HBM和DRAM [6] - Agentic AI时代到来导致KV Cache容量增长超出HBM承载能力 频繁内存溢出造成推理"失忆"和卡顿 [6] - 中国企业无法无限制堆卡 面临出口管制无法获得最先进算力卡和HBM [6] 华为UCM技术突破 - 通过分级缓存管理在HBM DRAM SSD等存储介质中按数据热度缓存 扩大推理上下文窗口10倍 [10][15] - 采用注意力稀疏技术识别KV Cache数据重要程度 分层分级缓存并流动 降低向量数量提升吞吐量 [17] - 将历史已处理结果缓存至外置共享存储 首token延迟降低90% 节省token by token时间 [13] 性能提升与成本优化 - 长序列场景下TPS提升2-22倍 降低每Token推理成本 为企业减负增效 [17] - 维持算力投入不变 仅增加小部分外置存储投资 改善推理效率并摊薄成本 [18] - 推动形成"用户体验提升-用户增长-企业加大投资-技术迭代"的正循环 [18] 金融场景应用验证 - 与中国银联合作解决长序列输入 并发时延和算力耗费三大核心难题 [19] - 在"客户之声"业务场景推理速度提升125倍 10秒精准识别客户高频问题 [21] - "营销策划"场景生成时间从数分钟缩短至10秒内 单台服务器支持超5人同时在线协作 [21] 技术开源与生态建设 - 华为宣布9月开源UCM 包含推理引擎插件 功能库和高性能存取适配器三大组件 [26] - 开放统一接口适配多类型推理引擎框架 算力及存储系统 推动生态繁荣 [28] - 差异化在于将专业存储纳入 通过软硬协同和算法库贡献丰富可靠的加速算法 [26] 行业意义与发展前景 - 降低对HBM依赖 将HBM优势发挥在更合适地方 填补中国AI推理生态关键环节 [18][26] - 解决Agentic AI时代显存不足和推理Token成本问题 可应用于千行百业 [23] - 推动中国AI产业进入良性商业正循环 为长远发展注入更强动力 [28]
一文了解DeepSeek和OpenAI:企业家为什么需要认知型创新?
混沌学园· 2025-06-10 19:07
核心观点 - AI技术正在重新定义商业创新模式,企业需转变思路以保持竞争力 [1][2] - OpenAI和DeepSeek分别通过不同路径实现AI技术突破,为行业提供创新范式 [3][4] - AI能力的"涌现"现象成为技术跃迁的关键特征 [19][20][21] - 人机交互范式因ChatGPT发生根本性变革 [22][23][24] - 中国公司DeepSeek打破"美国原创、中国应用"的思维定式,展现基础研究实力 [75][77][78] OpenAI的创新路径 创立背景 - 2015年由马斯克和奥特曼创立,初衷是防止AI技术被巨头垄断 [9] - 从谷歌挖来核心科学家伊利亚·苏茨克维尔,坚持开源、安全、普惠理念 [10][12] 技术突破 - 基于Transformer架构的"自注意力机制"大幅提升语言理解能力 [13] - Scaling Law揭示模型规模与性能的线性关系,指导大规模投入 [15][16] - GPT系列模型通过"涌现"现象实现能力跃升,参数量临界点触发智能爆发 [19][20] 产品里程碑 - ChatGPT通过自然语言交互降低使用门槛,引发全球现象级应用 [22][23] - 推理模型o1实现从直觉思维(系统1)到理性推理(系统2)的认知跃迁 [26][30] DeepSeek的逆袭战略 技术路线 - 提出"有限Scaling Law",在资源受限下追求高性能 [32][33] - MLA技术优化内存效率,MoE架构实现计算资源动态分配 [38][39][42] - V3模型6710亿参数仅激活37亿,训练成本5557万美元(行业1/10) [44] 核心突破 - R1模型采用纯强化学习(类似AlphaGo Zero),展示完整推理过程 [45][47][49] - 在奥数竞赛中与OpenAI o1准确率相当,登顶美国应用榜单 [50][51] 组织创新 - 动态团队构成和自组织管理激发"涌现"式创新 [55][56][57] - 研究员自主提出MLA架构和训练公式,体现扁平化协作 [59][60] - 150人论文署名包含数据标注员,打破传统KPI束缚 [61][62] 行业启示 技术趋势 - AI从专用工具向通用智能演进,"涌现"成为能力突破关键指标 [20][21] - 对话式交互(ChatGPT)和推理能力(o1/R1)定义下一代AI标准 [23][26][45] 创新生态 - 中国公司首次在基础研究领域实现全球领先,打破技术跟随惯性 [75][77] - 资源效率(DeepSeek)与规模投入(OpenAI)并存,拓宽行业可能性 [32][44] 组织变革 - 传统金字塔管理让位于开放协作和资源自由调配的新型研发模式 [55][63][68] - "非标准人才"和纯粹技术热情成为创新核心驱动力 [66][67]