大模型“神仙打架”，掀起复现潮、技术大升级后，我们需要关注什么？

大模型技术竞赛与行业动态 - DeepSeek连续五天开源引发复现热潮，阿里巴巴通义实验室和腾讯分别推出ViDoRAG系统和混元快思考模型Turbo S，加速大模型演进 [1] - 马斯克用20万张GPU训练Grok 3超越业界标杆，验证"大力出奇迹"定律 [1] - Claude 3.7 Sonnet编码能力大升级，AI编程技术平权时代加速到来 [1] - DeepSeek论文与Kimi"撞车"，稀疏注意力与线性注意力机制成为Transformer后的关键探索方向 [1] - Manus模式的"虚拟机"概念迅速走红，正在重塑大模型运行方式 [1] DeepSeek的技术突破与影响 - DeepSeek R1发布引发全球热议，首次展示模型能以类似人类方式思考，采用第一人称表达推理过程 [6][7] - DeepSeek开源周发布五大项目，涉及算力加速、通信优化和存储处理三大领域 [20][22] - DeepSeek利润率高达545%，颠覆行业对大模型MaaS盈利能力的认知 [33] - DeepSeek的技术路线侧重小粒度Expert，强调效率，相比Grok 3的"暴力美学"更为高效 [45] - DeepSeek的推理架构为搜索体验带来颠覆性变化，推动"边搜边想"的新搜索逻辑 [7] 行业竞争格局与趋势 - 行业可能出现两条发展路径：少数企业继续堆砌算力追求极致模型，大多数企业选择小模型路线 [46] - "百模大战"第一阶段暂时由DeepSeek领先，竞争可能向多模态和具身智能演进 [30][31] - 新兴公司在AI基础设施和大模型训练领域面临巨大投入挑战，难以与头部企业竞争 [27][28] - 阿里Qwen在国际市场表现不俗，但在推理方面未能取得DeepSeek级别的突破 [26] - 量化公司如九坤转型成立AI部门，在系统优化和数据处理方面具有优势 [27] 技术演进与创新方向 - Attention机制面临算法复杂度高的问题，改进方向包括稀疏化和状态空间模型(SSM) [62][63] - DeepSeek提出的NSA(Neural Sparse Attention)在减少计算量的同时提升模型效果 [65] - 合成数据成为重要方向，在多模态、具身智能等领域应用广泛，精准度超越传统数据增强 [75][77] - 长上下文支持技术变革搜索领域格局，Gemini的100万token窗口展现强大能力 [50] - 代码模型可能成为通往AGI的路径，通过持续学习和技能库扩展实现能力进化 [81][83] 应用场景与商业化 - AI编程是首个经过PMF验证的应用场景，Claude 3.7和DeepSeek在代码能力上仍有提升空间 [78][80] - AutoPilot类工具如Devin更适合"万事开头难"场景，成本低于雇佣实习生 [78] - MaaS商业模式面临上游价格和下游支付意愿的双重挑战，运营效率成为关键壁垒 [33][34] - 私有化部署需求增长但面临数据治理挑战，建议企业优先使用API进行验证 [36][39] - 2B领域数据治理和处理服务需求旺盛，国内加速推进数据要素市场建设 [36] 基础设施与工程实践 - 训练大模型成本极高，智源发起OpenSeek开源项目，已吸引100多位贡献者 [9][10] - OpenSeek处理约100亿网页数据，构建4亿条CoT数据集，计划全面开源 [11] - 系统训练层面缺乏成熟框架支持，DeepSeek公开自研五个项目提升训练效率 [12] - 行业Infra团队和人才稀缺，更多关注0到1搭建而非1到100的优化 [21] - 虚拟机技术可能走红，因工具调用需要沙盒化环境执行任务 [84]