Workflow
大模型“神仙打架”,掀起复现潮、技术大升级后,我们需要关注什么? | 万有引力
AI科技大本营·2025-03-25 09:45

大模型技术竞赛与行业动态 - DeepSeek连续五天开源引发复现热潮,阿里巴巴通义实验室和腾讯分别推出ViDoRAG系统和混元快思考模型Turbo S,加速大模型演进 [1] - 马斯克用20万张GPU训练Grok 3超越业界标杆,验证"大力出奇迹"定律 [1] - Claude 3.7 Sonnet编码能力大升级,AI编程技术平权时代加速到来 [1] - DeepSeek论文与Kimi"撞车",稀疏注意力与线性注意力机制成为Transformer后的关键探索方向 [1] - Manus模式的"虚拟机"概念迅速走红,正在重塑大模型运行方式 [1] DeepSeek的技术突破与影响 - DeepSeek R1发布引发全球热议,首次展示模型能以类似人类方式思考,采用第一人称表达推理过程 [6][7] - DeepSeek开源周发布五大项目,涉及算力加速、通信优化和存储处理三大领域 [20][22] - DeepSeek利润率高达545%,颠覆行业对大模型MaaS盈利能力的认知 [33] - DeepSeek的技术路线侧重小粒度Expert,强调效率,相比Grok 3的"暴力美学"更为高效 [45] - DeepSeek的推理架构为搜索体验带来颠覆性变化,推动"边搜边想"的新搜索逻辑 [7] 行业竞争格局与趋势 - 行业可能出现两条发展路径:少数企业继续堆砌算力追求极致模型,大多数企业选择小模型路线 [46] - "百模大战"第一阶段暂时由DeepSeek领先,竞争可能向多模态和具身智能演进 [30][31] - 新兴公司在AI基础设施和大模型训练领域面临巨大投入挑战,难以与头部企业竞争 [27][28] - 阿里Qwen在国际市场表现不俗,但在推理方面未能取得DeepSeek级别的突破 [26] - 量化公司如九坤转型成立AI部门,在系统优化和数据处理方面具有优势 [27] 技术演进与创新方向 - Attention机制面临算法复杂度高的问题,改进方向包括稀疏化和状态空间模型(SSM) [62][63] - DeepSeek提出的NSA(Neural Sparse Attention)在减少计算量的同时提升模型效果 [65] - 合成数据成为重要方向,在多模态、具身智能等领域应用广泛,精准度超越传统数据增强 [75][77] - 长上下文支持技术变革搜索领域格局,Gemini的100万token窗口展现强大能力 [50] - 代码模型可能成为通往AGI的路径,通过持续学习和技能库扩展实现能力进化 [81][83] 应用场景与商业化 - AI编程是首个经过PMF验证的应用场景,Claude 3.7和DeepSeek在代码能力上仍有提升空间 [78][80] - AutoPilot类工具如Devin更适合"万事开头难"场景,成本低于雇佣实习生 [78] - MaaS商业模式面临上游价格和下游支付意愿的双重挑战,运营效率成为关键壁垒 [33][34] - 私有化部署需求增长但面临数据治理挑战,建议企业优先使用API进行验证 [36][39] - 2B领域数据治理和处理服务需求旺盛,国内加速推进数据要素市场建设 [36] 基础设施与工程实践 - 训练大模型成本极高,智源发起OpenSeek开源项目,已吸引100多位贡献者 [9][10] - OpenSeek处理约100亿网页数据,构建4亿条CoT数据集,计划全面开源 [11] - 系统训练层面缺乏成熟框架支持,DeepSeek公开自研五个项目提升训练效率 [12] - 行业Infra团队和人才稀缺,更多关注0到1搭建而非1到100的优化 [21] - 虚拟机技术可能走红,因工具调用需要沙盒化环境执行任务 [84]