ResNet(残差网络)
搜索文档
大模型淘汰赛下半场,阶跃的底牌是什么?
虎嗅APP· 2026-01-26 18:26
行业融资与竞争格局 - 大模型行业融资出现明显分化,能完成大额融资的公司已不多,竞技赛上半场已接近尾声[2] - 阶跃星辰完成超50亿元B+轮融资,刷新了过去12个月大模型赛道单笔融资纪录[2] - 近期大模型独角兽企业智谱和MiniMax相继登陆资本市场,其中MiniMax上市后市值一度突破千亿港元,表明资本市场开始用更细分、更务实的商业逻辑审视模型公司的长期价值[2] - 大模型“六小虎”在过去一年出现明显分化:智谱和MiniMax已上市,零一和百川转向更垂直或保守的业务形态[18] 阶跃星辰的核心战略与商业模式 - 公司是头部模型公司中唯一重押“AI+终端”闭环赛道且商业化路径相对清晰的一家[3] - 其商业路线并非单纯售卖模型或API,而是将大模型能力直接嵌入汽车、手机等终端产品,与硬件厂商深度绑定合作,通过深度参与产品共创实现稳定、可持续的商业变现[5] - “AI+终端”被认为是当前所有大模型路径中最容易跑通商业闭环的一条,相比纯ToB的项目制、交付制模式扩张速度受限,以及ToC面临的用户规模与变现能力错位问题,更具优势[9] - 公司终端Agent API调用量连续三个季度增长近170%,开放平台API调用量过去一年增长近20倍,活跃用户增长5倍[9] “AI+终端”的具体落地与优势 - 在车端,公司与吉利汽车集团和千里科技合作,将端到端语音交互、多模态理解等能力应用于智能座舱Agent OS中[5] - 吉利银河M9作为行业内首个搭载端到端语音模型的量产车型,上市3个月销量接近4万辆[5] - AI+车的商业模式清晰,模型通过整车成本体系,以车企采购、软件授权(如NRE、License)、长期服务合同等方式实现规模化收入,具备客户集中、合同周期长、续费与升级路径明确的特征[5][6] - 在手机端,公司已与国内60%的头部手机品牌达成合作,覆盖OPPO、荣耀、中兴等品牌旗舰机型[7] - 公司推出支持端云结合的Step-GUI系列模型,其中端侧4B版本可直接部署在手机本地运行,使手机成为AI能力载体[7] - 端侧模型的价值在于天然适配硬件厂商的商业逻辑:一次集成、长期出货、规模复制,收入随硬件出货量递增,更接近消费电子时代的盈利方式[8] 公司的核心团队与能力支撑 - 印奇正式加入公司担任董事长,其职业轨迹穿越了中国AI产业的两个周期,创办旷视并推动AI+IoT在产业侧的真实落地,对技术如何被真正应用有深刻体感[11][12] - 印奇在阶跃星辰成立初期就已参与战略规划,且其作为千里科技董事长,与吉利汽车体系保持紧密联系,为“AI+终端”布局提供产业协同优势[11][12] - CEO姜大昕曾担任微软全球副总裁,负责必应搜索引擎核心研发,拥有将AI嵌入全球大流量产品的工程化、产品化经验[13] - 首席科学家张祥雨是经典论文ResNet的四位作者之一,其Google Scholar引用数已超过41万次,代表公司前沿算法能力[14] - 系统负责人朱亦博是国内AI Infra领域拥有多次单集群万卡以上系统建设与运维经验的从业者,精通算力调度、训练稳定性与成本结构,其系统与算法协同能力对“AI+终端”路径至关重要[14][15][16] - 公司复合型人才结构,结合了产业落地经验、顶级工程体系经验以及前沿研究能力,成为难以复制的壁垒[16] 行业下半场的竞争关键 - 行业竞争评判标准发生变化,基座模型能力不再是唯一衡量指标[19] - 决定公司能否长期留在牌桌上的关键变量包括:资金储备是否充足且可持续、收入结构与成本控制是否健康、系统工程能力如何,以及商业路径是否足够清晰[19] - 在模型能力尚未彻底拉开代际差距的情况下,谁能率先跑通商业模式,谁就拥有更长的时间窗口等待下一次技术跃迁[19] - 阶跃星辰在多模态模型上领先优势明显,并已率先找到一条能够长期存活、尽早形成现金流闭环的路径[18]
梁文锋DeepSeek新论文!接棒何恺明和字节,又稳了稳AI的“地基”
新浪财经· 2026-01-02 13:27
文章核心观点 - DeepSeek发布论文《mHC: Manifold-Constrained Hyper-Connections》,提出对Transformer架构最基础的残差连接组件进行重要改进,这是该领域十年来的一次根本性创新 [1] - mHC旨在解决其前身技术Hyper-Connections带来的训练不稳定问题,通过引入数学约束(双随机矩阵)为连接权重加上“数学护栏”,在保持性能提升的同时确保训练稳定 [5][10] - 这项创新不仅是算法突破,更展示了DeepSeek将复杂数学方案高效落地到大规模训练系统中的顶尖工程能力,是其核心竞争优势的体现 [15][16] 技术演进背景 - 残差连接由何恺明等人于2015年提出,其核心公式y = x + F(x)解决了深度神经网络的梯度消失问题,使训练成百上千层的网络成为可能,并因此获得CVPR 2016最佳论文奖 [3] - 自2017年Transformer问世以来,残差连接成为几乎所有主流大模型(如GPT、Claude、Llama、DeepSeek)的架构标配 [3] - 2024年9月,字节跳动提出Hyper-Connections,将单一残差流扩展为多流并行架构,实验显示能显著提升模型性能,在MoE模型上实现1.8倍的收敛加速,但带来了训练不稳定的新问题 [5] - 从ResNet到Hyper-Connections再到mHC,这是一场跨越十年的技术接力演进 [5] mHC的技术原理与创新 - mHC的核心创新是将连接权重矩阵约束在“双随机矩阵”的数学空间内,该矩阵所有元素非负,且每行、每列元素之和均为1 [10] - 此约束的数学效果是使输出信号成为输入各分量的“凸组合”(加权平均),确保结果不会超过输入最大值,从而防止信号在多层传播中被无限放大,保证了能量守恒 [10] - 双随机矩阵的谱范数恒小于等于1,这意味着对应的线性变换是“非扩张的”,无论前向还是反向传播,信号都不会被无限放大 [10] - 具体实现采用Sinkhorn-Knopp算法,通过交替进行行归一化和列归一化迭代生成双随机矩阵,论文表明仅需3次迭代即可达到足够精度,且整个过程可微分,支持端到端训练 [11] - 该方案未引入新超参数,也未改变模型表达能力,只是为权重矩阵增加了可证明的安全边界 [12] 实验效果与影响范围 - 实验结果显示,在7B规模的Dense模型训练中,采用mHC的模型全程未出现任何Loss尖峰 [12] - 在MoE模型上,mHC实现了与Hyper-Connections相近的约1.8倍收敛速度提升 [12] - 这是一个“富人的问题”,训练不稳定问题仅在训练超大规模模型(例如270亿参数以上)时才会显现,对DeepSeek等前沿实验室是必须解决的工程难题,普通研究者可能不会遇到 [10] 工程实现与公司能力 - 为了让理论上完美的数学方案落地,DeepSeek未调用现成库,而是直接手写底层CUDA内核代码,利用算子融合技术将复杂计算塞进毫秒级的训练循环中 [16] - 公司采用了激进的“选择性重计算”策略,并在多卡训练中开辟专用计算流来掩盖通信延迟 [16] - 这种将算法灵感稳定、高效地落地到整个算力体系(包括重写内核、内存管理、节点通信)的工程能力,被认为是前沿实验室的标志,也是DeepSeek的最大优势 [16] - 业内评价认为,这篇论文表面是架构论文,实际上是DeepSeek“秀肌肉”的硬核工程论文 [15] 战略意义与发展脉络 - mHC符合DeepSeek近两年的发展主线:在有限资源下,通过架构创新最大化效率,用数学约束解决工程问题,用架构创新突破资源瓶颈 [14] - 根据DeepSeek研究员与Kimi研究员的交流,hyper-connections(mHC的技术根基)被认为是2025年最值得关注的两大架构创新之一,这意味着mHC可能只是公司在这条技术路线上的第一步 [14] - 如果mHC被整合进下一代模型,结合此前的一系列技术和工程创新,可能会催生一个在效率、性能和稳定性上全面升级的新架构 [15] - DeepSeek创始人梁文锋出现在论文的19位作者名单中,显示了公司高层对该技术创新的直接参与和重视 [1]