ResNet（残差网络） - 财报，业绩电话会，研报，新闻

ResNet（残差网络）

搜索文档

虎嗅APP· 2026-01-26 18:26

行业融资与竞争格局 - 大模型行业融资出现明显分化，能完成大额融资的公司已不多，竞技赛上半场已接近尾声[2] - 阶跃星辰完成超50亿元B+轮融资，刷新了过去12个月大模型赛道单笔融资纪录[2] - 近期大模型独角兽企业智谱和MiniMax相继登陆资本市场，其中MiniMax上市后市值一度突破千亿港元，表明资本市场开始用更细分、更务实的商业逻辑审视模型公司的长期价值[2] - 大模型“六小虎”在过去一年出现明显分化：智谱和MiniMax已上市，零一和百川转向更垂直或保守的业务形态[18] 阶跃星辰的核心战略与商业模式 - 公司是头部模型公司中唯一重押“AI+终端”闭环赛道且商业化路径相对清晰的一家[3] - 其商业路线并非单纯售卖模型或API，而是将大模型能力直接嵌入汽车、手机等终端产品，与硬件厂商深度绑定合作，通过深度参与产品共创实现稳定、可持续的商业变现[5] - “AI+终端”被认为是当前所有大模型路径中最容易跑通商业闭环的一条，相比纯ToB的项目制、交付制模式扩张速度受限，以及ToC面临的用户规模与变现能力错位问题，更具优势[9] - 公司终端Agent API调用量连续三个季度增长近170%，开放平台API调用量过去一年增长近20倍，活跃用户增长5倍[9] “AI+终端”的具体落地与优势 - 在车端，公司与吉利汽车集团和千里科技合作，将端到端语音交互、多模态理解等能力应用于智能座舱Agent OS中[5] - 吉利银河M9作为行业内首个搭载端到端语音模型的量产车型，上市3个月销量接近4万辆[5] - AI+车的商业模式清晰，模型通过整车成本体系，以车企采购、软件授权（如NRE、License）、长期服务合同等方式实现规模化收入，具备客户集中、合同周期长、续费与升级路径明确的特征[5][6] - 在手机端，公司已与国内60%的头部手机品牌达成合作，覆盖OPPO、荣耀、中兴等品牌旗舰机型[7] - 公司推出支持端云结合的Step-GUI系列模型，其中端侧4B版本可直接部署在手机本地运行，使手机成为AI能力载体[7] - 端侧模型的价值在于天然适配硬件厂商的商业逻辑：一次集成、长期出货、规模复制，收入随硬件出货量递增，更接近消费电子时代的盈利方式[8] 公司的核心团队与能力支撑 - 印奇正式加入公司担任董事长，其职业轨迹穿越了中国AI产业的两个周期，创办旷视并推动AI+IoT在产业侧的真实落地，对技术如何被真正应用有深刻体感[11][12] - 印奇在阶跃星辰成立初期就已参与战略规划，且其作为千里科技董事长，与吉利汽车体系保持紧密联系，为“AI+终端”布局提供产业协同优势[11][12] - CEO姜大昕曾担任微软全球副总裁，负责必应搜索引擎核心研发，拥有将AI嵌入全球大流量产品的工程化、产品化经验[13] - 首席科学家张祥雨是经典论文ResNet的四位作者之一，其Google Scholar引用数已超过41万次，代表公司前沿算法能力[14] - 系统负责人朱亦博是国内AI Infra领域拥有多次单集群万卡以上系统建设与运维经验的从业者，精通算力调度、训练稳定性与成本结构，其系统与算法协同能力对“AI+终端”路径至关重要[14][15][16] - 公司复合型人才结构，结合了产业落地经验、顶级工程体系经验以及前沿研究能力，成为难以复制的壁垒[16] 行业下半场的竞争关键 - 行业竞争评判标准发生变化，基座模型能力不再是唯一衡量指标[19] - 决定公司能否长期留在牌桌上的关键变量包括：资金储备是否充足且可持续、收入结构与成本控制是否健康、系统工程能力如何，以及商业路径是否足够清晰[19] - 在模型能力尚未彻底拉开代际差距的情况下，谁能率先跑通商业模式，谁就拥有更长的时间窗口等待下一次技术跃迁[19] - 阶跃星辰在多模态模型上领先优势明显，并已率先找到一条能够长期存活、尽早形成现金流闭环的路径[18]

大模型

AI+终端

云端结合

Artificial Intelligence

Artificial Intelligence

大模型

Step - GUI系列模型

梁文锋DeepSeek新论文！接棒何恺明和字节，又稳了稳AI的“地基”

新浪财经· 2026-01-02 13:27

文章核心观点 - DeepSeek发布论文《mHC: Manifold-Constrained Hyper-Connections》，提出对Transformer架构最基础的残差连接组件进行重要改进，这是该领域十年来的一次根本性创新 [1] - mHC旨在解决其前身技术Hyper-Connections带来的训练不稳定问题，通过引入数学约束（双随机矩阵）为连接权重加上“数学护栏”，在保持性能提升的同时确保训练稳定 [5][10] - 这项创新不仅是算法突破，更展示了DeepSeek将复杂数学方案高效落地到大规模训练系统中的顶尖工程能力，是其核心竞争优势的体现 [15][16] 技术演进背景 - 残差连接由何恺明等人于2015年提出，其核心公式y = x + F(x)解决了深度神经网络的梯度消失问题，使训练成百上千层的网络成为可能，并因此获得CVPR 2016最佳论文奖 [3] - 自2017年Transformer问世以来，残差连接成为几乎所有主流大模型（如GPT、Claude、Llama、DeepSeek）的架构标配 [3] - 2024年9月，字节跳动提出Hyper-Connections，将单一残差流扩展为多流并行架构，实验显示能显著提升模型性能，在MoE模型上实现1.8倍的收敛加速，但带来了训练不稳定的新问题 [5] - 从ResNet到Hyper-Connections再到mHC，这是一场跨越十年的技术接力演进 [5] mHC的技术原理与创新 - mHC的核心创新是将连接权重矩阵约束在“双随机矩阵”的数学空间内，该矩阵所有元素非负，且每行、每列元素之和均为1 [10] - 此约束的数学效果是使输出信号成为输入各分量的“凸组合”（加权平均），确保结果不会超过输入最大值，从而防止信号在多层传播中被无限放大，保证了能量守恒 [10] - 双随机矩阵的谱范数恒小于等于1，这意味着对应的线性变换是“非扩张的”，无论前向还是反向传播，信号都不会被无限放大 [10] - 具体实现采用Sinkhorn-Knopp算法，通过交替进行行归一化和列归一化迭代生成双随机矩阵，论文表明仅需3次迭代即可达到足够精度，且整个过程可微分，支持端到端训练 [11] - 该方案未引入新超参数，也未改变模型表达能力，只是为权重矩阵增加了可证明的安全边界 [12] 实验效果与影响范围 - 实验结果显示，在7B规模的Dense模型训练中，采用mHC的模型全程未出现任何Loss尖峰 [12] - 在MoE模型上，mHC实现了与Hyper-Connections相近的约1.8倍收敛速度提升 [12] - 这是一个“富人的问题”，训练不稳定问题仅在训练超大规模模型（例如270亿参数以上）时才会显现，对DeepSeek等前沿实验室是必须解决的工程难题，普通研究者可能不会遇到 [10] 工程实现与公司能力 - 为了让理论上完美的数学方案落地，DeepSeek未调用现成库，而是直接手写底层CUDA内核代码，利用算子融合技术将复杂计算塞进毫秒级的训练循环中 [16] - 公司采用了激进的“选择性重计算”策略，并在多卡训练中开辟专用计算流来掩盖通信延迟 [16] - 这种将算法灵感稳定、高效地落地到整个算力体系（包括重写内核、内存管理、节点通信）的工程能力，被认为是前沿实验室的标志，也是DeepSeek的最大优势 [16] - 业内评价认为，这篇论文表面是架构论文，实际上是DeepSeek“秀肌肉”的硬核工程论文 [15] 战略意义与发展脉络 - mHC符合DeepSeek近两年的发展主线：在有限资源下，通过架构创新最大化效率，用数学约束解决工程问题，用架构创新突破资源瓶颈 [14] - 根据DeepSeek研究员与Kimi研究员的交流，hyper-connections（mHC的技术根基）被认为是2025年最值得关注的两大架构创新之一，这意味着mHC可能只是公司在这条技术路线上的第一步 [14] - 如果mHC被整合进下一代模型，结合此前的一系列技术和工程创新，可能会催生一个在效率、性能和稳定性上全面升级的新架构 [15] - DeepSeek创始人梁文锋出现在论文的19位作者名单中，显示了公司高层对该技术创新的直接参与和重视 [1]

Artificial Intelligence

Artificial Intelligence

mHC（流形约束超连接）

ResNet（残差网络）