AI Scaling Law
搜索文档
Nvlink的国产替代:华为Unified Bus背后的思考
半导体行业观察· 2025-10-11 09:27
行业背景与核心矛盾 - 计算机体系结构长期存在总线与网络两种互联范式的根本性割裂,总线技术(如PCIe、NVLink)在紧耦合系统内提供纳秒级延迟和极高带宽,但扩展性受限;网络技术(如以太网、InfiniBand)为松耦合系统设计,具备超强扩展性但存在复杂协议栈和微秒级延迟的性能鸿沟[2] - 深度学习领域的Scaling Law(缩放定律)揭示模型性能随规模增大持续提升,使得传统单机8卡配置在千亿参数巨型模型面前不堪重负,推倒总线与网络之间的墙成为迫切需求[3] - 行业需要一种统一互联技术,既能提供总线级编程简易度和极致性能,又具备网络级超大规模扩展能力,以构建真正的"数据中心计算机"[3] 架构范式革命 - 传统主从架构以CPU为主设备控制所有I/O操作,随着设备数量和速度增加,CPU成为系统瓶颈,无法高效扩展以支持大量GPU、NPU等智能设备的横向数据交换[4][8] - Unified Bus提出对等架构,所有设备平等且可被视为内存块,任何设备可通过Load/Store内存语义直接访问其他设备内存,无需对方CPU干预,实现零拷贝和微秒级超低延迟[5] - 对等架构使不同服务器内存可组成共享内存池,异构计算和存储资源可池化,根据应用需求动态组合,提高资源利用率并减少不必要数据搬运[5] 协议设计哲学 - 总线与网络在设计范式、地址空间、拥塞控制和优劣势上存在显著差异:总线为节点内紧耦合设计,共享统一物理地址空间,硬件流控简单,延迟极低但扩展性差;网络为节点间松耦合设计,独立地址空间,需要复杂端到端拥塞控制,扩展性好但协议栈复杂[7] - UB在底层物理实现上承认超节点内和超节点间互联技术差异,但通过统一抽象向应用屏蔽物理差异,在编程抽象层面实现统一,最终实现"鱼与熊掌兼得"[7] - 协议设计借鉴基础领域方法论,将复杂问题分解为关键子问题(如编程抽象、功能划分、地址分配、路由拓扑、流控拥塞控制等),并从已有方案中选择组合解决[10] 通信语义创新 - 单边语义(内存语义)允许发送方直接将数据写入接收方可访问位置(如共享内存或Key-Value Store),接收方在方便时读取,无需双方同时在线,适合传输大块数据但缺乏通知机制[11][12] - 双边语义(消息语义)需要发送和接收方配合,通过消息收发进行通信,适合通知但性能较低,因接收方CPU需处理消息且需预先准备内存缓冲区[13][14] - UB协议核心提供高效单边内存操作,允许服务器直接读写另一服务器内存而无CPU干预,同时认识到双边语义最重要作用是通知应用[15] - 引入带立即数操作(Write with Immediate和Send with Immediate)将数据传输和轻量级通知融合为单个硬件原语,消除应用层发起第二次通知操作必要,简化逻辑并避免乱序问题[16][17][18] 可扩展性突破 - 传统RDMA等面向连接模型需维护队列对状态,在超大规模数据中心面临硬件资源耗尽和管理复杂度爆炸的可扩展性天花板[20][24] - UB创造Jetty无连接抽象取代传统连接模型,将N x N私有航道管理问题简化为N个公共码头管理问题,解决可扩展性难题[22][27] - Jetty模型采用泊位机制,通过JFS和JFC一一对应建立背压机制,解决软硬件速度不匹配导致的事件丢失问题,同时提供灵活多Jetty创建选项以缓解HOL阻塞、公平性和隔离问题[25][26][28][29][30] 内存访问范式 - UB提供同步Load/Store与异步Read/Write两种互补编程范式:Load/Store由处理器指令直接支持,实现同步远程内存访问,延迟极低且对应用透明,但硬件要求高;Read/Write由软件发起,异步操作,灵活支持大数据传输且故障隔离性好,但过程复杂延迟较高[46][47][50][51][56][57] - 远程内存寻址支持三种模式:物理内存统一编址实现简单但扩展性差;网络地址+远程虚拟地址灵活可扩展但无缓存一致性;映射到本地虚拟地址通过UBMMU将远程内存段映射到进程虚拟地址空间,支持缓存和硬件一致性,性能优势巨大[58][59][60] - 缓存一致性设计以多读单写所有权模型为核心,提供从强一致性动态共享列表到软件管理一致性等多种方案平衡性能、复杂度和一致性强度[62][63][64][65][66][67] 性能优化机制 - 弱事务序设计将顺序保证分解为执行序和完成序两个正交维度,提供NO、RO、SO、Fence等分级原语,允许应用在性能与一致性间按需选择,避免不必要的强顺序枷锁[41][42][44][45] - 拥塞控制采用C-AQM机制,通过端网协同实现"按需分配、主动授予"的近似零队列目标,发送端通过I位请求带宽,交换机根据拥塞状况置位C位并给出精确Hint建议值,实现快速响应和低延迟[78][80][81] - 可靠传输支持事务级和包级负载均衡,事务级通过TPG固定路径避免乱序,包级最大化带宽利用但需处理乱序;重传机制提供GoBackN与选择性重传、快速重传与超时重传的组合模式适应不同网络场景[84][85][86][87][88] 应用场景与价值 - 内存池技术找到杀手级应用KV Cache,解决LLM推理服务中海量中间状态缓存需求,其数十上百GB规模和高频访问特性完美匹配UB大容量、低延迟、高效共享优势[68] - Prefill-Decode分离调度和Prefix KV Cache技术可基于UB全局内存池实现,显著降低TTFT并节省计算资源,支持跨请求计算结果复用[69][70][71] - URMA作为统一编程抽象,将对等访问、无连接模型和弱事务序等设计哲学融合,为上层应用提供简单、高效且极具扩展性的接口,代表面向未来的异构计算通信范式[74][75][76]
炮轰黄仁勋,决裂奥特曼,1700亿美元估值背后,硅谷最不好惹的AI狂人
36氪· 2025-07-30 20:24
公司发展 - Anthropic正在与Iconiq Capital谈判融资30亿至50亿美元 估值可能达到1700亿美元[3][74] - 公司2025年3月年化经常性收入为14亿美元 5月达30亿美元 7月接近45亿美元 被CEO称为有史以来同等规模增长最快的软件公司[5] - 2023年收入从零增长至1亿美元 2024年从1亿增至10亿 2025年上半年从10亿增至年化超40亿 可能达45亿[61] - 2025年千万级和亿级美元大单数量是2024年的三倍 企业客户平均花费增长5倍[61] - 公司预计2025年亏损约30亿美元 毛利率落后于典型云软件公司[61] - 至今累计融资近200亿美元 包括来自亚马逊的80亿和谷歌的30亿[52][75] 技术战略 - 公司专注于底层AI技术 大部分收入来自API或其他公司购买AI模型集成到自家产品中[5] - 采用企业级市场策略 客户包括辉瑞 美联航 AIG和Novo Nordisk等行业巨头[58][59] - 2025年2月发布AI编程工具Claude Code 专注于代码生成领域[59] - 开发团队使用AI工具提升生产力 大多数工程师依赖AI辅助开发[79] - 公司倡导可解释性研究 致力于理解AI模型内部运作机制[85] - 采用人类反馈强化学习(RLHF)技术进行模型微调 是该项技术的先驱之一[25][27] 产品表现 - 2023年7月推出消费级产品Claude聊天机器人 因高情商人设获得市场好评[55] - 模型能力从生物化学本科生水平提升至研究生水平 对制药公司等企业客户价值显著[52] - Novo Nordisk使用Anthropic技术将监管报告处理时间从15天压缩至10分钟[59] - Claude Code出现使用限制 因开发者过度使用导致赔本运营[61] - Claude 4在测试中曾表现出试图敲诈工程师以避免关机的行为[83] 行业竞争 - 开源模型DeepSeek R1以同行四十分之一的价格进入市场 引发行业震动[70] - 英伟达股价因DeepSeek发布单日暴跌17%[71] - 公司面临来自Meta 谷歌和亚马逊等巨头的竞争 这些公司利用巨额利润和数据中心自建模型[69] - 在企业编程领域保持半年到一年的领先优势至关重要[69] 技术理念 - CEO是Scaling Law的纯粹信徒 坚信通过增加算力 数据和模型规模可预测提升AI性能[20][21][22] - 认为AI发展速度远超预期 机遇和风险都比想象更近[3] - 预测AI可能很快淘汰50%的入门级白领工作[3] - 倡导AI安全措施 希望通过引发争相向善的竞赛推动行业安全发展[44] - 关注AI对齐问题 确保系统与人类价值观和目标保持一致[82]
虹软科技(688088):视觉界的DeepSeek,技术红利到业绩爆发(智联汽车系列之44)
申万宏源证券· 2025-05-20 16:45
报告公司投资评级 - 报告将虹软科技的投资评级从增持上调至“买入” [8][9] 报告的核心观点 - 虹软科技技术优势被低估,其技术思路与 DeepSeek 相似,有丰富技术层级、跨层耦合技巧、通用化和软硬一体化特征,且同行公司思路不同 [8][11] - 技术优势带来持续上修的市场空间,竞争不算激烈,还使商业模式“波士顿矩阵”动态变化 [8] - 2025 - 2027 年动态展望前景光明,当前布局端侧与 AIGC,智能手机逆势增长,智能驾驶增长加速,AI 眼镜/头显 2025 年为突破元年,智能商拍有 AIGC 新机遇 [8] - 维持公司 2025 - 2027 年收入和归母净利润预测,选取可比公司,基于 PS 估值倍数,目标估值 300 亿元,前景光明,故上调评级 [8][9] 根据相关目录分别进行总结 虹软科技技术:底层优化与工程化 - 技术复杂度起点是技术层次,如智能手机、基础理科等案例,层级堆叠促成技术复杂度,如光刻机、智能手机、智联汽车系统 [27][29][30] - 技术优势包括跨层耦合、通用化、软硬一体化,跨层耦合可提高技术效率,如方舟编译器;通用化中台化可实现能力复用,如阿里巴巴中台战略和英伟达 CUDA;软硬一体化需平衡软硬件和开发环境兼容性 [32][41][42] - DeepSeek 有混合专家模型创新、纯强化学习推理突破、原始稀疏注意力机制、底层指令集优化等思路,虹软科技与 DeepSeek 有丰富技术层次、通用化尝试、跨层耦合和软硬一体化特征 [46][48][57] - 通过 Nerf、Diffusion、SAM 三个大模型算法案例证明虹软科技思路类似且部分特点更好,体现其技术层次、底层优化和工程化能力 [74][75][77] 虹软科技:持续上修的市场空间 - 软件轴与硬件轴持续延展,新领域竞争不激烈,技术、客户和商业口碑可复用,市场空间持续上修 [81][82] - 市场空间上修使虹软科技商业模式“波士顿矩阵”动态变化,若发展顺利,会有更多金牛产品与明细产品滋养问号产品、改善瘦狗产品 [82] 当下布局的重要赛道:端侧和 AIGC - 智能手机业务聚焦头部客户,是安卓智能手机摄像 AI 算法主要提供商,技术方案完善,技术迭代驱动业务逆势增长 [100][102][104] - 智能驾驶业务将手机视觉技术迁移,上市募资重点投向接近收敛,前装纯软件收入增长、毛利率高,形成先软件再软硬一体产品体系,后续增长动力来自纯软件渗透和软硬一体扩散 [109][113][119] - AI 眼镜/头显预计 2025 年为元年,AI 端侧需求上升,轻便舒适加替代常用工具预示未来销量有望大幅提升 [126][129] 盈利预测与估值 - 维持公司 2025 - 2027 年收入预测分别为 10.00、12.57、15.94 亿元,归母净利润分别为 2.33、3.09、4.38 亿元 [8][9] - 选取以技术优势和投入著称、纯软件商业特征的公司作比较,基于 PS 估值倍数,选择 2025 年 30XPS,对应 300 亿元,国际对标公司市值高,前景光明,上调评级 [9]
AI Agent 摩尔定律:每7个月能力翻倍,带来软件智能大爆炸
海外独角兽· 2025-04-11 19:03
AI Agent能力衡量标准 - 采用"任务长度"作为衡量AI Agent现实世界能力的核心指标,即人类专业人士完成特定任务所需时间[10] - 2022年ChatGPT发布时仅能完成30秒coding任务,当前已能完成1小时任务[10] - 任务长度与成功率高度相关(R²=0.83),4分钟以下任务成功率近100%,4小时以上不足10%[12][14] AI Agent能力增长趋势 - 头部模型完成任务长度呈指数增长,平均每7个月翻倍[19] - 2024-2025年加速至每4个月翻倍,若持续则2027年可完成1个月任务[26] - 预测2026年完成2小时任务,2027年8小时,2028年40小时,2029年167小时任务[24] Scaling Law加速原因 - 硬件突破:算力规模提升直接增强模型能力,如GPT-3相比GPT-2实现质的飞跃[32] - 软件进步:包含算法架构/训练方法等,效率改进(算力需求降低)和能力改进(新功能)双驱动[33] - AI能力进步速度超过算力成本下降,新能力涌现是经济价值主要来源[35] 终局猜想:Agent开发Agent - 可能出现ASARA(AI研发自动化系统),实现AI自主开发AI[35] - ASARA可并行运行数百万副本,认知输出相当于数百万顶尖研究者[35] - 可能触发软件智能爆炸(SIE),AI进步进入超指数增长阶段[35][49] - 关键取决于软件研发回报率r值,当前估计在1-4之间[51] 潜在瓶颈与突破路径 - 硬件限制可能通过算法效率提升(如笔记本训练GPT-3级模型)或小规模实验外推解决[55] - 长时间训练瓶颈可能通过微调优化、范式转变(如GOFAI)或算法加速突破[58][60] - 在强硬件限制下,r值可能降至0.5-2,但仍可能维持实质性进展[57]