Workflow
Transformer架构
icon
搜索文档
苏姿丰和她的“去英伟达”战争
创业邦· 2026-03-18 11:40
公司市值与市场地位演变 - 公司市值从2014年不到30亿美元增长至超过3150亿美元,增长超过百倍 [5] - 市值暴涨始于2018年,与Transformer架构推动AI新阶段及GPU需求爆发的时间点吻合 [5] - 当前AI芯片市场竞争已演变成涵盖算力、性能、成本、能源依赖及供应链产能的多维度竞争 [5] 公司战略与产品路线图 - 公司过去主要与英特尔竞争,但在AI时代游戏规则已变,于2018年向云计算领域重要转向,推出首款针对AI工作负载的Instinct系列数据中心GPU [9] - 公司首席执行官很早就注意到AI推理的价值,并在2023年推出了具有推理领先优势的MI300X系列 [9] - 2025年6月成为公司转折点,宣布开始出货MI350系列,其推理性能比上一代产品“快35倍” [9] - 公司修订了对AI处理器市场规模的预期,此前预测2028年达到5000亿美元,在2025年中期预计将提前实现 [11] - 公司首席执行官激进预测,2026年亮相的MI400系列将实现对英伟达的大幅度超越 [11] - 在CES 2026上正式公布MI450系列,相当于MI300X加MI350的结合体,是一次阶梯式的性能跨越,旨在打破AI推理的“内存墙”限制 [13] - MI455X系列相较于MI355X拥有10倍的性能提升,搭载于新的开放式72卡服务器“Helios” [13] - Helios系统提供2.9 Exaflops的FP8算力,是一个通往Yotta级计算扩展的开放式机架平台 [16] - 路线图显示,2027年将推出由cDNA6架构驱动、采用2纳米工艺的MI500系列,旨在实现AI性能的又一次重大飞跃 [16] - 公司首席执行官提出“未来四年,要实现AI性能1000倍的提升” [16] 客户合作与生态构建 - 公司首席执行官在中国大陆跑客户很勤,2025年有两次公开来华行程,首站均与联想有关 [6] - 公司与OpenAI展开深度合作,包括共同开发MI450芯片,并通过“股权换订单”方式绑定 [13] - 2025年10月,公司与OpenAI签署一项6吉瓦的GPU供应协议,采用多代Instinct GPU支持其下一代AI基础设施 [18] - 作为协议一部分,公司向OpenAI授予认购最多1.6亿股普通股的权证,行权价为每股0.01美元,权证将根据部署里程碑和业绩目标分批归属 [18] - 2026年2月,公司将类似“股权换订单”协议复制到与Meta的合作中,达成另一项6吉瓦协议,并向Meta授予最多可认购1.6亿股(约占公司股份10%)的基于业绩的权证 [19] - 分析师估计与Meta的协议至少在四年内价值数百亿美元 [20] - 公司首席执行官解释,发行认股权证可以加速交易中的购买行为,加速生态系统构建,并激励双方达成目标,对股东是“双赢” [20] - 公司通过旗下投资部门进行广泛的生态布局,投资了AI云初创公司TensorWave、世界模型项目World Labs、新架构模型公司Liquid AI以及光互联AI芯片公司等 [21] - 投资版图涵盖从AI药物发现、数据标注到生成视频AI和多模态模型等多个领域,勾勒出围绕Instinct GPU的生态未来图景 [24] 供应链与产能挑战 - 产能是半导体产业的关键,产品与客户订单的兑现依赖于芯片代工和关键器件的供应产能 [26] - 2026年台积电的CoWoS先进封装总产能预计在115万晶圆左右,公司预定了其中8%的产能,约9万片晶圆 [27] - 按MI400单个封装估算,一片CoWoS晶圆预计可切8-10颗芯片,公司2026年预计将产出约90万颗MI400,可折算成约1.25万台72卡的Helios机架 [27] - 生产90万颗MI400至少需要1080万颗HBM内存 [27] - 公司手握OpenAI和Meta总计16吉瓦的订单,HBM供应稳定性直接关系到交付,但关键供应商三星同时也是英伟达的HBM供应商,锁定理想产能难度加大 [27] - 公司首席执行官将于2026年3月18日访问韩国,预计会见三星电子会长等关键合作伙伴,讨论扩大HBM供应及晶圆代工合作(如2纳米EPYC Venice CPU生产) [28] - 公司首席执行官表示已为MI450放量和HBM4切换做好规划,对HBM供应感觉良好,但承认存储颗粒价格正在推高系统价格 [28] - 公司访问韩国期间也将会见Naver CEO,Naver正在执行“多供应商”战略以降低对英伟达依赖,这为公司打开了市场机会窗口 [29] 财务表现与增长目标 - 2025年第四财季,公司营收、净利润和自由现金流均创下历史新高,数据中心部门营收同比增长39%至创纪录的54亿美元 [30] - 公司首席执行官表示2025年是极好的一年,标志着新增长轨迹的开始,公司正进入高性能和AI计算的多年需求超级周期 [30] - 公司在金融分析师日上设定目标:在未来三到五年内实现超过35%的年复合增长率,显著扩大利润率,并在战略时间框架内产生超过20美元的每股收益 [30] - 增长与扩张的引擎将主要来自数据中心业务,公司必须同时做好与硅谷大客户深度绑定、投资未来、构建稳固供应链生态、保障产品性能与稳定性等几件事 [30]
2017,制造奥本海默
创业邦· 2026-03-12 18:22
文章核心观点 - 2017年谷歌发布的Transformer架构论文是人工智能发展的关键转折点,但其革命性在当时被包括谷歌在内的全球科技公司严重低估 [6][9][10] - 唯一深刻认识到Transformer潜力的是OpenAI,其技术骨干Ilya Sutskever力排众议,集中资源开发GPT系列模型,最终通过Scaling Laws(规模定律)和ChatGPT引爆了全球AI革命 [12][34][35][40] - 人工智能的发展历程充满了技术路线的分歧(如谷歌的“判别式”BERT与OpenAI的“生成式”GPT)、巨头的战略误判、资本与安全的博弈,最终由OpenAI用谷歌发明的武器改变了行业格局 [28][33][48] 技术演进与关键突破 - **2012年计算机视觉突破**:Geoffrey Hinton团队使用卷积神经网络(CNN)在ImageNet比赛中以84%的准确率夺冠,推动了AI产业化,但其学生Ilya Sutskever后来成为OpenAI和GPT系列的核心 [16][18] - **自然语言处理(NLP)的早期困境**:在Transformer之前,NLP领域主流算法循环神经网络(RNN)存在计算效率低和“长距离依赖”问题,导致商业化前景黯淡 [20] - **2017年Transformer诞生**:谷歌研究人员为提升机器翻译效率,提出完全基于注意力机制(Attention)的Transformer架构,实现了并行计算,效率指数级提升 [24][25] - **预训练范式的确立**:2018年,ELMo模型证明了预训练思想的可行性,随后谷歌基于Transformer推出BERT模型,在斯坦福大学SQuAD1.1测试中全面超越人类表现 [26] - **Scaling Laws(规模定律)的实践**:OpenAI坚信模型能力随参数、数据、算力规模增长而提升,并在2020年发布拥有1750亿参数的GPT-3模型,验证了该定律,引发行业算力竞赛 [35][40][45] 主要公司动态与竞争格局 - **谷歌的战略起伏**:尽管拥有Transformer和BERT,但初期低估了其潜力,将BERT主要用于优化搜索,后因ChatGPT的冲击才加速AI布局 [10][27][46] - **OpenAI的专注与崛起**:自2018年发布1.17亿参数的GPT-1后,坚持“生成式”技术路线,凭借微软的资金支持,持续扩大模型规模,最终通过ChatGPT(上线5天用户破100万,两个月破1亿)取得颠覆性成功 [12][13][30][40] - **微软的关键角色**:向OpenAI投资10亿美元,获得GPT-3的排他性授权,并利用其为一万张英伟达V100 GPU构建的超算为自家云服务宣传 [40][45] - **英伟达的硬件红利**:其2017年5月推出的搭载Tensor Core的V100 GPU,无意中为Transformer架构提供了理想的算力基础,随后成为AI算力竞赛的核心受益者 [12][45] - **其他巨头的反应**:Meta推出开源大模型参与竞争;错失OpenAI的亚马逊投资了Hugging Face;特斯拉开发了D1芯片和Dojo超算;百度则推出了参数量达2600亿的ERNIE 3.0 Titan [46] - **Anthropic的成立**:因与Sam Altman在AI安全与商业化平衡上的分歧,OpenAI前研究副总裁Dario Amodei离职创办了Anthropic,成为OpenAI的直接竞争对手 [38][48] 产品化与安全对齐 - **从GPT-3到ChatGPT**:GPT-3虽能力强大,但存在幻觉和价值观问题;OpenAI通过人类反馈强化学习(RLHF)训练出更“对齐”的InstructGPT,为ChatGPT的诞生铺平道路 [49][52] - **ChatGPT的发布**:初衷是作为测试GPT-4前的技术预览产品,以收集人类反馈,内部并未预料到其引发的全球风暴 [12][52] - **RLHF的实践与争议**:为进行“对齐”训练,OpenAI以约20万美元合同雇佣肯尼亚外包公司Sama,员工时薪1.32至2美元,负责标注极端有害内容,该合作后因内容过于极端而破裂 [50][52]
大模型:超人智能诞生,迈向硅基文明
泽平宏观· 2026-03-12 00:06
AI大模型的社会影响 - AI大模型是一种建立在海量数据和超大算力之上、具备“通用认知能力”的革命性AI系统,其内部包含数千亿甚至上万亿个参数,能够自主进行内容创作、逻辑推理、编写代码等[5] - 2026年起,AI将全方位重构人类的日常生活、工作模式与社会关系[5] - 技能壁垒被全面打破,借助智能体,不懂代码的普通人也能通过自然语言从零构建百万行代码的产品[5] - 在内容创作领域,凭几句提示词就能调用AIGC工具生成专业级的影视分镜、广告海报等,例如Seedance 2.0生成10秒视频成本约0.60美元[6][8] - 创意门槛降低推动一人公司成为趋势,但单一基础技能的市场价值正在快速衰减[8] - AI将深刻重塑教育体系,基础教育核心转向培养孩子的提问能力、批判性思考、想象力以及人机协同素养[8][9] - 高等教育目标需转向培养能够跨学科整合资源、具备极高审美与战略全局观的“AI指挥专家”[9] - 工作与生活进入人机协作的超级AI助理时代,AI能以智能体形式自动处理家庭账单、定制学习计划、规划旅行路线、撰写邮件、生成会议纪要等事务[10] - 垂直行业大模型让原本昂贵且稀缺的医疗、法律等知识密集型服务变得触手可及,推动顶尖专业资源的平权[11] - 大模型并未立刻带来普惠的认知平权,反而加剧了认知鸿沟,截至2026年初,全球约84%(68亿人)从未接触过AI,深度使用AI的人群占比极低[12][15] - 当前大模型在普通大众中的渗透阶段犹如30年前的互联网,预示着AI海啸仍处于爆发前夜,尽早掌握AI工具是抢占时代先机的关键[15][16] AI大模型的技术原理与演进 - 大模型的本质是用计算机语言“预测下一个词”出现的概率,通过海量阅读寻找特征、计算条件概率,最终生成可能性最高的句子[16] - 2020年LLM大语言模型成型,参数量飙升,使AI能够以大模型的方式实现初步普惠[16] - 2017年谷歌开源的Transformer架构是AI分水岭,其“并行计算”特性打破了顺序枷锁,完美契合GPU的大规模并发算力[16] - GPT选择的技术路线是专注预测下一个词,结构纯粹,部署快,在同等算力下投入产出比做到极致[17] - 当模型参数量突破“百亿”临界点时,AI展现出“涌现”能力,表现出类似人类的推理和思维能力,准确度呈指数级飙升[17] - 大模型过去遵循“大力出奇迹”的Scaling Law,但现已遇到木桶效应和边际效应递减两大瓶颈[17][18] - 性能达到高位后,再提升需要付出几十倍成本,例如推测GPT-5参数是GPT-4的六倍,但性能只是小幅提升,“单纯靠暴力堆算力”的路线快走到头了[18] 大模型未来发展方向 - 行业正从“算力竞赛”转向“架构革命”,核心突破体现在算法效能与感官进化[20] - 在算法层面,行业正经历由“堆料”向“做减法”的转变,以DeepSeek为代表的路径通过混合专家模型、多头潜在注意力机制、知识蒸馏等技术,让模型更轻巧、廉价且聪明[20] - 在感官层面,突破方向是多模态统一,打破文本、图像、音频、视频的壁垒,实现多种数据的统一处理和理解,为具身智能、脑机接口等场景提供数字大脑[20] 全球主流AI大模型格局 - 截至2026年2月,大模型发展正经历从无序竞争到头部集中的演变[21] - 谷歌是AI大模型基础架构的绝对奠基者,其核心主力Gemini是原生多模态领域的标杆,深度内嵌于安卓生态与谷歌搜索,日均处理调用量达数万亿级[21] - OpenAI的GPT-5参数量超10万亿,在个性化交互、更强推理逻辑及编程能力上具有显著优势;GPT-4o的平均响应时长仅需320毫秒[21] - DeepSeek通过算法做减法,大幅降低了推理延迟、算力需求与落地成本,在科研辅助、数学计算和代码编写中表现优异[22] - Anthropic的Claude-3.5-Sonnet表现出色,其衍生的Claude Code在智能编程领域应用深入[22] - xAI的Grok核心壁垒在于与X平台深度绑定,拥有极强的实时热点解析能力[22] - 字节跳动的Seedance 2.0在视频生成等多模态领域成为行业标杆,豆包凭响应速度和拟人化交互占据国内C端市场头部[24] - 月之暗面的Kimi核心壁垒是超长上下文窗口技术,在处理百万字级文档解析、法律合同审查等方面具有极高准确率[24] - 阿里巴巴的开源模型Qwen2.5-72B在准确度测试中名列前茅,并依托电商场景优化商业应用能力[24] - Meta的Llama-3.1-405B作为开源社区的重要力量,在推理与文本生成基准测试中保持较高准确度[24] 大模型未来五大趋势 - 趋势一:AI超级应用爆发后,推理端算力需求将迎来指数级爆发,成为主导未来AI商业版图的核心战场,智能体大规模普及后,推理端算力消耗将呈几何级数膨胀[25] - 趋势二:后训练将全面接棒预训练,成为破局大模型算法瓶颈的核心,行业重心从“预训练”转向“预训练+后训练+实时推理”,让大模型从“通才”向顶尖“专才”跨越[26] - 趋势三:世界模型将大规模落地,赋予AI理解真实物理规律的高级认知能力,其核心是让AI主动探索、与真实物理环境交互,以构建内在知识体系[27] - 趋势四:全球大模型格局加速向头部集中,中国AI力量将在马太效应中确立全球引领地位,国产大模型已被全面拉升至国际第一梯队[28] - 趋势五:人机对齐与AI安全监管,将成为决定硅基文明能否平稳延续的红线,需依赖企业级技术约束与全球主权政府的深度协同监管[29]
FlashAttention-4正式发布:算法流水线大改,矩阵乘法级速度
机器之心· 2026-03-06 12:31
文章核心观点 - FlashAttention-4 作为深度学习底层优化技术的重要更新,通过算法与内核的协同设计,针对新一代 Blackwell GPU 架构进行了优化,显著提升了注意力机制的计算效率 [1] - 在 Blackwell B200 GPU 上,FlashAttention-4 使注意力机制的执行速度几乎与矩阵乘法一样快,前向传播最高可达 1605 TFLOPs/s,利用率为 71% [1][10] - 该技术解决了由硬件非对称扩展带来的新瓶颈,并通过利用 Blackwell 的新硬件特性、新型流水线设计和调度优化实现了性能突破 [5][11] - FlashAttention-4 的发布被视为一个里程碑,其性能提升将直接惠及所有前沿大模型,带来更长的有效上下文窗口、更低的推理成本和更强的规模化推理能力 [28] FlashAttention-4 的技术背景与挑战 - **硬件趋势与瓶颈转移**: AI 行业正迅速转向部署 Blackwell 架构系统,现代加速器延续了“硬件非对称扩展”趋势,即张量核心吞吐量增长远快于共享内存带宽、特殊函数单元等其他资源 [5][6] - 从 Hopper H100 到 Blackwell B200,BF16 张量核心吞吐量增加了 2.25倍 (从 1 到 2.25 PFLOPs),但 SFU 数量和共享内存带宽基本保持不变 [6] - 这种扩展不对称性对像注意力这样的复杂内核优化产生了深远影响,性能瓶颈已从张量核心转移至其他部分 [7][10] - **注意力机制的复杂性**: 注意力机制的核心包含两个通用矩阵乘法,中间夹着 softmax,但在实践中还涉及大量辅助工作,如数据搬运、同步、布局转换等 [8][9] - 传统观点认为注意力性能由 GEMM 速度决定,但在 B200 上分析显示,主要瓶颈在于前向传播中的 SFU 单元和反向传播中的共享内存流量 [10][14] FlashAttention-4 的核心设计与优化 - **协同设计思路**: 通过最大化矩阵乘法与其他瓶颈资源之间的重叠来提升性能 [10] - **利用 Blackwell 新硬件特性**: - **张量内存**: 每个 SM 配备 256 KB 的 TMEM,与张量核心直接连接,用于存储中间结果 [12] - **完全异步的第五代张量核心**: 支持异步执行并将结果存储在 TMEM 中,单个 CTA 可使用的最大 UMMA tile 约为 Hopper 架构的 2 倍,减轻了寄存器压力并支持更深流水线 [12] - **2-CTA MMA**: 支持一对 CTA 共同执行一个 UMMA 运算,可将 MMA 的 tile 尺寸扩展到 256×256×16,减少冗余数据传输并降低每个 CTA 的资源占用 [13] - **新型流水线设计**: - **前向传播**: 在 FMA 单元上通过多项式近似实现指数函数的软件仿真以提升吞吐量;引入条件式 softmax 重缩放,跳过 90% 不必要的重缩放操作,缓解 SFU 瓶颈 [1][14] - **反向传播**: 利用 TMEM 存储中间结果以缓解共享内存流量压力;结合 2-CTA MMA 模式进一步降低共享内存访问,并将 atomic reduction 次数减少一半;支持确定性执行模式 [14] - **调度优化**: 引入新的 tile 调度器,解决因果掩码和变长序列导致的负载不均衡问题 [14] 性能表现与行业影响 - **性能基准测试**: 在 B200 上的测试显示,FlashAttention-4 性能显著优于其他实现 [19] - **前向传播**: 比 cuDNN 9.13 快 1.1–1.3 倍,比 Triton 实现快 2.1–2.7 倍 [19] - **反向传播**: 在长序列长度场景下,表现始终优于其他基准模型 [19] - 相比 FlashAttention-3,性能提升了 2–3 倍 [28] - **框架集成与行业反响**: - PyTorch 官方宣布其 FlexAttention 现已支持 FlashAttention-4 后端,使研究人员无需在“灵活性”和“高性能”之间做选择 [24][27] - 在算力受限的工作负载下,相比 Triton,FlexAttention 使用 FlashAttention-4 后端仍可实现 1.2 倍到 3.2 倍的性能提升 [27] - 该技术被认为将直接惠及所有前沿大模型,因为更快的注意力意味着更长的有效上下文窗口、更低的推理成本和更强的规模化推理能力 [28] 实现与工具 - **编程语言与框架**: FlashAttention-4 完全使用 CuTe-DSL 实现,这是 CUTLASS 提供的 Python 内核 DSL,可将编译时间缩短约 20–30 倍,使安装/编译只需几秒钟而非几分钟/几小时 [17]
DeepSeek更新后被吐槽变冷变傻:比20年前的青春伤感文学还让人尴尬!业内人士:这一版本类似于极速版,牺牲质量换速度
每日经济新闻· 2026-02-13 00:42
公司产品更新与性能 - 公司于2月11日对其旗舰模型进行了灰度测试,支持最高1M(百万)Token的上下文长度,相比去年8月发布的V3.1版本支持的128K有大幅提升 [1] - 实测显示,模型可一次性处理超长文本,例如能识别并处理超过24万个token的《简爱》小说文档 [1] - 此次更新版本被部分业内人士解读为“极速版”,推测其可能牺牲了部分质量以换取速度,目的是为2026年2月中旬将发布的V4版本进行最终压力测试 [6] 用户反馈与产品体验变化 - 更新后,部分用户反馈模型交互风格发生显著变化,例如不再称呼用户设定的昵称而统一称为“用户”,且深度思考模式下的角色化心理描写减少 [4] - 有用户认为模型回复变得“冷淡”、“说教”(被形容为“爹味”),或批评其输出内容风格类似“青春伤感文学”,显得尴尬 [4] - 另有用户持正面评价,认为更新后的模型变得更客观、理性,且更关注提问者的心理状态,使其交互“更像人了” [5] 技术架构与研发进展 - 公司在今年初发表的两篇论文中公开了两项创新架构:mHC(流形约束超连接)用于优化深层Transformer信息流动,提升训练稳定性和扩展性;Engram(条件记忆模块)将静态知识与动态计算解耦,旨在显著降低长上下文推理成本 [7] - V系列模型定位为追求极致综合性能的基础模型,从2024年12月的V3到2025年12月的V3.2,公司进行了快速迭代,并推出了专注于高难度数学和学术问题的特殊版本V3.2-Speciale [6] - 据科技媒体爆料,公司计划在2026年2月中旬农历新年期间推出新一代旗舰模型DeepSeek V4,预计将具备更强的代码编写能力 [6]
中国模型为何会在AI视频上领跑
华尔街见闻· 2026-02-11 12:25
中国AI视频模型的阶段性领先与工程化路径 - 字节Seedance2.0的出圈,标志着中国AI视频模型已不只是追赶,而是开始领跑,其核心在于将AI视频变成了可稳定交付的“工业品”[1] - 中国模型的领先并非突然发生,早在去年4月,快手可灵2.0在文生视频对比中,其与Sora的胜负比达到367%,在人物一致性、生成稳定性与复现率上全面领先,率先实现可商用能力[2] - 一批中国公司正沿此路径推进,将视频生成嵌入电商、广告、游戏买量等工作流中,其阶段性领先的核心在于更早将视频视为工程问题解决,而非单纯追求模型更聪明[3] AI视频生成的技术路线演变 - 当前高质量图像/视频生成的底层技术几乎都绕不开Diffusion模型,该模型源于2015年提出的思路,并在2020年后因计算资源提升和训练方法成熟而成为主流,其优势在于极强的稳定性和细节表现力[3] - Diffusion模型的局限在于擅长生成逼真画面,但并不真正理解事物重组前后的顺序与因果,导致早期AI视频单帧精致但连贯性差,存在人物不一致、动作不连续等问题[4][5] - Transformer架构伴随GPT出圈,其核心能力在于理解信息对齐、时间顺序和长距离依赖等“关系”,擅长规划结构和顺序,但不直接产出画面[6] - 一个关键的技术分工逐渐明确:Transformer擅长规划结构和顺序,Diffusion擅长生成具体画面[7][8] 中外AI视频发展路径的差异 - 海外团队长期倾向于不断挑战Diffusion模型的上限,例如追求生成更长时长、更复杂世界、更逼真物理效果的视频,其成果如Sora虽然震撼,展示了理解现实世界的潜力,但代价是生成成本高、失败率高、复现性差,更适合展示未来而非支撑当前生产[10][11][12] - 中国模型团队走的是更务实的工程化路径,更早意识到视频的核心难点在于“完成”而非“生成”,将传统影视中依赖经验的隐性流程(如镜头推进、视角切换、细节一致性)拆解为模型的约束条件[13][14] - 在此体系下,Transformer负责规划视频结构和节奏,Diffusion在明确指令下完成具体画面,视频被视为需要控制成功率的生产线而非艺术奇迹[15][16][17] 中国模型的工程化优势与行业影响 - 中国互联网过去十多年的核心能力集中在内容流水线的极致优化上,如短视频、电商直播、信息流广告、游戏买量等行业,其逻辑是将数据解码计算后验概率,再拆解成标准件复刻,这一工程逻辑被成功带入AI视频领域[18] - 在AI视频领域,Diffusion不再是生成模型的主导,而是被作为工业流水线中的一个关键“零件”来使用[19] - Seedance 2.0等产品的意义在于,将“提示词—生成—成片”的路径推至足够稳定,使其能作为日常工具使用,实现了使用价值维度的突破[20] - 在大语言模型等认知密集型领域,中国模型整体仍在追赶;但在AI视频这种“流程密集型”领域,凭借工程判断、效率控制和规模化落地能力,中国模型反而更容易取得阶段性领先[21][22] - 通过将Diffusion和Transformer正确分工并组织进可复用的生产线,中国模型将AI视频从技术奇观转变为真正的工业能力,并由此完成了属于自己的领跑[22][23]
清华联手千问重塑归一化范式,让 Transformer 回归「深度」学习
机器之心· 2026-02-10 19:03
文章核心观点 - 清华大学黄高Leap Lab团队与千问C端团队提出了一种名为SiameseNorm的新型Transformer归一化架构,旨在解决Pre-Norm与Post-Norm之间的固有矛盾 [4] - SiameseNorm通过构建参数共享的孪生双流架构,同时实现了Pre-Norm的训练稳定性和Post-Norm的深度表征潜力,从而打破了稳定与深度之间的零和博弈 [7][18] - 在大规模预训练实验中,该架构在保持高学习率下稳定训练的同时,显著提升了模型性能,特别是在算术推理任务上实现了超过40%的相对提升 [23][24] Transformer归一化范式的困境 - **Pre-Norm的“深度失效”问题**:尽管被GPT-3、LLaMA等主流开源模型采用,但Pre-Norm存在严重的“深度失效”问题,导致模型的有效深度严重受限,深层参数无法有效拓展模型表征能力 [3] - **Post-Norm的训练不稳定性**:Post-Norm虽然拥有更高的表征潜力上限,但其训练不稳定性在现代Transformer预训练范式下是毁灭性的,难以驾驭 [3] - **单主干架构的先天缺陷**:在共享同一条信息主干线的经典设计中,Pre-Norm要求的“无损梯度传导”与Post-Norm要求的“信号尺度规范”在数学上互斥,任何混合尝试都只能是一种妥协,并继承了Post-Norm的不稳定性 [10][14][15] SiameseNorm的破局之道 - **核心设计:孪生双流解耦**:架构构建了两条参数共享的平行通路,Pre-Norm流(Y流)负责保证训练稳定性,Post-Norm流(X流)负责释放模型表征潜力 [7][19][20] - **高效参数共享**:双流路径共享残差块的权重,因此几乎没有带来参数量与计算量的增长 [20] - **灵活的范式兼容**:通过调整LayerNorm的可学习权重,该架构可以退化成现有的Pre-Norm、Post-Norm或Mix-LN范式 [20] 实验性能与优势 - **训练稳定性**:在激进的高学习率(2e-3)下,传统的Post-Norm及HybridNorm架构均出现训练发散,而SiameseNorm成功收敛,且训练损失显著优于Pre-Norm基线,实现了0.41的PPL收益 [23] - **算术推理能力质变**:在1.3B参数模型的预训练实验中,SiameseNorm在算术任务上的准确率达到39.6%,相比Pre-Norm基线的28.1%,相对提升高达40.9% [24] - **全面性能领先**:在HellaSwag、OpenBookQA、PIQA等广泛基准测试中,该模型均取得了最佳成绩,并在高学习率设置下(2e-3,350B tokens)取得了58.70的平均得分,优于Pre-Norm基线的57.17 [23][25] 内在工作机制 - **双流协同**:分析显示,在绝大多数残差块中,两条流均保持了显著的权重占比,网络有效利用了来自双端的隐藏表征进行联合特征提取,未出现单侧退化 [27] - **分工演化**:在最终输出中,Post-Norm流(X流)占据主导地位,表明Pre-Norm流主要充当“训练脚手架”保障初期稳定,而Post-Norm流则在模型步入正轨后发挥决策主导作用 [31][32]
大厂AI权力交接:90后,集体上位
虎嗅APP· 2026-02-03 21:52
文章核心观点 - 2025年底至2026年初,中国科技巨头的大模型业务领导权正经历一场代际更迭,一批90后年轻科学家迅速走向前台,成为关键决策者 [4][5][30] - 这一权力交接的根本原因在于,大模型技术范式颠覆了传统互联网的成功逻辑,知识的快速更新使得“经验”价值下降,而对前沿技术的直觉、信仰和快速试错能力变得至关重要 [6][7][27] - 不同公司根据自身基因和需求,采取了不同的人才策略:腾讯和阿里启用“少帅”负责前沿探索与开源生态,而字节跳动则聘请资深老将负责系统整合,这反映了行业对多元化领导力的需求 [15][22][24] 一、经验在大模型面前,不值钱 - 传统互联网的成功逻辑是“小步快跑、重运营”,依赖流量、A/B测试和转化率优化,知识的延续性强 [7] - 大模型是另一套物种,其核心是“暴力美学和物理学”,不讲运营,依赖Scaling Laws(规模定律)和对智能“涌现”的直觉 [7][12] - 90后领军人物是“Transformer原生代”,他们在2017年Transformer架构论文发表时正处于学术思维最活跃的爆发期,没有旧规则引擎和统计学NLP的包袱 [8][11] - 老将们的经验成为枷锁,他们习惯可预测的增长,难以适应大模型所需的前沿直觉、大胆假设和快速试错 [12] - 年轻领军人物的黄金公式是:顶尖AI实验室(如OpenAI、Google Brain)的研究训练 + 大厂/创业公司的规模化工程实践,其从0到1的探索经验与大模型时代需求完美匹配 [12] 二、让听得见炮火的人决策 - 大模型领域信息的半衰期极短,技术可能每三个月、一个月甚至一周就发生翻天覆地的变化 [16] - 腾讯让27岁的前OpenAI研究员姚顺雨直接向总裁刘炽平汇报,本质是缩短决策链,实现“认知同步”,让最懂前沿的人离决策层最近 [15][16][17] - 大模型让大厂回归实验室模式,决策依据从资历和人脉转变为对技术“第一性原理”的推演能力 [18] 三、林俊旸与Qwen:极客精神的胜利 - 阿里最年轻的P10林俊旸是开源模型“通义千问”的核心推手,其成功依靠极强的社区感 [19][20] - 90后一代伴随GitHub和Hugging Face成长,天然理解AI时代的竞争在于开源生态和开发者社区的话语权,而非闭门造车 [20] - 阿里将重任交给93年的年轻人,是看准未来的AI领袖必须是学术、工程和社区文化的混合体 [20] 四、异类字节:为什么只有它请了老将? - 字节跳动的大模型一号位吴永辉是从谷歌回来的资深老将,这与腾讯、阿里的“少帅路线”相反 [22] - 字节本身是算法驱动公司,内部基础设施、算力和数据已是世界顶级,不需要年轻人来教授Scaling Laws [23] - 字节当前最需要的是“1到100的系统级整合能力”,将散落在各部门的AI力量拧成一股绳,吴永辉在谷歌整合大模型进搜索、YouTube等生态的经验正是其所需 [24] - 如果说腾讯的姚顺雨是拓荒先锋,字节的吴永辉则是负责基业长青的建筑师,负责复杂的跨部门协同与全球视野统筹 [25] 五、一场必然的权力交接 - 此次权力交接的核心驱动力是知识更新速度彻底覆盖了经验积累速度 [27] - 大模型是非线性跳跃,旧经验失效,新道路全是未知,年轻一代从第一天起就致力于构建智能原生技术与应用,这种未被旧逻辑驯化的纯粹技术信仰最具价值 [28] - 当AI进化到需要用数学和物理逻辑推演未来时,习惯用人情世故和市场营销定义世界的旧精英注定退居幕后 [29] - 未来的职场竞争是对新技术感应速度的博弈,踩准节奏比长久深耕更重要,保持认知同步比积累资历重要得多 [31]
AI来了,大厂为什么留不住高管? | 巴伦精选
钛媒体APP· 2026-01-26 18:44
文章核心观点 - 当前正经历从互联网流量时代向人工智能时代的技术范式转移 这引发了中国科技大厂核心高管的新一轮离职创业潮 其背后的核心矛盾是大厂追求确定性的组织文化与AI早期探索所需的不确定性之间的结构性冲突 [2][3][4] - 风险投资机构将拥有大厂背景的AI人才视为新的“确定性锚点” 通过一套成熟的“捕猎机制”追逐并投资这些创业者 用人的确定性来对冲技术方向的不确定性 [24][26][27] - 人才的迁徙方向是经济景气度与生产力范式转移的“晴雨表” 资金、技术和人才的汇聚点将是下一个时代利益分配的中心 [14][15] 高管离职创业的驱动因素 - **主动逃离(看到内部无法实现的“非共识”机会)**:创业者在大厂内部已洞察到技术范式转移(如从CV转向NLP大模型)或AGI的提前到来 但大厂的决策流程、资源分配逻辑无法支撑其将想法变为现实 典型案例包括闫俊杰离开商汤创立MiniMax 姜大昕离开微软创立阶跃星辰 [5][6] - **被动出走(被大厂的“免疫系统”排斥)**:创业者提出的创新项目或产品构想(如Noam Shazeer在Google内部推动的Meena聊天产品)因不符合公司当前策略或风险偏好而被否决 迫使人才离职自行创业 [7][8] - **本质冲突**:驱动离职的深层原因是工业时代设计的大厂“确定性文化”(强调流程、KPI、可预测回报)与AI早期“不确定性探索”(需要快速试错、容忍失败)之间的根本性冲突 [8][9] 大厂面临的人才挽留困境 - **决策链条无法压缩**:即便给予独立团队和资源 AI项目的关键决策仍需漫长审批 管理层“风险最小化”的决策逻辑与创业者“机会最大化”的需求相悖 有案例显示内部耗时三个月被否决的方案 外部一周即可获得投资条款 [10][11] - **利益分配机制无法重构**:大厂能提供高额年薪(如从400万提升至600万)和股权激励 但无法提供创业所带来的阶级跨越和未来增长的全部想象空间 [10][11] - **试错空间被挤压**:大厂内部项目失败会导致负责人承受业绩压力和边缘化风险 而创业失败则被视为迭代的一部分 [12] - **国际巨头的“自救”尝试**:Google通过合并AI团队、赋予自主权营造“大厂里的初创公司”氛围 英伟达通过“Jensen特别奖”等极高薪酬和股权激励(使约80%员工成为百万富翁)将人员流失率压制在2.7% OpenAI则通过新员工入职即可获得股权来争夺人才 [12][13] 创业高管画像与创业阶段特征 - **AI 1.0时代(2022-2023年):“技术信仰者”**:首批创业者多为对Transformer架构等有深度理解、坚信Scaling Law的技术专家 如贾扬青(Lepton AI)、杨植麟(月之暗面)、王小川(百川智能) 他们致力于解决“从0到1”的模型能力问题 追求技术极致 [17][18][19] - **AI 2.0时代(2024-2025年):“商业翻译官”**:第二批创业者多为擅长产品定义、商业化落地的产品经理和业务负责人 如裴沵思(Noumena)、潘宇扬(心感智影)、苏铁(湃岛科技)、王腾(今日宜休) 他们的核心能力是找到产品市场契合度(PMF)和可付费场景 [17][20][21][22] - **赛道分布**:智能硬件、AI应用、具身智能成为最集中的创业赛道 [3] 风险投资的逻辑演变与投资偏好 - **逻辑迁移**:投资逻辑从互联网时代追逐“流量的确定性”和可复制的方法论 转变为AI时代追逐“人的确定性” 将有大厂成功经验的高管视为对冲认知不确定性的“锚点” [23][24] - **看重高管的特质**: - **整合资源的能力**:高管拥有笼络顶尖人才的网络和信用 能组建跨领域精英团队 [25] - **对垂直行业的深度洞察**:深耕过具体业务线的高管对行业痛点敏感 能精准定位AI可规模化填补的洼地 如前钉钉副总裁王铭针对海外TikTok创作者需求打造AI智能体Moras [25] - **融资与公关能力**:高管擅长管理预期 用数据和叙事说服多方利益相关者 如前小米高管王腾在产品未问世时便获得数千万元种子轮融资 [26] - **成熟的“捕猎机制”**:投资机构通过定期组织私密晚宴、FA混入高管社交圈等方式 构建“潜在项目库” 敏锐捕捉创业意向 形成猎人与猎物的共谋 [26][27] 人才流动的宏观图景与数据 - **创业事件数量**:整个2025年 创始人背景带有科技大厂的创业融资事件数量超过70起 其中大疆、字节、腾讯、华为、阿里5家的高管创业事件数量领先 [3] - **代表性案例与交易**: - 阶跃星辰于2023年8月发布Step-1千亿参数模型 综合性能超越GPT-3.5 [6] - 2024年 Google以27亿美元价格回购了其前员工创立的Character.AI的技术和团队 [8] - 2025年3月 Lepton AI被英伟达以数亿美元收购 [18] - 大疆如影产品线在其负责人领导下累计营收达数十亿元 [21]
哈佛辍学“三剑客”,做AI芯片,刚刚融了35亿
创业邦· 2026-01-24 12:10
公司概况与融资 - 人工智能芯片初创公司Etched.ai由三位哈佛辍学的00后创立,专注于开发专用于Transformer架构的ASIC芯片[3][4] - 公司于2022年正式成立,团队吸引了包括英特尔前副总裁、来自谷歌、微软、亚马逊等科技巨头的数十位专业人士加入[13] - 公司近期完成了5亿美元的A+轮融资,由Stripes Group领投,Ribbit Capital、Peter Thiel以及Palantir等跟投,此轮融资后公司估值接近50亿美元,总融资额接近10亿美元[4][19] - 此前融资历程包括:2023年种子轮融资536万美元,由Primary Venture Partners领投;2024年A轮融资1.2亿美元,由Positive Sum和Primary Venture Partners共同领投[19] 核心技术:Transformer专用ASIC - Etched.ai的核心产品是名为Sohu的ASIC芯片,该芯片专为运行Transformer架构的AI模型而设计,放弃了图形渲染单元和对CNN/RNN等传统模型的支持[16][18] - Sohu芯片采用台积电4nm工艺,其设计大幅简化,硬件利用率高达90%,而通用GPU平均仅为30%[16][18] - 在性能上,由8块Sohu芯片组成的服务器,其性能相当于160块英伟达H100 GPU,且功耗更低[18] - 公司宣称,在运行文本、图像和视频转换器时,Sohu的速度比英伟达的Blackwell GB200 GPU快一个数量级,价格也更低[18] 市场定位与竞争逻辑 - 公司认为Transformer架构将主导人工智能领域,其市场切入点是AI推理这一细分市场,旨在通过极致的垂直优化挑战英伟达[15][20] - 行业逻辑在于,随着AI模型架构趋向稳定,99%的算力都在运行同一种架构,专用ASIC芯片在性能和能耗上相比通用GPU具有显著优势[22] - 公司采用“All in or nothing”的业务模式,完全专注于Transformer架构,这意味着如果未来该架构不再流行,芯片价值将大打折扣,但投资人仍看好此模式[18] 行业趋势:专用芯片崛起 - AI硬件领域正涌现一批专注于专用芯片的挑战者,大致可分为三类:极致推理先锋(如Etched.ai、Groq)、巨型架构挑战者(如Cerebras Systems)以及专注于国产替代的国内ASIC劲旅(如寒武纪、后摩智能)[23][24][25][26] - 根据统计,多家AI ASIC创业公司已获得高估值,例如:Etched.ai估值50亿美元,Groq估值69亿美元,Cerebras估值220亿美元,d-Matrix估值20亿美元,Tenstorrent估值40亿美元,后摩智能估值超10亿美元[27] - 这些初创公司正试图通过极致的垂直优化,在效率与成本的竞赛中,于英伟达主导的市场开辟一片属于专用芯片的新森林[27]