Workflow
万亿参数模型
icon
搜索文档
吴恩达关注的Ling-1T背后,蚂蚁Ling 2.0技术报告解密万亿模型开源配方
机器之心· 2025-10-29 15:23
文章核心观点 - AI导师吴恩达关注蚂蚁集团开源的非推理模型Ling-1T,其性能直逼顶尖闭源模型,背后隐藏关键的技术转向[1][2][3] - 蚂蚁集团通过58页技术报告系统性地揭示了其构建强大、统一且可扩展模型基础的方法,核心设计哲学是"Every Activation Boosted"[4][6][7] - 报告的价值在于提供了一套可持续、可规模化、以提升推理能力为核心的高效范式,而不仅仅是展示模型成果[8][9] 模型性能表现 - Ling-1T在多项基准测试中表现卓越:C-Eval得分92.19,超越DeepSeek-V3.1-te的91.76和GPT-5-main的83.59[2] - 在代码生成方面优势明显:LiveCodeBench得分61.68,显著高于其他模型的48.02至48.95范围;CodeForces-rating达1901,高于Gemini 2.5 Pro的1675[2] - 数学推理能力突出:OlympiadBench-stem得分91.3,超过Gemini 2.5 Pro的89.57;AIME 2025得分70.42,接近Gemini 2.5 Pro的70.10[2] - 通用推理能力领先:ARC-AGI-1得分43.81,远高于其他模型的14.06至22.19范围[2] 架构设计与扩展定律 - Ling 2.0系列采用统一的高稀疏、细粒度MoE架构:总专家数256个,每次前向仅激活8个专家和1个共享专家,激活率低至3.5%[11] - 该架构实现近7倍的计算效率杠杆,相较于同等性能的密集模型[11] - Ling Scaling Laws建立了一套"AI风洞"实验系统,能以不到1%的成本通过小规模实验高保真预测万亿参数模型的性能和最优超参数[16][19] - 架构原生集成MTP,从底层设计强化数学与代码两大关键推理能力[19] 预训练与中训练策略 - 基于20T tokens的海量预训练数据,贯彻"推理优先"原则,高质量推理数据集占比从32%提升至46%[22] - 采用多阶段训练策略,将上下文窗口从4K逐步扩展至128K,在训练早期引入推理与链式思维数据[23] - 创新性引入中训练阶段,在预训练和SFT之间使用大量高质量思维链数据,提前激活模型推理潜能[24] - 采用WSM调度器替代传统学习率衰减,通过检查点合并实现收敛,为下游任务带来1-2%的平均性能提升[25] 后训练对齐创新 - SFT阶段采用DFT策略,让模型在同一套权重下学会"即时响应"和"深度推理"两种可控模式[32] - 核心创举是LPO算法,首次将语言单元作为RL策略更新的基础动作单元,在复杂推理任务上带来约10%的性能提升[36][38] - 引入GAR机制处理开放性主观任务,采用循环赛式相对比较降低评估噪声和方差[42] - 构建强大的统一奖励模型系统,可并发处理高达40K的异构奖励请求[45] 基础设施与工程优化 - Ling-1T是目前已知最大规模的完全使用FP8训练的开源模型,在1T参数和900B数据规模上实现与BF16几乎相同的损失表现,同时算力利用率提升15%[48] - 设计异构细粒度管线调度策略,成功将端到端训练吞吐量提升40%以上[52] - 通过一系列工程优化包括节点内DeepEP通信、融合算子等,将模型算力利用率从基线16.9%提升至31.4%[54] - 坦诚分享计算与通信重叠优化的失败教训,指出在万亿规模下必须建立算法与系统的协同优化[55][56] 行业影响与开源价值 - Ling 2.0技术报告提供了一套完整的、经过验证的、可从百亿扩展至万亿的AI基础模型标准作业流程[59] - 展示了不依赖无限算力堆砌的Scaling路线,通过极致工程、精准预测和创新算法实现高效扩展[59] - 为社区探索更高效、更强大、更通用的智能体奠定了坚实基础,体现开放与协作的技术决心[60]
周鸿祎评“企业天价挖AI人才”:是“战术型挖人”,非“战略性挖人”
新浪科技· 2025-09-24 15:06
AI人才竞争 - 企业天价挖AI人才的行为被定义为战术型挖人而非战略性挖人[1] - 挖人的核心目的是购买经验和技术诀窍,以减少在关键节点上的失误[1] AI大模型工程化挑战 - 构建万亿参数模型需要搭建十万卡或几万卡的训练集群[1] - 工程化过程中存在大量需要克服的技术难题,缺乏经验者会面临诸多挑战[1] - 公开的算法论文和开源资料为技术发展提供了基础,但实践经验至关重要[1]
红宝书20250713
2025-07-15 09:58
纪要涉及的行业和公司 - **RDA/RWA行业**:上海钢联、中远海科、上海物贸、协鑫能科、大禹节水、山大地纬、汇纳科技、捷顺科技等[3][5] - **稳定币行业**:古鳌科技、市北高新、博睿数据、金证股份等[4] - **文交所行业**:华媒控股、博瑞传播、苏豪鸿业、浙文互联、浙数文化、元隆雅图、卓易信息、中文在线、吉视传媒、省广集团等[4][5] - **数据交易所行业**:中新赛克、三维天地、零点有数、华扬联众、浙数文化、安恒信息等[5] - **AI芯片行业**:英伟达、天擎通信、中际旭创等[6][7] - **AI应用行业**:掌阅科技、万兴科技、卓易信息、普元信息、金现代等[10] - **天然铀行业**:万里石、中广核矿业、中国核建、中广核技、江南化工、华贸物流、易普力、南方泵业等[13] - **其他公司**:三川智慧、中原证券、卧龙新能、达意隆、正虹科技、新开普、王子新材、英恩特、宁夏建材、锐捷网络、江西铜业、天宸股份、罗博特科、航天工程等[15][16][18][20][21][22][23] 纪要提到的核心观点和论据 RDA/RWA行业 - **核心观点**:RDA具备五大特点,可分三个环节,有望帮助RWA建立四类资金渠道,突破实体资产融资核心瓶颈;文交所将成我国RWA交易主流载体[3] - **论据**:上海交易所提出RDA首创新范式,强调数据与实体资产深度融合;文交所具备完善数字资产在场在链交易体系,可提供RDA/RWA资产交易服务[3] 稳定币行业 - **核心观点**:相关公司在数字人民币、区块链、数字资产管理等方面有技术储备或业务布局,可提供稳定币相关服务[4] - **论据**:古鳌科技在多方面有技术储备;市北高新与蚂蚁链合作;博睿数据可提供稳定币交易监控服务;金证股份参股公司具备稳定币基建能力[4] 文交所行业 - **核心观点**:相关公司持有文交所股份,借助区块链实现文化资产信息存储或开展相关业务[4][5] - **论据**:华媒控股、博瑞传播、苏豪鸿业、浙文互联等公司分别持有不同文交所股份,并开展相关业务[4][5] 数据交易所行业 - **核心观点**:相关公司与数据交易所有合作或认证,参与数据交易市场[5] - **论据**:中新赛克产品通过数商认证;三维天地为认证数据产品开发服务商;零点有数等公司参股数据交易所[5] AI芯片行业 - **核心观点**:英伟达黄仁勋访华及新品发布预期,GB300服务器将带动1.6T光模块上量[6] - **论据**:2025年7月16日黄仁勋将在北京开发布会,与针对中国的“阉割版”芯片有关;GB300超级芯片集群设计对跨机柜数据传输有更高要求[6] AI应用行业 - **核心观点**:全球首个开源万亿参数模型Kimi K2发布,GPT - 5预计2025年夏天面世,相关公司接入大模型推出产品[8][9][10] - **论据**:月之暗面发布并开源Kimi K2;山姆·奥特曼透露GPT - 5信息;掌阅科技、万兴科技等公司接入大模型推出相关产品[8][9][10] 天然铀行业 - **核心观点**:中核集团“国铀一号”示范工程成功,我国天然铀生产取得突破,但仍面临储量产量少、进口比重大、资源供给紧缺等问题,铀价上涨反向抑制需求可能性低[11][12] - **论据**:中国铀可采资源量排名第9,2021年占世界总量4.38%,2022年产量约占3%;2021年中国铀矿消耗70%以上需进口;2025 - 2030年天然铀需求与供给存在缺口;天然铀在核电成本中占比8%[11][12] 其他公司 - **上海钢联**:核心观点为全球首个钢铁贸易RWA,融资效率提升,主营供应链服务业务有亮点;论据为子公司举行全球首个钢铁贸易企业RWA上市挂牌仪式,RWA资金回笼效率提升70%,主营供应链服务业务营收占比97.13%,数据资产入表,产业数据服务境外收入增长[15] - **三川智慧**:核心观点为高纯度稀土氧化物回收业务有前景;论据为机构预计全球镨钕氧化物市场有需求缺口,价格有望上涨,子公司生产高纯度稀土氧化物,“年产3000吨稀土氧化物二次资源综合利用项目”完成一期建设[15] - **中原证券**:核心观点为子公司具备香港金融牌照,关注稳定币市场;论据为中州国际具备香港三类金融牌照,公司将关注香港稳定币市场政策动态[16] - **卧龙新能**:核心观点为参股金源稀土,聚焦新能源发展;论据为全资子公司参股金源稀土,公司业务占比变化,2025年切入风光储氢领域[17] - **达意隆**:核心观点为2025H1业绩预增,专注中高端机器人;论据为2025H1扣非净利润预计增长,业务占比及产品情况[18] - **正虹科技**:核心观点为行业加速去库,受益反内卷;论据为官媒文章点名相关行业,公司生猪养殖和饲料业务情况及销售增长[18][19] 其他重要但是可能被忽略的内容 - 2025年7月11日盘后,现货白银站上38美元/盎司,创2011年以来新高,纽约银日内涨幅达4%[19] - 智元机器、学树科技中标中移(杭州)信息技术2025 - 2027年人形双足机器人代工服务采购项目,总标包1.24亿[19] - 多家公司发布2025H1业绩预增公告,如宁夏建材、锐捷网络、江西铜业、天宸股份等,原因包括产品销量增加、成本下降、项目交付等[21][22] - 罗博特科子公司签订1418万美元日常经营重大合同,占2024年度营收比例超9.19%[23] - 航天工程中标陕煤集团项目,中标价格23.92亿元[23]