Workflow
大型语言模型
icon
搜索文档
腾讯混元TurboS技术报告首次全公开:560B参数混合Mamba架构,自适应长短链融合
AI前线· 2025-05-23 03:57
腾讯混元TurboS模型技术亮点 - 采用创新的Hybrid Transformer-Mamba架构MoE设计,结合Mamba长序列处理效率与Transformer上下文理解优势,实现性能与效率平衡 [2] - 模型激活参数56B(总参数560B),为业界首个大规模部署的Transformer-Mamba专家混合模型 [2] - 引入自适应长短思维链机制,动态切换快速响应与深度思考模式,优化计算资源分配 [7] 模型性能表现 - 在LMSYS Chatbot Arena评测中获1356分,全球排名第7,国内仅次于Deepseek [1][2] - 多语种能力突出,中文/法语/西班牙语并列全球第一,韩文排名全球第二 [4] - 四大关键任务(困难提示/创意写作/多轮对话/长问题)均进入全球前五 [5] 架构与训练创新 - 采用128层交错式"AMF"(Attention→Mamba2→FFN)和"MF"模块设计,FFN层占比50%,Mamba2层占44.5% [14][15] - 预训练使用16万亿Token语料,上下文窗口扩展至256K Tokens [10][18] - 后训练包含监督微调/自适应CoT融合/多轮推敲学习/两阶段强化学习四模块 [22] 基准测试对比 - 数学推理表现仅次于DeepSeek-v3-0324,GSM8K达94.4分,MATH达90分 [41] - 逻辑推理在BBH/DROP/Zebra-Logic基准与DeepSeek-V3共同树立新标杆 [42] - 中文任务表现强劲,C-Eval得分88.7,CMMLU达89.4 [20][42] 基础设施优化 - 自研Angel-RL训练框架集成5种并行技术,ZeroCache技术降低GPU显存压力 [45][46] - 推理部署优化实现1.8倍加速,数学/编程任务Token消耗减少35%-45% [47] - Mamba Kernel优化增强计算并行性,MoE专家并行缓解解码显存瓶颈 [47]
何恺明等新作大道至简,瞬时速度改为平均速度,一步生成表现提升70%
量子位· 2025-05-21 14:31
研究团队与背景 - 研究团队由CMU博士生耿正阳作为第一作者,何恺明的学生邓明扬、白行健参与[2] - 团队来自MIT和CMU,耿正阳导师是Zico Kolter,曾在Meta Reality Labs实习[21][22] - 邓明扬本科就读MIT数学和计算机科学,研究方向为生成式基础模型[23] - 白行健拥有牛津大学数学与计算机科学学位,研究方向为物理启发式生成模型[23] 技术创新与模型框架 - 提出MeanFlow单步生成框架,引入平均速度概念替代传统瞬时速度[5][7] - 平均速度定义为位移与时间间隔的比率,与瞬时速度存在明确数学联系[7][9] - 模型完全从头训练,无需预训练、蒸馏或课程学习[3][10] - 通过jvp计算实现单次后向传递,训练开销低于总时间20%[11] 性能表现与实验结果 - 在256×256 ImageNet上实现3.43的FID值,相对优势达50%-70%[3][13] - 1-NFE生成时FID显著优于流匹配方法(328.91→61.06)[15] - 模型规模扩展性良好,XL版本参数676M时FID达3.43[16][19] - 2-NFE生成时FID进一步降至2.20,缩小与多步模型的差距[19] 行业对比与定位 - 1-NFE性能超越BigGAN(6.95)、接近GigaGAN(3.45)[19] - 优于多数扩散模型如ADM(10.94)、LDM-4-G(3.60)[19] - 与当前SOTA模型DiT-XL/2(2.27)、SiT-XL/2(2.06)仍存差距[19] - 在自回归模型对比中优于MaskGIT(6.18)[19] 理论意义与应用前景 - 研究涉及物理领域多尺度模拟问题,可应用于空间/时间尺度建模[20] - 方法为生成建模、动力系统研究搭建桥梁[20] - 技术路线可能启发计算机图形学、科学计算等领域[20]
前景堪忧!苹果(AAPL.US)被曝在AI领域遭遇重重挫折
智通财经· 2025-05-19 07:53
公司AI战略挑战与调整 - 公司在人工智能领域的持续挣扎可能破坏其在智能手机市场的主导地位并危及从机器人技术到下一代硬件的更广泛雄心[1] - 2018年公司聘请前谷歌高管John Giannandrea领导AI战略曾被视为关键转折点但多年后在生成式AI和大型语言模型领域仍难以跟上竞争对手步伐[1] - 公司AI进展迟缓的原因包括高层不愿大规模投资、内部文化抵触以及严格的数据隐私政策限制了模型训练能力在获取关键硬件GPU方面也动作缓慢[3] - 公司正进行架构重组John Giannandrea已失去对Siri和相关产品开发的控制权领导权转交给Vision Pro头显项目负责人Mike Rockwell[3] 产品发布与市场反应 - 2024年公司推出"Apple Intelligence"承诺更智能的写作工具、摘要功能及升级版Siri但推出过程受到延期困扰一些功能未能在iPhone16发布时上线[2] - 改进后的Siri因内部测试存在严重缺陷导致发布被无限期推迟并引发了因涉嫌误导营销而提出的集体诉讼[2] - 公司计划将Siri从"Apple Intelligence"更广泛品牌中区分出来以修复Siri受损的声誉[4] 内部开发与合作策略 - 工程师正在重构Siri架构打造一个完全基于大型语言模型的新系统并在内部测试自家聊天机器人目标是实现与ChatGPT看齐的水平[4] - 公司也在寻求与外部AI公司合作例如OpenAI和Anthropic以增强自身能力[3] - 在2025年的全球开发者大会上公司预计将采取保守策略重点展示AI的渐进式改进而非发布突破性的Siri新功能[4] 内部评估与未来潜力 - 公司内部人士仍坚信其具备追赶潜力理由包括硬件整合优势、庞大的全球用户基础和品牌影响力[4] - 但许多内部人士也坦言在AI领域公司已无法再承受"后来者"的角色[4]
【中国那些事儿】俄专家:中俄人工智能合作跨越“小院高墙”,构建公平世界科技新秩序
环球网资讯· 2025-05-10 13:18
全球科技变革中的中俄合作 - 俄罗斯凭借数学和信息通信技术实力加速缩小与发达经济体的差距 [1] - 中国实现从农业大国向科技强国的跨越 成为世界第二大经济体并在电子与信息通信技术领域全球领先 [1] 人工智能领域的战略合作 - 人工智能(包括大型语言模型)成为中俄深化合作的战略焦点 [2] - 美西方"小院高墙"策略人为割裂全球产业链 为中俄在信息通信技术硬件领域创造合作机遇 [2] - 大型语言模型存在能耗与成本效益问题 需探寻替代性解决方案 [2] - 关键应用场景需确保人工智能具备高度透明度、可解释性和可靠性 [2] - 主流大型语言模型缺乏适应性学习能力 重新训练成本高昂 [2] 技术突破与挑战 - 中国突破西方供应商设置的主流技术障碍 推动先进技术广泛应用 [3] - 俄罗斯在关键研究领域及替代互补技术方面展现强大实力 [3] - 人工智能发展引发滥用担忧 部分国家利用技术优势胁迫他国 [3] 国际合作与治理 - 中俄可通过金砖国家框架推动全球科技治理体系完善 [3] - 俄罗斯科学界愿与中国等国家协调人工智能领域发展与治理 [3] - 中俄合作可树立科技合作典范 推动全球南方国家科学文化解放 [4] - 合作将开辟新领域并推动南南合作 构建更平衡公正的世界秩序 [4]
铜缆和光纤外,第三种选择
半导体行业观察· 2025-05-08 09:49
数据中心互连技术面临的挑战 - 生成式AI和大型语言模型推动数据带宽需求超越传统互连,速度正从800G向1.6T迈进[1] - 系统架构需同时解决三大挑战:满足带宽增长需求、控制成本扩张、提升能源效率[4] 铜缆技术的局限性 - 铜缆在400G/800G网络中仍是短距离首选,但存在趋肤效应导致的通道损耗和速度提升时电缆增厚问题[3] - 1.6T及以上速度下,铜缆因长度不足、体积过大无法适应高密度数据中心部署[6] 光纤技术的优缺点 - 光互连(如有源光缆AOC)支持数公里传输且更轻薄,但需电光转换组件导致成本达铜缆5倍、功耗显著增加[8] - 光学DSP引入额外延迟,且光学组件存在温度敏感性和可靠性问题[8] 新型互连方案e-Tube的特性 - 采用塑料介质波导传输射频数据,通过毫米波射频发射器/接收器实现电-射频信号转换[10][11] - 使用低密度聚乙烯材料避免高频损耗,支持56G至224G+速度,能效达3pj/bit,延迟仅皮秒级[12] - 相比铜缆:覆盖范围提升10倍、重量减少5倍、厚度降低2倍、功耗减少3倍、延迟降低1000倍、成本下降3倍[14] 技术兼容性与行业影响 - e-Tube采用标准半导体工艺和封装技术,兼容OSFP/QSFP-DD等行业封装规格,确保与现有设备互通[14][16] - 该方案有望成为1.6T/3.2T时代机架间连接的理想替代,解决铜缆与光纤在成本、能效上的不足[14][17]
优步UBER
2025-05-07 23:20
纪要涉及的行业和公司 行业:出行、送餐、自动驾驶、外卖 公司:优步(UBER.US)、Waymo、Bolt、DK&D、NAV Mobility、大众汽车、Momenta、OpenAI 纪要提到的核心观点和论据 财务表现 - 2025 年第一季度开局强劲,月活用户数增长 14%达 1.7 亿,行程量增长 18%,全球保留率创历史新高[2] - 总预订额与行程量同步增长,得益于出行和送餐业务强劲,经调整 EBITDA 达 19 亿美元,同比增长 35%,自由现金流 23 亿美元创历史新高[1][2] - 送货业务毛利率扩张至 3.7%,同比增长 70 个基点,第一季度送货业务增量利润率为 9%[10] 自动驾驶进展 - 与 Waymo 合作在奥斯汀投放约 100 辆自动驾驶汽车,车辆平均使用率超 99%的奥斯汀司机,运营指标健康,用户满意度高[1][3] - 计划增加奥斯汀车辆数量,扩大至亚特兰大及美国其他地区[1][3][4] - 与 NAV Mobility、大众汽车及 Momenta 在欧洲开发部署自动驾驶技术,中国已有优步产品运营并向 15 个国家扩展[11] 定价策略及价格弹性 - 移动性价格弹性与过去类似,价格上涨负面影响交易量,但消费者适应稳定价格后消费习惯会改变,公司对合理定价策略满意[1][5] 竞争挑战 - 出行业务美国市场竞争激烈,国际市场面临 Bolt、DK&D 等对手,但优步仍为多数市场龙头[1][6] - 送货服务美国市场竞争高度激烈,但营收、利润率及杂货和零售业务均强劲增长,食品配送行业有整合现象[1][6] 未来展望 - 预计第二季度营收和盈利能力更强劲增长,为下半年旺季奠定基础[1][7] - 致力于提供优质服务,有明确战略和更高远目标推动未来发展[1][7][8] 其他重要但可能被忽略的内容 - 美国移动性连续三个季度年同比行程增长约 19%,未来增长幅度相近,行程与总预订额增长差距缩小,因转嫁较低保险成本,利润率提升,国际旅行占比略有上升[9][10] - 新兴市场增速快于核心业务,占总体出行业务约 20%,且占出行业务价值比例大[10] - 预计 2025 年保险成本温和上涨,通过创新和政策调整缓解成本压力,如司机驾驶行为评分功能上线、乔治亚州法院改革法案待签署等[1][11] - 送货服务通过会员制降低价格,有 3000 万会员,提供数十亿折扣优惠,会员渗透率在某些市场超 70%,商家资助优惠活动带动销量增长,国际市场总预订额高增长与此有关[16] - 在交付服务和大型语言模型方面与 OpenAI 合作开发智能助手,处于实验阶段,旨在提升客户体验[17][18] - 稀疏移动市场增长速度快于城市核心区,20%行程来自稀疏市场,到 2025 年计划启动数百个新城市,投资期后利润率与其他市场一致[18] - 移动性总预订量预计第二季度类似过去强劲增长态势,行程增长主导,低成本产品业务持续增长,共享出行拓展到新市场,送货业务频率上升,定价和利润率更高[18][19] - 人口密度较低地区虽汽车拥有率高,但扩张后频率和移动性会提高,储备金使用可能高于城市,频率低但定价和利润率高[19]
ICML 2025 | 注意力机制中的极大值:破解大语言模型上下文理解的关键
机器之心· 2025-05-06 12:11
大型语言模型自注意力机制研究 核心发现 - 自注意力模块中查询(Q)和键(K)表示存在高度集中的极大值,而值(V)表示无此现象,该现象在使用旋转位置编码(RoPE)的模型中普遍存在[1][3] - 极大值分布具有跨层和跨头的规律性,与传统认知中注意力头独立性假设形成鲜明对比[3] - 该现象仅见于采用RoPE的主流模型(LLaMA/Qwen/Gemma),未使用RoPE的模型(GPT-2/OPT)不存在此模式[4] 机制影响 - 破坏QK中的极大值导致上下文理解任务性能崩溃: - 数学推理(GSM8K)准确率从81.3%骤降至15.1%(Gemma2-9B)[5] - 密钥检索任务(Passkey Retrieval)准确率从100%降至0%[5][11] - IMDB情感分析从94%+跌至个位数[11] - 参数知识任务受影响较小:城市类任务保持76-88%准确率,名人类任务维持70%+[10][13] 技术启示 - 量化技术需针对性处理极大值:AWQ和SmoothQuant方法能有效保持上下文理解能力,普通量化导致GMS8K性能显著下降[7] - RoPE机制是极大值现象的根源,其仅作用于QK而不影响V的特性解释了现象特异性[8] - 模型设计应重点考虑位置编码机制对上下文理解的影响,优化方向可针对极大值分布进行调整[14][16] 未来方向 - 探索通过调控极大值分布提升模型上下文理解能力的可行性[16] - 开发专用于保护极大值的量化技术,平衡模型压缩与性能保留[16] - 研究不同模型架构中该现象的普适性,拓展至多模态等新领域[16]
过去四周,AI推理爆了,GPU在燃烧,英伟达依旧供不应求
硬AI· 2025-04-29 08:18
行业需求与市场动态 - 大型语言模型对推理芯片的需求激增,导致英伟达GPU供不应求,需求遍及所有地区 [3][4] - token生成量自年初以来增长5倍以上,给生态系统带来巨大压力,推动对处理工作负载的投资激增 [4] - AI公司用户数量呈爆炸式增长,例如Open Router等API公司数据显示,GPU资源争夺激烈,甚至出现"最后一块GB200"在2025年仅剩一块的状况 [4] 英伟达的供应与业绩 - 英伟达Blackwell芯片(尤其是GB200/300型号)供应受限,短期内无法满足爆炸式需求 [6] - Hopper GPU需求虽改善,但云客户5-6年折旧周期可能导致投资回报率不理想 [6] - 美元上行、供应紧张和出口限制叠加,引发市场对英伟达短期盈利的担忧 [6] 摩根士丹利的观点与调整 - 摩根士丹利将英伟达目标价从162美元轻微下调至160美元,主要反映同行组整体估值下降,而非公司基本面变化 [3][6] - 下调目标价体现对英伟达短期业绩的谨慎态度,但长期增长潜力依然强劲 [3][8] - 截至发稿,英伟达股价为111美元,较大摩目标价高45%左右 [6] 推理需求的关键性 - 摩根士丹利认为推理需求是关键,由使用模型并产生收入的部分驱动,证明推理模型的扩展是真实存在的 [4] - 推理需求与仅依赖风险投资的训练需求有本质区别 [4]
“逢低买入”并不总是一个好策略,英伟达的泡沫现在仍很大?
美股研究社· 2025-03-11 19:24
文章核心观点 - 英伟达2025财年第四季度和全年业绩超预期,但增长率放缓,分析师对未来几年前景乐观,不过公司面临竞争、经济等风险,未来几个季度下行风险大于上行潜力,长期股价可能更高 [1][6][17] 业绩表现 季度业绩 - 2025财年第四季度收入从2024年第四季度的221.03亿美元增至393.31亿美元,同比增长78.0%,营业收入从136.15亿美元同比增长76.5%至240.34亿美元,每股摊薄净利润从0.51美元增至0.90美元,盈利增长76.5%,自由现金流从112.17亿美元增加到155.19亿美元,同比增长38.5% [1] 全年业绩 - 2025财年全年收入同比增长114%,从609.22亿美元增至1304.97亿美元,营业收入从329.72亿美元增至814.53亿美元,同比增长147%,每股摊薄净利润从1.19美元增至2.94美元,增幅达147%,自由现金流增长125%,从269.47亿美元增至607.24亿美元 [2] 各市场收入情况 数据中心 - 2025年第四季度数据中心收入占总收入的90.5%,收入同比增长93.3%,达到355.8亿美元 [2] 游戏 - 2025年第四季度游戏收入占总收入约6.5%,同比下降11.2%至25.44亿美元,因供应限制出货量受影响,管理层预计下季度环比强劲增长 [3] 专业可视化部门 - 2025年第四季度专业可视化部门创造5.11亿美元收入,同比增长10.4%,全年收入同比增长21%,关键垂直行业包括汽车和医疗保健,推动了对英伟达RTX工作站的需求 [4] 汽车 - 2025年第四季度汽车收入同比增长103%,达到5.7亿美元,高增长因自动驾驶汽车持续增长,丰田、Aurora和大陆集团依赖英伟达产品生产汽车和卡车 [5] 分析师预测 盈利预期 - 分析师上调未来几年每股收益和营收预期,2026财年增长预期高,2027财年预期也较高,2027财年后增长率更合理 [6] 具体数据 - 给出2026 - 2035财年各财季结束时的每股收益估计、同比增长、远期市盈率等数据,如2026年1月每股收益估计4.60美元,同比增长50.56% [7] 增长来源 - 汽车部门预计2026财年收入约50亿美元,较2025财年的17亿美元增长近三倍,未来几年游戏收入有望增加 [7][8] 产品情况 Blackwell芯片 - Blackwell专为推理AI设计,与Hopper 100相比,令牌吞吐量可提高25倍,成本可降低20倍,Transformer引擎可提供高吞吐量,确保性能和成本效率,2025财年第四季度销售额达110亿美元,需求强劲且增长快 [10] 行业需求与风险 需求情况 - 各大科技公司增加对AI基础设施支出,大部分将流向英伟达,但难以估计未来资本支出和英伟达销售额,传统快速追随者投资AI可推动额外增长 [10][12] 风险因素 - 经历高增长期后销售可能停滞或下降,DeepSeek事件致英伟达单日跌幅增加,高效法学硕士可能使英伟达芯片需求增长放缓,竞争加剧会使利润率下降,美国经济崩溃也会带来问题 [13][15] 估值分析 估值倍数 - 英伟达目前市盈率42倍,自由现金流50倍,估值在增长,虽高速增长可证明高估值倍数合理,但当前自由现金流利润率特殊,分析师对其估值合理性持谨慎态度 [15][17] 折现现金流计算 - 使用10%折现率和247.06亿股流通股数计算,以过去四个季度608.5亿美元自由现金流为基础,得出英伟达内在价值125.83美元,显示估值合理甚至略微低估 [16]
富士康发布FoxBrain大模型,使用120个英伟达H100 GPU
半导体芯闻· 2025-03-10 18:23
文章核心观点 富士康构建自有大型语言模型FoxBrain,计划开源以推动制造业和供应链管理进步,公司正从核心电子制造业务向人工智能和电动汽车等领域多元化发展 [1][3] 分组1:FoxBrain模型介绍 - 公司已构建具有推理能力的自有大型语言模型FoxBrain,为内部开发且在四周内完成训练 [1] - FoxBrain最初为公司内部使用设计,能进行数据分析、数学运算、推理和代码生成 [1] - 模型基于Meta公开的大型语言模型Llama 3.1的结构,是台湾首个具高级推理能力的大型语言模型,专为繁体中文设计和优化 [2] - 模型性能略落后于中国DeepSeek的一些模型,但正在接近世界一流水平 [3] 分组2:模型训练情况 - 英伟达通过位于台湾的超级计算机和技术咨询提供支持,助力模型成功训练 [1] - 人工智能研究中心主任李永辉团队用120个英伟达H100图形处理器,约四周完成FoxBrain训练 [1] 分组3:公司计划与安排 - 公司计划开源该模型,与行业合作伙伴合作,设想其推动制造业和供应链管理进步 [1] - 公司已公布FoxBrain一些参数,将在3月中旬英伟达年度技术活动上公布更多信息 [1] 分组4:公司业务发展 - 因行业转变和盈利能力下降,公司在核心电子制造业务面临挑战,正朝人工智能和电动汽车等领域多元化发展 [3]