机器之心
搜索文档
拿走200多万奖金的AI人才,到底给出了什么样的技术方案?
机器之心· 2025-12-23 12:15
文章核心观点 - 文章通过分析2025年腾讯广告算法大赛冠亚军的解决方案,探讨了广告推荐系统从传统判别式方法向全模态生成式方法演进的技术趋势,并展示了年轻技术人才如何解决工业界真实存在的复杂难题 [1][4][5][51] 广告推荐的技术演进与挑战 - 广告推荐的核心目标是在合适的时间将广告推送给真正可能需要的人,以减少无效曝光和对用户的打扰 [7] - 业界目前主要有两种方法:传统判别式方法和新兴的生成式方法 [8] - 传统判别式方法通过级联架构和手工特征匹配用户与广告,但已遇到效果提升有限、冷启动困难等瓶颈 [11][14] - 生成式方法通过分析用户长时间跨度的行为序列,预测用户“下一步最可能发生什么”,能更好地理解用户意图和利用世界知识 [14][15] - 腾讯广告算法大赛的赛题定为“全模态生成式推荐”,要求基于用户的多模态历史行为数据预测下一次交互 [16] - 工业界已出现相关探索,如Google TIGER、Meta HSTU、快手的OneRec和腾讯的GPR,其中HSTU首次在推荐中观察到了Scaling Law [17] - 该领域仍面临工业级动态词表带来的训练/推理爆炸、毫秒级延迟与巨量算力的矛盾等挑战 [19] 大赛赛题的难点与要求 - 赛题对应超大规模数据场景:涉及千万级广告、千万级用户及同等规模的交互序列,但训练计算资源有限 [21] - 数据结构复杂:包含经过脱敏处理的文本、图像及协同行为等多模态数据,且存在特征缺失、行为序列时间跨度大等问题 [21] - 任务目标复杂:复赛需同时优化曝光、点击与转化等多个隐式目标,且存在近半数的冷启动广告项目 [22] 冠军团队Echoch的解决方案 - 团队来自华中科技大学、北京大学、中国科学技术大学 [25] - **特征工程**:提出三级会话体系、周期编码和时间差分桶,让模型理解用户“此时此刻”的状态,具备时间感和节奏感 [28][29][32] - **模型设计**:针对需同时预测点击与转化的问题,让同一模型能根据目标自动切换推荐策略 [35] - **基座模型优化**:将基座模型从HSTU换为LLM,利用其RoPE位置编码自带“时间感”,使线上得分提升,显存占用减少约5G [36] - **语义ID改进**:在编码最后一层引入随机性,使码表使用更均匀,长尾物品训练关注度提升190倍,码表利用率从81.2%提升至100%,衡量曝光不平等度的Gini系数从0.53降至近0 [37] - **训练加速**:引入Muon优化器,与AdamW相比,显存占用实测锐减45%,收敛速度提升40% [38] 亚军团队leejt的解决方案 - 团队来自中山大学 [40] - **数据处理**:通过将低频广告映射到共享词表及ID哈希编码,压缩千万级广告词表规模,解决显存瓶颈 [42] - **特征处理**:对高维多模态特征使用SVD降维去噪,再通过RQ-KMeans离散为语义ID,对缺失率高、效果不佳的模态特征选择舍弃 [43] - **序列建模**:通过session划分明确行为边界,并引入异构时序图,利用用户、广告及语义节点之间的关系网络来弥补个体数据的稀疏性 [44] - **工程优化**:采用混合精度训练、梯度检查点、torch.compile图编译等技术,将每步训练时间从3.5秒压缩到0.8秒,GPU利用率拉满至100%,成功将模型从4层512维扩展到8层2048维,验证了Scaling is all you need的核心信念 [45][48] 行业趋势与未来展望 - 从判别式到生成式的演进正在平稳推进,腾讯内部已在召回和粗排阶段用生成式模型替代传统模型,并取得了不错的效果,相关收益已在财报营收数据上有所体现 [51] - 生成式推荐是能落地并创造商业价值的技术方向 [51] - 为适应趋势,腾讯广告的数据将全面多模态化,内部广告系统也将全面Agent化,并将本次大赛数据开源以支持社区发展 [52] - 未来广告推荐可能走向即时生成,根据用户当下的兴趣、场景、情绪实时生成个性化广告内容,实现真正的“千人千面” [52]
技术革新+生态赋能:多彩新媒构建智慧广电新标杆
机器之心· 2025-12-23 12:15
公司背景与行业地位 - 贵州多彩新媒体股份有限公司(多彩新媒)在不到十年时间内,从全国IPTV起步最晚的省份之一,实现了从“追赶者”到“价值创造标杆”的跃迁,成为观察IPTV行业转型的关键样本 [2] - 在贵州,IPTV已成为覆盖最广的家庭信息入口之一,家庭覆盖率接近89%,用户规模超过1129.5万户 [1] - 公司的增长根植于其多年深耕的技术创新版图,从终端架构革新、超高清技术落地到中台化与运维体系升级,切中了行业长期存在的痛点 [2] 播控与内容效率升级 - 针对IPTV搜索推荐与用户意图割裂的痛点,公司通过整合业界顶尖算法(如字节跳动),优化媒资检索技术,实现跨模态检索(文搜视频、图搜影视、语音搜节目) [8] - 内容检索耗时从传统的15秒左右缩短至2秒以内 [9] - 在推荐层面,引入对非结构化内容的深度理解,实现“结构化数据+非结构化内容”的统一,做到了基于大模型的“搜推一体化”,使内容推荐精准度提升,用户点播转化率较传统模式增长40% [9][11] - 对播控运营流程进行系统性重构,将AI、工作流引擎和自动化技术深度融合,搭建全栈智能运营体系,自动化运营覆盖全业务70%核心流程场景 [12][13] - 播控体系升级使人工操作步骤减少56%,基础业务处理效率几乎翻倍,关键业务信息推送及时率提升至95% [14] - 在此过程中沉淀出两项相关发明专利,夯实了技术壁垒 [16] 终端与超高清体验重塑 - 为解决终端交互单一、跨设备体验割裂问题,公司将EPG产品从传统的BS架构转向更强调本地性能与响应能力的CS架构 [18] - 通过标准化渲染中间层屏蔽不同WebView内核差异,缓解跨设备界面不一致与响应延迟问题 [19] - 开发自适应播放器框架,支持多终端设备解析主流视频格式及DRM加密协议,显著提升起播速度与播放流畅度 [19] - 应用智能预加载模型、增量更新及流式响应协议,在服务器负载降低40%的情况下,提升了弱网环境下的播放稳定性 [21] - 上线“移动超级电视”新产品,支持手机、平板与电视无缝投屏、跨端续播,该产品上线首月用户活跃度提升28% [21] - 在已有的11套4K超高清直播频道基础上,新增画质模式切换功能(4K与1080P),让用户可根据网络环境灵活选择,减少因带宽限制带来的体验落差 [22] 生态与安全底座构建 - 为解决业务系统碎片化和数据孤岛问题,公司搭建了“业务中台+数据中台”的双中台架构 [26] - 业务中台采用微服务架构,将核心功能拆解为独立服务模块,使新业务上线周期从3个月缩短至1个月 [26] - 数据中台基于湖仓一体架构,统一存储多维度信息,在基础设施成本降低25%的同时,支撑起千万级用户规模的实时数据处理 [26] - 基于数据中台提供的用户精细画像,推出的“少儿教育内容包”、“老年健康专区”等定制化服务,其转化率比通用内容提升65% [26] - 搭建可视化智能综合运维平台,可实时监控近2000台虚拟服务器、千路直播频道信号及200多台网络设备,预警准确率达92%,并实现“监控-调度-修复”的闭环管理,成为公司直播矩阵近4年无全网故障的核心保障 [27] - 在安全播出方面,依托EPG拨测系统构建智能化巡检体系,涵盖八大核心模块,通过“自动化巡检+人工复核”相结合,保障EPG内容呈现质量与用户体验,确保现网产品0故障运行 [28] - 通过网络信息安全智能运营管理平台,实现直播信号零中断、网络安全零事故 [29] 技术创新成果与行业价值 - 截至目前,公司累计获得专利6项、软件著作权107项,牵头或参与多项国家级、省部级实验室、科技计划项目及行业标准制定 [30] - 公司的智能推荐方案、可视化运维平台已成为对外技术输出的重要内容,为多省IPTV平台提供了技术参考 [32] - 公司通过4K超高清技术传播贵州文旅资源,推动了“科技+文化”的融合发展 [32] - 公司的技术创新形成了“单点突破、系统整合、生态赋能”的乘数效应,从CS架构终端到双中台体系,从超高清技术到智能运维,重新定义了IPTV的价值边界 [32] - 公司的探索证明了广电行业的数字化转型是以用户为中心的全链路重构,只有当技术创新深度融入交互、架构适配体验、数据驱动运营,IPTV才能真正从“家庭娱乐终端”升级为“智慧生活入口” [32] - 公司的实践为全国智慧广电建设提供了一份可复制、可推广的样本 [33]
最火、最全的Agent记忆综述,NUS、人大、复旦、北大等联合出品
机器之心· 2025-12-22 17:55
文章核心观点 - 一篇由多所顶尖学术机构联合发布的百页综述,旨在为快速扩张但日益碎片化的“智能体记忆”领域提供一个统一的分析框架,以梳理其技术路径[2] - 文章指出,传统的“长/短期记忆”二分法已不足以描述当代系统的复杂结构,因此提出了一个名为“Forms–Functions–Dynamics”的三角分析框架[5][6] - 智能体记忆应被视为实现时间一致性、持续适应与长程能力的关键基底,未来将变得更可学习、更自组织、更具适应性[68] 智能体记忆的概念辨析 - **智能体记忆**:关注智能体持续维持的、持久的、可自我演化的“认知状态”,它需要在交互中不断更新、整合、纠错、抽象,并跨任务保持一致性[11] - **LLM记忆**:关注模型内部计算过程中如何更有效地保留和利用序列信息,以解决长距离依赖建模等问题,其研究不必然与智能体的长期自主行为绑定[12] - **RAG**:更接近“静态知识访问”,旨在从外部知识库检索静态信息以提升事实性,若缺乏长期一致性和演化机制,则并非完整的记忆系统[13] - **上下文工程**:作为优化“当下模型看到什么”的外部脚手架,而智能体记忆是支持学习与自主性的、维持跨窗口跨任务持续认知状态的内部基底[14] 记忆的形式 - 综述将智能体记忆的形式归纳为三大类:**Token级记忆**、**参数记忆**和**潜在记忆**[16] - **Token级记忆**:将信息存储为持久、离散、可外部访问与检查的单元(如文字、视觉token),具备透明、可编辑、易组合的优势[18][19] - **参数记忆**:信息存储在模型参数中,通过参数空间的统计模式编码并隐式访问,类似于“内化后的直觉”,但存在训练成本高、难以精确编辑等问题[22] - **潜在记忆**:信息以模型内部隐状态或连续表示存在,可在推理或交互周期中持续更新,它比Token级记忆更紧凑,比参数记忆更容易在推理期更新,但更难解释[24][26] 记忆的功能 - 综述按功能角色将智能体记忆分为三类:**事实记忆**、**经验记忆**和**工作记忆**[29] - **事实记忆**:记录来自用户与环境交互的知识,旨在提供一个可更新、可检索、可治理的外部事实层,以维持跨会话、跨阶段的一致性[31] - **经验记忆**:从任务执行中增量提升解决问题的能力,关注跨情景的长期积累与迁移,可按抽象层级分为基于案例的、基于策略的和基于技能的[32][33] - **工作记忆**:管理单个任务实例中的工作区信息,核心问题是在固定计算预算下处理庞大、高维的即时输入,可分为单轮工作记忆和多轮工作记忆[35] 记忆的动态机制 - 记忆系统的生命周期概括为三段:**记忆形成**、**记忆演化**和**记忆检索**,三者构成一个相互反馈的循环[38] - **记忆形成**:将原始上下文(对话、图像等)编码成更紧凑的知识表示,操作包括语义总结、知识蒸馏、结构化构建、潜在表示及参数内化[40] - **记忆检索**:根据当前观察与任务构造查询,返回相关记忆内容并格式化为模型可消费的信号,其触发节奏(而非模块本身)决定了“短期/长期”效果[41] - **记忆演化**:将新增记忆与已有记忆进行整合,通过合并、冲突消解、剪枝等机制,让记忆库保持可泛化、连贯且高效,涉及复杂的治理问题[43] 资源与前沿展望 - 综述汇总了相关的基准测试和开源框架资源,为实证研究与落地开发提供了关键基础设施[44] - 未来记忆系统的发展趋势包括:从**记忆检索**走向**记忆生成**,让记忆内容能被压缩、重组、重写成更适合推理的表示[50][53] - 记忆管理将从**手工编写规则**转向**自动化管理**,可能通过将记忆操作显式接入决策或构建自优化的记忆结构来实现[54][56][57] - **强化学习**将在记忆系统中扮演更核心的角色,未来可能实现完全由强化学习驱动的记忆控制,减少对人类先验知识的依赖,并对记忆全生命周期进行端到端优化[58][59][60] - 随着智能体走向具身与多智能体协作,**多模态记忆**和**多智能体共享记忆**成为关键挑战,需要实现异质信号的统一存取与推理,并发展出主动管理的集体表示机制[64][70] - **可信记忆**成为首要原则,需在隐私保护、可解释性以及抗幻觉与冲突鲁棒性等方面进行系统性建设[65][66]
旧金山大停电,Waymo自动驾驶汽车瘫痪,特斯拉赢麻了
机器之心· 2025-12-22 16:17
事件概述 - 美国旧金山发生大规模停电事故 由太平洋煤气与电力公司变电站火灾引发 约12万名用户受影响[1] - 停电导致Waymo自动驾驶汽车服务大规模瘫痪 车辆在道路中间和十字路口停车 造成严重交通堵塞[2][3][4] - 社交媒体上出现大量相关照片和视频 显示瘫痪现象是普遍情况而非个例[3][6][9] 事件原因分析 - 直接原因是停电导致交通信号灯熄灭 Waymo自动驾驶系统在路口因无绿灯指示而长时间停滞[17][18] - Waymo官方解释 其系统设计将无法正常工作的交通信号灯视为四向停车 但大规模停电导致部分车辆评估十字路口时间异常延长[18] - 根本原因在于Waymo对严格规则和预设地图的高度依赖 在意外突发情况下系统显得非常脆弱[19] 行业对比与影响 - 竞争对手特斯拉的FSD系统在此次停电期间未受影响 车辆能正常行驶[20] - 分析认为 特斯拉基于海量真实驾驶数据的处理方式 比依赖规则和地图的系统更能有效应对混乱和突发状况[21] - 此次事件凸显了脱离高精地图和强规则约束的自动驾驶发展路径的潜在优越性 行业需要探索能适应各类突发状况的更具适应性和鲁棒性的系统[24][25]
RL加持的3D生成时代来了!首个「R1 式」文本到3D推理大模型AR3D-R1登场
机器之心· 2025-12-22 16:17
研究突破与核心模型 - 强化学习在文本到3D生成领域取得首次系统性突破,提出了首个强化学习增强的文本到3D自回归模型AR3D-R1 [2] - 该研究系统性地探索了奖励设计、强化学习算法和评估基准,并提出了层次化强化学习范式Hi-GRPO [2] - 实验表明,AR3D-R1在Kernel Distance和CLIP Score上均取得显著提升,分别达到0.156和29.3的优异成绩 [3][30] 技术框架与创新 - AR3D-R1构建了一个推理驱动的3D生成流程,模型先根据文本提示进行高层语义推理,规划物体结构,再指导具体的3D生成过程 [11][13] - 提出了Hi-GRPO层次化强化学习范式,通过分离全局结构推理与局部纹理精修来优化3D生成,其核心是在单次迭代中联合优化层次化生成 [21][24][25] - 该范式包含全局规划阶段和局部精修阶段,并为两个阶段分别集成了专用的奖励模型 [27] 奖励设计与算法研究 - 在奖励设计方面,研究发现与人类审美偏好对齐的奖励信号能显著提升生成质量 [17] - 通用多模态模型在评估3D相关属性时表现出强大的鲁棒性,有时甚至优于专门的3D评估模型 [17] - 在强化学习算法研究中发现,相比响应级优化,token级别的损失平均能更好地捕捉生成过程中的全局结构差异 [22] - 对于文本到3D生成任务,动态采样策略足以稳定训练,无需复杂的训练稳定技术 [22] - 数据规模和迭代次数的扩展均能有效提升性能,但需要精细校准以避免过拟合或模式崩塌 [22] 评估基准与性能表现 - 研究引入了全新的推理型3D基准MME-3DR,用于评估3D生成模型的隐式推理能力,覆盖空间与结构几何、机械可供性、生物与有机形状、依赖世界知识的罕见物体、风格化表达五大高难类别 [2][26][28] - 定量实验表明,AR3D-R1在MME-3DR基准上的CLIP Score达到28.5,Kernel Distance (Inception) 为0.194,在Toys4K数据集上的CLIP Score达到29.3,Kernel Distance (Inception) 为0.156,均显著优于对比模型 [31] - 在MME-3DR这一苛刻场景下,传统文本到3D模型普遍出现崩塌,而经过强化学习训练的AR3D-R1在五大类别上均有明显提升 [26] 应用前景与行业影响 - 该技术的成功为构建更智能、更具推理能力的3D生成模型开辟了新方向 [32] - 未来能力可自然延伸至具身智能与机器人、游戏与内容创作、AR/VR与数字孪生等领域 [32]
智能体如何学会「想象」?深度解析世界模型嵌入具身系统的三大技术范式
机器之心· 2025-12-22 12:23
文章核心观点 - 一篇由多所顶尖高校及研究机构团队发布的综述,首次从架构集成的视角,系统性地将世界模型融入具身智能系统的现有研究划分为三大范式,并探讨了其核心优势与未来发展方向 [5][7][8] - 引入世界模型能解决传统反应式具身智能系统缺乏前瞻性和泛化性差的瓶颈,为智能体带来样本效率提升、长程推理能力、安全性增强及主动规划能力 [10][11][12] - 世界模型与策略模型的耦合强度可从梯度流动和信息依赖两个独立维度衡量,并据此形成从弱到强的模块化、顺序化、统一化三大架构范式 [15][16] - 未来研究将聚焦于表征空间的选择与融合、生成结构化意图、确保想象的可达性与物理一致性,以及探索统一的世界-策略模型构建范式 [27][28][29] 世界模型的核心价值与引入原因 - 传统端到端反应式方法面临两大瓶颈:缺乏前瞻性,无法预测未来状态以处理长程规划任务;泛化性差,难以适应未见过的环境或任务配置 [11][12] - 世界模型的思想源于人类认知科学,通过构建能预测未来的内部模型,使智能体获得“想象”能力,从而提升样本效率、长程推理能力、安全性及主动规划能力 [10][11] 三大架构融合范式 - **模块化架构**:世界模型与策略为独立、互操作的弱耦合模块,无梯度流动,策略输出不依赖未来状态;世界模型作为“世界模拟器”,让智能体能在内部根据动作预演未来,以判断动作的可行性、风险与长远收益 [15][16][20] - **顺序架构**:世界模型与策略为中等耦合,采用两阶段梯度传递;世界模型作为“决策生成器”,首先生成一个有价值的未来目标状态,将复杂任务拆分为目标生成与目标条件执行两个子问题,简化后续控制 [15][16][21][22][23] - **统一架构**:世界模型与策略融合为一个端到端的强耦合网络,在同一个损失目标下联合优化;网络在同一条计算路径中同时预测未来状态和输出动作,无需显式区分“模拟”与“决策”步骤 [15][16][24][25] 未来研究方向展望 - **表征空间选择与耦合**:需平衡视觉空间的语义丰富度与状态空间的高效紧凑,未来趋势是通过统一潜变量融合二者,为跨任务泛化奠基 [27] - **结构化意图的生成与表达**:世界模型应生成可解释的未来结构(如目标、轨迹、因果等),并与语言和符号推理结合,以显式刻画任务分解、物体关系与因果依赖 [27] - **想象对智能体脆弱性的指导**:需引入可达性判别、可行性过滤、物理一致性评估来降低想象目标超出本体能力的失效风险;同时需权衡模块化解耦带来的可解释性与终端性能最优性 [28] - **统一的世界-策略模型构建范式**:需探索如何将大规模预训练模型以最小代价转化为统一决策系统,关键难点在于状态空间对齐、表示粒度选择及避免表征偏置 [29]
陈天桥旗下盛大AI东京研究院于SIGGRAPH Asia正式亮相,揭晓数字人和世界模型成果
机器之心· 2025-12-22 12:23
文章核心观点 - 盛大集团旗下盛大AI东京研究院在SIGGRAPH Asia 2025首次公开亮相,并系统性地推出了名为Mio的端到端框架,旨在解决当前数字人技术缺乏“灵魂”的核心问题,标志着行业焦点从视觉逼真度转向交互智能 [1][16][23] - 当前数字人交互体验存在“灵魂缺失”的根本原因在于三大系统性挑战:长期记忆与人格一致性不足、多模态情感表达缺失、缺乏自主进化能力,这导致数十亿美元投资未能带来真正的用户粘性 [3][6] - Mio框架通过整合认知核心、语音引擎、面部动画师、身体动画师和渲染引擎五大核心模块,实现了从认知推理到实时多模态体现的完整闭环,在关键性能指标上超越了现有最优技术,代表了数字人技术从“形似”到“神似”的范式转移 [20][21][23] 盛大AI东京研究院的亮相与战略愿景 - 公司在SIGGRAPH Asia 2025期间通过展台、学术讨论和闭门交流等形式首次公开亮相,正式登上国际顶级学术与产业舞台 [1] - 公司的研究方向聚焦于数字人的“交互智能”与世界模型的“时空智能”两大方向 [1] - 这一战略是创始人陈天桥长期愿景的体现,其强调脑科学与AI融合,并系统阐述了“发现式智能”理念,认为智能体的认知基底至关重要 [1][4] - 公司内部技术协同生态强大,“交互智能”的实现得益于旗下EverMind团队产品EverMemOS的能力互补 [1] 当前数字人技术的核心挑战与行业共识 - 尽管视觉形象逼真,但用户互动时普遍感到“空洞感”或“断裂感”,这是导致投资未能转化为用户粘性的根本原因 [3] - 挑战一:长期记忆与人格一致性。标准大语言模型存在“人格漂移”,难以维持稳定的个性、习惯和世界观连贯性 [3] - 挑战二:多模态情感表达的缺失。数字人普遍存在“僵尸脸”现象,缺乏自然的微表情、眼神和肢体动作协同,导致情感表达不完整 [6] - 挑战三:缺乏自主进化能力。多数数字人仍是被动的“播放系统”,无法从交互中学习、适应用户偏好或发展新行为模式 [6] - 在SIGGRAPH Asia 2025的闭门研讨会上,来自港大、港中大、港科大及东京科学大学等机构的顶尖学者达成共识,认为数字人发展瓶颈已从视觉表现力转向认知和交互逻辑 [13] - 专家一致认为未来数字人的核心竞争力将体现在其“交互智能”上,必须具备长期记忆、多模态情感表达和自主演进三大关键能力 [13] Mio框架的系统性解决方案 - Mio是一个旨在实现“交互智能”的端到端系统性框架,其设计理念是将数字人从被动“木偶”转变为能自主思考、感知与互动的智能伙伴 [16] - **认知核心**:采用“介于叙事时间的知识图谱”架构,为信息标记“故事时间”以防止“剧透”,在CharacterBox基准测试中人格保真度超越GPT-4o,在防剧透测试中取得超过90%的成绩,并具备“无数据自训练”的自我进化能力 [20] - **语音引擎**:利用高效的离散化语音表征技术,生成与情境、情绪和人格匹配的自然语音 [20] - **面部动画师**:采用统一的“听-说”框架,在说话和倾听时都能生成生动的微表情、眼神和头部姿态,超过90%的用户研究参与者认为其倾听反应优于业界领先竞品 [20] - **身体动画师**:采用新颖的流式扩散模型,实时将认知意图转化为流畅连贯的全身动作,在保持实时性的同时,其运动质量达到顶尖离线模型水平 [21] - **渲染引擎**:确保在任何动态和视角变化下,都能生成高保真且身份一致的视觉形象 [21] 技术突破与未来展望 - Mio的整体交互智能分数达到76.0,较之前的最优技术水平提升了8.4分,为行业树立了新的性能标杆 [23] - 在认知共鸣、面部同步、肢体流畅度等各项指标上全面超越现有最优技术 [25] - “交互智能”预计将为虚拟陪伴、互动叙事、沉浸式游戏等领域带来革命性变革,未来的数字人将成为能够建立深层情感连接、共同成长的智能伙伴 [25] - 公司已将Mio项目的完整技术报告、预训练模型和评估基准公开发布,以推动领域共同进步 [28]
瞄准AI、图形顶端战场:摩尔线程上演国产GPU硬核实力路演
机器之心· 2025-12-22 12:23
核心观点 - 摩尔线程在首届MUSA开发者大会上,系统性地发布了其新一代统一计算架构MUSA的全面升级路线图,标志着国产GPU在核心技术、产品性能及生态建设上取得了里程碑式突破,已具备承接超大规模AI训练与推理任务的能力 [3][5][45] 技术架构:MUSA与“花港” - 公司发布了自主研发的全栈技术体系MUSA(元计算统一系统架构),作为贯穿其所有产品的技术基石 [7] - 基于MUSA的新一代全功能GPU架构“花港”在处理器架构和指令集层面重新设计,相比上代,在同芯片面积下算力密度提升50%,能效提升10倍 [9] - “花港”架构支持从FP4到FP64的全精度端到端计算加速,并新增MTFP6/MTFP4及混合低精度支持 [9] - 新架构集成了AI生成式渲染架构(AGR),硬件光线追踪加速引擎性能比上一代提升50倍,并首次完整支持DirectX 12 Ultimate行业顶级图形标准 [10] - 自研MTLink互联技术实现高达1314GB/s的片间互联速度,支持十万卡以上规模的智能集群扩展 [9] - MUSA架构支持国际主流GPU生态、CPU系统以及所有国产主流CPU、操作系统和开发环境,并采用全硬件设计的安全保护机制 [9] 基础软件与生态 - 同步升级了MUSA 5.0软件栈,在AI框架上适配PyTorch、Paddle,并新增对Jax、TensorFlow的支持 [14] - 训练套件新增强化学习训练框架MT VeRL,推理套件新增对SGLang、VLLM、Ollama等推理框架的适配 [14] - 核心计算库在GEMM(通用矩阵乘法)上的效率超过98%,通讯效率达到97% [14] - 公司计划逐步开源一系列高性能算子库,并推出四大基础库:MTX(兼容跨GPU硬件指令架构)、muLang(全场景编程语言)、MUSA-Q(量子计算GPU融合框架)、muLitho(光刻计算加速库) [15][19] - 发起“摩尔学院”和“MUSA开发者计划”,已走进全国200多所高校,吸引超过10万名青年学子参与 [40] 新一代芯片产品 - 基于“花港”架构,公司公布了两款未来芯片路线图:“华山”面向AI计算,“庐山”面向专业图形渲染 [17][18] - AI计算芯片“华山”被定位为对标国际顶尖水平的训推一体芯片,其浮点计算能力处于NVIDIA Hopper与Blackwell芯片产品之间 [18] - “华山”集成了新一代张量计算单元(TCE),通过独特的TCE-PAIR模式提升计算效率,并内置大语言模型专用加速引擎 [21][22] - “华山”内置支持多种协议的MTLink 4.0,单节点支持1024卡高速互联,以满足万卡级集群需求 [23] - 图形渲染芯片“庐山”相比上一代S80显卡,3A游戏性能提升15倍,并引入了AI生成式渲染架构(AGR)和第二代硬件光线追踪引擎 [23][25] - “庐山”GPU据称具有目前全球最高的几何能力,可胜任3A游戏及CAD、CAE等专业应用场景 [25] 系统级产品与集群能力 - 公司正式发布夸娥万卡智算集群(KUAE2.0),拥有10 Exa-FLOPS算力,可支持万亿参数大模型训练 [31] - 该集群在Dense大模型上的训练算力利用率(MFU)超过60%,线性加速比达到95%,训练线性扩展效率达95% [31] - 计划推出超级节点产品MTT C256,能以一层scale up网络实现两柜256GPU全互联,提高智算中心GPU部署密度 [31] - 展示了搭载通用服务器的AI计算卡S5000的性能:可实现每秒1024 token的流畅解码,超过4000 token的峰值吞吐,能单卡跑满血DeepSeek大模型 [1][3] 前沿领域布局 - 公司布局的前沿计算场景包括具身智能、AI for Science(科学智能)、量子计算、AI for 6G等融合创新领域 [35][38] - 在具身智能领域,发布了MT Lambda仿真训练平台和基于“端云结合”的MT Robot解决方案 [38] - 在图形计算方面,推出全自研的AI生成式渲染技术MTAGR 1.0,推动渲染技术范式从“计算”走向“生成” [38] - MUSA生态已与合作伙伴在科学智能、量子科技等前沿交叉领域展开工作 [38] 终端产品与生态入口 - 发布了AI算力笔记本MTT AIBOOK,作为连接开发者与MUSA生态的核心入口 [42] - AIBOOK搭载自研智能SoC芯片“长江”,异构AI算力达50TOPS,可在本地运行30B参数的端侧大模型 [44] - AIBOOK支持Windows虚拟机、Linux、安卓容器及所有国产操作系统,实现了从芯片到开发环境的全栈整合,内置智能体“小麦”及多种AI应用 [44] - 该产品旨在降低AI开发门槛,为开发者、创作者及爱好者提供“开箱即用”的一站式AI开发体验 [42][44]
人均「95后」,账上超十亿美金,MiniMax叩响港股大门
机器之心· 2025-12-22 01:22
公司上市进程 - 国内AI创业公司MiniMax(稀宇科技)在港交所刊发聆讯后资料集,上市进程进入关键冲刺阶段[2] - 公司于2021年12月成立,有望刷新从成立到IPO历时最短的AI公司记录[4][5] 业务模式与用户规模 - 公司采用“大模型 + AI 原生应用”双轮驱动模式,开放平台支持智能终端、医疗健康、文旅、金融等多个行业[7] - 截至2025年9月30日,公司拥有超过200个国家及地区的逾2.12亿名个人用户,以及超过100个国家的10万余家企业及开发者[9] - AI原生产品平均月活跃用户从2023年的314.4万快速增长至2025年前九个月的2762.2万[9] 财务表现与收入构成 - 2025年前九个月实现营收5343.7万美元,较去年同期增长约174.7%[9] - 海外市场收入贡献占比超过70%[9] - 收入主要来源于AI原生产品订阅与内购,以及开放平台与企业服务两大板块[9] - To C收入同比增长181%,付费用户数在不到两年内暴涨15倍[10] - To B收入同期实现160%的高增长,毛利率高达69.4%[10] - 应收账款周转天数仅为38天,远低于AI或SaaS行业60-90天的平均水平[9] - 2025年前九个月经调整净亏损(Non-IFRS)达1.86亿美元,与上年同期相比接近持平,小幅上升8.6%[11][22] - 2025年前九个月研发开支达1.8亿美元,相当于总收入的337.4%,研发费用率已由2023年的超2000%降至337.4%[22] 技术布局与产品进展 - 公司专注于研发文本、语音、视觉多模态融合的通用人工智能技术(AGI)[4] - 2023年起推出国内首个基于Transformer架构的语音大模型Speech 01,2024年推出升级版本Speech 02,综合性能位列第一,已累计生成超过2.2亿小时的语音[13] - 2024年8月发布视频生成模型Video 01和产品海螺AI,2025年6月推出升级版本Hailuo 02,位列AA视频竞技场排名第二,已累计生成超过5.9亿个视频[13] - 2025年10月发布并开源新一代文本大模型MiniMax M2,在Artificial Analysis榜单位列全球前五、开源第一[13] - MiniMax M2推理速度是Claude Sonnet 4.5的近两倍,性能接近而价格仅为其8%,并已上线亚马逊Amazon Bedrock云服务[15] - MiniMax M2采用“Interleaved Thinking”(交错思维)技术,显著提升Agent执行能力[19] - M2模型在全球模型聚合平台OpenRouter上迅速爬升至国内模型token用量第一,编程场景排名全球token用量第三[20] 研发效率与组织架构 - 公司整体员工规模约为385人,其中研发团队约300人,占员工总数接近八成[24] - 研发和产品团队以“95后”为主,并吸纳大量“00后”工程师[24] - 公司CEO之下不超过3层的行政指挥,以项目为导向的“极简主义”管理模式[24] - 自成立到2025年9月累计花费5亿美金[25] - 2025年前九个月,研发费用同比仅增长约30%,销售及营销开支同比下降26%[11][26] 管理层与董事会 - 四位执行董事平均年龄仅32岁(“95后”),这在港股上市公司历史上极为罕见[29] - 核心管理层包括创始人兼CEO闫俊杰(36岁)、COO贠烨祎(31岁)、大语言模型研究与工程负责人赵鹏宇(29岁)、视觉模型研究与工程负责人周彧聪(32岁)[30] 未来战略与资金用途 - 上市募集资金约70%用于未来五年研发,包括大模型升级与AI原生产品开发;约30%用于营运资金及一般企业用途[34] - 公司战略目标是实现从单一模态领先到全模态领先的跨越式迭代,在三个模态达到国际第一梯队[33]
遥遥无期的AGI是画大饼吗?两位教授「吵起来了」
机器之心· 2025-12-21 12:21
文章核心观点 - 文章围绕“AGI能否实现”这一核心议题,呈现了两种对立的观点:一种基于物理和成本限制认为AGI和超级智能无法实现[3][7][28],另一种则认为当前AI系统在软硬件效率上仍有巨大提升空间,通往更强AI的道路多样,实用化的“类AGI”能力可能并不遥远[33][36][66] 对AGI的悲观论据(物理与成本限制) - **计算受物理规律制约**:计算是物理过程,需要在局部计算与全局信息移动间取得平衡,随着晶体管缩小,计算变便宜但内存相对变贵,芯片面积主要被内存占据,导致算力可能因内存服务不足而成为“无效算力”[8][10][11] - **Transformer架构已接近物理最优**:该架构以最简单方式结合了局部计算与全局信息汇聚,是对信息处理单元的物理层面优化[11][12] - **线性进步需要指数级资源**:在物理现实和观念空间中,要获得线性改进,所需投入的资源呈指数级增长,观念创新因领域庞大而边际收益递减[13][15] - **GPU进步已停滞**:GPU在“性能/成本”指标上于2018年左右达峰,后续改进多为一次性特性(如16位精度、Tensor Core、HBM等),现已走到尽头,任何进一步改进都将是权衡而非纯收益[16][17] - **规模化收益面临极限**:过去GPU的指数级增长对冲了规模化所需的指数级成本,但现在规模化已变成指数级成本,物理极限可能在一到两年内逼近,规模化收益不再显著[20] - **基础设施优势可能迅速蒸发**:若研究/软件创新、强大的开源推理栈或向其他硬件平台迁移取得突破,前沿实验室的大规模基础设施优势可能一夜消失[21][22][26] - **超级智能是幻想**:超级智能自我改进引发爆炸增长的前提错误,智能改进受物理现实和缩放规律制约,线性改进需指数级资源,其发展更可能是填补能力空白而非推动边界外扩[28][29] - **AGI需具备物理执行能力**:真正的AGI需包含能在现实世界完成经济意义工作的实体机器人,但机器人领域数据收集成本高昂,现实细节复杂,许多问题经济上并不划算[25][27] 对AGI的乐观论据(效率与创新空间) - **当前AI系统被严重低估,效率远未达上限**:训练效率比几年前更低,例如DeepSeek-V3和Llama-4训练的MFU仅约20%,而2022年的BLOOM项目已达50%,当前模型设计并非为最高硬件利用率[39][41] - **推理效率存在更大提升空间**:最优化推理实现关注带宽利用率(MBU),FLOP利用率(MFU)常为个位数(<5%),这并非物理根本极限,而是当前自回归架构规模化带来的限制[43][44] - **新一代硬件提供显著算力提升**:Blackwell架构芯片的FP8吞吐量是Hopper的2.2倍,并支持原生FP4 Tensor Core,GB200等机架级方案可缓解通信瓶颈,高效FP4训练理论上可将可用FLOPs提升最多9倍[42][50] - **模型是硬件的滞后指标**:当前模型反映的是上一代硬件能力,而新一代超大规模集群(如10万卡以上)正在建设,意味着高达50倍的算力建设正在发生[47][48] - **明确的效率提升路径**:通过训练高效的架构协同设计、高质量高效率的FP4训练、推理高效的模型设计(如扩散式语言模型)等方式,可大幅提升硬件利用率[45][46][52] - **已有AI工具产生巨大经济影响**:以更务实的定义,一套在某些任务上比大多数人做得更好并能产生巨大经济影响的通用工具体系,可能并不遥远,例如当前模型已在编程等领域越过关键阈值[60][61] - **即便能力不提升,应用场景仍广阔**:假设模型能力冻结,系统层面的效率改进也足以让许多高影响力应用落地,且通过新的后训练范式、更好的样本效率等方法,可继续推进“有用AI工具”[62][63][65] 行业路径与理念差异 - **中美AI发展路径不同**:美国遵循“赢家通吃”思路,追求构建最大最强的超级智能模型;中国理念更侧重应用,认为模型能力本身没有应用重要,关键是实用性和以合理成本提升生产力[23][24] - **不同理念的可持续性**:在模型能力增速放缓的背景下,追求超级智能的目标可能遭遇困难,而推动AI经济扩散的务实思路可能更具长期优势[24][30]