线性注意力机制
搜索文档
MINIMAX-WP(00100.HK):全球化多模态大模型公司 高性价比构筑核心竞争力
格隆汇· 2026-02-15 01:50
公司技术能力与产品表现 - 开源项目Clawdbot(现名openClaw)在技术社区爆火,公司为其提供底层技术支持,项目上线初期即接入其技术生态 [1][8] - 作为主力模型,MiniMax2.1在工具调用方面表现出色,在处理非极端复杂的全栈任务时高效且成本低,相较于Claude等同类产品,其API与Coding Plan套餐以高性价比、大用量及任务处理高效深受用户好评,满足24*7小时持续运行 [1][9] - 根据Openrouter数据,Clawdbot火爆后token调用量快速提升,截至2026年2月8日,周度token环比调用量同比提升64% [1][9] - 公司引入了OctoCodingBench评测集,定义了Coding Agent的生产级标准,下一代Coding Agent的训练引入过程监督 [2] - 根据公司测试榜单,开源模型在过程合规方面展现极强竞争力,MiniMax M2.1和DeepSeek V3.2的成功率分别达到了26.1%和26%,超过了闭源模型Claude 4.5 Sonnet的22.8%和Gemini 3 Pro的22.9% [2] - 公司拥有大语言、视频、音频方向大模型,AI视频和AI音频是全球第一梯队 [4] - 公司是亚洲首家及全球首批实现MoE基础模型架构商业化的公司,这种结构性优势提升了可扩展性和效率,并直接转化为更少的计算需求及更低的推理成本 [4] - 公司首发大规模“线性注意力”机制,使模型在长文本处理方面表现出色,进一步提升模型效率与可扩展性,亦助力开发更强大的AI agent [4] - 截至2026年1月3日,在Artificial Analysis全球文生视频榜单中排行第九,图生视频榜单中排行第五;其Speech-02语音模型在同期全球语音榜单中排行第二 [4] 公司业务与市场概况 - MiniMax是一家全球化的大模型公司,成立于2021年底,累计服务超过200个国家及地区的超2亿名个人用户,以及100个国家及地区的10万余名企业客户 [2] - 公司海外收入占比73%,新加坡、美国市场分别占比24%和20% [2] - 公司以C端消费主导业务模式,原生AI产品占比收入71% [2] - 公司股东包括阿里巴巴、米哈游、IDG资本、腾讯,创始人具有商汤系背景,研发团队年轻化 [3] - 2024年公司收入3052万美元;2025年9月收入5344万美元,同比增长175% [6] - 预计2025-2027年公司收入分别为0.8亿、1.9亿、3.95亿美元,同比增长173%、129%、107% [7] - Talkie、海螺、开放平台贡献公司主要收入,2025年9月三者收入占比分别为35%、33%、29% [3][6] 核心产品线分析 - **海螺AI视频**:性价比高,在精准执行用户指令、物理复杂交互方向表现出色,订阅收入是主要来源,2025年9月收入1746万美元 [5][6] - **Talkie/星野**:是AI陪伴产品,专注于实时人机交互体验,Talkie融合“卡牌收集”机制和二次元文化,受到欧美国家喜爱,月活跃用户数与Character.AI相当,2025年9月收入1875万美元,同比增长39% [5][6] - **开放平台**:提供基于AI的企业服务,整合M系列大语言模型、Speech语音模型、Hailuo视频模型、Music音乐模型,形成完整多模态生态,具有竞争力的性价比和全模态能力覆盖,2024年收入872万美元,2025年9月收入1542万美元,同比增长160% [6] - 开放平台是公司未来收入增长的核心驱动力,随着全球AI应用落地,预计2026年收入增长强劲 [6] 行业竞争与市场地位 - 在AI视频领域,根据快手公告,快手可灵2025年底年度经常性收入为2.4亿美元,月活跃用户数测算为900万;对比公司海螺AI在2025年9月收入1746万美元,月活跃用户数564万 [7] - 在AI陪伴领域,根据美通社,Character.AI在2025年中年度经常性收入为3000万美元,月活跃用户数约2000万;对比公司Talkie/星野在2025年9月收入1875万美元,月活跃用户数2000万 [7] - 在Agent领域,根据36氪,Manus作为通用型AI智能体产品,年度经常性收入为1亿美元 [7] - 从Openrouter榜单观察,截至2026年2月8日,在中小用户中公司模型占比4.2%,排名全球第七 [7]
Kimi K2.5登顶开源第一!15T数据训练秘籍公开,杨植麟剧透K3
量子位· 2026-02-03 08:37
开源模型市场表现 - Kimi K2.5在开源社区平台Hugging Face上成为趋势榜首,下载量超过5.3万次 [2] 模型核心能力与性能 - Kimi K2.5主打智能体(Agent)能力,在HLE-Full、BrowseComp等测试集中,其表现超越了GPT-5.2、Claude 4.5 Opus以及Gemini 3 Pro等旗舰闭源模型 [3] - 在BrowseComp测试中达到比GPT-5.2更高的表现,而资金消耗仅有不到5%,显示出极高的性价比 [9] 技术架构与训练方法 - 模型采用原生多模态技术路线,使用同一套参数空间直接处理视觉信号与文本逻辑 [7] - 在K2架构基础上,投入了15万亿(15T)的视觉与文本混合Token进行持续预训练 [6] - 在15T的庞大数据量级下,模型的视觉理解与文本推理能力实现了同步增强 [8] 视觉编程与自动化调试 - 基于原生多模态底座,K2.5解锁了“视觉编程”能力,能够从视频流直接逆向推导代码 [11] - 模型能够从包含复杂特效的网页演示视频中,捕捉视觉元素随时间变化的规律,并直接映射为可执行的前端代码,实现从设计演示到代码实现的无损转化 [12] - 模型集成了自主视觉调试机制,在代码生成并渲染界面后,会调用视觉感知能力对实际运行页面进行验收,发现问题后自动触发文档查询工具进行定位和修正,形成“生成-观察-查阅-修复”的自动化闭环 [14][15][16] 智能体集群系统 - Kimi K2.5搭载了Agent Swarm架构,能够自主构建并编排多达100个子智能体,并支持调用1500个工具的并行工作流 [17] - 该系统将复杂任务拆解为同步进行的子任务,利用集群算力大幅压缩处理时间 [18] - 系统采用PARL(并行智能体强化学习)框架进行指挥,由调度器负责宏观任务拆解与分发,参数冻结的子智能体负责高效执行具体指令 [20][21][22] - 训练过程采用阶段性奖励塑造策略,初期优先激励调度器进行并行化探索,后期奖励重心平滑过渡至任务最终成功率 [25][26] - 效率评估引入临界步骤作为核心指标,聚焦调度开销与最慢子智能体的耗时,以缩短端到端实际等待时间为目标,在极致速度与计算资源消耗之间寻找平衡 [28] 团队沟通与未来展望 - 月之暗面三位创始人在Reddit进行了长达3小时的AMA问答,与全球开发者交流 [29][30] - 对于下一代Kimi K3,团队预告其很可能基于线性注意力机制,并预期相比K2.5将会有质的飞跃,甚至可能有10倍的提升 [31][32] - 团队解释K2.5偶尔会自称Claude的现象,是由于模型训练数据中包含了大量高质量的编程数据,而这些数据里充斥着Claude的名字 [34] - 团队认为堆砌算力不是通往AGI的唯一路径,在有限资源下追求更高效的算法和更聪明的架构是其核心目标 [38]
2024 到 2025,《晚点》与闫俊杰的两次访谈,记录一条纯草根 AI 创业之路
晚点LatePost· 2026-01-09 10:38
文章核心观点 - 文章通过对比MiniMax在2024年初与2025年初的两次访谈,揭示了公司战略认知与行业议题的演变[4][6] - 公司核心信仰始终是“Intelligence with everyone”,致力于做出服务普通人的AI产品,而非项目或大杀器[5][8][9] - 公司认知发生关键转变:从初期同时追求技术与产品,到明确自身是一家技术驱动型公司;并深刻认识到“更多用户不会直接让模型变得更聪明”,批判套用移动互联网逻辑(如过度追求DAU、依赖用户反馈和AB测试)是行业误区[4][57][60][93] - 基于新认知,公司调整策略:将技术迭代定为最高目标,而非收入或增长;坚定推进开源以加速技术进化;在应用层面避开与大厂的正面竞争,寻找差异化空隙[54][56][95][97] 公司战略与认知演变 - **2024年初目标**:技术上对标GPT-4,产品上将用户规模翻十倍,实现单个产品千万DAU[4] - **2025年认知转变**:DAU被视为“虚荣指标”,做大模型的误区是套用移动互联网逻辑,因为用户数据不能直接提升模型智能,提升核心在于训练和迭代新模型[4] - **技术驱动明确化**:公司明确为技术驱动型公司,当技术与产品冲突时,技术决策优先,例如为保障算法上限而牺牲产品页面完善度[61] - **目标重设**:2025年目标调整为聚焦技术研发,而非收入或增长目标[95] 技术路线与研发理念 - **早期豪赌MoE**:在2023年夏季,公司投入80%以上算力与研发资源研发混合专家系统,因计算资源与数据量限制,只有MoE能训完,且dense模型无法承受生成token的成本与延迟[9][10] - **技术成果**:2025年1月发布的M1是首个使用线性注意力机制的千亿参数大模型;MiniMax-01系列是首个大规模实现线性注意力机制的模型,旨在高效处理长上下文,开启Agent时代[5][70][85] - **研发方法论**:信仰并追求优化“Scaling Laws”,认为通过提升数据质量、优化算法与训练方法,可以实现比原始定律快数倍甚至十倍的性能提升[20][22][23] - **开源策略转变**:认识到技术品牌的重要性与开源对技术进化的加速作用,于2025年开源MiniMax-01系列,并坦言若重新选择,创业第一天就会开源[54][56] 产品哲学与市场策略 - **产品逻辑**:不认同“在黑莓手机上做不出抖音”的观点,认为产品发展也是渐进的,需要通过不断尝试和失败来找到成功形态[16][17] - **多产品矩阵**:同时运营Glow、星野、海螺AI等多款产品,认为在技术与产品存在gap的阶段,多尝试是找到成功产品的客观规律[16] - **关键教训**:产品价值的核心来源是模型性能与算法能力,例如Glow曾因一个小算法bug导致DAU在元旦三天内下降40%,修复后用户量迅速回升[18] - **差异化竞争**:避免与字节“豆包”等大厂在生产力工具上正面竞争,转而寻找巨头战场之外的空隙,例如在AI社区(星野)和视频生成(海螺视频)领域建立优势[89][96][97] 行业观点与竞争格局 - **批判行业误区**:指出中国AI产业存在“用户越多,模型能力提升越快”的巨大误区,并以ChatGPT DAU是Claude的50-100倍但模型能力并未等比提升为例证[57] - **竞争本质**:认为靠融资无法打死竞争对手,拐点只可能来自技术、产品或商业化效率的领先;创业公司之间比较意义不大,应关注整个行业[37][62] - **中美模型差异**:认为中国模型缺乏内部定义的benchmark和底层设计,更多是在对齐如o1等国外模型的输出[84] - **组织与人才**:认为人才密度最高的是字节跳动,其他公司都差一档;但创业公司能让优秀人才成长更快的概率更大[86][87];公司组织结构简单,仅三层,分为技术、产品、运营与增长三个部门[43][44]
海通国际证券电子日报-20251103
海通国际证券· 2025-11-03 19:04
行业投资评级 - 报告未明确给出具体的行业投资评级 [1] 核心观点 - 量子计算领域竞争加剧,NVIDIA与AMD分别通过构建开放架构和突破关键技术推动产业发展 [1][2] - AI基础设施竞争从单点技术突破转向生态系统构建,NVIDIA投资诺基亚以整合算力与网络资源 [3] - 消费电子与汽车行业智能化趋势显著,iPhone 17销售超预期,中国车厂及供应链在AI机器人和低成本激光雷达领域快速推进 [4][7][8] - 人工智能模型与应用持续创新,涵盖代码安全、架构优化、创意工具及脑机接口等多个前沿方向 [9][10][11][12] 量子计算与AI基础设施 - NVIDIA联合约17家量子处理器技术公司推出开放式互连架构NVQLink,旨在连接量子系统与经典CPU/GPU系统 [1][2][15][16] - AMD与IBM合作成功在FPGA芯片上运行量子纠错,标志着量子计算实用化的重要进展 [2][16] - NVIDIA对诺基亚进行战略投资,凸显在AI竞赛中网络与算力整合的重要性,竞争格局转向“生态战” [3][17][18] 消费电子与智能汽车 - Apple iPhone 17在2025财年第四季开售两周即贡献强劲营收,标准版供不应求,公司对2026财年第一季度中国市场需求表示乐观 [4][5][19][20] - 中国主要车厂(比亚迪、小鹏、蔚来、小米)正加速部署AI机器人于生产线,分为“未来战士”、“数字哨兵”和“后勤补给兵”三类,以提升生产速度与规模化效率 [7][21][22] - 中国激光雷达制造商禾赛科技推出售价仅200美元的新产品ATX,较过去超过1万美元的成本大幅下降,目前全球汽车激光雷达市占率约33%,已被24家车厂采用 [8][23][24][25] 人工智能模型与应用 - OpenAI发布由GPT-5驱动的白帽Agent Aardvark,能自动发现并修复代码库中92%的安全漏洞 [9][26] - 线性注意力机制受到关注,但MiniMax新模型M2因精度问题回归传统架构,Kimi Linear采用混合注意力策略实现75%的KV缓存缩减和最高6倍解码吞吐量提升 [10][28] - 估值420亿美元的Canva推出自训练基础模型,年化收入约30亿美元,月活超2.4亿,市场预期其2026年IPO [11][29] - Neuralink已有12名用户累计使用超2000天,公司启动“思维转文字”临床试验,目标到2031年实现年植入2万人,年营收突破10亿美元 [11][30][33] - OpenAI完成重组,非营利基金会持有价值约1300亿美元股份,与微软签订为期7年的AGI模型API独家部署协议及2500亿美元的Azure预购合同 [13][36]
腾讯研究院AI速递 20251103
腾讯研究院· 2025-11-03 00:06
AI驱动的代码安全与漏洞修复 - OpenAI发布由GPT-5驱动的白帽智能体Aardvark 能自动发现并修复代码库安全漏洞 已识别92%的已知与人工注入漏洞 [1] - Aardvark工作流程运用LLM推理能力 包括威胁建模、提交扫描、沙盒验证和Codex修复 不依赖传统程序分析技术 [1] - 谷歌、Anthropic、微软等科技巨头在10月密集发布类似白帽智能体 以应对AI时代漏洞数量激增和攻击手段智能化的挑战 [1] 中国开源AI模型的商业化应用 - AI编程应用Cursor和Windsurf新发布的Composer-1和SWE-1.5模型被发现可能基于中国模型 [2] - Cursor Composer-1使用与DeepSeek相同的分词器 Windsurf被证实基于智谱开发的GLM模型 [2] - 中国开源模型在性能榜单占据TOP5甚至TOP10 物美价廉成为初创公司的理性选择 [2] 大模型注意力架构的技术演进 - 线性注意力机制正在回归 MiniMax-M1、Qwen3-Next、DeepSeek V3.2等国产模型引领采用线性或亚二次方注意力变体 [3] - MiniMax新模型M2放弃线性注意力回归常规注意力 团队解释线性注意力在推理和多轮对话任务中存在明显精度问题 [3] - Kimi Linear提出混合注意力策略 每三个线性注意力块搭配一个全注意力块 实现75%KV缓存缩减和最高6倍解码吞吐量提升 [3] Canva的AI战略与市场定位 - 估值420亿美元的Canva推出自训练基础模型 能输出带可编辑图层的完整设计文件 并将收购的Affinity永久免费开放 [4] - 核心功能Ask @Canva深度嵌入设计界面每个角落 用户可用自然语言修改任何元素 AI还能对整个设计提出改进建议 [4] - Canva年化收入约30亿美元且持续盈利 月活超2.4亿 市场预期将在2026年正式IPO 直接对标Adobe的70%市场份额 [4] Neuralink的脑机接口商业化进展 - 马斯克表示首位Neuralink接受者Noland Arbaugh可能首个接受升级或植入双芯片 预言Neuralink接受者最终能在游戏中击败所有人 [5] - Neuralink已有12名用户累计使用超2000天总活跃时间超1.5万小时 首批3位试验者研究成果已提交《新英格兰医学杂志》 [5] - 公司启动新临床试验"思维转文字" 目标到2031年实现每年植入2万人 年营收突破10亿美元 2030年开始应用于健康个体 [5] 大模型在医疗健康领域的应用潜力 - 斯坦福大学等研究团队测试15种主流模型对言语障碍识别 目前表现最佳模型准确率仅55%未达FDA要求的80-85%临床标准 [6] - 研究发现模型存在性别、年龄和语言偏见 对男性语音识别优于女性 英语使用者优于其他语言 年长儿童优于幼龄儿童 [6] - 微调技术带来突破口 利用小型儿童语音数据集微调后模型性能准确率提升10% 展现多模态语言模型在言语病理学应用潜力 [6] 企业级AI工作流重构与组织变革 - 估值123亿美元的Brex将内部AI平台当产品打造 基于Retool构建并复用外部产品AI能力 由25人系统工程团队维护运营 [7] - COO重构运营团队工作流 L1工作全交给AI L2从管理人变为管理Agents L3从解决问题变为设计系统 预测运营效率可提升5到10倍 [7] - 招聘策略从青睐"专才"转向"通才" 面试中询问AI使用习惯、要求提交AI案例研究、给出真实业务挑战评估AI应用能力 [7] OpenAI与微软的战略合作深化 - OpenAI完成重组 非营利基金会持有价值1300亿美元股份成全球最大慈善基金之一 首批投入250亿美元用于医疗健康和AI安全 [8] - 新协议明确OpenAI当前及未来AGI模型API将在7年内独家部署Azure 微软持有OpenAI约32.5%股份价值约1350亿美元 [8] - 双方签下2500亿美元Azure预购合同 微软上季度资本开支高达349亿美元较前一季度猛增40% 主要投向新建数据中心和采购AI芯片 [8] OpenAI内部治理与领导层变动 - Ilya Sutskever在马斯克起诉OpenAI案中作证近10小时 [9] - Ilya提交52页备忘录详细记录Altman"问题行为" 指控其欺骗董事会、挑拨离间、制造混乱和纵容Anthropic成长 [9] - 解雇Altman后董事会曾严肃探讨与Anthropic合并可能性 拟让Dario Amodei担任CEO 但因实际操作障碍和700名员工兵变而流产 [10]
关于端侧大模型芯片化的若干趋势思考......
自动驾驶之心· 2025-10-23 08:04
文章核心观点 - 算法、框架和部署技术的演进正深刻影响未来端侧芯片的设计,当前端侧芯片在支持大模型时面临效率未达上限的挑战 [1][2] - 视觉与语言大模型带来的性能飞跃使Transformer架构支持势在必行,但其计算复杂度对端侧设备的算力和带宽提出巨大需求 [4] - 线性注意力、动态稀疏MoE、低比特量化和Token压缩是未来端侧芯片设计需重点关注的四大确定性技术趋势 [5][7][11][14] 注意力机制演进对芯片设计的影响 - Transformer自注意力机制的计算复杂度与序列长度呈平方关系,对prefill阶段算力和decode阶段带宽构成挑战 [4] - 线性注意力机制通过核函数近似将计算复杂度降至线性水平,RWKV、Mamba、DeltaNet等属此路线 [5] - 稀疏注意力通过将序列长度n变小来突破瓶颈,DSA、MoBA等技术是典型代表,今年ACL最佳论文DSA即属此类 [5] - 对端侧芯片而言,注意力机制变体影响有限,只要算子可融合则计算效率依然高,通道数、head数及SRAM容量是更关键瓶颈 [5] 动态稀疏与MoE技术的影响 - MoE技术在推理阶段只激活部分专家,14B稠密模型与30B-A3B稀疏模型相比,后者性能更好且推理时省算力、省带宽 [8] - 单batch场景下MoE优势明显,但多batch decode阶段带宽需求几乎等同于30B稠密模型,此时反而不如稠密模型 [8] - 蚂蚁集团MoE模型(100B-A6.1B及端侧16B-A1.4B)展现出稀疏性加大趋势,未来MoE技术将驱动芯片向大内存、中带宽、中算力方向发展 [9] - MoE模型压缩是工业界需关注的重点,例如MoNE等工作致力于降低内存需求 [9] 低比特量化技术趋势 - Deepseek采用FP8训练开启低比特量化新时代,端侧大模型对4bit及以下量化有更激进需求 [11] - 技术呈现四大特性:权重专用量化(如GPTQ、AWQ)以解决decode带宽瓶颈;低精度浮点与定点数两条技术路线;细粒度量化提升精度;动态与静态量化的权衡 [11][12] - 混合量化是未来趋势,尤其适合处理大模型层内层间数值不平衡问题,在MoE模型上有更大应用潜力 [12] Token压缩技术的影响 - Token维度压缩极大降低端侧大模型应用门槛,视觉Token数量远超文本Token且冗余度高,是压缩重点 [14] - FastV、PyramidDrop、Holov、LightVLM、SpecPrune-VLA等工作近期呈现井喷式发展 [14] - 对芯片设计而言,Token压缩技术是纯收益,能够直接降低计算量 [14]
月之暗面 MoBA 核心作者自述:一个 “新晋大模型训练师” 的三入思过崖
晚点LatePost· 2025-02-20 22:21
注意力机制优化进展 - Kimi和DeepSeek同日发布注意力机制改进成果MoBA和NSA,均针对Transformer核心组件"注意力机制"进行创新[2] - 标准全注意力机制存在计算复杂度随文本长度平方级增长的问题,成为制约长上下文能力的关键瓶颈[4] - 行业出现两大优化方向:稀疏注意力机制(如NSA/MoBA/InfLLM)和线性注意力机制(如MiniMax-01),前者侧重稳健优化,后者尝试根本性解决计算爆炸问题[5] MoBA技术演进 - 项目始于2023年5月,初始目标为支持16K长度预训练,后升级至128K需求,经历v0.5到v2三次架构迭代[6][12][16] - 关键技术突破包括:采用Online Softmax实现与全注意力机制的可对照调试、解决注意力汇聚点问题、最终形成极简单层稀疏注意力结构[13][16] - 在1M长度测试中达到与全注意力机制持平的性能指标,已部署至Kimi生产环境[20] 行业竞争格局 - 中国头部AI公司密集发布注意力机制创新:MiniMax-01采用线性注意力,面壁智能InfLLM被NSA论文引用[5] - 微软亚研院专家指出稀疏注意力与线性注意力的本质差异:前者保留复杂依赖关系捕捉能力,后者可能牺牲部分长程关联性[5] - 清华大学团队证实NSA和MoBA均采用动态注意力选择机制,相比静态方法显著提升模型性能[5] 工程实现细节 - MoBA开源代码已在GitHub发布,包含完整工程实现与技术论文,实际经过1年多线上验证[6][25] - 解码阶段对MHA效果最佳(IO优化达理论最大值),但对GQA/MQA效果递减[22] - Triton实现版本曾获得10%+性能提升,但因维护成本过高暂未持续优化[24] 研发方法论 - 采用"饱和救援"模式推进技术攻坚,整合跨团队资源进行多轮消融实验[15][19] - 通过"思过崖"机制实现快速试错与迭代,三次关键架构调整分别解决参数膨胀、训练不稳定和SFT效率问题[8][13][19] - 最终方案保留数学严谨性(支持全注意力模式对照)与工程实用性(单机/分布式兼容)的双重优势[16][20]