Workflow
MoE架构
icon
搜索文档
明势创投黄明明:四年六轮连续加注MiniMax,中国科技企业必将在全球舞台展现光芒
新浪财经· 2026-01-09 10:12
新浪科技讯 1月9日上午消息,今日,MiniMax Group Inc.(以下简称"MiniMax")正式以"0100"为股票 代码在港交所主板挂牌上市,成为史上IPO规模最大的AI大模型公司。 成立至今,MiniMax已获得多家战略投资方和一线机构的投资和支持。其中,明势创投作为MiniMax最 早的投资方之一,于2022年3月参与投资,此后连续六轮加注,是参与MiniMax历次融资轮次最多的机 构。 明势创投创始合伙人黄明明表示:"全球主流长线投资人对MiniMax的认可,意味着对中国AI公司能力 的认可,这为中国大模型公司在全球市场竞争中探索出可行道路。我坚信以MiniMax为代表的中国科技 企业将在全球舞台上展现光芒,未来将会对全球生产力革命带来的深远影响"。 作为MiniMax早期主要投资方之一,明势创投创始合伙人黄明明回忆称,初识闫俊杰时,市场尚未出现 对大模型投资的系统性研究。"当时闫俊杰就谈起AGI(通用人工智能)这个行业内很少被提及的话 题,随后他谈到的端到端数据驱动、AI1.0到AI2.0的跨越,彻底触动了明势团队。更让我印象深刻的 是,第一次见面他正在看论文而不是商业计划书,这让我感觉他 ...
MINIMAX-WP(00100):中国AI出海标杆,多模态布局未来
东吴证券· 2026-01-08 17:19
投资评级 - 报告未给出明确的投资评级,仅标注为“投资评级(暂无)” [1] - 报告在总结部分建议“关注”该公司 [7] 核心观点 - 报告认为MiniMax是中国AI出海的标杆企业,其“生而全球化”的定位和多模态布局构成了差异化优势 [7][12] - 公司的商业模式采取ToC和ToB双轮驱动,两者协同形成增长飞轮:消费者业务(Talkie/星野、海螺AI)贡献收入主体和现金流,并提供海量交互数据反哺模型迭代;开发者企业业务(API、解决方案)提供高毛利和稳定性 [7][30] - 公司的技术路线以MoE架构为核心,并早于多数同行布局多模态并行研发,全栈自研带来较高的研发效率 [7][43] - 报告预计公司2025-2027年收入将保持超过130%的复合高增长,毛利率将从2025年的23%显著提升至2027年的50% [7][80] - 公司IPO发行估值中间值为483亿港元,对应2025-2027年预测PS分别为77倍、32倍和16倍,估值高于商汤科技和第四范式,溢价源于更高的增长预期和业务质量 [7][86] 公司概况 - MiniMax成立于2021年12月,专注于通用人工智能基础技术研发,目标是构建具有国际竞争力的多模态大模型 [7][12] - 公司从成立之初就明确全球化定位,同步布局消费者产品和海外渠道,截至2025年9月30日,产品覆盖个人用户超过2.12亿,覆盖200多个国家和地区;企业和开发者客户超过10万,分布在100多个国家 [7][12] - 公司于2025年12月通过港交所聆讯并启动IPO,股票代码0100,发行估值461-504亿港元,计划募资超过6亿美元,基石投资者认购总额约27亿港元 [7][13] - 公司发展历程分为四个阶段:技术积累与产品验证(2021-2022)、海外突围与国内合规调整(2023)、多模态突破与全球化深化(2024)、商业化加速与Agent布局(2025至今) [14][15][16][17] - 创始团队拥有深厚的商汤科技背景,创始人兼CEO闫俊杰博士在AI领域有丰富经验和学术成就,公司组织架构年轻高效,员工平均年龄29岁,研发人员占比73.8% [12][18][19] - 公司累计融资超过15亿美元,主要股东包括阿里巴巴、米哈游、IDG资本、腾讯等,阿里巴巴系是最大机构投资者,上市前持股约15.66% [12][22][26][27][28] 商业模式与运营 - **消费者业务**:主要产品为Talkie/星野(角色互动娱乐)和海螺AI(文生视频)[7][31] - Talkie/星野在海外AI伴侣赛道领先,变现主要通过订阅(每月9.99美元至199.99美元)和应用内购买,付费意愿强 [31] - 海螺AI聚焦文本到视频生成,在生成速度、成本控制和中文场景理解上具备优势,变现路径包括免费额度加付费订阅、虚拟货币充值等 [34] - 截至2025年9月30日,消费者业务收入达3802万美元,占总收入71.1%,付费用户数增至177万人,用户日均使用时长超70分钟 [35] - **开发者企业业务**:主要通过API调用、专属资源服务和模型授权实现,毛利率稳定在70%左右 [7][38] - API服务按token或使用量计费,例如文本模型M2.1输入价格为2.1元/百万tokens,输出为8.4元/百万tokens;视频模型Hailuo-2.3文生视频价格为2.00元(768P 6s)[40] - 截至2025年9月30日,开放平台及其他企业服务收入1541.7万美元,占总收入28.9%,付费客户从2024年约400家增至约2500家 [39] - **协同效应**:消费者业务提供规模和数据反哺模型迭代,企业业务的高价值需求引导技术优先级,形成增长飞轮 [7][30][41] - **全球化商业化**:消费者业务海外收入占比已超50%,主要市场包括北美、欧洲和东南亚,避免了国内价格战 [41] 技术与竞争优势 - **技术路线**:公司以MoE架构为核心,并早期布局语言、视觉、语音三大模态的并行研发,坚持全栈自研 [7][43] - **研发投入**:截至2025年9月累计投入研发约5亿美元,2025年前九个月研发费用为1.80亿美元 [7][76] - **文本生成**:2025年底发布的M2.1开源模型强化了多语言编程和全栈开发能力,在Artificial Analysis榜单排名全球第11、开源第4 [51][52] - **语音生成**:Speech-02模型实现零样本语音克隆,登顶相关榜单;Speech 2.6针对Voice Agent场景优化,首包响应时间降至250毫秒,在性价比上具备优势 [58][62][63] - **视频生成**:Hailuo 02及Hailuo 2.3视频模型在全球基准测试中位居前列,例如Hailuo 02 Standard在文生视频排行榜位列第10(ELO 1197),Hailuo 02 Pro在图生视频排行榜位列第7(ELO 1271)[69][70] - **系统工程效率**:公司注重全栈优化和单位算力产出,通过与阿里云战略合作及自研NCR架构优化算力成本,训练相关云计算支出占收入比例从2023年的超过1365%优化至2025年前九个月的267% [46][77] - **竞争优势**:主要体现在全球化执行力强、双轮商业模式均衡、研发效率领先三个方面 [7] 财务表现与预测 - **历史收入**:公司收入快速增长,2023年为346万美元,2024年增长至3052万美元,同比增长782.17%;2025年前九个月收入为5344万美元,同比增长174% [1][7] - **毛利率改善**:公司毛利率呈现U型反转,从2023年的-24.7%改善至2025年前九个月的23.3% [75] - 消费者业务毛利率较低,2025年前九个月为5% [75] - 开发者企业业务毛利率较高,2025年前九个月为69% [75] - **盈利预测**:报告预计2025-2027年公司营业总收入分别为80.88百万美元、194.83百万美元、398.66百万美元,年复合增速超130% [1][80] - 预计消费者业务收入2025-2027年分别为58百万美元、127百万美元、229百万美元 [80] - 预计开发者企业业务收入2025-2027年分别为23百万美元、68百万美元、170百万美元 [81] - **毛利率预测**:预计总毛利率将从2025年的23%提升至2027年的50%,驱动因素包括消费者业务毛利率爬坡(从5%升至35%)及高毛利企业业务占比回升 [7][80] - **亏损状况**:公司仍处于亏损状态,报告预计2025-2027年归母净利润分别为-677.86百万美元、-474.28百万美元、-437.41百万美元 [1] - **现金状况**:截至2025年9月30日,公司现金及现金等价物余额约为3.63亿美元,加上短期理财总现金储备约10.46亿美元,预计可支撑运营约37个月 [78] 估值分析 - **发行估值**:本次港股IPO发行估值区间为461-504亿港元,取中间值为483亿港元(约434亿元人民币)[7][86] - **市销率(PS)**:基于报告收入预测,公司2025-2027年对应PS分别为77倍、32倍和16倍 [7][86] - **可比公司**:选取商汤科技和第四范式作为可比公司,MiniMax的估值倍数高于两者,报告认为溢价匹配其更高的复合增速和业务质量 [84][86]
科大讯飞攻克国产算力MoE训练效率难题
观察者网· 2025-11-06 21:21
核心技术升级 - 发布深度推理大模型讯飞星火X1.5,采用MoE架构,总参数量293B,激活参数量30B,推理效率相比星火X1提升100% [2] - 模型在语言理解、文本生成、知识问答、逻辑推理、数学能力、代码能力六大核心能力全面对标国际主流,多语言能力覆盖超过130个语种,整体性能达到GPT-5的95%以上 [2] - 攻克长思维链强化学习训练效率,深度推理训练效率从30%提升至84%以上,并全球首发非自回归语音大模型架构,相比同尺寸自回归模型效果提升16%,推理成本下降520% [3] 软硬一体解决方案 - 发布融合AI与麦克风阵列、扬声器阵列、摄像头阵列、视觉呈现等的软硬件一体解决方案 [4] - 讯飞智能办公本X5通过八麦克风阵列在高噪环境下识别准确率达95.08%,AI翻译耳机复杂噪声下识别准确率达97.1%,双屏翻译机2.0在90dB噪音下识别率达98.69% [4] - 智能座舱音响方案iFLYSOUND已在19家车企量产落地,出货超100万台,AI黑板视觉疲劳降低50%,AI学习机获10余项权威护眼认证 [6] 多模态交互与个性化技术 - 数字人导览“小飞”展示多模态交互能力,实现多人多语种对话、个性化推荐及任务完成 [6] - 星火X1.5具备个性化记忆能力,通过构建用户记忆库实现长期画像、近期反馈、短期对话的综合理解 [7] - 首发百变声音复刻技术,基于星火语音大模型,仅需一句录音即可复刻任意音色,并用一条指令创造任意风格的声音 [7] 行业应用落地 - 教育领域首创由3大类、3层级、4000+标签构成的错因体系,通过星火智能批阅机和教师助手实现“小时级闭环”教学范式变革 [8] - 医疗领域星火医疗大模型专科AI诊疗能力达到等级医院主任级医师水平,智医助理试点显示人机协同将诊断合理率从87%提升至96%,病历书写时间减半 [8] - 个人AI健康助手“讯飞晓医”支持解析99%医学报告,累计完成1.6亿次AI健康咨询 [8] 开发者生态与全球化 - 2025年AI开发者大赛吸引来自17个国家的36898个团队参加,涌现4622个垂类智能体,开放平台开发者总数达968万,近一年新增200万,其中大模型企业开发者增长125% [9] - 全面开源首个原生支持RPA的智能体平台Astron,提供“开箱即用”的八大行业智能体 [9] - 启动“星火点亮全球”计划,依托多语言与自主可控技术,与全球伙伴展开深度合作 [9]
小米最新大模型成果!罗福莉现身了
自动驾驶之心· 2025-10-19 00:03
公司AI研究进展 - 小米AI团队与北京大学联合发布一篇聚焦MoE与强化学习的论文[2] - 论文通讯作者包括此前从DeepSeek转会至小米的AI研究员罗福莉[4] - 罗福莉硕士毕业于北京大学,其学术论文总引用次数已超过1.1万次,今年新增约八千次引用[5][60] 技术核心问题与解决方案 - 当前MoE架构在强化学习中面临路由机制导致训练不稳定的挑战,严重时会导致模型崩溃[9][10] - 研究团队提出R3方法,通过在训练中复用推理阶段的路由分布来解决路由随机性问题[28][29][30] - R3方法能够与现有的前缀缓存系统无缝衔接,通过缓存路由掩码提升计算效率[35][36][38] 实验性能结果 - 基于Qwen3-30B-A3B模型的实验显示,R3方法在多mini-step设置下GRPO+R3比GSPO高出1.29分[41][42] - 将R3与GSPO结合性能可进一步提升0.95分[43] - R3显著提升训练稳定性,GRPO训练到第60步已严重跑偏,而R3到第150步仍保持平缓曲线[44][45][47]
明略科技吴明辉:未来全世界不应该只有一种机器人,也不应该只有一种模型
IPO早知道· 2025-10-18 11:51
机器人形态与适用环境 - 人形机器人适应人类环境的成本和效率表现不佳[2][3] - 提出反向思考解决方案:改造机器人环境使其专精其用 而非改变机器人本身[2][3] - 在工厂或酒店等B端商业化场景中 环境可实现标准化定制和优化以适配专用机器人[4] 人工智能模型架构策略 - 企业级服务领域重视效率 存在对可安全部署、可离线运行的小模型的真实需求[2][4] - 采用约7B参数的小模型在BUA、CUA全球权威榜单中达到与万亿参数大模型类似水平[4] - 平台中大部分任务采用小模型 仅个别复杂任务使用大模型[2][5] 多智能体平台技术架构 - 发布多智能体平台DeepMiner 采用MoA架构[5] - MoA架构将复杂任务分解给不同sub agent执行 比MoE架构更开放和高效[5] - 该架构下研发可分布式并行 并可与其他公司合作 各自开发专属agent和模型[5] 行业未来展望 - 未来全世界不应只有一种机器人或一种模型 应呈现百花齐放状态[2][7] - 机器人未来最大应用场景可能包括跟随火箭进入火星等极端环境[4]
FSD V14深度解析!自动驾驶AI的觉醒时刻?
自动驾驶之心· 2025-10-18 00:04
FSD V14版本概述 - FSD V14被公司描述为具有"觉醒"体验的版本,预计将首次超越人类驾驶员的安全水平[2] - 该版本面向部分早期用户推送,旨在向"无人监督"级别迈出实质性一步[3][9] - V14已更新至V14.1.1版本,改善了顿挫与幽灵刹车问题,V14.2将于几周后发布[27] 技术能力提升 - 新增到达选项功能,支持在停车场、街道、车道、停车库或路边选择泊车位置[7] - 增加对紧急车辆(如警车、消防车、救护车)的靠边停车或让行处理能力[7] - 将导航和路径规划整合到基于视觉的神经网络中,实时处理道路封闭和绕行[7] - 提供额外的速度配置文件,进一步定制驾驶风格偏好[7] - 改进对静态和动态门的处理能力[7] - 增强对道路遗撒物(如轮胎、树枝、箱子)的绕行偏移能力[7] 场景处理优化 - 优化无保护转弯、变道、车辆切入和校车等多种场景的处理能力[7] - 提升系统故障管理能力,从降级操作中平滑恢复,增强可靠性[7] - 增加自动窄场清洗功能,提供快速高效的前摄像头自清洁[7] - 改进对挡风玻璃内部残留物积聚的警报功能[7] - 整体平滑度和感知能力得到提升[7] - 停车位选择和停车质量有所改善[7] 实车测试表现 - 在无GPS停车场环境中能准确识别"EXIT"出口文字与箭头,顺利找到出口[12] - 识别施工封路标志后执行掉头操作,并实时更新导航路线完成绕行[12] - 在夜间关闭的停车场场景中,快速判断通行不可行并立即转向寻找新停车地点[15] - 在窄路施工场景中准确识别施工人员手势标牌,完成停车等待和绕行通过[18] - 通过音频信号识别500米外警笛声,在严重拥堵路段提前寻找变道空间完成特殊车辆避让[21] - 在快餐店Drive-Thru场景中准确停靠点餐麦克风处,并自动跟车前行[24] 技术架构推测 - 可能首次引入语言模态,采用类VLA架构[12][28] - 模型参数量提升10倍,达到750亿规模,Context Length提升3倍[28] - HW4上的FSD V13模型文件规模达7.5GB,假设8bit存储相当于75亿参数[28] - 最可能的技术方案是MoE架构的VLA模型,使用local parameter类似MoE模型中不同的experts网络[28] - 音频输入被整合到控制模型中,新款Model系列配备4麦克风阵列加强音频处理能力[21][28] - 导航信息与视觉网络深度融合,使模型能够根据实时路况调整行驶策略[28]
AI大模型与异构算力融合技术白皮书
搜狐财经· 2025-10-13 22:16
AI大模型发展趋势 - AI大模型参数规模从亿级迈向万亿级,算力需求呈指数级增长 [1][14] - 全球AI算力需求每3-4个月翻番,远超传统摩尔定律的18个月翻倍速度 [1][14] - 2025年训练Llama 4成本预计超3亿美元,较2020年GPT-3的450万美元训练成本增长66倍 [1][15][17] - 技术架构演进,MoE(混合专家模型)等创新架构在保持模型容量的同时显著降低计算成本 [37][39] 异构算力技术架构 - 单一架构算力难满足需求,异构算力集成CPU、GPU、FPGA、ASIC等计算单元成为必然选择 [1][29] - CPU+GPU适合通用训练,CPU+FPGA适配定制化加速,CPU+ASIC用于大规模推理,能针对不同场景优化性能与能效 [1] - 硬件层面包含主流AI芯片对比及国产芯片(如寒武纪、华为昇腾)技术路线 [1][10] - 高速互联依赖PCIe 5.0/6.0、CXL、NVLink等技术,存储采用分层架构应对大模型容量与带宽需求 [1] 关键融合技术 - 软硬件协同优化技术包括算子融合、编译器优化等 [1][10] - 并行训练技术涵盖数据并行、模型并行、混合并行及MoE架构 [1][10] - 推理加速技术包含模型压缩、KVCache等 [1][11] - 异构资源调度涉及统一管理、任务调度、弹性伸缩 [1][11] 国内市场与实践 - 中国算力基础设施建设迅速,截至2025年6月,在用算力中心标准机架达1085万架,智能算力规模达788 EFLOPS(FP16),算力总规模位居全球第二 [20] - “东数西算”工程作为国家战略,规划建设超过250条干线光缆,集群间光层直达链路已拓宽至1232 Tbps [24] - 国内企业如华为昇腾芯片在互联网大厂规模化部署,寒武纪思元系列、阿里平头哥含光芯片等各具特色 [1][11] - 国家级智算中心与商业云服务商(如阿里云灵骏、腾讯云智算)共同构建算力基础设施 [1][11] 行业应用场景 - 应用场景涵盖互联网AIGC、金融智能风控、医疗影像、自动驾驶、工业质检等 [1][12] - 推理场景多样化,从通用对话到行业专用应用,对算力的需求各不相同,推动了对异构算力的需求 [18] 未来趋势与挑战 - 技术趋势指向Chiplet封装、存算一体、光量子计算及多模态大模型 [1] - 产业将完善国产异构算力产业链与开发者生态,推动算力普惠与行业渗透 [1] - 面临算力供需缺口、软件生态成熟度、能效与数据安全等挑战 [1]
英伟达,再次押注“美版DeepSeek”
证券时报网· 2025-10-13 20:31
Reflection AI融资与估值 - AI初创公司Reflection AI近期完成20亿美元融资,由英伟达领投8亿美元,公司估值达到80亿美元[1] - 本轮融资距离其3月份1.3亿美元的A轮融资仅过去7个月,估值从当时的约5.45亿美元大幅跃升至80亿美元[1] - 本轮投资者还包括光速创投、红杉资本、DST、埃里克·施密特以及1789Capital等[1] Reflection AI团队与技术定位 - 公司成立于2024年3月,CEO Misha Laskin曾帮助开发谷歌Gemini训练流程,联合创始人Ioannis Antonoglou是谷歌DeepMind创始工程师及AlphaGo幕后功臣[2] - 团队成员曾在DeepMind、OpenAI等前沿实验室主导开发AlphaGo和Gemini等先进AI系统[4] - 公司定位为OpenAI和Anthropic等封闭式实验室的开源替代方案,以及DeepSeek等中国AI公司的西方版本,旨在填补美国"DeepSeek形状的空白"[4] Reflection AI技术路线与商业模式 - 公司构建了能在Frontier规模下训练大规模MoE模型的LLM+强化学习训练平台,并已在自动化编码场景验证有效性[5] - 对"开放"的定义接近Meta或Mistral的策略,会开放模型权重供公众使用,但训练数据和完整流程不公开[5] - 主要收入将来自大型企业在其模型上构建产品以及各国政府建设主权AI系统的项目[5] 英伟达近期投资活动 - 英伟达9月至今已进行8笔对外投资,总金额超过1000亿美元[8] - 投资包括向OpenAI投资高达1000亿美元建设算力数据中心,向英特尔投资50亿美元开发AI基础设施,以及约9亿美元收购AI网络芯片初创企业Enfabrica[8] - 其他投资包括向英国自动驾驶企业Wayve投资5亿美元,向英国AI基础设施公司Nscale投资6.83亿美元,以及参与具身智能公司Dyna Robotics的1.2亿美元A轮融资[9][10][11] 行业投资趋势 - 风险投资机构今年迄今已向人工智能初创企业注入1927亿美元资金,创下全球历史新高[6] - 2025年有望成为首个VC资金半数以上流向AI行业的年份[6] - Reflection AI融资速度之快和金额之高反映出投资者对当前领域的强烈兴趣和迫切的"FOMO"情绪[6]
大厂AI模型专题解读
2025-09-28 22:57
行业与公司 * 行业为人工智能大模型,特别是中国国内的大模型行业,涉及的公司包括阿里巴巴、字节跳动、腾讯、百度、快手、Meta、谷歌、OpenAI等 [1][2][4][5][7][15][18] 核心观点与论据 **国内外大模型差距** * 国内大模型在基础架构上依赖海外提出的Transformer、MoE等,缺乏自研突破性架构创新 [1][2] * 国内AI大厂的GPU算力远低于海外巨头,受中美贸易战影响,差距通常高出一个量级 [1][2] * 商业模式差异导致模型上限存在差距:国外如GPT追求顶级性能(例如OpenAI的GPT Pro月费200美元,号称媲美博士级别),而国内模型更侧重推理成本控制和性价比,以适应国内用户消费习惯 [1][2] * 在多模态商业化落地方面,海外具有先发优势,用户量和收入领先国内一个量级,例如音乐生成领域海外最好模型Suno的收入大约是国内最好产品的10倍 [18] * 国产多模态模型在长文本理解、多样化场景处理及泛化性方面与海外领先水平存在差距 [7][8] **国内大模型的优势与特点** * 国内数据法律相对宽松,成为追赶海外大模型的一项优势 [1][3] * 国产多模态模型聚焦国内场景(如电商广告、短视频等),生成内容更贴近国人需求,在性价比和成本控制上优于海外模型 [1][7][8] * 国内模型更注重实际应用和成本效益 [1][2] **公司战略与布局** * 阿里巴巴采取几乎全开源策略,包括完整的模型权重、代码及训练数据,以扩大影响力,并整合其云服务系统形成闭环互利模式 [1][4][15] * 阿里巴巴通过提供不同参数大小版本和公开打榜测试来提高可信度,因此开源认可度较高 [1][4] * 字节跳动依靠独占基础模型优势,在C端商业化同时加固技术壁垒 [15] * 百度侧重B端技术落地与整合,不参与开源及C端竞争 [15] * 部分前期投入基础模型但无法追赶上的公司转向应用开发,并将之前的架构和细节开源 [15] **技术架构与发展** * MoE(Mixture of Experts)架构已成为大模型标配,通过门控系统分配输入内容给对应专家系统处理,降低计算成本和推理时间 [1][10] * MoE架构未来优化方向包括精准入口分层、专家系统结构差异化和训练稳定性(解决某些专家系统过劳或躺平的问题) [1][10] * 2025年开始,Agent技术成为重点发展目标,其优势在于整合完整链路(前置用户理解、调用工具、结合自身能力生成完整系统) [16][22] * 到2026年,MCP(Multi-Chain Protocol)概念将普及,解决不同上下游数据输入输出连接问题,降低工具集成成本 [2][22] * 未来模型算力尺寸将大幅缩小,实现降本增效,并部署在端侧设备上,自监督模型强化将减少对人为参与和数据标注的依赖 [2][22] **多模态模型发展** * 国内各大厂商(阿里、字节、腾讯、百度、快手等)均在积极布局多模态模型,涵盖文本、图像、音频、视频、3D生成等领域 [5][6][7] * 代表性产品包括阿里的天工GL、OMI和通义万象,快手的可灵,腾讯的混元,字节的豆包等 [7] * 3D生成是国内新兴领域,但数据处理和训练成本高,下游应用尚不明确,目前主要集中于VR场景生产 [18] **行业经济性与商业化** * 从2024年中期开始,大模型API和C端定价降低,原因是前期大量企业投入预训练导致GPU算力资源稀缺,后期部分厂商放弃训练,算力资源释放,加上技术进步(如云浮加速优化),导致成本下降 [2][13] * 尽管用户付费减少,但由于成本降低,对企业收入仍产生正向影响,行业整体成本转化率增加 [13] * C端主要采用订阅制,B端API市场较为混乱,不同厂商的API被下游公司整合成C端产品出售,增加了用户选择但也提升了大厂运营推广成本 [14] * 国内用户对收费服务接受度低,付费转化率大约在3%至5%,30日留存率仅为3%至6% [20] * 成功的AI产品案例(如AI陪玩对话系统)通过结合情感陪伴和专业功能来吸引用户付费 [21][22] **挑战与未来展望** * 端侧AI设备(如机器人、眼镜)融合面临挑战:模型部署在设备上需解决成本、重量、续航问题;部署在云端需克服互动性、延时性及网络问题 [19] * 预计眼镜或头戴式运动装备将优先实现端侧AI融合 [19] * 国内免费的大厂对话机器人及多模态产品月活跃用户数达数千万,但免费策略的可持续性待观察,未来需探索付费转化路径 [19] * 幻觉问题的改善主要依赖数据质量和训练方法(如让模型识别自身不了解的信息),预计到2026年底通用大模型幻觉率将有显著改善 [10][11][12] * 展望2026年,关键技术突破可能包括Agent技术普及、模型算力尺寸缩小、自监督模型强化,目标是实现ASI(Artificial Super Intelligence) [22] 其他重要内容 * 短剧内容与AI剪辑工具融合方面,生成与编辑是不同方向,部分厂商转向编辑功能,但目前编辑功能仍处于辅助地位 [9] * 海外市场目前尚未有一键生成短剧或剧本内容的AI视频多模态工具,未来可能需要剧本大模型与agent链路结合来实现 [9] * 在基于剧本大模型做落地产品方面,可灵和奇梦两家公司已进行相当成熟的系统研究(但涉及机密信息未透露具体厂商) [10]
6.1B打平40B Dense模型,蚂蚁开源最新MoE模型Ling-flash-2.0
机器之心· 2025-09-17 17:37
核心观点 - 蚂蚁百灵大模型团队开源MoE大模型Ling-flash-2.0 以总参数100B、激活仅6.1B的轻量级配置 在多个权威评测中展现出媲美甚至超越40B级别Dense模型和更大MoE模型的卓越性能 [1] - 通过极致的架构设计与训练策略 在推理速度、任务性能、部署成本之间找到新平衡点 为当前大模型参数膨胀趋势提供高效、实用、可持续的新路径 [1] 架构与性能优势 - 采用MoE架构 通过稀疏激活机制实现1/32激活比例 每次推理仅激活6.1B参数 计算量远低于同性能Dense模型 [4][6] - 实现7倍以上性能杠杆 6.1B激活参数带来约40B Dense模型的等效性能 [4][10] - 推理速度提升3倍以上 在H20平台上实现200+ tokens/s的高速生成 输出越长加速优势越明显 [9] - 通过专家粒度调优、共享专家机制、sigmoid路由+aux-loss free策略等技术优化架构设计 [6] 任务性能表现 - 在AIME 2025、Omni-MATH等高难数学推理任务中展现出稳定的推理链路与多步求解能力 [14] - 在LiveCodeBench、CodeForces代码生成任务中表现优于同规模模型 部分任务超越GPT-OSS-120B [14] - 前端研发能力通过大规模RL训练+视觉增强奖励机制 在UI布局、组件生成、响应式设计等任务中实现功能与美学双重优化 [14][19] - 在金融建模、工业调度、供应链优化等数学优化任务中展现实际解决问题能力 [38] 训练与数据体系 - 基于统一数据湖宽表设计的AI Data系统 支持样本级血缘管理 完成40T+ tokens高质量语料处理 [31] - 精选20T+ tokens最高质量语料用于预训练 分为三个阶段:10T高知识密度语料夯实基础、10T高推理密度语料提升推理能力、扩展至32K上下文引入思维链类语料 [31][36] - 词表从128K扩展至156K 新增大量多语言token 引入30个语种高质量语料提升跨语言理解与生成能力 [34] - 采用自研Ling Scaling Laws优化超参数配置 使用WSM调度器替代传统WSD调度器提升下游任务表现 [32] 后训练创新 - 通过解耦微调设计 同时学习即时回答与深度推理两种模式 覆盖数理科学、创意写作、情感对话、社科哲思等多个领域 [38] - 提出ApexEval评测方法 聚焦知识掌握度与推理深度 筛选最具探索潜力模型进入强化学习阶段 [39] - 采用演进式RL技术 以简洁思维链为起点 根据问题复杂度动态解锁更深层推理能力 [40] - 构建组内竞技场奖励机制 结合RubriX多维度评价标准 提升模型人性化与情感共鸣能力 [40] 开源与部署 - 开源Ling-flash-2.0对话模型和Base模型 为研究者和开发者提供灵活使用空间 [47] - Base模型在多个榜单展现强劲性能 具备良好知识压缩与推理能力 适用于下游任务微调与定制 [48] - 支持CLI接入 可方便融合到Qwen Code等服务中 [28]