MoE架构

搜索文档
大模型“上海队”进入丰产阶段(神州看点) 生成的“猫跳水”视频一周获三亿播放量
人民日报· 2025-07-03 08:10
而Hailuo 02则直接"叫板"谷歌第三代视频生成模型Veo3。 过往AI视频里,体操、杂技等复杂动作常会出现肢体错乱、五官扭曲等状况。让谷歌Veo3和Hailuo 02 各生成一段"猫跳水"视频,前者的视频中,猫咪动作含糊,直扑入水;后者则在空中完整翻腾三周半后 入水,动作全程符合逻辑。 前不久,上海AI公司MiniMax(上海稀宇科技有限公司)在其官网和开源平台GitHub上,抛出全球首个 开源大规模混合架构推理模型——MiniMax—M1(以下简称"M1")。该模型在权威评测榜单中,位列 全球开源模型第二,仅次于DeepSeek—R1—0528。 之后,这家公司又连续发布视频生成模型Hailuo 02、通用智能体MiniMax Agent等。由Hailuo 02生成 的"猫跳水"视频,在海外社交平台发布后一周内,获3亿现象级播放量。 这家公司为何能做到?梳理其发展脉络可发现,这家注册于上海徐汇的大模型企业,有着"不跟随"的特 质——在2022年底ChatGPT爆火前就已投身AGI(通用人工智能),还是国内主动放弃大模型主流稠密 架构和传统注意力机制的创业公司。 实力 大模型竞争,正从单纯的参数规模比拼 ...
商汤高管出走,干出200亿AI独角兽……
钛媒体APP· 2025-06-25 16:08
公司概况 - MiniMax是中国估值超200亿的AI明星企业之一,每天用户交互量超30亿、API客户超5万家[3] - 公司采用MoE架构,推出视频模型海螺、音色工具Voice AI、自动化Agent等多款产品[3][10] - 创始人闫俊杰是清华博士,曾任商汤副总裁,2021年创业并带领公司快速成长[3][4] 创始人背景 - 闫俊杰1989年出生,清华自动化系本硕,美国伊利诺伊大学香槟分校机器学习博士[4] - 在商汤科技期间主导核心算法研发和平台技术建设,是"技术总管"[4] - 2021年从商汤离职创业,目标是做出"真正对普通人有用的AI"[4] 产品与技术 - 产品矩阵包括对话机器人星野、语音生成工具Voice AI、视频生成模型海螺等[6][10][11] - 采用MoE架构,在文本、音频、视频多模态上同步发力[10] - 技术路线强调"轻、快、能落地",操作门槛低,可跑在普通消费级显卡上[10][19] 商业化路径 - 从To C试水积累用户数据,转向To B构建API平台,形成完整商业闭环[6] - API平台吸引超5万家企业客户,覆盖教育、电商、金融等多个场景[16] - C端产品星野用户破千万,海螺视频模型吸引内容创作者和小微商家[14][19][20] 融资与发展 - 获得红杉中国、阿里创投、腾讯投资等头部机构投资[6] - 最新估值超200亿人民币,正筹备赴港IPO[6][14] - 2021年成立,2023年星野上线,2024年推出语音视频模型,发展迅速[14] 行业定位 - 在中国大模型赛道中用户活跃度最高、爆款能力最强、商业化最有进展[10] - 不追求"最强AI",而是最适合市场使用的AI产品[15] - 通过"底层效率论"构建核心竞争力,技术不求炫而求用[13]
一个上海AI独角兽爆发了
投资界· 2025-06-20 16:04
MiniMax上演逆袭。 作者 I 刘博 报道 I 投资界PEdaily 全球AI圈又沸腾起来了。 6月17号,Mi n iMa x "发布周"拉开序幕,又是开源又是发布新模型, 一系列动作令业内 惊呼。 新模型Mi niMa x-M1,是"世界上第一个开源的大规模混合架构的推理模型",被 视为"性价比新王"。值得一提的是,这只是一道"开胃菜"。 Mi n iMa x,这个名字创投圈并不陌生。身后掌舵者是一位8 9年的博士——闫俊杰,他早 年任职于AI四小龙之一的商汤科技,后来在2 022年投身到AGI创业之中。早在Ch a tGPT 爆红前,Mi n iMa x就已经成为国产大模型的代表性企业。 1 9 8 9年,闫俊杰出生在河南的一座小县城。他从中国科学院自动化研究所博士毕业后, 继续在清华大学计算机系从事博士后研究。他的学术成就令人印象深刻——在深度学习和 计算机视觉领域,发表过顶级会议和期刊论文1 0 0余篇, Go ogl e Sc h o l a r引用超过10 0 0 0 次。 博士期间,闫俊杰加入商汤科技,从实习生一路做起,曾任商汤集团副总裁、研究院副院 长 和 智 慧 城 市 事 业 群 C ...
训练大模型,终于可以“既要又要还要”了
虎嗅APP· 2025-05-29 18:34
HUAWEI X HUXIU 三分之一个世纪前,加拿大学者们提出了经典的MoE模型神经网络结构,在人类探索AI的 「石器时代」中,为后世留下了变革的火种。 近十年前,美国硅谷的互联网巨擎在理论和工程等方面,突破了MoE模型的原始架构,让这 个原本被置于学术高阁的理念,化身成为了随后AI竞争的导火索。 如今,后发优势再一次来到了大洋此岸,以华为为代表的中国科技企业,纷纷提出对MoE架 构的优化重组方案。尤其是华为的MoGE架构,不仅克服了MoE负载不均衡及效率瓶颈的弊 病,还能够降本增效,便于训练和部署。 AI之战远未终结,但正如在其他领域中「多快好省」的中国产业底色一样,大模型这棵生于 西方长于彼岸的科技树,也同样会被东方智慧经手后,进化为更加普适和亲切的工具。 近期,虎嗅将打造《华为技术披露集》系列内容,通过一连串的技术报告,首次全面披露相 关的技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 《华为技术披露集》系列 VOL.7 :模型训练 Pangu Ultra MoE是一个全流程在昇腾NPU上训练的准万亿MoE模型 ...