Speech 2.5
搜索文档
上海诞生的AI大模型上市公司:全球用户超过2亿,你可能也用过
搜狐财经· 2026-01-09 21:21
公司上市与市场地位 - 上海稀宇科技于2026年1月9日在香港上市,成为全球第二家以通用人工智能基座模型为核心业务的上市公司,也是全球从成立到IPO最快的AI公司之一,上市时总市值为1053.79亿港元 [1] - 公司成立于2021年12月,是中国大模型领域的“六小虎”之一,根据灼识咨询报告,按基础模型收入计算,其在全球模型市场排名第十,份额为0.3% [3] - 自成立以来,公司已完成七轮融资,获得阿里、腾讯、高瓴创投、红杉中国等知名机构投资,估值达到42.4亿美元 [3] 创始人背景与公司理念 - 创始人闫俊杰出生于1989年,拥有中科院自动化研究所博士学位,曾在清华大学从事博士后研究,并担任过商汤科技副总裁、研究院副院长等职务 [3] - 公司秉持“Intelligence with Everyone”的理念创立 [3] 商业模式与市场定位 - 公司的商业化路径与智谱AI不同,后者定位为MaaS,主要面向B端和G端客户,业务以本地化部署为主 [5] - 公司以C端订阅为支柱,深耕全球化用户市场,并从一开始就决定研发文本、语音、视觉和视频四大模态的多模态模型 [5] 技术能力与产品矩阵 - 公司是全球少数几家在文本、视频、音频、音乐四大模态均进入第一梯队的大模型公司,采用混合专家等先进架构以优化训练成本 [7] - 文本模型M1和M2分别于2025年6月和10月发布并开源,语音生成模型Speech 2.5支持40多种语言,音乐生成模型Music 2.0被誉为AI界的“全能制作人” [7] - 视频生成模型Hailuo-02于去年6月推出,是全球首个可处理体操等高复杂度场景的AI工具,支持生成1080P分辨率、10秒时长、30fps帧率的超清视频 [7] - 基于多模态大模型,公司推出了面向C端的产品矩阵,包括MiniMax Agent、AI视频生成平台海螺AI、MiniMax Audio以及交互平台Talkie/星野 [9] 用户规模与市场表现 - 海螺AI累计帮助全球用户创作超5.9亿视频,Talkie/星野是全球最受欢迎的AI情感陪伴类应用之一,截至去年9月底用户数量达1.47亿 [9] - Talkie海外版全球月活达1100万,其中一半用户来自美国 [9] - 截至2025年9月30日,公司AI原生产品矩阵平均月活用户达2760万,拥有2.12亿个人用户及13万企业客户,覆盖全球200多个国家及地区 [9] - 海外市场收入贡献占比超七成,其中新加坡和美国市场在总收入中占比分别为24.3%和20.4% [9] 财务表现 - 公司自2023年起产生收入,当年收入为346.0万美元,2024年收入同比大涨782%至3052.3万美元,2025年前三季度收入达5343.7万美元,同比增长174.68% [11] - 随着用户规模增长,毛利率明显改善,2023年、2024年及2025年前三季度的毛利率分别为-24.7%、12.2%和23.3% [11] - AI原生产品是营收支柱,收入占比超过70%,其中四成为订阅服务收入,两成为广告收入 [12] - 面向B端的MiniMax开放平台拥有超过3万家企业客户和开发者 [12] - 公司尚未实现规模化盈利,2022年至2025年前三季度的净亏损分别为7370万美元、2.69亿美元、4.65亿美元和5.12亿美元,累计净亏损达13.2亿美元 [12] - 亏损主要源于研发与基础设施投入,截至2025年9月底,公司累计研发开支约4.5亿美元 [12] 行业竞争与挑战 - 公司面临字节、阿里、腾讯等互联网巨头的竞争压力,其产品海螺AI的竞品包括即梦AI、Sora、Runway、可灵AI等 [13] - 版权问题是公司面临的挑战之一,去年9月公司被迪士尼起诉,直指海螺AI侵权 [13]
被低估的AI语音,AI商业化的下一张船票已来
36氪· 2025-08-11 19:41
AI语音技术发展现状 - AI语音技术正从图形界面(GUI)向图形与语言界面(LUI)融合的混合模式演进,从附属功能升级为核心交互方式 [2] - 技术迭代速度极快,MiniMax在4月推出Speech-02后,仅3个月就发布升级版Speech 2 5,实现多语种表现力、音色复刻精度和40种语言覆盖的跃升 [3] - Speech-02曾全球双榜单夺冠,开启"语音个性化时代",其HD版本以1163分ELO值超越OpenAI TTS-1 HD(1150分) [4][5] Speech 2 5技术突破 - 多语种表现力:中文保持全球最强,英文等语言相似度提升,能精准模仿海盗船长、精灵等角色语气,实现专业配音员级别的情绪表达 [6][7][8] - 音色复刻:新增"口音强化"功能,可还原不同地区口音、年龄层声线及高压情绪下的气息变化 [9][10][11] - 语种覆盖:支持语言从原有基础上新增保加利亚语、丹麦语等小语种,总数达40种,实现母语级听感 [12] 商业化落地场景 - 教育领域:高途教育采用MiniMax语音打造"AI阿祖"口语陪练,课程销售额破千万 [24] - 内容生产:喜马拉雅、网易用于有声内容批量生产,起点读书接入模型推出"说书先生"等AI朗读者 [14][22] - 硬件交互:Rokid AR眼镜全量接入实现实时多语种翻译,智能家居语音AI市场规模达5146 2亿美元 [18][21] 行业变革方向 - 交互革命:语音输入首次具备替代键盘潜力,通过自然交互和拟真表达重塑智能硬件入口 [16][17][18] - 内容生产范式:AI语音将声音转化为可复制资产,如Syllaby V2 0实现品牌音色统一克隆,降低获客成本 [22][26] - 虚拟IP商业化:Speech 2 5支持打造可复用虚拟代言人,突破真人IP的档期与地域限制,形成品牌资产池 [26][27] 市场前景 - 全球语音克隆市场规模2022年14 5亿美元,预计2030年CAGR达26 1%,亚洲增速28 2% [28] - 有声读物市场将从50亿美元增长至350亿美元,技术渗透推动教育、营销等行业边际成本下降 [28][22] - 行业竞争焦点转向高价值入口占领,MiniMax凭借技术领先性和商业执行力建立规模壁垒 [30]
AI语音赛道MiniMax再爆发,一场技术与市场的双重角逐
每日经济新闻· 2025-08-08 16:52
行业融资与巨头动态 - 2025年上半年AI语音赛道至少有4家初创公司获得超过3亿美元融资 [1] - Wispr Flow完成3000万美元A轮融资 Cartesia完成6400万美元融资 Hume AI完成5000万美元融资 ElevenLabs完成1.8亿美元C轮融资 [1] - Amazon推出Nova Sonic语音模型 OpenAI发布GPT-4o Transcribe/GPT-4o MiniTranscribe/GPT-4o MiniTTS三款语音模型 Google在Veo3整合语音模型 Siri或被ChatGPT/Claude接管 [1] MiniMax技术突破 - 8月7日发布新一代语音生成模型Speech 2.5 相比5月Speech 02实现三大突破:多语种表现力更强 音色复刻更精准 覆盖40个语种 [2][6] - 技术获全球市场认可 国内高途教育/喜马拉雅/网易等头部平台接入 海外Vapi/Pipecat/Hedra/Icon等AI应用采用 [7] - 在性能大幅提升同时保持高性价比 降低企业使用顶尖AI语音技术门槛 [7] 商业化落地案例 - 与起点读书合作打造AI朗读角色"说书先生"/"狐狸小姐" 在自然度/还原度/保真度上超越传统语音方案 [3] - 用户对个性化音色产生强黏性 新音色获认可后难以替换 起点读书正使用语音克隆能力满足用户个人IP创作需求 [4] - 与高途教育联合推出"AI阿祖"口语陪练(吴彦祖音色蓝本) 累计销售额超千万 [6] - 与广告公司Monks战略合作 将数日的提案构思压缩至分秒级 实现创意光速孵化 [6] 技术应用拓展 - 与Haivivi联合开发AI语音挂件玩具"Bubble Pal" 可附着毛绒玩具实现情绪化交互(如哭着说/开心宣布) [8] - AI语音从单向内容输出进阶为具备共情能力的智能伙伴 支持情感理解/长期记忆/个性化衍生 [8] - 在虚拟人/元宇宙等"声音驱动视觉"领域助力独立创作者低成本制作专业级音频内容 [7] 行业发展趋势 - AI语音从解决"从无到有"转向塑造角色/传递情感的表达媒介 [3][4] - 行业竞争焦点从技术突破转向商业化场景落地能力 [2] - 情感智能成为新方向 具备情绪表达和情感需求的AI将极具竞争力 [8]