SpeechGPT - 财报，业绩电话会，研报，新闻

SpeechGPT

搜索文档

量子位· 2026-03-27 13:10

行业趋势与范式转变 - 国家数据局首次在官方语境中确立“词元”为Token的标准译名，并披露国内日均Token调用量已突破140万亿，但这仍只是“文本时代主导”的规模 [1] - 在语音、视频与实时交互驱动的多模态场景中，随着自主调用工具并交付结果的Agent大量部署，Token的生成与消耗方式正发生范式性变化：从离散文本走向连续感知，从低频批量输入走向高频流式输入 [1] - 随着大模型从文本走向多模态、从模型能力走向Agent系统，“词元”所对应的，是下一代智能系统的底层组织方式 [3] - 行业竞争正从单一的“模型能力”比拼，转向对交互入口与环境理解能力的争夺，语音、上下文与情境建模能力正在成为新的技术分水岭 [12] 公司核心技术与路径 - 模思智能选择了一条非共识路径：从语音切入，走向全模态，在统一的Token结构中表达和计算不同模态的信息 [7] - 选择语音作为突破口，是因为相比纯文本，音频的信息密度更高，天然包含语调、节奏、情绪等文本难以完整承载的信号，且更容易与环境、动作和上下文形成连续输入流，更接近真实世界的人机交互方式 [9] - 公司提出的“情境智能”以持续感知、动态记忆与环境理解为基础，使AI能够在真实世界中进行自适应交互 [10] - 公司的技术演进路线清晰：2023年2月发布国内首个类ChatGPT对话式大模型MOSS；同年5月推出SpeechGPT，验证了“离散化端到端语音大模型”路径的可行性；同年8月发布SpeechTokenizer音频离散化编码器；2024年2月发布AnyGPT，首次将语音、文本、图像与视频统一映射至离散Token体系，提出真正意义上的离散化全模态基座模型架构 [13][14][17][18] - 2025年7月发布基于百万小时音频训练的开源中英双语对话语音模型MOSS-TTSD；同年11月联合发布的下一代能动性模型体系NEX，在多项基准测试中进入全球第一梯队水平 [21][22] - 2026年持续迭代，发布了在复杂多说话人场景领先的MOSS-Transcribe-Diarize、高性能音视频生成开源模型MOVA、刷新音频重建性能的MOSS-Audio-Tokenizer以及面向生产场景的MOSS-TTS系列模型 [25] - 一系列成果验证了核心底层命题：多模态信息可以通过统一的离散化方式映射到同一Token序列结构中，进而实现统一计算，这赋予了不同模态可组合性与可计算性，是全模态智能与Agent系统落地的底层架构前提 [26] 公司团队与背景 - 首席科学家邱锡鹏是复旦大学教授，国家杰出青年科学基金获得者、上海创智学院全职导师，荣获2024年CCF-ACM AI Award，是国内大模型领域兼具学术高度与产业影响力的领军人物 [27] - CEO李世民出自邱锡鹏门下硕博连读体系，以一作身份发表多篇CCF-A类论文，并深度参与科技部“新一代人工智能2030”重点研发项目 [29] - 模思智能是由上海创智学院与复旦大学联合孵化的标杆项目，获得了覆盖算力、人才与产业资源的体系化支持，具备远高于常规学术创业项目的起点与迭代速度 [31] - 公司目前已形成近百人的全栈技术体系，博士占比接近50%，核心成员主要来自复旦大学NLP体系，并引入了具备阿里、字节、理想汽车等背景的关键成员以补齐工程化与商业化能力 [34] 融资与商业化进展 - 模思智能近日官宣完成数亿元的天使轮融资，由IDG资本领投，元禾控股、上海国投旗下上海科创及上海未来产业基金、奇绩创坛、智谱系基金-星连资本及某头部产业投资方联合投资 [4] - 多维资本将担任新一轮独家财务顾问 [4] - 公司多模态大模型开放平台已进入全面公测阶段，提供一站式API服务，以高稳定性与高性价比支撑企业级调用需求 [35] - 公司已在消费电子、智能汽车、具身智能与AI陪伴等多个场景中与头部客户展开合作，初步验证了技术落地能力与商业转化潜力 [36] - 公司的商业增长飞轮将围绕“词元（Token）的生产、分发与应用”展开，从MaaS能力输出延伸至2B、2B2C与2C多层级场景 [36] 核心观点与未来定义 - 单纯依赖参数堆叠与算力外推的阶段正在逐步过去，未来模型能力的差距，可能越来越取决于架构创新、系统组织方式以及顶尖人才密度 [37] - 当大模型进入深水区，真正的护城河在于是否能够更早识别并押注下一代智能的核心结构，这种结构体现为：统一的Token表达、面向情境的持续理解能力，以及能够调用工具、交付结果、与用户建立长期关系的Agent系统 [38] - 当“词元”进入官方语言，真正值得关注的是谁能够率先定义：词元将如何被生产、组织与使用，这正是在定义下一代智能系统的边界 [39]

Token

词元

情境智能

Artificial Intelligence

Artificial Intelligence

SpeechGPT

SpeechTokenizer