SpeechGPT
搜索文档
从Token到词元:全模态时代的基模与交互入口
量子位· 2026-03-27 13:10
行业趋势与范式转变 - 国家数据局首次在官方语境中确立“词元”为Token的标准译名,并披露国内日均Token调用量已突破140万亿,但这仍只是“文本时代主导”的规模 [1] - 在语音、视频与实时交互驱动的多模态场景中,随着自主调用工具并交付结果的Agent大量部署,Token的生成与消耗方式正发生范式性变化:从离散文本走向连续感知,从低频批量输入走向高频流式输入 [1] - 随着大模型从文本走向多模态、从模型能力走向Agent系统,“词元”所对应的,是下一代智能系统的底层组织方式 [3] - 行业竞争正从单一的“模型能力”比拼,转向对交互入口与环境理解能力的争夺,语音、上下文与情境建模能力正在成为新的技术分水岭 [12] 公司核心技术与路径 - 模思智能选择了一条非共识路径:从语音切入,走向全模态,在统一的Token结构中表达和计算不同模态的信息 [7] - 选择语音作为突破口,是因为相比纯文本,音频的信息密度更高,天然包含语调、节奏、情绪等文本难以完整承载的信号,且更容易与环境、动作和上下文形成连续输入流,更接近真实世界的人机交互方式 [9] - 公司提出的“情境智能”以持续感知、动态记忆与环境理解为基础,使AI能够在真实世界中进行自适应交互 [10] - 公司的技术演进路线清晰:2023年2月发布国内首个类ChatGPT对话式大模型MOSS;同年5月推出SpeechGPT,验证了“离散化端到端语音大模型”路径的可行性;同年8月发布SpeechTokenizer音频离散化编码器;2024年2月发布AnyGPT,首次将语音、文本、图像与视频统一映射至离散Token体系,提出真正意义上的离散化全模态基座模型架构 [13][14][17][18] - 2025年7月发布基于百万小时音频训练的开源中英双语对话语音模型MOSS-TTSD;同年11月联合发布的下一代能动性模型体系NEX,在多项基准测试中进入全球第一梯队水平 [21][22] - 2026年持续迭代,发布了在复杂多说话人场景领先的MOSS-Transcribe-Diarize、高性能音视频生成开源模型MOVA、刷新音频重建性能的MOSS-Audio-Tokenizer以及面向生产场景的MOSS-TTS系列模型 [25] - 一系列成果验证了核心底层命题:多模态信息可以通过统一的离散化方式映射到同一Token序列结构中,进而实现统一计算,这赋予了不同模态可组合性与可计算性,是全模态智能与Agent系统落地的底层架构前提 [26] 公司团队与背景 - 首席科学家邱锡鹏是复旦大学教授,国家杰出青年科学基金获得者、上海创智学院全职导师,荣获2024年CCF-ACM AI Award,是国内大模型领域兼具学术高度与产业影响力的领军人物 [27] - CEO李世民出自邱锡鹏门下硕博连读体系,以一作身份发表多篇CCF-A类论文,并深度参与科技部“新一代人工智能2030”重点研发项目 [29] - 模思智能是由上海创智学院与复旦大学联合孵化的标杆项目,获得了覆盖算力、人才与产业资源的体系化支持,具备远高于常规学术创业项目的起点与迭代速度 [31] - 公司目前已形成近百人的全栈技术体系,博士占比接近50%,核心成员主要来自复旦大学NLP体系,并引入了具备阿里、字节、理想汽车等背景的关键成员以补齐工程化与商业化能力 [34] 融资与商业化进展 - 模思智能近日官宣完成数亿元的天使轮融资,由IDG资本领投,元禾控股、上海国投旗下上海科创及上海未来产业基金、奇绩创坛、智谱系基金-星连资本及某头部产业投资方联合投资 [4] - 多维资本将担任新一轮独家财务顾问 [4] - 公司多模态大模型开放平台已进入全面公测阶段,提供一站式API服务,以高稳定性与高性价比支撑企业级调用需求 [35] - 公司已在消费电子、智能汽车、具身智能与AI陪伴等多个场景中与头部客户展开合作,初步验证了技术落地能力与商业转化潜力 [36] - 公司的商业增长飞轮将围绕“词元(Token)的生产、分发与应用”展开,从MaaS能力输出延伸至2B、2B2C与2C多层级场景 [36] 核心观点与未来定义 - 单纯依赖参数堆叠与算力外推的阶段正在逐步过去,未来模型能力的差距,可能越来越取决于架构创新、系统组织方式以及顶尖人才密度 [37] - 当大模型进入深水区,真正的护城河在于是否能够更早识别并押注下一代智能的核心结构,这种结构体现为:统一的Token表达、面向情境的持续理解能力,以及能够调用工具、交付结果、与用户建立长期关系的Agent系统 [38] - 当“词元”进入官方语言,真正值得关注的是谁能够率先定义:词元将如何被生产、组织与使用,这正是在定义下一代智能系统的边界 [39]