Workflow
黄仁勋投了家复刻马斯克声音的AI公司
量子位·2025-11-03 11:12

公司概况与融资进展 - 语音AI公司Cartesia发布新一代语音模型Sonic-3,其生成的语音与真人声音高度相似[1][2][14] - 公司完成1亿美元的B轮融资,投资方包括英伟达、Kleiner Perkins、Index Ventures和Lightspeed[3][13] - 公司在成立第二年获得种子轮融资,并于今年3月完成6400万美元的A轮融资,产品迭代与融资节奏迅速[11][12][13] 核心技术优势 - Sonic-3模型基于状态空间模型构建,与传统Transformer架构不同,SSM能持续感知上下文和对话氛围,无需反复遍历历史对话,使回应更自然[15][16][17] - 模型在响应速度上表现突出,延迟仅90毫秒,端到端响应时间为190毫秒,是当前最快的语音生成系统之一[17] - 模型能精准捕捉语言中的情绪波动、笑声、语气起伏等微妙情感变化,生成带情感的高质量语音[14][15] 创始团队背景 - 公司创始团队核心成员清一色来自斯坦福AI实验室,为学术派班底[5][7] - 首席执行官Karan Goel为印度天才少年,本科就读于印度理工学院德里分校,硕士毕业于卡内基梅隆大学,并在斯坦福AI实验室师从AI教父Chris Ré[5][20][21][22][24] - 首席科学家兼联合创始人Albert Gu是一名华裔,是Mamba架构的共同发明人之一[8] 行业发展动态 - 国内公司MiniMax同日发布语音模型MiniMax Speech 2.6,响应延迟压缩到250毫秒以内,支持40多种语言及所有口音[30][31] - 语音模型在大模型领域的商业化变现被认为是一枝独秀[34]