Multimodal AI models - 财报，业绩电话会，研报，新闻

Multimodal AI models

搜索文档

Microsoft takes on AI rivals with three new foundational models

TechCrunch· 2026-04-03 00:48

公司战略与产品发布 - 微软AI研究实验室宣布发布三个基础AI模型分别能够生成文本、语音和图像这标志着公司持续构建自身多模态AI模型堆栈的努力[1] - 此次发布表明尽管与OpenAI保持合作公司仍在积极与竞争对手的AI实验室展开竞争[1] - 模型由微软AI首席执行官Mustafa Suleyman领导的MAI Superintelligence团队开发该团队于2025年11月成立并宣布[3] 模型性能与定价 - MAI-Transcribe-1可将25种不同语言的语音转录为文本其速度是微软Azure Fast服务的2.5倍[2] - MAI-Voice-1是音频生成模型允许用户在一秒内生成60秒的音频并支持创建自定义语音[2] - MAI-Image-2是视频生成模型[2] - MAI-Transcribe-1的定价为每小时0.36美元起 MAI-Voice-1为每100万个字符22美元起 MAI-Image-2的文本输入为每100万个token 5美元起图像输出为每100万个token 33美元起[6] - 公司认为在日益拥挤的大语言模型市场这些模型的一个卖点是其价格低于谷歌和OpenAI的模型[4] 模型部署与未来规划 - 所有三个模型现已在Microsoft Foundry平台发布转录和语音模型也可在MAI Playground测试软件中使用[3] - MAI-Image-2最初于3月19日在MAI Playground上发布[3] - 公司CEO表示其AI模型创建秉持“以人为本”的独特理念专注于人类实际沟通方式并进行实用化训练[4] - 公司计划很快在Foundry平台以及微软的各类产品和体验中发布更多模型[4] 合作关系与投资 - 公司CEO重申了与OpenAI的合作伙伴关系承诺[7] - 近期对合作伙伴关系的重新谈判使得公司能够真正推进此项超级智能研究[7] - 公司已向OpenAI这家AI研究实验室投资超过130亿美元并通过一项多年期合作协议在其各类产品中托管OpenAI的模型[8] - 公司在芯片策略上采取同样立场既自行生产也向外部供应商采购[8]

微软(US:MSFT)

Artificial Intelligence

Artificial Intelligence