Workflow
Multimodal AI models
icon
搜索文档
Microsoft takes on AI rivals with three new foundational models
TechCrunch· 2026-04-03 00:48
公司战略与产品发布 - 微软AI研究实验室宣布发布三个基础AI模型 分别能够生成文本、语音和图像 这标志着公司持续构建自身多模态AI模型堆栈的努力[1] - 此次发布表明 尽管与OpenAI保持合作 公司仍在积极与竞争对手的AI实验室展开竞争[1] - 模型由微软AI首席执行官Mustafa Suleyman领导的MAI Superintelligence团队开发 该团队于2025年11月成立并宣布[3] 模型性能与定价 - MAI-Transcribe-1可将25种不同语言的语音转录为文本 其速度是微软Azure Fast服务的2.5倍[2] - MAI-Voice-1是音频生成模型 允许用户在一秒内生成60秒的音频 并支持创建自定义语音[2] - MAI-Image-2是视频生成模型[2] - MAI-Transcribe-1的定价为每小时0.36美元起 MAI-Voice-1为每100万个字符22美元起 MAI-Image-2的文本输入为每100万个token 5美元起 图像输出为每100万个token 33美元起[6] - 公司认为 在日益拥挤的大语言模型市场 这些模型的一个卖点是其价格低于谷歌和OpenAI的模型[4] 模型部署与未来规划 - 所有三个模型现已在Microsoft Foundry平台发布 转录和语音模型也可在MAI Playground测试软件中使用[3] - MAI-Image-2最初于3月19日在MAI Playground上发布[3] - 公司CEO表示 其AI模型创建秉持“以人为本”的独特理念 专注于人类实际沟通方式并进行实用化训练[4] - 公司计划很快在Foundry平台以及微软的各类产品和体验中发布更多模型[4] 合作关系与投资 - 公司CEO重申了与OpenAI的合作伙伴关系承诺[7] - 近期对合作伙伴关系的重新谈判使得公司能够真正推进此项超级智能研究[7] - 公司已向OpenAI这家AI研究实验室投资超过130亿美元 并通过一项多年期合作协议在其各类产品中托管OpenAI的模型[8] - 公司在芯片策略上采取同样立场 既自行生产也向外部供应商采购[8]