Humanist AI
搜索文档
跟OpenAI撕破脸、微软喊话要“完全独立”!靠不到10人、 一半GPU用量,推出三款王炸低价模型
AI前线· 2026-04-03 12:33
微软发布三款自研AI模型 - 公司旗下Microsoft AI研究实验室推出三款基础AI模型,分别用于生成文本、语音和图像,均已登陆Microsoft Foundry平台,其中转录和语音模型已在MAI Playground开放使用[2] - 此次发布标志着公司在与OpenAI保持合作的同时,正积极构建自有的多模态AI模型体系,并计划与OpenAI、谷歌等前沿实验室在模型研发上直接竞争[2] MAI-Transcribe-1语音转录模型 - 该模型是本次发布的核心产品,专为复杂真实场景设计,支持全球使用量最高的25种语言的语音转文本[3] - 根据公司基准测试,该模型在全部25种语言上优于OpenAI的Whisper-large-v3,在22种语言上超过谷歌Gemini 3.1 Flash,在15种语言上分别领先于ElevenLabs的Scribe v2和OpenAI的GPT-Transcribe[3] - 模型采用基于Transformer的架构,支持MP3、WAV、FLAC格式,最大文件容量200MB,其批量转写速度是现有Azure Fast服务的2.5倍[5] - 在FLEURS多语言测试基准上,针对25种核心语言实现了最低的平均词错误率,仅为3.8%[5] - 公司已在Copilot语音模式和Microsoft Teams中测试该模型用于对话转写,计划迅速用自研模型替代第三方或旧版内部模型[5] - 模型定价起步为每小时0.36美元,低于谷歌和OpenAI的同类产品[8] MAI-Voice-1音频生成模型 - 该模型支持在1秒内生成60秒自然流畅的音频,GPU利用率极高,能生成细节丰富、情感饱满且保留说话人音色的语音[5] - Microsoft Foundry平台新增了安全创建自定义语音功能,仅需几秒音频即可完成,极大简化了开发者构建语音交互体验的流程[5] - 模型定价起步为每百万字符22美元[8] MAI-Image-2视频生成模型 - 该模型专为摄影师、设计师等视觉创作者打造,满足对自然光影、精准肤色与纹理的要求,并能在图像中生成清晰的文字[6] - 模型最初于3月19日在MAI Playground上线,在Arena.ai榜单上跻身前三模型系列,并大幅提升了Copilot上的图像生成性能与速度[6] - 根据实际生产流量数据,用户在Foundry和Copilot上的生成速度至少提升至原来的2倍,同时保持画质一致,该模型正在逐步向Bing和PowerPoint分批推送[6] - 模型定价为文本输入每百万tokens 5美元,图像输出每百万tokens 33美元[8] 模型研发效率与成本优势 - 研发这些模型的MAI Superintelligence团队由AI负责人Mustafa Suleyman牵头,于2025年11月组建,目标是实现“AI自给自足”[10] - Suleyman表示,实现同等效果所需的GPU资源仅为当前行业顶尖竞品的一半[10] - 语音模型由10人团队打造,图像团队同样不足10人,速度和效率的大幅提升主要源于模型架构和数据创新[11] - 公司采用极度扁平化的管理结构,团队工作模式类似初创公司,成员沉浸式协作[11][12] - 小团队和低GPU消耗意味着公司AI业务的利润结构与那些“烧钱”换取相似成绩的竞争对手将截然不同[11] 战略定位与未来规划 - Suleyman称公司现已跻身前三的AI实验室,仅次于OpenAI与Gemini[11] - 公司为AI业务构建“人文主义AI”理念品牌,强调以人为中心,并称其数据来源干净合规,与一些开源方案形成对比[12] - 2025年10月之前,公司受与OpenAI的原始协议限制,无法独立研发通用人工智能[14] - 2025年9月,双方重新谈判协议,新条款允许公司自研前沿模型,同时保留至2032年使用OpenAI所有模型的授权[14] - 公司已向OpenAI投资超130亿美元,合作关系至少持续至2032年,同时通过Foundry API提供Anthropic的Claude访问服务,定位为“平台中的平台”[14] - Suleyman的目标是在未来5年,为微软打造世界级模型,实现完全独立,并计划在所有模态上推出顶尖模型[15] - 公司已规划未来2至4年实现AI自给自足所需完成的全部目标及对应的算力布局路线[15] 发布背景与商业考量 - 此次发布恰逢公司股票迎来2008年金融危机以来表现最差的一个季度,投资者要求其证明数千亿美元的AI基础设施投入能转化为实际收入[8] - 这批定价极具竞争力且旨在降低公司自身销售成本的模型,正是应对上述压力的首个答卷[8]