微软AI首个自研模型来了，实测可玩性超强，CEO回应与OpenAI隔阂

微软AI模型发布 - 微软AI推出首批两款全自研AI模型包括端到端基础模型MAI-1-preview和语音生成模型MAI-Voice-1 [1] - MAI-Voice-1提供高保真音频支持至少40种语体风格和多种角色扮演包括情绪模式和声音模板定制 [1] - MAI-1-preview为混合专家模型在1.5万颗英伟达H100 GPU上完成预训练和后训练主打指令遵循和日常问题解答能力 [2] 语音模型技术特性 - MAI-Voice-1生成速度达1秒输出1分钟音频可在单块GPU上运行但暂不支持中文输入 [2] - 语音模型已上线Copilot Daily和Podcasts 用户可通过Copilot Labs体验 [1] 战略定位与合作伙伴关系 - 微软AI CEO强调自研模型计划始于14个月前旨在确保内部专业能力和模型选择权 [4][6] - 公司将继续与OpenAI及开源模型合作未来核心知识产权在于模型编排器（路由器） [6][7][8] - 明确否认与OpenAI关系疏远称合作"非常成功"且将进一步深化 [9] 训练效率与资源投入 - MAI-1-preview使用1.5万颗H100 GPU训练集群规模小于行业顶级（对比10万颗H100）但实现世界级性能 [10][12] - 强调数据选择效率避免无意义token算力浪费未来将使用世界最大规模GB200/GB300集群 [5][12] - 团队规模达数百人招聘顺利且无需过度扩张 [25][26] 模型能力与发展方向 - MAI-1-preview被定义为"人格原材料" 通过后训练可呈现数百万种人格特质 [4][16][19] - 模型在多模态方向持续扩展已在主流基准测试进行通用性训练 [11] - 下一代模型MAI-2已在开发中规模更大且采用新训练方案 [34] 技术哲学与风险认知 - 认为大模型本质"空心" 可解释性研究属于拟人化误区不会揭示意识本质 [20][22] - 否认模型会涌现自主欲望或动机强调后训练对行为控制的有效性 [23][24] - 呼吁行业提前思考AI社会影响避免盲目追求人类能力模仿 [15] 产品化进程 - MAI-1-preview将于未来几周内应用于Copilot文本场景后续可能通过Foundry API开放给外部开发者 [2][32] - 不排除未来开源可能当前优先聚焦产品迭代和客户反馈 [33]