GPT-5.2“发布在即”,微软CEO宣布:周五将揭晓“下一代”Agentic AI模型

微软独立发布AI模型 - 微软CEO Satya Nadella宣布将于周五发布一款新的AI模型,该模型将把AI代理提升到新的水平 [1] - 此举可能反映出公司在AI领域寻求更大自主权的战略意图,而不仅仅依赖合作伙伴OpenAI的技术进度 [2] OpenAI GPT-5.2发布计划 - OpenAI原计划最早于12月9日发布GPT-5.2模型,较原定的12月下旬计划明显提前,以应对谷歌Gemini和Anthropic Claude的激烈竞争 [2] - 由于开发问题、服务器容量限制以及竞争对手的动作,GPT-5.2的实际推出时间可能会晚于12月9日,截至发稿仍未发布 [3] AI行业竞争格局 - 行业竞争白热化,主要参与者包括OpenAI、谷歌(Gemini)、Anthropic(Claude)以及微软 [2] - 社交媒体流传的对比图显示,GPT-5.2在参数上几乎全面“碾压”Gemini 3和Claude 4.5,OpenAI CEO Sam Altman在内部评估中宣称新模型在推理能力上将领先于谷歌竞品 [2] GPT-5.2性能基准测试数据 - 学术推理:在Humanity's Last Exam基准测试中得分为67.4%,显著高于Gemini 3 Pro的37.5%和Claude Sonnet 4.5的13.7% [3] - 视觉推理:在ARC-AGI-2基准测试中得分为62.2%,高于Gemini 3 Pro的31.1%和Claude Sonnet 4.5的13.6% [3] - 科学知识:在GPQA Diamond基准测试中得分为95.8%,略高于Gemini 3 Pro的91.9%和Claude Sonnet 4.5的83.4% [3] - 数学能力:在AIME 2025(无工具)基准测试中得分为100%,高于Gemini 3 Pro的95.0%和Claude Sonnet 4.5的87.0% [3] - 多模态理解:在MMMU-Pro基准测试中得分为89.1%,高于Gemini 3 Pro的81.0%和Claude Sonnet 4.5的68.0% [3] - 屏幕理解:在ScreenSpot-Pro基准测试中得分为80.0%,高于Gemini 3 Pro的72.7%和Claude Sonnet 4.5的36.2% [3] - 图表信息合成:在CharXiv Reasoning基准测试中得分为89.5%,高于Gemini 3 Pro的81.4%和Claude Sonnet 4.5的68.5% [3] - 视频知识获取:在Video-MMMU基准测试中得分为96.4%,高于Gemini 3 Pro的87.6%和Claude Sonnet 4.5的77.8% [3] - 竞争性编程:在LiveCodeBench Pro基准测试中得分为2,683分,高于Gemini 3 Pro的2,439分和Claude Sonnet 4.5的1,418分 [3] - 代理式终端编码:在Terminal-Bench 2.0基准测试中得分为59.6%,高于Gemini 3 Pro的54.2%和Claude Sonnet 4.5的42.8% [3] - 代理式编码:在SWE-Bench Verified基准测试中得分为83.8%,高于Gemini 3 Pro的76.2%和Claude Sonnet 4.5的77.2% [3] - 代理式工具使用:在t2-bench基准测试中得分为93.9%,高于Gemini 3 Pro的85.4%和Claude Sonnet 4.5的84.7% [3] - 长程代理任务:在Vending-Bench 2基准测试中得分为$6,025.98,高于Gemini 3 Pro的$5,478.16和Claude Sonnet 4.5的$3,838.74 [3] - 参数知识:在SimpleQA Verified基准测试中得分为79.3%,高于Gemini 3 Pro的72.1%和Claude Sonnet 4.5的29.3% [3] - 多语言问答:在MMLU基准测试中得分为100%,高于Gemini 3 Pro的91.8%和Claude Sonnet 4.5的89.1% [3] - 长上下文性能:在MRCR v2 (128k)基准测试中得分为84.7%,高于Gemini 3 Pro的77.0%和Claude Sonnet 4.5的47.1% [3] 微软在印度的投资 - 公司本周早些时候宣布了在印度投资175亿美元建设AI云基础设施的计划 [1] - 公司还宣布了为印度人口提供AI时代培训的项目 [1]