产品发布与性能 - GPT-5.2模型已完成准备,计划最早于12月9日发布,较原定的12月下旬计划明显提前 [1] - 根据未经证实的社交媒体对比图,GPT-5.2在多项基准测试中表现优于主要竞品Gemini 3和Claude 4.5 [1][2] - OpenAI首席执行官Sam Altman在内部评估中表示,即将推出的GPT-5.2在推理能力上将“领先于谷歌的Gemini 3” [3] - 公司已叫停利用ChatGPT用户搜索行为投放购物广告的测试,并推迟了“AI代理”项目和“Pulse”个性化晨报项目的开发 [5] 竞争态势与战略调整 - 面对谷歌Gemini的激烈竞争,OpenAI首席执行官Sam Altman宣布启动“红色警报”,将全部资源集中于优化ChatGPT [4] - 在“红色警报”期间,公司确立了五大必须优先解决的核心痛点,旨在巩固其8亿周活跃用户的基本盘 [6][8] - 五大核心痛点包括:个性化交互、改进图像生成功能以应对竞品、优化模型行为以提升在公开排行榜的受欢迎程度、提升响应速度与运行稳定性、以及减少模型的“过度拒绝”现象 [8] 财务与融资前景 - 公司预计未来几年需消耗数百亿美元用于研发和算力,需要筹集约1000亿美元的巨额资金 [3][6] - 根据今年夏天的财务预测,ChatGPT今年的订阅收入约为100亿美元,计划明年增至200亿美元,2027年达到350亿美元 [6] - 能否实现收入增长蓝图并成功筹集巨额资金,取决于公司能否在激烈竞争中维持技术领先地位 [3][6] - GPT-5.2的表现以及ChatGPT整体优化成果,将成为决定公司未来融资前景的关键 [6] 基准测试性能数据(未经证实) - 在学术推理测试(Humanity's Last Exam)中,GPT-5.2得分为67.4%,远高于Gemini 3 Pro的37.5%和Claude Sonnet 4.5的13.7% [2] - 在科学知识测试(GPQA Diamond)中,GPT-5.2得分为95.8%,略高于Gemini 3 Pro的91.9% [2] - 在数学测试(AIME 2025 (No tools))中,GPT-5.2得分为100%,高于Gemini 3 Pro的95.0% [2] - 在多模态理解与推理测试(MMMU-Pro)中,GPT-5.2得分为89.1%,高于Gemini 3 Pro的81.0% [2] - 在视频知识获取测试(Video-MMMU)中,GPT-5.2得分为96.4%,高于Gemini 3 Pro的87.6% [2] - 在竞争性编程测试(LiveCodeBench Pro)中,GPT-5.2得分为2,683分,高于Gemini 3 Pro的2,439分 [2] - 在代理式编码测试(SWE-Bench Verified)中,GPT-5.2得分为83.8%,高于Gemini 3 Pro的76.2% [2] - 在多语言问答测试(MMLU)中,GPT-5.2得分为100%,高于Gemini 3 Pro的91.8% [2]
预计下周二!OpenAI“紧急提前”发布GPT 5.2,应对Gemini 3的火爆
华尔街见闻·2025-12-06 09:12