GPT-5.2模型发布与性能预期 - 据The Verge报道,OpenAI的GPT-5.2模型已完成准备,计划最早于12月9日发布,较原定的12月下旬计划明显提前 [1] - 根据网友在社交媒体上贴出的对比图,GPT-5.2几乎全面碾压Gemini 3和Claude 4.5,但图片真实性尚未得到验证 [1] - OpenAI首席执行官Sam Altman在内部评估中表示,即将推出的GPT-5.2在推理能力上将“领先于谷歌的Gemini 3” [3] - 分析指出,OpenAI的计划发布日期经常因开发问题、服务器容量问题或竞争对手的模型发布而调整,实际推出时间仍可能略晚于12月9日 [2] GPT-5.2模型性能基准测试数据 - 根据网友发布的未经证实的基准测试数据,GPT-5.2在多项评测中表现优异 [2] - 在学术推理测试Humanity's Last Exam中,GPT-5.2得分为67.4%,远高于Gemini 3 Pro的37.5%和Claude Sonnet 4.5的13.7% [2] - 在科学知识测试GPQA Diamond中,GPT-5.2得分为95.8%,略高于Gemini 3 Pro的91.9% [2] - 在数学测试AIME 2025 (No tools)中,GPT-5.2得分为100%,高于Gemini 3 Pro的95.0% [2] - 在具有挑战性的数学竞赛题测试MathArena Apex中,GPT-5.2得分为25.7%,略高于Gemini 3 Pro的23.4% [2] - 在多模态理解与推理测试MMMU-Pro中,GPT-5.2得分为89.1%,高于Gemini 3 Pro的81.0% [2] - 在屏幕理解测试ScreenSpot-Pro中,GPT-5.2得分为80.0%,高于Gemini 3 Pro的72.7% [2] - 在复杂图表信息合成测试CharXiv Reasoning中,GPT-5.2得分为89.5%,高于Gemini 3 Pro的81.4% [2] - 在视频知识获取测试Video-MMMU中,GPT-5.2得分为96.4%,高于Gemini 3 Pro的87.6% [2] - 在竞争性编程测试LiveCodeBench Pro中,GPT-5.2得分为2,683分,高于Gemini 3 Pro的2,439分 [2] - 在代理终端编码测试Terminal-Bench 2.0中,GPT-5.2得分为59.6%,高于Gemini 3 Pro的54.2% [2] - 在代理编码测试SWE-Bench Verified中,GPT-5.2得分为83.8%,高于Gemini 3 Pro的76.2% [2] - 在代理工具使用测试t2-bench中,GPT-5.2得分为93.9%,高于Gemini 3 Pro的85.4% [2] - 在长周期代理任务测试Vending-Bench 2中,GPT-5.2得分为6,025.98美元,高于Gemini 3 Pro的5,478.16美元 [2] - 在内部基准测试套件FACTS Benchmark Suite中,GPT-5.2得分为77.6%,高于Gemini 3 Pro的70.5% [2] - 在参数知识测试SimpleQA Verified中,GPT-5.2得分为79.3%,高于Gemini 3 Pro的72.1% [2] - 在多语言问答测试MMLU中,GPT-5.2得分为100%,高于Gemini 3 Pro的91.8% [2] - 在跨100种语言和文化的常识推理测试Global PIQA中,GPT-5.2得分为100%,高于Gemini 3 Pro的93.4% [2] - 在长上下文性能测试MRCR v2 (128k)中,GPT-5.2得分为84.7%,高于Gemini 3 Pro的77.0% [2] OpenAI启动“红色警报”应对竞争 - 面对谷歌的激烈竞争,OpenAI首席执行官Sam Altman周一向全体员工宣布启动“红色警报”,要将全部资源集中于优化ChatGPT,应对谷歌Gemini的激烈竞争 [5] - 在“红色警报”期间,OpenAI确立了五大必须优先解决的核心痛点,旨在巩固其8亿周活跃用户的基本盘 [8] - 五大核心痛点包括:为超过8亿的周活跃用户提供定制化的交互方式(个性化)[8]、改进Imagegen功能以应对谷歌新发布的Nano Banana Pro等竞品(图像生成)[9]、优化模型表现在公开排行榜上的受欢迎程度超过竞争对手(模型行为)[10]、提升ChatGPT的响应速度和运行稳定性(速度与可靠性)[11]、以及最大限度地减少模型拒绝回答善意问题的“过度拒绝”现象(减少过度拒绝)[12] - 公司已叫停了利用ChatGPT海量用户搜索行为投放购物广告的测试,尽管这曾被视为极具潜力的收入来源 [6] - 同时,旨在实现购物与健康任务自动化的“AI代理”项目,以及名为“Pulse”的个性化晨报项目开发进度均被推迟 [7] 公司融资前景与财务压力 - 此次“红色警报”背后是OpenAI面临的巨大资金压力,公司预计未来几年将在技术研发和算力储备上消耗数百亿美元,需要筹集约1000亿美元的巨额资金 [13] - 根据今年夏天的财务预测,ChatGPT今年的订阅收入约为100亿美元,计划明年增至200亿美元,2027年达到350亿美元 [13] - 能否实现这一宏伟蓝图,取决于OpenAI能否在激烈竞争中维持领先地位 [13] - 分析认为如果不能在当前阶段有效压制谷歌的势头,证明ChatGPT依然是全球最好的AI产品,OpenAI的后续融资能力将大打折扣 [14] - GPT-5.2的表现以及ChatGPT整体优化成果,将成为决定公司未来融资前景的关键 [15] - 对于一个需要持续巨额融资以维持运营和研发的公司而言,任何增长放缓的信号都可能对投资者信心构成考验 [16]
预计下周二!OpenAI“紧急提前”发布GPT 5.2,应对Gemini 3的火爆
华尔街见闻·2025-12-06 19:10