OpenAI发布GPT-5.3-Codex-Spark - 公司正式发布专为实时编码场景设计的GPT-5.3-Codex-Spark研究预览版本,该模型是从GPT-5.3-Codex主模型中“裁剪”而来的精简版本[1] - 模型定位并非替代现有Codex,而是补齐其在“即时交互”场景中的短板,目标是将人与模型之间的交互延迟压缩到接近“无感”的程度[3] - 此次发布是公司与芯片初创企业Cerebras合作的重要阶段性成果,上个月签署了一项金额超过100亿美元的协议以使用Cerebras硬件提升模型响应速度[3] - 模型核心是“速度”,专为实时使用而设计,支持针对性编辑、重塑逻辑或优化界面并立即查看结果,针对高频、碎片化、对即时反馈极度敏感的使用场景[4] - 在执行长时间运行任务方面展现出卓越优势,无需人工干预即可自主运行数小时、数天甚至数周,使Codex能同时支持长时间复杂任务和即时工作[4] - 模型在发布时拥有128k的上下文窗口,且仅支持文本,研究预览期间拥有独立的速率限制,使用量不计入标准速率限制[5] - 针对交互式工作进行了优化,用户可与模型实时协作,在运行过程中随时中断或重定向它,并快速迭代以获得近乎即时的响应[6] - 作为小型模型,在SWE-Bench Pro和Terminal-Bench 2.0等评估智能体软件工程能力的基准测试中表现出色,且完成任务所需时间远低于GPT-5.3-Codex[7] - 研发过程中实现了端到端的延迟优化,对底层架构进行了系统级优化,量化结果包括客户端/服务器单次往返开销降低80%,每个token的处理开销降低30%,第一个token的出现时间缩短50%[11][13] - 社区反馈关注在速度提升的同时,模型是否能维持足够的推理深度与代码质量,有观点指出速度快但有缺陷的代码毫无用处[12][14] 谷歌更新Gemini 3 Deep Think - 公司同步更新了旗下最具研究取向的推理模型Gemini 3 Deep Think,这是一次明确面向现代科学研究、工程建模与复杂推理问题的系统性升级[16] - 模型目标并非更流畅的对话体验,而是解决长期困扰科研人员和工程师的“硬问题”,这些问题往往缺乏明确解题路径、不存在唯一正确答案且数据不完整[20] - 更新是在与大量科学家和研究人员长期合作基础上完成的,设计思路偏向真实科研与工程实践,而不仅是抽象推理能力的展示[20] - 全新Deep Think已在Gemini应用中上线,供Google AI Ultra订阅用户使用,并首次通过Gemini API向部分研究人员、工程师和企业开放使用权限[20] - 在多项严苛学术基准测试中刷新当前水平,在Humanity's Last Exam中取得48.4%的成绩,在ARC-AGI-2测试中取得84.6%的成绩并已通过官方验证[24] - 在竞技编程平台Codeforces上,模型达到3455 Elo评分区间,属于极高段位,其编码能力排名世界第八[26][27] - 相比以往,此次更新明显扩大了能力覆盖范围,在化学、物理等多个科学领域中展现出显著提升[31] - 在2025年国际物理奥林匹克竞赛和国际化学奥林匹克竞赛的笔试部分均达到金牌级别表现,在CMT-Benchmark中取得50.5%的分数[31] - 在2025年国际数学奥林匹克竞赛的评测中,整体表现达到金牌水平[32] - 根据基准测试对比表格,Gemini 3 Deep Think在ARC-AGI-2、Humanity's Last Exam、国际数学奥林匹克、国际物理奥林匹克、国际化学奥林匹克及Codeforces等多个关键指标上领先于Gemini 3 Pro Preview、Claude Opus 4.6 Thinking Max及GPT-5.2 Thinking xhigh等对比模型[33] - 公司强调模型设计目标并非单纯在榜单中取得高分,而是定位为辅助研究与工程决策的工具,可用于帮助理解复杂数据、协助建模与仿真、提供多路径推理支持[34][37] - 社区反馈认为此次更新是重要的升级,有观点指出可将草图转化为3D打印模型的功能能提升原型制作速度近10倍,并认为人工智能缩短工程时间、改进科学建模及降低研发成本将带来真正变革[38][41]
一天两枚“代码核弹”:OpenAI 祭出首个“主打实时协作”的 Codex 模型,谷歌放出 Gemini Deep Think,码力冲到世界前8