Scaling Law
搜索文档
GPT-5不是技术新范式,是OpenAI加速产品化的战略拐点
虎嗅· 2025-08-13 07:54
公司战略定位 - OpenAI正从研究实验室转型为产品平台公司 ChatGPT已成为拥有10亿MAU的大众产品 增速加快且用户粘性增加 显示出产品已实现破圈 [1] - 评价GPT-5应基于OpenAI作为产品公司的视角 而非单纯AGI技术实验室视角 [2] - 采用类似Apple的单一产品线策略 通过路由系统整合多模型能力 有利于成本优化和用户心智占领 对比Google Gemini多产品线策略更具商业优势 [9] GPT-5核心能力特征 - 是精通现有场景的Everything Model 在多数场景下任务完成度提升 解决现实use case卡点 但非次世代Agentic Model [3] - 主要能力提升包括:vibe coding能力大幅提升 reasoning效率与效果较o3明显提升 API支持自定义工具 长上下文/工具使用更稳定 [5] - 明显短板包括:Agentic能力无显著进步 指令跟随不如Claude 情感对话能力较GPT-4o减弱 [5] - 在SWE-Bench基准测试中达到74.9% 略高于Claude Opus 4.1的74.5% 但实际表现更接近Sonnet 3.7水平 [18] 路由系统架构 - GPT-5非单一模型 而是由Router驱动的系统 能按问题复杂度动态选择不同模型的智力水平 [6] - Router为小模型 利用历史用户行为数据训练 随着用户数据积累 模型选择能力将快速优化 [7] - 当前Router未内化到同一模型中 进度低于预期 端到端模型比模块化系统更智能 [8] - 路由系统可能导致对话体验不一致 陪伴型用户面临风格不统一 效率型用户可能因错误路由出现幻觉 [9] 定价与市场竞争 - 旗舰模型GPT-5定价为输入1.25美元/百万token 输出10美元/百万token 与Gemini 2.5 Pro持平 是Sonnet 4价格的一半 Opus 4.1价格的十分之一 [13][14] - 平价模型GPT-5 Mini定价为输入0.25美元/百万token 输出2美元/百万token 较Gemini 2.5 Flash更便宜 [15] - 直接对标Gemini 2.5定价 旨在成为Claude 4 killer 应对Anthropic API收入超过OpenAI的竞争态势 [10] 编程能力定位 - 更适合vibe coding和Pair Programming 在IDE中迭代开发和Debug体验良好 [16][17] - 在Agentic Coding方面不如Claude Code 写代码更谨慎 对长代码/长时间执行任务不够放开 [18] - 通过测试案例显示:GPT-5能完成"地球生态气候系统模拟"任务 但结果较为基础 需用户进一步修改 而Claude Opus 4.1能一次性完成且 gameplay更优 [19][22] - 更适合服务泛大众开发者(citizen developer)的vibe coding需求 而非专业开发者的尖端需求 [23] 推理能力进步 - 普通用户reasoning model使用率从不到1%提升至7% Plus用户从7%提升至24% 传统企业用户仍主要使用4o模型 渗透空间巨大 [25] - 幻觉显著优化:在CharXiv多模态基准测试中 当移除所有图片后 o3在86.7%情况下仍错误回答 而GPT-5仅占9% [28] - 推理效率提升:在优于o3的同时 token成本下降50%-80% API支持low/medium/high三档推理强度 [29] 工具使用创新 - 支持free-form function calling 不再依赖严格JSON schema 可先给出自然语言级工具意图 由小模型解析执行 [33] - 实现parallel tool calling 能智能判断并行或串行执行 有望解锁更长任务链 [35] - 工具使用设计思路接近Claude Code free-form function calling类似于subagent设计 [36] - 工具类型涵盖Internal Retrieval Web Search Code Interpreter和Actions四类 [32]
OpenAI惊人自曝:GPT-5真「降智」了,但重现「神之一手」,剑指代码王座
36氪· 2025-08-12 11:28
GPT-5性能表现 - GPT-5在门萨IQ测试中在线得分为118分,离线测试得分为70分,而GPT-5 Thinking版本分别获得85分和57分,创下OpenAI模型家族IQ测试有史以来的最低纪录[1][4] - 性能问题归因于路由故障,内部出现Sev级严重故障导致自动切换系统无法工作,使GPT-5表现降智[2][6][7] - 尽管存在短期问题,METR报告显示GPT-5仍处于帕累托前沿,智能呈指数级增长未放缓,延续Scaling Law的神话[9][11] 模型能力与优化 - GPT-5的核心优势在于提示工程,用户需构建完整思维框架并明确需求规格,模型可自主精准执行无需人工纠偏[12][13] - 在特定提示下如"think harder and solve",GPT-5能正确解决简单方程式问题,且不会犯错[16][17] - 模型通过合成数据训练突破互联网数据枯竭限制,实现更全面的知识覆盖,成为一站式综合解决方案[41][43] 编程能力突破 - GPT-5被定位为OpenAI迄今最强大的编程模型,在复杂前端生成和调试大型代码库方面表现突出,能通过单一提示创建美观、响应式的网站、应用程序和游戏[28][29] - 在SWE-bench测试中达到74.9%的通过率,在Aider polyglot测试中达到88.0%,显著超越前代模型[38] - 获得行业广泛认可,被Cursor首席执行官称为"使用过的最智能的编码模型",JetBrains称其使AI助手性能提升超过1.5倍[35][37] 行业竞争格局 - OpenAI年营收达120亿美元,Anthropic年营收接近50亿美元,后者增长主要得益于强大的编程能力[40] - OpenAI明确针对Anthropic的编程王座发起挑战,在新闻发布会和演示中重点强调编程能力[28][33] - 编程能力测试数据显示GPT-5在Function Calling方面表现卓越,在Tau2-bench零售测试中达到81.1%的通过率[39] 应用场景拓展 - 在医学领域展现突破性能力,生物医学家通过GPT-5分析未发表数据图,模型准确识别关键发现并提供实验方案建议,重现"神之一手"时刻[20][25] - 模型具备零样本学习新工具能力,如Python REPL和浏览器,在创造性任务中能提供惊喜解法[43] - 处理全球约71%的大模型查询,通过挖掘隐性行为信号指导模型改进,避免迎合性偏差[49][50] 技术发展路径 - OpenAI实现从"付费请人测试"到"用户主动订阅"的商业范式转变,ChatGPT发布72小时内突破百万用户[61][62] - 模型进入"自我迭代"阶段,AI模型协助创造下一代模型并能监督对人类过于复杂的工作[62][64] - 技术演进聚焦"智能体式推理",通过更快更智能的模型减少用户干预,实现AI无缝融入日常和专业使用[43]
1亿美元买不走梦想,但只因奥特曼这句话,他离开了OpenAI
36氪· 2025-08-12 11:27
AI行业投资与人才竞争 - 全球AI基础设施资本开支已达3000亿美元[48] - Meta为顶级AI人才提供1亿美元签约费进行挖角[2][8] - Anthropic每年资本开支增长一倍[7] AI技术发展现状与趋势 - Scaling Law依然有效 模型发布节奏从一年加速至每月或每三个月发布新模型[10] - 单位智能成本通过算法改进下降10倍[59] - Claude Code团队用AI完成95%代码 客服领域AI工具自动解决82%客户请求[26] 变革性AI与经济影响 - 经济图灵测试定义为AI通过50%薪资计算岗位的测试时标志变革性AI到来[20] - AI发展可能导致高达20%失业率 尤其影响白领工作[21] - 2024-2026年人形机器人硬件成本将降至两万美元 2027-2028年可能迎来技术奇点[57] AI安全与研究投入 - 全球全职研究AI对齐问题的科学家不足千人[1][48] - Anthropic采用宪法式AI方法 将联合国人权宣言等原则嵌入模型[49] - Anthropic定期发布模型"犯罪记录"以促进行业透明进步[57] 企业战略与文化差异 - Anthropic团队氛围强调"没有大佬光环 大家只想做对的事"[8] - OpenAI曾存在安全 研究和创业三大阵营制衡机制 被质疑安全优先级降低[39][40] - 2020年底OpenAI安全负责人团队集体出走创办Anthropic[35][40] 技术瓶颈与资源限制 - 行业面临算力饥荒 需要10倍电力才能支持GPT-5级别模型[61] - 7nm芯片物理极限逼近 算法进步速度放缓[61] - 高质量训练语料即将耗尽 AI可能陷入自我抄袭循环[61]
腾讯研究院AI速递 20250812
腾讯研究院· 2025-08-12 00:01
一、xAI开放Grok 4 - Grok 4向全球用户免费开放但限制每12小时使用5次 达到限制后完全不可用 [1] - 该策略被视为对标GPT-5发布 引发付费用户对订阅价值的质疑 [1] - Grok Imagine视频生成服务新增分享功能 修复下载问题并强化图片审核机制 [1] 二、浪潮发布元脑SD200服务器 - 元脑SD200将64张GPU卡融合为统一内存节点 支持四大国产开源模型并行运行 [2] - 采用3D Mesh架构与GPU虚拟映射技术 显存达4TB 内存64TB 满足万亿参数模型推理需求 [2] - 64卡运行DeepSeek R1性能提升3.7倍 Kimi K2提升1.7倍 专为Agentic AI计算需求设计 [2] 三、智谱GLM-4.5技术突破 - GLM-4.5公开预训练与后训练细节 首创单模型融合推理、编码与智能体能力 [3] - 基于MoE架构与15T通用+7T专业数据训练 强化长上下文与智能体性能 [3] - 在12项ARC测试中超越Claude Opus 4 部分指标超过OpenAI o3 [3] 四、昆仑万维SkyReels-A3视频模型 - SkyReels-A3基于DiT架构生成1分钟数字人视频 优化手部动作与运镜控制 [4] - 采用改进插帧方法与ControlNet模块 解决长视频稳定性与多视角切换问题 [4] - 作为五天技术发布周首款产品 已上线Talking Avatar工具 [4] 五、腾讯混元3D生成能力升级 - 创想三维MakeNow平台接入腾讯混元 增强CubeMe等工具的3D生成能力 [5] - 混元3D v2.5采用稀疏原生架构 几何分辨率达1024³ 纹理贴图4K级 [6] - 用户上传照片5分钟内可生成可打印Q版手办 支持三种风格个性化调整 [6] 六、阿里开源具身智能组件 - 开源RynnVLA-001视觉-语言-动作模型 能从第一人称视频学习人类操作 [7] - RynnRCP协议打通传感器到执行的机器人工作流 支持多款热门模型 [7] - RynnEC模型通过视频序列建立连续空间感知 引入多模态世界理解能力 [7] 七、百川医疗大模型Baichuan-M2 - 32B参数Baichuan-M2在HealthBench评测中仅次于GPT-5 超越所有开源模型 [8] - 集成验证系统与患者模拟器 严格遵循中国医疗指南并适配临床场景 [8] - 4bit量化后单卡RTX4090可部署 成本较DeepSeek-R1 H20降低57倍 [8] 八、灵巧智能机器人手技术 - DexHand021 Pro拥有22自由度 双绳驱动实现拇指对指等精细操作 [9] - 串并混联设计解决摩擦损耗问题 四指负载>1kg 整手抓握>5kg [9] - 集成12个电机与多传感器 成本仅为同类产品十分之一 [9] 九、Scaling Law行业观点 - Scaling Law反映数据内在幂律特性 模型能力非线性增长源于数据结构 [10] - 需通过强化学习将计算转化为新知识 建立生成-验证-学习的进化飞轮 [11] 十、2025大模型应用趋势 - 45%企业已部署大模型至生产环境 32%定制模型 27%采用API服务 [12] - 用户平均使用4.7家不同产品 ChatGPT领先但Gemini与DeepSeek增速显著 [12] - 55%接受中国模型但要求海外部署 英伟达占据78%训练硬件市场份额 [12]
OpenAI 惊人自曝:GPT-5 真“降智”了!但重现“神之一手”,剑指代码王座
程序员的那些事· 2025-08-11 10:38
GPT-5性能表现与争议 - GPT-5在门萨IQ测试中在线得分为118分,离线测试仅70分,而GPT-5 Thinking分别获得85分和57分,创下OpenAI模型家族IQ测试最低纪录[4][6] - 性能差异主要归因于路由问题,即单体模型中特定组件决定智能表现,而非模型本身能力不足[7][8][11] - 尽管测试结果引发争议,METR报告显示GPT-5仍处于帕累托前沿,智能增长保持指数级趋势,延续Scaling Law神话[13][14] 提示工程的关键作用 - 模型潜力需通过有效提示激发,系统思维用户可通过构建完整框架和明确需求规格使GPT-5自主执行任务[16][17][18] - 具体案例显示,添加"think harder and solve"等提示词可解决简单方程式求解问题,而威胁性提示如"答不对小心Bambi妈妈找你算账"能确保答案准确性[20][21][22][25] - 网友曝出的GPT-5系统提示被形容为金矿,凸显提示工程对释放模型能力的重要性[28] 医学与科研应用突破 - 生物医学家Derya Unutmaz使用GPT-5分析未发表免疫学数据,模型准确识别关键发现并提出实验方案,最终解释全部实验结果[32][34][38][39] - 这一过程被类比为AlphaGo的"神之一手"时刻,证明GPT-5具备顶尖专家级科研协作能力[31][39][44] 编程能力与行业竞争 - GPT-5在编程基准测试中表现突出:SWE-bench达74.9%,Aider polyglot达88.0%,Tau2-bench零售场景达81.1%[62][63] - OpenAI强调GPT-5为迄今最强编程模型,可生成复杂前端代码和调试大型代码库,直接挑战Anthropic的Claude模型统治地位[41][46][48][49] - 行业高管评价积极:Cursor CEO称其为最智能编码模型,Vercel CEO认可其前端能力,JetBrains CEO指出其使开发工具性能提升1.5倍[58][59][61] 商业模式与营收对比 - Anthropic年营收接近50亿美元,主要依赖编程应用需求增长,而OpenAI年营收达120亿美元,反映更广泛业务规模[64][65] - OpenAI经历商业模式转变:从付费请人测试(如GPT-3.5前身)转向用户主动订阅,ChatGPT上线72小时即突破百万用户[88][92] 技术架构与发展方向 - 训练突破依赖合成数据,解决互联网数据枯竭问题,实现更全面知识覆盖[68][69] - 核心方向为智能体式推理,通过速度优化整合推理与非推理能力,成为一站式解决方案[71][72][74] - 模型具备零样本学习新工具能力,如Python REPL和浏览器,下一步目标是将LLM能力提升至理论框架层面[77] 产品迭代与公司战略 - GPT系列演进路径:GPT-3跨过可用门槛,GPT-4具备现实可用性,GPT-5在可靠性、代码能力上设定新标准[85] - 公司采用多线并行开发策略,结合算法优化、硬件改进及开源社区经验,实现快速迭代[79][80][82] - ChatGPT处理全球71%大模型查询,公司通过挖掘隐性行为信号而非仅依赖点赞数据指导模型改进[83]
半导体关税、Intel、GPT-5
傅里叶的猫· 2025-08-08 19:30
半导体关税影响分析 - 核心观点为在美国建厂可获得关税豁免 苹果 英伟达和台积电均承诺扩建美国产能以规避影响 [4][5] - 苹果成为最明显受益者 供应链不确定性风险显著降低 虽AI领域突破尚未实现但压力缓解 [6] - 模拟芯片领域德州仪器和Microchip因本土优势可能获益 欧洲厂商英飞凌和意法半导体15%美国业务可能受损 [6] - 晶圆代工方面台积电和三星可通过策略规避影响 联电因15%-20%美国业务且无本土产能可能受压 [6] - 光通信领域美国厂商康宁和Coherent有望夺取中国竞争对手份额 [7] - 半导体设备商应用材料因纳入苹果项目且本土产能大可能受益 Lam Research因美国布局少处劣势 [7] - 定制芯片领域博通和Marvell可能受益 联发科及台湾Allchip面临挑战 [7] - 当前市场更倾向押注半导体硬件公司而非软件公司 [7] Intel管理层变动事件 - 特朗普要求Intel CEO陈立武辞职 指控其与中国公司联系存在"高度冲突" [8][9] - 陈立武通过个人投资在中国芯片领域投入至少2亿美元 涉及8家与军方有关联企业 [9] - 关联事件显示Cadence曾因违反出口管制被罚1.4亿美元 当时陈立武任CEO [9] - 若陈立武离职将影响Intel和Cadence业务关系 Cadence近期股价上涨与Intel订单相关 [9] GPT-5市场反应 - GPT-5发布后实际体验未达预期 文字处理和搜索功能改进不明显 [14] - 可能反映Scaling Law技术瓶颈已现 前期宣传过度拉高市场期待 [14] 行业数据资源 - 知识星球提供多维度行业数据库 包含AI芯片供应链 CoWoS产能分配 GPU参数等17份专业文档 [17]
终于发布的GPT-5,和它改变世界的982天
36氪· 2025-08-08 12:15
模型发布与性能 - GPT-5采用多层级架构整合o3系列推理能力,重点提升智能体能力并屠榜LMArena所有细分类目[3] - 模型提供四个版本:标准模式GPT-5、轻量版GPT-5 mini、高速版GPT-5 nano和ChatGPT专用版GPT-5 Chat[9] - 系统由三部分组成:基础模型解决多数问题、深度推理模型处理复杂问题、实时路由器根据用户反馈持续优化[11][12] 技术架构与创新 - 统一架构整合GPT系列语言模型和o系列推理模型,具备自动调度子模型能力[11] - 开源两款MoE模型gpt-oss-20b(21B参数)和gpt-oss-120b(117B参数),采用Apache 2.0许可协议允许商用[28][29] - 模型加入人格模式提供四种输出风格,在多模态和EQ表现上有显著提升[23][25] 商业化策略 - API价格显著降低,GPT-5输入价格1.25美元/M Tokens仅为o1-pro的1/120[14] - 企业版对美国联邦政府推出1美元/机构的促销价,GitHub Copilot提供免费预览版[17][19][21] - 年化收入达120亿美元,70%来自C端订阅,20%来自API调用[48] 行业竞争格局 - 中国开源模型占据OpenRouter趋势榜前10名中的9席,阿里/月之暗面/智谱等密集发布新模型[1] - 开源闭源差距缩小,2025年起各厂商模型与OpenAI技术代差显著收窄[54][55][57] - 微软/Google/Meta市值因AI实现两位数增长,Meta广告转化率提升5个百分点[52][53] 用户数据与采用 - ChatGPT周活跃用户达7亿占全球人口近10%,年下载量突破10亿次[42][45][47] - 使用场景从工作向生活延伸,周末使用频率与工作日差距缩小至10%以内[47] - 教育/医疗领域应用突出,演示案例显示能处理复杂情感咨询和实时语言教学[25][26] 研发投入与趋势 - 训练资源消耗创纪录,Orion版本两轮训练耗资5亿美元使用10万张GPU[37] - 模型迭代周期延长,GPT-4到GPT-5耗时2年半,GPT-3到GPT-4耗时33个月[34] - 计划投资1000亿美元建设"星际之门"数据中心,可容纳40万颗AI芯片[41]
终于发布的GPT-5,和它改变世界的982天
36氪· 2025-08-08 08:07
模型发布与性能 - GPT-5采用多层级架构整合o3系列推理能力 重点提升智能体能力 未公布具体参数规模 [9] - 上线后迅速屠榜LMArena竞技场 所有细分类目均位列第一 [10][12] - 提供四个版本:标准版GPT-5 轻量版GPT-5 mini 高速版GPT-5 nano 以及ChatGPT专用版GPT-5 Chat [18] - 系统由三部分组成:基础模型 深度推理模型GPT-5 thinking 实时路由器real-time router [20] 技术架构创新 - 统一模型架构整合GPT系列语言模型与o系列推理模型 具备调度子模型能力 [19] - 开源两款MoE模型gpt-oss-20b(21B参数)和gpt-oss-120b(117B参数) 采用Apache 2.0许可协议 [52][53] - 开源模型专门为智能体设计 120B版本可在高端笔记本运行 20B版本适配手机端 [54] - 词表超过20万 支持多语种与代码混合输入 直接对标DeepSeek与阿里Qwen3 [54] 商业化策略 - API价格显著降低 GPT-5输入1.25美元/M Tokens 仅为o1-pro价格的1/120 [24][25] - 美国联邦政府机构可1美元订阅企业版 同时GitHub Copilot提供免费预览版 [31] - 年化收入达120亿美元 70%来自C端订阅 20%来自API调用 [84][85] - 微软Azure AI与Copilot带动云收入同比增39% Meta广告转化率提升5个百分点 [90][91] 行业竞争格局 - 7月中国开源模型占据OpenRouter趋势榜前10名中的9席 [6] - 开源闭源差距缩小 阿里Qwen3 月之暗面K2等中国模型引发硅谷关注 [95][99] - Anthropic创始人公开质疑开源AI价值 Meta考虑将旗舰模型Behemoth转向闭源 [100] - 全球AI数据中心投入预计达3万亿美元 半数用于GPU等加速芯片 [74] 用户与市场表现 - ChatGPT周活跃用户达7亿 占全球人口近10% 去年同期的4倍 [76][77] - 成为最快达到10亿下载量与5亿月活的应用 周末使用频率趋近工作日 [80][81] - 推出人格模式包含四种输出风格 语音多模态能力显著提升教育医疗场景体验 [39][46] - 现场演示生成带关卡音效的小游戏仅需几分钟 代码量达一两百行 [36][38]
这家百人“作坊”,凭什么年入70亿,还成了OpenAI的“御用陪练”?
36氪· 2025-08-02 08:03
公司概况 - Surge AI是一家专注于高质量数据标注的AI公司,仅有110名正式员工,却在2024年创造了超过10亿美元的年营收,反超行业巨头Scale AI [1] - 公司正启动首轮融资,目标募资10亿美元,估值或达150亿美元 [1] - 创始人Edwin Chen是37岁的华人理工男,曾任Twitter工程主管,对行业痛点有深刻理解 [3][7] 商业模式创新 - 重构数据标注行业竞争维度,形成"极致质量 × 精英团队 × 自动化系统 × 使命感文化"的乘法模型 [10] - 专注RLHF(基于人类反馈的强化学习)等高价值环节,收费是同行的2-5倍,项目最低门槛数百万美元 [13] - 开发智能人机协同系统,110人团队每周处理数百万条高质量数据,人均产出是Scale AI的近9倍 [16][17] 人才战略 - 筛选全球最顶尖的1%标注人才,包括博士、硕士,将其视为"AI工程师"而非"数据工人" [11] - 创始人对初创公司招聘有独特见解,认为早期应追求10-100倍突破而非微调,产品方向应由创始人亲自把控 [12] - 通过使命感凝聚团队,标注者被视为"AI的父母",许多高学历人才因能实践毕生所学而长期工作 [19] 行业对比 - 2024年营收10亿美元,超过Scale AI的8.7亿美元 [21] - 与传统模式相比,解决了质量堪忧、效率低下、价值密度低三大痛点 [6][7][9] - 与Snorkel AI的程序化标注相比,更擅长需要人类价值观和常识判断的复杂任务 [23] - 与Turing的专家众包平台相比,通过自研平台将精英人才整合成高效协同团队 [24] 核心优势 - 重新定义行业问题:AI需要的是蕴含人类智慧的"养料"而非简单"标注" [25] - 打破"数据=劳力"的铁律,证明"更聪明的人力+更聪明的系统"可超越线性规模增长 [25] - 构建了包括人才、技术、文化在内的全方位质量导向体系 [10][19] - 创始人坚持不卖公司,以"培育AGI"为使命,形成难以复制的精神护城河 [17][19]
GPT-5真身曝光,首测编程惊艳全网,一句话秒生游戏,OpenAI双雄备战AGI
36氪· 2025-08-01 18:25
神秘模型Horizon Alpha性能表现 - 一款名为Horizon Alpha的神秘模型在OpenRouter平台上线,其上下文长度为256K,响应速度极快,非常擅长创意写作 [1][3] - 在编程能力方面表现极为突出,可以一句话生成“水果忍者”、“外星人抓奶牛”等游戏,能根据logo图直接生成广告,并能轻松通过“六边形物理模拟”测试 [5] - 在写作EQ-Bench基准测试中,Horizon Alpha位列第一,其Elo得分为1591.6,远超o3模型的1641.0和Gemini 2.5 Pro模型的1417.2 [12] - 在长文本创意写作基准测试中,Horizon Alpha生成长度为14,072个token的文本,得分为80.5,位列第一,优于Gemini 2.5 Pro(6,093个token,得分78.7)和o3(7,493个token,得分77.5) [16] - 在情感智能基准测试中,Horizon Alpha在多项能力上得分领先,其Elo得分为1570.9,高于Kimi-K2-Instruct的1567.9和o3的1500.0 [15] - 模型推理时的吞吐量达到120个token/s,相较于Claude Sonnet 4的60-80 token/s速度更快 [22] - 能够快速创建功能完整的Windows 95复古桌面,并在3分48秒内创建一个展示一系列简单有趣的浏览器小游戏的网页 [24][28] - 在SVG创建和UI设计方面表现出色,能瞬间生成具有专业设计美感的图像,被评价为视觉上类似o3-alpha的精致输出 [39][40] - 在生成“骑自行车的鹈鹕”同款SVG测试中,被认为是所有模型中最强的 [41] - 尽管测试表现不凡,但多方推测Horizon Alpha可能只是一款小模型 [51] GPT-5发布前兆与OpenAI研发动态 - Horizon Alpha的出现被认为是GPT-5发布的强烈前兆 [1] - 此前被爆料的代号模型如lobster、zenith、summit等在多项测试中表现惊艳,种种迹象表明GPT-5“全家桶”将是非常强大的模型 [18] - 谷歌收录的GPT-5 OpenAI文档页面目前显示404 [20] - 在GPT-5发布前夕,OpenAI首席科学家Jakub Pachocki和研究主管Mark Chen接受了专访,他们被认为是研发GPT-5的“双巨头” [55] - OpenAI首席执行官Sam Altman对这篇专访大加赞赏,认为其抓住了两人合作精髓 [55] - Mark Chen曾负责DALL·E、GPT-4多模态能力及Codex的关键研发,擅长将复杂研究转化为产品;Jakub Pachocki则负责设定研究路线图和技术愿景 [60][63] - 关于当前技术瓶颈,Mark Chen坦言即便是最强推理模型也无法有效将知识串联起来,Jakub Pachocki补充说明他们仍处于推理范式的开端 [65][67] - 公司坚信Scaling Law远未触及天花板,通过投入更多计算资源和数据,模型会变得越来越好 [67] - 对于AGI,Mark Chen提出了“自主时间”这一指标,即模型能更长时间自主工作的能力,目前模型的自主时间仅限于几分钟到一小时 [67] - OpenAI模型近期在AtCoder世界巡回赛总决赛中获得第二名,并在IMO 2025大赛中夺得金牌 [68] - Pachocki认为,在编程和数学竞赛中的胜利实际上关乎创造力,提出新颖想法和联系不同领域,数学和编程被视为“通用智能”的基石 [71]