Workflow
奇点
icon
搜索文档
OpenAI发布o3-pro:复杂推理能力增强,o3价格直降80%,计划夏天发布开源模型
Founder Park· 2025-06-11 11:36
o3-pro模型发布 - o3-pro作为推理模型o3的升级版,在处理复杂问题、给出精准回答方面表现更强,尤其在科学研究、编程、教育和写作场景优势明显[1][3] - 支持调用ChatGPT全套工具(网页搜索、文件分析、图像推理、Python编程等),执行力和整合能力更强[5] - 响应速度比o1-pro稍慢,更适合对答案准确性要求高的场景[7] - 采用"四次全对"评估标准,大幅提升推理一致性要求[10] - 目前不支持临时对话、图像生成和Canvas功能,图像生成需使用GPT-4o、o3或o4-mini模型[13] 商业应用与定价策略 - o3模型价格直降80%,现为输入百万tokens 2美元,输出百万tokens 8美元[23][24] - o3-pro定价为输入百万tokens 20美元,输出百万tokens 80美元,比o1-pro便宜87%[28] - Plus用户的o3模型使用速率限制提升一倍[28] - 建议使用"后台模式"处理耗时任务以避免请求超时[28] - 公司ARR从55亿美元增长至100亿美元,增幅近80%[35] - 付费商业用户从200万增至300万[39] 技术合作与基础设施 - 与Alphabet达成合作引入Google Cloud作为额外云服务提供商[32] - 推进5000亿美元规模的星门计划,与CoreWeave签订数十亿美元算力采购协议[35] - 算力资源优化是降价主要原因,推理服务架构全面升级[29] 开源计划与AI发展展望 - 计划2024年夏季晚些时候发布公开权重的开源模型[44][45] - 预计2025年出现能进行认知工作的智能代理,2026年产生原创见解的系统,2027年现实世界执行任务的机器人[47] - AI加速科学进步与生产力提升将带来巨大生活质量改善[47] - 数据中心生产自动化将使智能成本接近电力成本[50] - 公司定位为超级智能研究公司,致力于构建高度个性化、人人易用的"大脑"[54]
五年内,AI能证明人类没有证明的猜想吗?张亚勤和丘成桐打了个赌
第一财经· 2025-05-17 21:05
AI在科研与工程中的应用现状 - 微软软件工程师已有90%代码由AI生成,显示AI在编程领域的高渗透率 [1] - AI当前在结构化任务(如棋类、编码、语言处理)表现超越人类,但在模糊概念理解(如量子力学)仍存短板 [2] - 猎豹移动认为AI在语言认知推理层面无显著短板,但物理层面的真正理解需更长时间突破 [2] AI的科学发展潜力与挑战 - 张亚勤预测AI五年内将证明人类未解数学猜想(如黎曼猜想),十年内可能发明新公式 [1] - 清华大学教授提出AI需在零人类知识积累下实现从0到1创新,才是真正智能诞生的标志 [2] - 当前大模型参数规模与人类大脑(860亿神经元/百万亿突触)仍差100倍,能效比显著落后(20瓦 vs 超高算力需求) [3] AGI发展时间表 - 信息智能(语言/视频处理)预计五年内达到人类水平,实现通用AGI [4] - 物理智能(无人驾驶/人形机器人)需至少十年发展周期 [4] - 生物智能(脑机接口)是最难突破领域,预计需15-20年实现人机生命体融合 [4] 技术路径差异 - 人类大脑具备高效记忆系统(海马体短期/皮层长期记忆),AI记忆机制仍逊色 [3] - AI优势在于智能可复制迭代(如自动驾驶),人类教育过程则需长期投入 [3] - 通用人工智能需满足三大标准:泛化能力、持续进化能力、超越多数人类任务表现,预计需15-20年达成 [3]
GPT-4.5登顶6小时即失守!Grok-3上演1分逆袭
量子位· 2025-03-04 12:51
基础模型竞争动态 - GPT-4.5刚登顶竞技场全任务分类第一名,6小时后被马斯克的新版Grok-3以1412:1411的微弱优势反超[1][2] - Grok-3总分第一,但在总体带风格控制、困难提示词带风格控制两项略逊于GPT-4.5[3] - DeepSeek-R1总分排名第6,数学和困难提示词带风格控制分项与GPT-4.5并列第一[4] 模型性能对比 - Grok-3在Overall Hard、Coding、Math、Writing等任务中均排名第一,但在Style Control相关任务中稍弱[5] - GPT-4.5在GPQA科学测试(71.4%)、AIME数学测试(36.7%)、MMMLU多语言测试(85.1%)等专业领域显著领先GPT-4o[9] - GPT-4.5在SWE-Lancer Diamond编码测试中得分32.6%,高于GPT-4o的23.3%但低于OpenAl o3-mini的87.3%[9] 用户反馈与市场反应 - GPT-4.5初期因"又大又贵"受质疑,但后期因情商表现获得用户口碑翻转[7][8] - OpenAI CEO奥特曼透露收到用户请求"承诺不下架GPT-4.5",并公开模型对其"奇点理论"的深度解读[11][12][13][14] - GPT-4.5在AI模型狼人杀比赛中展现策略能力,在结盟、欺骗等行为上表现优于人类[15][16] 行业数据 - 大模型竞技场共收录211个模型,累计获得2,736,442次投票[5] - Grok-3与GPT-4.5均以3000+票数达到榜单门槛,竞争结果受投票机制影响[6]