Claude 4.1

搜索文档
GPT-5没有追求AGI,它代表的是OpenAI的商业化野心
36氪· 2025-08-08 18:28
模型性能对比 - GPT-5在AIME '25测试中达到94.6%准确率,领先Gemini 2.5 Pro的93.8%和Claude 4.1的94.1% [1] - FrontierMath测试中GPT-5表现26.3%,略低于Gemini 2.5 Pro的27.1% [1] - GPQA diamond测试GPT-5获得85.7%准确率,与Claude 4.1的85.9%接近 [1] - HMMT 2025测试GPT-5以93.3%领先其他模型 [1] 技术突破 - GPT-5采用新型合成数据训练方法,通过GPT-4o等前代模型生成高质量训练数据 [3] - 合成数据流程专门设计用于生成"正确类型数据",提升模型推理和规划能力 [3] - 在Tau²-bench电信领域测试中达到96.7%准确率,显著优于GPT-4.1的34% [7] - 上下文长度扩展至400k,思考过程token消耗减少50%-80% [20] Agent能力提升 - GPT-5优化了工具调用能力,支持自然语言描述触发工具使用 [8] - 具备出色的工具并行使用能力,可判断工具运行顺序与并行性 [8] - 在智能体式编码测试中表现优异,一次性解决其他模型无法完成的任务 [15] - 编程时采用"边想边做"的迭代方式,优于Claude 4 Opus的"想清楚再做"模式 [15] 商业化策略 - ChatGPT周活用户超过7亿,付费用户达500万,订阅收入27亿美元 [18] - API定价策略激进,输入1.25美元/百万tokens,输出10美元/百万tokens [18] - 价格直接对标Gemini 2.5 Pro,大幅低于Claude 4 Opus的75美元/百万tokens输出 [19] - 推出DeepResearch、Canvas编辑、生图功能等商业化导向的产品升级 [18] 行业趋势 - 2025年AI应用领域最热关键词为Agent,OpenAI引领此波热潮 [6] - 主流模型厂商均以Agentic AI为目标优化模型能力 [6] - 大语言模型进步呈现渐进式而非跨越式,可能遭遇技术瓶颈 [21] - AI应用市场呈现快鱼吃慢鱼特征,大厂在创新速度上不占优势 [21]
不吹不黑,GPT-5代码能力究竟怎么样?跟 Gemini 和 Claude 的对比测试给你答案
歸藏的AI工具箱· 2025-08-08 17:44
大家好,我是歸藏(guizang),测试了一下 GPT-5 的前端能力。 昨晚大家都很期待的 GPT-5 终于发布了,我因为怕楼上的电钻所以睡得早没看直播。 相较于国内的热度我感觉,推特上的讨论不多,早上起来看了一下大家的评论,都觉得中规中矩,有些能力甚至还有退化。 现在模型测试很难做,因为很多人不理解纯粹模型能力和 Agent 能力,另外对于 EQ、写作这种都有自己的倾向和喜好,所以还是来看看进步最明显的代码吧。 这里也有视频版本: 因为之前 o3 的前端能力太差了,所以这次没敢上来就整难的,先搞个 Bento Grid 宣传长图网页试试。 基于下面产品介绍文章关键信息,帮我用类似苹果发布会PPT的Bento Grid风格的视觉设计生成一个中文动态网页展示,具体要求为: 1. 尽量在一页展示全部信息,背景为#F8F6F5、卡片背景为白色,文字颜色为#010101,高亮按钮和文字背景色为#F69AAC-DF95E3-7DBDE9 的渐变 ,卡片内的布局为 2. 将 Markdown 格式的图片链接的图标放到合适的卡片中,防止图标跟文字重叠 3. 强调超大字体或数字突出核心要点,画面中有超大视觉元素强调重点,与 ...
终于发布的GPT-5,和它改变世界的982天
36氪· 2025-08-08 12:15
模型发布与性能 - GPT-5采用多层级架构整合o3系列推理能力,重点提升智能体能力并屠榜LMArena所有细分类目[3] - 模型提供四个版本:标准模式GPT-5、轻量版GPT-5 mini、高速版GPT-5 nano和ChatGPT专用版GPT-5 Chat[9] - 系统由三部分组成:基础模型解决多数问题、深度推理模型处理复杂问题、实时路由器根据用户反馈持续优化[11][12] 技术架构与创新 - 统一架构整合GPT系列语言模型和o系列推理模型,具备自动调度子模型能力[11] - 开源两款MoE模型gpt-oss-20b(21B参数)和gpt-oss-120b(117B参数),采用Apache 2.0许可协议允许商用[28][29] - 模型加入人格模式提供四种输出风格,在多模态和EQ表现上有显著提升[23][25] 商业化策略 - API价格显著降低,GPT-5输入价格1.25美元/M Tokens仅为o1-pro的1/120[14] - 企业版对美国联邦政府推出1美元/机构的促销价,GitHub Copilot提供免费预览版[17][19][21] - 年化收入达120亿美元,70%来自C端订阅,20%来自API调用[48] 行业竞争格局 - 中国开源模型占据OpenRouter趋势榜前10名中的9席,阿里/月之暗面/智谱等密集发布新模型[1] - 开源闭源差距缩小,2025年起各厂商模型与OpenAI技术代差显著收窄[54][55][57] - 微软/Google/Meta市值因AI实现两位数增长,Meta广告转化率提升5个百分点[52][53] 用户数据与采用 - ChatGPT周活跃用户达7亿占全球人口近10%,年下载量突破10亿次[42][45][47] - 使用场景从工作向生活延伸,周末使用频率与工作日差距缩小至10%以内[47] - 教育/医疗领域应用突出,演示案例显示能处理复杂情感咨询和实时语言教学[25][26] 研发投入与趋势 - 训练资源消耗创纪录,Orion版本两轮训练耗资5亿美元使用10万张GPU[37] - 模型迭代周期延长,GPT-4到GPT-5耗时2年半,GPT-3到GPT-4耗时33个月[34] - 计划投资1000亿美元建设"星际之门"数据中心,可容纳40万颗AI芯片[41]
终于发布的GPT-5,和它改变世界的982天
36氪· 2025-08-08 08:07
模型发布与性能 - GPT-5采用多层级架构整合o3系列推理能力 重点提升智能体能力 未公布具体参数规模 [9] - 上线后迅速屠榜LMArena竞技场 所有细分类目均位列第一 [10][12] - 提供四个版本:标准版GPT-5 轻量版GPT-5 mini 高速版GPT-5 nano 以及ChatGPT专用版GPT-5 Chat [18] - 系统由三部分组成:基础模型 深度推理模型GPT-5 thinking 实时路由器real-time router [20] 技术架构创新 - 统一模型架构整合GPT系列语言模型与o系列推理模型 具备调度子模型能力 [19] - 开源两款MoE模型gpt-oss-20b(21B参数)和gpt-oss-120b(117B参数) 采用Apache 2.0许可协议 [52][53] - 开源模型专门为智能体设计 120B版本可在高端笔记本运行 20B版本适配手机端 [54] - 词表超过20万 支持多语种与代码混合输入 直接对标DeepSeek与阿里Qwen3 [54] 商业化策略 - API价格显著降低 GPT-5输入1.25美元/M Tokens 仅为o1-pro价格的1/120 [24][25] - 美国联邦政府机构可1美元订阅企业版 同时GitHub Copilot提供免费预览版 [31] - 年化收入达120亿美元 70%来自C端订阅 20%来自API调用 [84][85] - 微软Azure AI与Copilot带动云收入同比增39% Meta广告转化率提升5个百分点 [90][91] 行业竞争格局 - 7月中国开源模型占据OpenRouter趋势榜前10名中的9席 [6] - 开源闭源差距缩小 阿里Qwen3 月之暗面K2等中国模型引发硅谷关注 [95][99] - Anthropic创始人公开质疑开源AI价值 Meta考虑将旗舰模型Behemoth转向闭源 [100] - 全球AI数据中心投入预计达3万亿美元 半数用于GPU等加速芯片 [74] 用户与市场表现 - ChatGPT周活跃用户达7亿 占全球人口近10% 去年同期的4倍 [76][77] - 成为最快达到10亿下载量与5亿月活的应用 周末使用频率趋近工作日 [80][81] - 推出人格模式包含四种输出风格 语音多模态能力显著提升教育医疗场景体验 [39][46] - 现场演示生成带关卡音效的小游戏仅需几分钟 代码量达一两百行 [36][38]
全球最大AI模型聚合平台诞生!不争冠军只做擂台
量子位· 2025-08-07 17:02
战略核心 - 亚马逊云科技提出"Choice Matters"战略,强调AI价值在于为不同场景选择最适合的模型而非追求单一最强模型 [1][2] - 该战略基于云计算领域的洞察:AWS提供429项计算服务、266项存储服务、513项数据库服务和421项AI/机器学习服务 [3][4] - 战略得到市场验证,OpenAI开源模型加入Amazon Bedrock平台,gpt-oss-120b与gpt-oss-20b展现3倍于Gemini、5倍于DeepSeek-R1的性价比优势 [6][8] 平台能力 - Amazon Bedrock平台提供217款商业API服务,Amazon SageMaker支持185款商业和开源模型部署 [21] - 平台聚合超过400款主流商业及开源大模型,成为全球最大AI模型聚合平台 [22] - 平台模型合作伙伴包括Anthropic、Meta、DeepSeek、Google、OpenAI等顶级AI公司 [22] 模型性能 - Claude Opus 4.1在Agentic coding SWE-bench测试中达74.5%,高于OpenAI 03的69.1%和Gemini 2.5 Pro的67.2% [12] - Claude Opus 4.1在Graduate-level reasoning GPQA测试中达80.9%,低于OpenAI 03的83.3%和Gemini 2.5 Pro的86.4% [12] - Claude Opus 4.1在Multilingual Q&A MMMLU测试中达89.5%,与OpenAI 03的88.8%相当 [12] 应用模式 - "最佳匹配"模式:特定场景选用单一模型,如实时翻译选Nova、学术研究选DeepSeek、内容创作选Claude [14] - "协同增效"模式:复杂场景多模型协作,如翻译系统组合DeepSeek R1/Claude 3.7与Nova Lite [15][16] 生态发展 - 2023年4月Anthropic入驻,2023年7月Meta Llama系列加入,2023年9月Stability AI推出Stable Diffusion系列 [23] - 2024年2月Mistral AI带来混合专家模型,2025年2月DeepSeek R1模型登陆,2025年8月OpenAI开源模型加入 [23] - 生态案例包括野村证券使用Llama处理数据、Doordash使用Claude优化客服、Zalando借助Mistral AI实现电商智能化 [25]
谁在拆 OpenAI 的围墙?
36氪· 2025-08-06 09:41
OpenAI战略转向开源 - OpenAI突然宣布开源两款新模型gpt-oss-120b和gpt-oss-20b 这是自GPT-2以来首次重新向开源社区开放模型权重 [1] - 公司过去几年一直是"闭源派"代表 依靠GPT-3和GPT-4的技术优势建立商业壁垒 几乎垄断大模型时代的入口和定价权 [1] - 此次开源采用Apache 2 0协议 明确允许商用和二次开发 直接对标Meta的Llama模型 [3] 开源策略的深层考量 - 公司保留核心技术护城河 未开放GPT-4核心架构 仅提供中等规模模型 既不影响高端产品线又能吸引开发者 [3] - 底层代码修改受限 训练数据 优化策略和系统架构等关键要素仍由公司掌控 [3] - 通过部分开放换取生态主导权 让开发者依赖其工具链 同时通过闭源体系维持高利润业务 [4] 行业竞争格局变化 - 开源模型性能已逼近GPT-4 成本仅为1/20 采用宽松开源协议形成市场竞争压力 [2] - Anthropic采取相反策略 发布闭源模型Claude 4 1 专注企业级安全和可靠性 瞄准金融 法律等高端客户 [5][6] - AI行业进入分层竞争时代 OpenAI双轨制与Anthropic专精路线形成差异化竞争 [7] 开发者生态影响 - 新模型支持本地部署和云端扩展 兼容主流框架 大幅降低智能体开发门槛 [8] - 独立开发者可在个人设备运行接近GPT-4能力的模型 可能催生新一代AI应用创新 [8] - 开源生态正在消费端实现反超 类似Linux Firefox Android等历史案例的开源成功路径 [10] 监管与风险对冲 - 美国自2023年加强AI监管 开源模型因透明可审计的特性更易通过合规审查 [8] - 公司通过开源策略提前卡位 为未来监管环境变化做好准备 [8] - 技术流动性和生态开放性成为行业新竞争维度 [10]