Claude 4 Opus

搜索文档
GPT-5惨遭零分打脸,顶级AI全军覆没,奥特曼AI博士级能力神话破灭
36氪· 2025-09-16 08:39
FormulaOne基准测试结果 - 顶级大模型在FormulaOne基准测试中表现不佳 GPT-5在基础题正确率接近50% 在进阶题正确率仅4% 在最深层问题正确率为0 [1][6] - 其他模型包括o3 Pro、Claude 4 Opus、Neo、Gemini 2.5 Pro和Grok 4在进阶题和最深层问题正确率均为0或接近0 [1][6][19] - FormulaOne基准包含220个基于图的动态编程问题 分为浅层100题、更深100题和最深层20题三个难度等级 [15][16] FormulaOne基准特点 - 基准测试由AAI公司开发 专注于图上MSO逻辑与动态规划生成问题 旨在衡量超越竞赛编程的算法推理深度 [1][8][15] - 问题具有商业价值 与实际大规模优化问题相关 如路径规划、调度和网络设计 [17] - 基准测试生成自高度表达的单子二阶逻辑框架 为大规模自动问题生成铺平道路 适合构建强化学习环境 [18] - 许多问题与理论计算机科学前沿及核心猜想密切相关 如强指数时间假设 [18] 模型表现分析 - 模型在最深层问题出现概念崩溃 需要非常深入的推理能力 现有模型无法达到 [18][25] - 问题描述简洁但解决需要创造力和深入推理 涉及拓扑和几何洞察、数学知识、组合考虑等 [16][19] - 与竞赛编程不同 现实世界问题涉及多个不确定步骤 没有简单捷径 需要正确且高效的动态程序设计 [25][26] - 模型倾向于过早做出不可逆决策 状态设计需要足够丰富又保持计算可行性 这是主要挑战 [27] AAI公司背景 - AAI由Mobileye联合创始人Amnon Shashua教授发起 2023年8月在耶路撒冷成立 长期处于半隐身状态 [10] - Shashua教授2020年获丹·大卫奖人工智能领域奖项 2022年被汽车名人堂评为移动创新者 [11] - 曾联合创立Mobileye 公司2014年完成以色列史上最大IPO 2017年被Intel以153亿美元收购 2022年再次纳斯达克上市 [12] 基准测试意义 - 现有基准测试无法完整描绘人工智能理解深度 竞赛编程技能不能涵盖解决现实世界研究问题所需的全部推理能力 [15] - 解决全球供应链优化、大规模电网管理、弹性网络基础设施设计等任务比竞赛编程困难多个数量级 [15] - FormulaOne通过实时排行榜和评估框架与社区分享 可能需要定性不同的方法突破现有局限 [18][30]
Anthropic获130亿美元融资,跻身全球第四大独角兽,与OpenAI竞争升级
搜狐财经· 2025-09-04 05:06
融资情况 - Anthropic完成130亿美元F轮融资 由ICONIQ 富达管理与研究公司和光速创投共同领投[1] - 公司估值达1830亿美元 位列全球独角兽企业第四位 仅次于SpaceX 字节跳动和OpenAI[1] - 本轮融资后累计融资额达170亿美元 投资人包括谷歌 亚马逊 Salesforce Ventures和Zoom等科技巨头[2] 估值变化 - 当前1830亿美元估值较2024年3月615亿美元估值增长200% 仅用半年多时间实现跃升[1] - 本轮融资是大模型行业第二大规模融资 仅次于OpenAI同期400亿美元融资[1] 股东结构 - 亚马逊已投资80亿美元并考虑追加数十亿美元投资以保持最大股东地位[2] - 谷歌已向Anthropic投资超过30亿美元[2] 公司背景 - 创始团队由七名前OpenAI员工于2021年创立 包括Daniela和Dario Amodei兄妹[2] - 公司已完成9轮融资 专注B端市场 年收入约8.75亿美元主要来自企业产品Claude Enterprise[5] 产品技术 - 2024年5月推出Claude 4系列语言模型 旗舰版本Opus在编码能力上取得突破[5] - Opus 4开发的编程智能体能独立连续工作7小时 打破OpenAI保持的纪录[5] 战略定位 - 公司定位为面向企业 开发者和高级用户的智能平台提供商[2] - 与OpenAI形成直接竞争关系 但更专注于企业级市场而非消费端[5]
OpenAI劲敌Anthropic融资130亿美元 成全球第四独角兽
搜狐财经· 2025-09-03 17:51
融资情况 - 公司完成130亿美元F轮融资 由ICONIQ 富达管理与研究公司和光速创投领投[1] - 融资后估值达1830亿美元 成为全球估值第四的独角兽企业[1] - 估值较今年3月615亿美元大幅上升200%[3] - 累计融资金额达170亿美元 投资者包括谷歌 亚马逊等科技巨头[3] 行业地位 - 成为大模型领域融资规模第二大的企业 仅次于OpenAI的400亿美元融资[3] - 亚马逊已投资80亿美元并考虑追加数十亿美元以维持最大股东地位[3] - 谷歌投资超过30亿美元[3] 业务进展 - 5月发布最强语言模型Claude 4系列 旗舰版本Opus在编码能力实现显著突破[4] - 编程智能体可独立连续稳定工作7小时 表现超过OpenAI先前纪录[4] - 主要聚焦企业级客户 年收入8.75亿美元绝大部分来自企业产品Claude Enterprise销售[4]
马斯克首个编码模型上线,编程飙进Top5!这9位华人天团爆肝打造
搜狐财经· 2025-08-29 18:21
产品发布与性能 - xAI正式推出首个从零构建的编码模型Grok Code Fast 1 主打快速响应和高性价比 [2] - 模型在SWE-bench Verified基准测试中获得70.8%的高分 仅次于OpenAI Codex-1和Claude 4 Opus [3] - 在LiveCode Bench编码测试中取得62%的分数 数学IOI得分为4.3% [3] - 输入定价为0.20美元/百万token 输出定价为1.5美元/百万token 缓存输入成本低至0.02美元/百万token 成为市场上成本最低的编码模型 [6] - 目前已在Cursor和Windsurf等主流编码平台上线 并提供7天限时免费试用 [8] 技术架构与创新 - 采用全新设计的模型架构 训练阶段使用高度聚焦编程领域的专用语料库 [9] - 后训练阶段筛选高质量数据集 包含真实世界的Pull Request和实际编码任务 [11] - 推理和训练流程实现多项创新 运行速度显著提升 实测比GPT-5快五倍 [9][11] - 提示词缓存优化实现超过90%的缓存命中率 特别适用于协作编程场景 [12] - 通过真实用户反馈持续优化模型 使其更贴合日常开发需求 [14] 功能与应用表现 - 具备全栈开发能力 擅长TypeScript Python Java Rust C++和Go语言 [15] - 支持从零构建项目 代码库问题解答和复杂bug修复 且只需最小监督 [15] - 在实战测试中生成网页应用设计草图 性能从60-80 tps提升至220-250 tps [15] - 能够自动生成单元测试修复方案并输出可运行patch [15] - 一次性代码输出量显著优于同类产品 在星舰模拟演示中表现突出 [15] 团队构成与背景 - 核心研发团队中华人学者占比超过八成 项目由多人团队历时数月完成 [20][21][40] - 关键成员包括骆梁宸(北京大学本科)主导创建Grok Code完整体系 [24] - 戴子航(清华大学本科 CMU毕业)为前谷歌大脑研究员 [26] - Ziniu Hu(北京大学本科 UCLA博士)专注于强化大语言模型研究 [28] - 其他核心成员包括Yongchao Zhou Jiayi Pan Evan Wang等均拥有顶尖学术背景 [30][31][33][34] 产品定位与使用指南 - 定位为轻量级智能体模型 专注于需要结合上下文调用工具的多步操作场景 [49] - 推荐提供明确文件路径项目结构或依赖信息以提升任务聚焦度 [43] - 要求用户清晰定义目标需求 具体化提示词可显著改善输出效果 [44][45] - 支持持续提示词优化 允许基于失败结果进行快速迭代调整 [47][48] - 与Grok 4形成产品区隔 后者更适用于一次性问答或复杂概念解析 [50]
高盛硅谷AI调研之旅:底层模型拉不开差距,AI竞争转向“应用层”,“推理”带来GPU需求暴增
硬AI· 2025-08-26 00:01
开源与闭源模型性能趋同 - 开源基础模型自2024年中期在性能上追平闭源模型 达到GPT-4水平 而顶尖闭源模型在基准测试上几乎无突破性进展 [3] - 开源社区在不到十二个月内抹平与闭源模型的性能差距 反映其惊人发展速度 [3] - 模型能力日益商品化 纯粹的模型能力不再是决定性护城河 [2][3] AI竞争焦点转向应用层 - 竞争焦点从基础设施层全面转向应用层 真正壁垒在于AI与特定工作流的深度整合、专有数据强化学习及用户生态建立 [2] - 基础模型性能商品化导致竞争优势向上游转移 集中在数据资产、工作流整合和特定领域微调能力 [3] - 顶尖工程团队可在6到8个月内复制任何技术 因此技术本身并非核心壁垒 [4] 推理模型成为新前沿并驱动算力需求 - 以OpenAI o3、Gemini 2.5 Pro和Claude 4 Opus为代表的推理模型正成为生成式AI新前沿 [3][5] - 推理模型单次查询输出token可达1万个 传统LLM仅500个左右 输出量增长20倍 [5][6] - 输出token量20倍增长直接转化为GPU推理算力需求激增20倍 [3][6] - 推理模型通过推导、验证和迭代模拟思维过程 适用于代码合成、法律、金融等严谨分析领域 [6] AI基础设施资本支出持续高企 - GPU需求激增20倍支撑AI基础设施资本支出在可预见的未来保持高位 [2][3] - 运行恒定MMLU基准分数模型的成本从每百万token 60美元降至0.006美元 降幅达1000倍 但整体算力支出未减少 [5] - 高昂的AI基础设施资本支出被视为获取竞争优势的先决条件 尤其对头部AI实验室 [6] AI原生应用护城河构建策略 - 工作流整合与用户生态:成功应用公司将部署时间从数月缩短至几周 例如Decagon在6周内上线自动化客服系统 每投入100万美元可节省300至500万美元成本 [7] - 专有数据与强化学习:静态专有数据在法律和金融等垂直领域价值巨大 动态用户生成数据可通过强化学习循环持续优化模型形成滚雪球优势 [7][8] - 专业人才战略价值:构建高效AI系统需要模型封装、智能体推理和强化学习回路设计等技能 具备自我完善系统构建能力的AI人才极度稀缺 [8] 头部AI实验室向应用层拓展 - OpenAI、Anthropic和Google DeepMind等机构越来越多涉足应用层 利用模型内部结构洞察力构建紧密产品反馈和强化学习循环 [5] - 头部实验室的向下游拓展给独立初创公司带来新的竞争压力 [5]
高盛硅谷AI调研之旅:底层模型拉不开差距,AI竞争转向“应用层”,“推理”带来GPU需求暴增
美股IPO· 2025-08-25 12:44
基础模型性能趋同与竞争焦点转移 - 开源与闭源基础模型性能自2024年中期趋同 达到GPT-4水平 闭源模型在基准测试中无突破性进展 [3][4] - 模型能力不再是决定性护城河 竞争焦点从基础设施层全面转向应用层 [1][3][4] - 竞争优势体现在数据资产 工作流整合和特定领域微调能力上 [4] 推理模型成为新前沿并驱动算力需求 - OpenAI o3和Gemini 2.5 Pro等推理模型单次查询输出token达传统模型20倍 约1万个token(传统模型约500个) [3][6] - 推理模型推动GPU需求激增20倍 直接导致AI基础设施资本支出持续高企 [1][3][6] - 推理模型通过推导和迭代模拟思维过程 适用于代码合成 法律和金融等复杂领域 [6] AI原生应用护城河构建策略 - 护城河核心在于工作流整合 用户习惯培养和分销渠道建立 而非技术本身 [5] - 深度集成专有数据与强化学习循环 利用用户生成数据持续优化模型 [8] - 顶尖工程人才极度稀缺 成为可持续创新的主要瓶颈 [9][10] 应用层具体实践与案例 - Hebbia认为技术可在6-8个月内复制 成功依赖网络效应和超级用户培养 [5] - Decagon在6周内部署自动化客服系统 每100万美元投入节省300-500万美元成本 [7] - Everlaw通过AI深度集成法律文档流程 提供一体化便利和效率 [5] 行业成本与投资趋势 - 模型运行成本三年内从每百万token 60美元降至0.006美元 降幅达1000倍 [6] - VC认为高昂基础设施支出是必要竞争前提 尤其对头部AI实验室 [6] - OpenAI和Google Deepmind等机构正涉足应用层 加剧对初创公司的竞争压力 [5]
DeepSeek-V3.1震撼发布,全球开源编程登顶,R1/V3首度合体,训练量暴增10倍
36氪· 2025-08-21 20:04
模型技术特点 - 采用混合推理模式 一个模型同时支持思考与非思考两种模式并可自主切换[1] - 总参数量达671B 激活参数为37B 支持128K上下文长度[6][14] - 通过两阶段长上下文扩展策略构建 32K扩展阶段训练规模增加10倍达6300亿Token 128K扩展阶段增加3.3倍达2090亿Token[13] - 使用UE8M0 FP8缩放数据格式训练 确保与微尺度数据格式兼容性[14] - 基于DeepSeek-V3.1-Base通过后训练优化完成 而Base版本基于V3模型训练并进行了8400亿token持续预训练[6][12] 性能表现 - 在SWE-bench测试中获得66.0分 远超V3-0324的45.4分和R1-0528的44.6分[3][4] - 在SWE-bench Multilingual测试中获得54.5分 较V3-0324的29.3分提升86%[4] - Terminal-Bench测试得分31.3分 较V3-0324的13.3分提升135%[4] - Humanity's Last Exam测试获得29.8分 较R1的24.8分提升20%[20] - 在MMLU-Redux测试中 思考模式达93.7分 非思考模式达91.8分 均超过V3-0324的90.5分[15] - GPQA-Diamond测试思考模式获80.1分 接近R1-0528的81.0分[15] - AIME 2024数学测试思考模式获93.1分 超过R1-0528的91.4分[16] - LiveCodeBench测试思考模式获74.8分 超过R1-0528的73.3分[19] - Aider-Polyglot编码测试思考模式获76.3%准确率 超过Claude 4 Opus和Gemini 2.5 Pro[16] 效率提升 - 思考模式输出token减少20%-50% 与R1-0528性能持平但效率显著提升[6] - 推理速度较DeepSeek-R1-0528更快[3] - 在第三方Artificial Analysis基准测试中表现仅次于GPT-OSS[23] 应用能力 - 具备强大智能体能力 支持工具使用和多步骤任务处理[3] - 支持多种Code Agent框架 开发者可自主搭建智能体[16] - 支持Search Agent功能 可通过多轮工具调用流程完成复杂搜索任务[19][20] - 在BrowseComp测试中获30.0分 较R1的8.9分提升237%[20] - 在BrowseComp_zh中文搜索测试中获49.2分 较R1的35.7分提升38%[20] 行业地位 - 成为编程开源领域第一 编码实力超越Claude 4 Opus[1][16] - 是公司对OpenAI GPT-OSS的最强回应[8] - 开启智能体新时代 是迈向智能体时代的第一步[1][16]
DeepSeek V3.1发布后,投资者该思考这四个决定未来的问题
36氪· 2025-08-20 18:51
文章核心观点 - DeepSeek V3 1模型在编程基准测试中以71 6%的分数超越Claude 4 Opus 登顶开源模型榜首 同时成本优势显著 完成一次编程任务仅需1 01美元 比Claude Opus 4便宜68倍 其架构创新引发行业对混合架构的广泛猜测 这一发布促使投资者重新评估AI赛道的竞争格局 成本结构 商业模式和护城河演变 [1][2][5][7][18][20] 开源与闭源竞争格局 - 开源模型在特定能力如编程和数学上实现反超 挑战闭源巨头OpenAI和Anthropic的护城河 闭源优势可能从通用智能绝对领先收缩为多模态和超长上下文等功能的时间窗口优势 [8] - 企业采用混合模式成为主流 端侧和私有化部署优先使用微调开源模型处理敏感数据和高频任务 公有云调用闭源模型处理复杂非核心任务 这一趋势将重塑云厂商AI服务格局 并影响Snowflake和Databricks等一体化平台公司的战略 [8][9] 混合架构的商业影响 - 混合架构通过轻量级调度模型判断请求复杂度 分发给专家模型处理 可能将大模型推理单位经济效益提升一个数量级 冲击通用大模型API商业模式 并改变下游AI应用成本结构 [11][12] - 混合架构主流化可能导致数据中心算力需求多样化 需要更多低成本推理芯片 为NVIDIA之外厂商如AMD Intel和Groq打开新市场窗口 需将这一变量纳入NVIDIA长期投资逻辑考量 [12] 成本优势推动应用层变革 - 模型能力达到SOTA且推理成本降低60 70倍 将引发AI应用层质变 高昂API调用成本不再是商业化枷锁 商业模式可从按次调用转向按月订阅SaaS模式 提升营收稳定性和市场天花板 [12][13] - 基础模型因开源竞争逐渐商品化 价值链利润重心向上游应用层和解决方案层转移 护城河转向高质量私有数据 行业工作流理解和企业销售渠道 需重新评估传统软件巨头Microsoft Adobe Salesforce与AI原生创业公司的竞争格局 [14] 未来竞争核心维度 - 企业级就绪度成为下一个核心战场 包含模型稳定性 可预测性 安全性和合规性 提供包含模型 工具链和合规解决方案的企业级套件可能开启万亿级企业市场 [14][15] - 垂直领域深度优化与生态构建成为竞争焦点 商业价值爆发来自与法律 金融 生物医药等行业结合的垂直领域大模型 竞争从模型规模转向行业逻辑理解 生态系统包括开发者工具 API接口和社区支持成为长期壁垒关键 [15]
GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了
机器之心· 2025-08-15 12:17
前沿AI模型推理能力评估 - 谷歌、OpenAI等前沿AI模型在数学奥林匹克(IMO)水平测试中达到金牌水准,但新基准FormulaOne测试中GPT-5、Claude 4 Opus、Gemini 2 5 Pro等顶级模型集体得零分[2][3] - FormulaOne包含220个图结构动态规划问题,分为浅层(100题)、深层(100题)、最深层(20题)三个难度等级,最深层级涉及拓扑与几何、组合问题分析等科研级难题[3][4] - 在浅层难度测试中顶尖模型成功率50%-70%,深层难度GPT-5 Pro表现最佳但仅解出4/100题,所有模型在最深层难度成功率均为0%[10][12] FormulaOne基准技术细节 - 测试问题基于Courcelle算法元定理,要求AI对图结构进行树分解并通过动态规划分步解决,涉及15个相互依赖的推理步骤[6][7][8] - 解决方案需要设计能总结"袋"内信息的"状态",并精确定义顶点引入、遗忘及"袋"合并时的状态转换规则[7] - 社交媒体关注焦点在于未公布人类博士生在该基准上的表现数据,引发对AI与人类专家推理能力对比的讨论[9] AAI公司背景 - 由Mobileye创始人Amnon Shashua于2023年8月在耶路撒冷创立,专注"人工专家智能"(AEI)研发,已获数千万美元投资[14][16][19] - AEI技术路径强调领域知识与科学推理结合,目标突破传统AI在专业精度或泛化能力上的单一局限[18][19] - 入选AWS 2024生成式AI加速器项目,获得100万美元计算资源支持基础设施建设[19]
首届大模型象棋争霸赛:Grok 4与o3挺进决赛,DeepSeek、Kimi落败
36氪· 2025-08-07 14:16
比赛概述 - Google旗下Kaggle平台主办的"棋局竞技场"AI国际象棋表演赛半决赛中,Grok 4和o3分别击败Gemini 2.5 Pro和o4-mini,晋级决赛 [1] - 比赛为期三天,参赛者为八个大型语言模型(LLM),包括Grok 4(xAI)、Gemini 2.5 Pro(谷歌)、o4-mini(OpenAI)、o3(OpenAI)、Claude 4 Opus(Anthropic)、Gemini 2.5 Flash(谷歌)、DeepSeek R1(DeepSeek)和Kimi k2(月之暗面)[1] - 比赛采用单败淘汰制,规则聚焦AI对棋局的理解力与问题解决能力,不比算力 [1] 首日比赛结果 - 首日四场比赛均以"4-0"比分结束,Gemini 2.5 Pro、o4-mini、Grok 4和o3晋级半决赛 [3][11] - Gemini 2.5 Pro以4-0完胜Claude 4 Opus,展现稳健的棋盘掌控力 [12] - o4-mini以4-0击败DeepSeek R1,DeepSeek R1因连续失误落败 [14] - Grok 4以4-0击败Gemini 2.5 Flash,表现引发xAI创始人埃隆·马斯克在X平台上的热议 [19] - o3以4-0战胜Kimi k2,Kimi k2因连续四次无法作出合法移动而连输四局 [22] 半决赛表现 - 半决赛中,Grok 4与Gemini 2.5 Pro的对决以2-2平局进入加赛,Grok 4最终因平局胜权晋级 [8] - o3以4-0完胜其轻量版o4-mini,展现压倒性优势,并在第三局中走出两招妙棋 [5] - Chess.com指出此次赛事暴露出AI模型整体缺乏语境理解,难以执行基本战术序列等问题 [22] 决赛预告 - 决赛将于美国东部时间8月7日13时(北京时间8月8日1时)举行,由xAI的Grok 4对阵OpenAI的o3 [22] - Gemini 2.5 Pro与o4-mini将争夺三、四名 [22]