Workflow
DeepSeek R1
icon
搜索文档
大模型碰到真难题了,测了500道,o3 Pro仅通过15%
机器之心· 2025-09-14 11:07
研究背景与动机 - 现有大模型基准测试面临"难度-真实性"矛盾 考试类基准人为设置难度但实际价值有限 而基于真实用户交互的基准偏向简单高频问题[1] - 斯坦福大学等机构研究者探索在未解决问题上评估模型能力的新方式[2] UQ数据集构建 - 数据集包含500道未解决问题 涵盖计算机理论 数学 科幻 历史等主题 用于考察模型推理 事实准确性和浏览能力[3] - 问题来源Stack Exchange社区 经过三轮筛选:从300万原始问题中 基于规则筛选至33,916个(1.13%) 基于大语言模型筛选至7,685个(0.26%) 最终人工审核得到500题(0.02%)[10] - 数据集以科学类问题为主(395题) 其次为技术类(52题) 生活艺术类(35题)和文化娱乐类(16题)[7][11] - 问题被解决后会移除并替换为新未解决问题 保持数据集动态更新[12] 验证方法创新 - 开发UQ-Validators复合验证策略 利用生成器-验证器能力差距构建无真值验证系统[6] - 采用多模型验证流程:能力递增模型(o3-mini→o4-mini→o3)回答问题 然后相互验证答案[15] - 验证准确率提升速度快于答题准确率 模型能力越强验证优势越明显[16] 模型性能评估 - 表现最佳模型为OpenAI的o3 Pro 在500题中通过75题(15.0%) 其中4题被确认为正确解答[5][7] - Google的Gemini 2.5 Pro通过25题(5.0%) 其中3题正确 DeepSeek R1通过11题(2.2%) 其中1题正确[7] - Anthropic的Claude Opus 4通过7题(1.4%) Claude 3.7 Sonnet通过6题(1.2%) 均无正确解答[7] - 复合验证策略显著提升验证准确率 Claude 3.7 Sonnet准确率从21.6%提升至73.2% 精度从13.26%提升至20%[21] 验证偏见发现 - 所有模型在评估自身或同系模型时都出现过度乐观现象 预测性能远高于实际性能[24] - Gemini明显偏向自身 Claude对所有模型都过度乐观 OpenAI模型对同门模型评价过高[28] - 模型能力递增(o3-mini→o3)可降低但未消除偏见 复合验证器能显著削弱自我偏见与过度乐观[25][26] - 更强答案生成模型不一定是更强验证模型 o3作为答案模型弱于Gemini 2.5 Pro但作为验证模型更强[27] 平台与社区建设 - 建立UQ-Platform开放平台 让专家共同验证问题与答案 实现持续异步社区驱动评估[6] - 人类评审与验证器一致率达92-100% 理由链准确性达76-100% 验证器能为人类评审提供有效支持[23]
214亿!这位90后AI天才,太炸
混沌学园· 2025-09-13 19:57
以下文章来源于正和岛 ,作者豆汁儿 正和岛 . 正和岛,基于信任链接的企业家供需适配平台。 如果要问谁是 "中国大模型90后第一人",你会想到谁? 很多人第一反应是 DeepSeek的创始人梁文锋。尽管DeepSeek今年初才横空出世,梁文锋仅用半年就登 上创富榜前十,但他其实 是 1 985年 出生 ,属于 "85后"。 | 2025 2024 | | 姓名 | 主要公司 | 公司总部 | 年龄 | 2025 持股 | 2024持股 | 财富 | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 名次 名次 | | | | | | 市值(亿元) | 市值(亿元) | 涨幅 | | 1 | 3 | 张一鸣 | 字节跳动 | 北京 | 42 | 4815.7 | 3402 | 42% | | 2 | 1 | 钟龄龄 | 农夫山泉/万泰生物 浙江杭州/北京 | | 71 | 3624.1 | 4562.7 | -21% | | 3 | 4 | 马化腾 | 腾讯控股 | 广东深圳 | 54 | 3067.1 | 2121.9 | 45% | | ব ...
GPT-5 为啥不 “胡说” 了?OpenAI 新论文讲透了
腾讯研究院· 2025-09-12 16:58
以下文章来源于腾讯科技 ,作者博阳 腾讯科技 . 腾讯新闻旗下腾讯科技官方账号,在这里读懂科技! 博阳 腾讯新闻作者 GPT-5发布之后,虽然其性能并未能达成业界的"飞跃"期望, 但其中最亮眼的就是幻觉率的大幅下降。 OpenAI给出的数据显示,GPT-5出现事实错误的概率比 GPT-4o 低约 45%,比 OpenAI o3 低约 80%。 虽然OpenAI未完全公开所有技术细节,但结合这篇官方论文和已发布的技术文档,我们可以窥见其核心 思路。 | Adam Tauman Kalai* | Ofir Nachum | Santosh S. Vempalat | Edwin Zhar | | --- | --- | --- | --- | | OpenAI | OpenAI | Georgia Tech | OpenAI | 幻觉产生,在预训练阶段是不可避免的 幻觉是不可避免的,这个结论并不新鲜。但过往的研究基本上很少从语言模型本身的机制出发探讨,更 多是围绕着训练数据的问题。 OpenAI的新论文一开始就证明了: "幻觉"是一种在LLM统计学习本质下必然会产生的、可预测的副产 品。 但这一提升背后的原因却一 ...
DeepSeek新模型曝光,梁文锋亲自督战,要和OpenAI硬碰硬
36氪· 2025-09-05 20:48
公司动态 - DeepSeek正在开发具备更高阶AI Agent功能的新模型 目标在2025年四季度发布 直接对标OpenAI [2] - 新AI系统核心特征包括基于过往行动学习自我完善 以及通过最少指令自动完成多步骤复杂任务 [4] - 公司创始人梁文锋亲自督战新模型开发 此前被行业专家解读为"憋大招" [4] - 公司8月21日发布开源模型DeepSeek-V3 1 上下文长度扩展至128k 参数规模约685B 重点增强代码理解与Agent任务执行能力 [10][12] - 模型引入混合推理架构 支持思考与非思考双模式 可智能切换提升推理效率 [12] - 公司面临用户流失压力 月下载量从一季度8111 3万骤降至二季度2258 9万 降幅达72 2% [23][24] - 当前产品存在服务器响应速度慢 幻觉问题 用户流向第三方平台等挑战 [22] 行业趋势 - AI智能体被视为大模型后重点赛道 具备自主决策 任务拆解与跨应用协同能力 [7] - 行业普遍认为2025年将成为"Agent元年" 是智能体发展的黄金时间 [4][10] - 国外巨头微软 谷歌与国内阿里 腾讯 字节跳动均已布局AI智能体赛道 [10] - 政策层面提出到2027年智能体应用普及率超70% 2030年超90% 智能经济成为重要增长极 [10] - 行业独角兽Manus推出首款通用AI Agent引发广泛关注 邀请码被炒至天价 [9] 竞争格局 - OpenAI旗下ChatGPT agent已实现网页交互 信息整合与自然语言对话三位一体功能 [14][16] - ChatGPT agent可实现用户直接下达任务 10分钟内完成复杂操作 [18] - 智能体技术仍存挑战 包括需人工干预 隐私泄露风险(如授权Gmail GitHub账户可能导致信息泄露) [13][21] - 大模型行业迭代速度极快 呈现内卷态势 多家企业通过烧钱抢人抢占市场 [23]
Vibe Coding两年盘点:Windsurf已死、Cursor估值百亿,AI Coding的下一步怎么走?
Founder Park· 2025-09-05 19:46
AI Coding行业发展阶段 - 2023年初处于核心能力和基建不足的草莽阶段 GPT-4存在高推理成本和小context window限制 指令遵循能力在生产场景表现欠佳[10] - 2024年中Claude 3.5 Sonnet发布成为转折点 其200K窗口和关键指标10%以上提升使其成为现象级模型 代码生成任务HumanEval达93.7% 软件工程任务SWE-bench达49%[36][37][38] - 2025年开源模型DeepSeek R1引发行业变革 API定价低至输入1元/百万token 输出16元/百万token 成本仅为OpenAI o1的1/20-1/30[58][59][60] - 2025年中行业出现第一波"缩圈" 商业模式面临重构 目标需支撑到2028年才可能诞生千亿美金级公司[7][75][83] 主要产品发展轨迹 - Cursor从基于VS Code的"套壳"产品转型为AI原生IDE 初期依赖GPT-4和Claude系列提供代码补全 后通过代码库分析能力保住市场份额[10][13][14] - Codeium从开源VS Code扩展起步 吸引超100万开发者 后转向混合模式 商业版编辑器Windsurf在2024年底ARR达1200万美元[21][41] - Devin作为首个AI软件工程师推出 端到端独立开发能力赢得高盛等大客户 五个月后估值达20亿美元 企业版定价500美元/月[42][43][52] - 2024年底主要玩家估值:Cursor 26亿美元 Windsurf 12.5亿美元 Devin 20亿美元 Replit约30亿美元[47] 技术演进与挑战 - Agent设计模式存在token消耗问题 复杂任务单轮消耗达百万token级别 日常任务可达千万token水平[49][51] - Claude Sonnet 3.7时代单用户日均成本10-50美元 高频用户可达每天100美元以上 与20美元订阅费形成严重倒挂[52] - 极端"坏用户"可使商业模式瞬间崩塌 单月可能造成8000美元损失 交付质量与token成本间平衡成为关键挑战[55][57] - CoT思维链对模型参数量要求较低 100亿参数即可受益 ToT和GoT需要千亿级参数支撑 但泛化成本较高[29] 商业模式与经济性分析 - 基础模型年均价格降幅达90% 但用户倾向使用最好模型 导致实际成本并未真正收敛[66][67] - 追求顶尖性能的代码应用仍处于成本爆炸状态 SOTA模型价格卡在10^1水平线[68] - 用户价值认同极限约100-200美元/月 但当前成本结构大多无法覆盖[66][74] - 订阅模式基于CPU服务时代边际效应 在AI时代已不适用 需要新的经济模型[78] 技术范式转换 - 从Workflow向CLI Code Agent演进 更依赖模型本身能力完成长时间自主工作[75][76] - 新一代Agentic Code CLI具备全流程任务执行能力 支持项目级架构理解和超长上下文[79][80] - Claude Code可连续工作7小时自主重构多文件代码库 Gemini CLI支持100万token分析整个项目[79] - 传统IDE插件向开发工具链原生融合转变 经济模型从订阅制转向按量付费/免费+开源策略[80] 核心竞争壁垒 - Knowledge Suggestion功能成为护城河 通过抽取方法论和行为准则创建"数字分身"[11][93] - 业务数据闭环是核心组成部分 与设计模式Agentic UI等形成"道"与"术"的区别[96] - 目标用户聚焦工作价值高的领域:AI芯片设计(中国50-150万元/年) 生物技术制药(美国中位数20万美元/年) 量子计算(美国10-25万美元/年)[98] - 需服务认知足够值钱的人群 为其创造十倍百倍价值和提高效率 而非普通用户[11][99] 行业关键洞察 - 欧美投资与技术绑定深厚 技术创业者在大模型成功前就已布局 国内项目多始于2023年LLM爆火后[23] - 模型需要显式提示 CoT对参数要求低更适合快速验证 ToT和GoT因泛化成本高逐步退出舞台[29] - 企业级市场存在刚需 中大型企业需要内部模型接入IDE 担心代码数据安全[18][19] - 在生产力领域 当执行变得廉价时 "术"不再重要 关键是找到正确人群提供极致价值[11][99]
DeepSeek新大招曝光:下一步智能体
量子位· 2025-09-05 09:49
DeepSeek新模型开发计划 - 公司正在开发具有更强大AI Agent能力的新模型 预计在今年年底推出[3] - 新模型仅需少量提示就能帮用户执行复杂操作 并能根据历史操作自我进化和学习[7] - 模型将在今年最后一个季度面世[8] DeepSeek-V3.1性能升级 - DeepSeek-V3.1具备更强的Agent能力 通过Post-Training优化在工具使用与智能体任务中有较大提升[5] - 编程智能体方面 SWE-bench测试得分从V3-0324的45.4提升至66.0 SWE-bench Multilingual从29.3提升至54.5 Terminal-Bench从13.3提升至31.3[11][12] - 搜索智能体方面 Browsecomp从8.9提升至30.0 Browsecomp zh从35.7提升至49.2 HLE从24.8提升至29.8 xbench-DeepSearch从55.0提升至71.2 Seal0从29.7提升至42.6[14] 行业发展趋势 - 智能体概念成为行业焦点 2025年下半年几乎没有大模型产品不谈智能体[16] - 并行智能体正在成为提升AI能力的新方向[16] - 行业预计智能体价格门槛可能被降低[19] 技术架构创新 - 新模型采用混合推理架构 集成思考模式和非思考模式[13] - 实现更高的思考效率 比DeepSeek-R1想得更快[13] - 在工具使用与智能体任务中表现有较大提升[13] 产品发布节奏 - 从去年12月到今年8月 DeepSeek V系列版本号从V3升级至V3.1[9] - 业内原本预期会先推出新一代V系列基础模型 再发布被期待已久的R2[8] - 小版本改进暗藏玄机 实际性能提升显著[10]
AI应用:浮现中的AI经济
机器之心· 2025-08-30 09:18
人类经济活动数字化进程 - 计算机发明标志着人类进入数字化时代 经济活动开始被先后顺序数字化[4][5] - 数字化使算法驱动经济活动成为可能 实现智能化[5] - 尼葛洛庞帝《数字化生存》提出"Move bits, not atoms"理念 指出比特世界效率千万倍于物理世界[8] - 数字化进程分为两个阶段:第一阶段互联网/移动互联网完成物理世界数字化 第二阶段算法开始具备交付工作能力[9] 互联网/移动互联网经济特征 - 最大特点是匹配效率极大提高 通过桌面PC和手机硬件实现主流生活需求数字化[11][12] - 三大核心赛道:搜索(信息与人匹配)、社交(人与人匹配)、电商(商品与人匹配)[12] - 匹配方式演进:前互联网阶段就近获得→互联网阶段全局搜索→移动互联网阶段个性化推荐[13] - 个性化推荐解决"知识不足导致选择低效"问题 将经验证的最佳选择推荐给共性用户[14] - 当前数字化程度:个人消费行为数字化较高 企业经济活动数字化仍有提升空间[15] AI经济系统特征 - 2017年后AI进入新阶段 具备泛化交付工作能力[18] - 计算机首次能完整参与"收集信息-决策-行动"全链条[19] - 2025年成为重要时间点 AI智商超过人类平均水平100 达到110以上[22][23] - OpenAI o3达"天才级"水平 字节豆包模型可达清华北大录取成绩[23] - 行动能力分两阶段:第一阶段完成数字世界工作(编程/文案/设计) 第二阶段具身智能完成物理世界工作(清洁/制造/护理)[21] 全天候自动运行系统 - 经济系统可自动运行直至工作完成[26] - 在同等能力下 AI每日工作量达人类3倍 每周4.2倍 每年约4.32倍[26] - Anthropic Claude 4模型可自主运行7小时 年底将实现全天候软件工程智能体[28] - 应用案例:Lovart自动生成logo及全套VI Sema4.ai实现7×24小时发票整理[29] 无劳动力供给限制 - 计算能力成为新劳动力供给 可无限复制且边际成本低[33] - 对比生物性劳动(时间/数量约束)和机械性劳动(研发成本高) AI突破传统限制[33][34] - 凯恩斯曾预测百年后生活水平提高4-8倍 但未预料到计算机带来的新阶段[40] - 发展经济学中刘易斯"二元经济"模型若成立 将是全球消费者福音[36] 非稀缺经济形态 - 数字世界先实现N倍产出能力 服务业总供给大幅提升[38] - 具身机器人成熟后拓展至物理世界 成本低于人类劳动力[38] - 凯恩斯预言"非稀缺经济":单位时间总产出可能超过总需求[39] - 实际增长超预期:1950-2000年增长率2.9% 收入水平达1930年17倍[40] 交易成本降低 - 数字技术降低五类成本:搜寻/复制/交通/追踪/验证成本[45] - AI阶段将出现"数字层" 由个人AI助理和垂类Agent组成 全面了解经济主体和物理世界[46] - "数字层"实现更精准匹配 企业内外部交易成本进一步降低[47] - 匹配方式进阶:大模型个性化推荐使商品颗粒度更细 社交推荐从"打标签"变为"全方位了解"[48] 决策理性化提升 - 计算机首次参与决策 仅从成本收益角度分析 不受心理因素影响[53] - 行为经济学发现的非理性行为(前景理论/禀赋效应/心理账户等)可能大幅减少[52][53] - 投机行为驱动因素(非理性心理/从众心理)被抑制 降低经济损耗[53] 历史数据价值释放 - 计算机突破当世人类经验限制 纳入历史事实与观点[56] - 人类可同时向当世和历史求解 寻求"时空最优解"[57] - 稀有体验可能成为历史大数据中的可归纳经典[56] 人的全面发展 - 非稀缺经济下个人拥有充足时间用于自我实现[59] - "数字层"作为普惠贴身导师 帮助每个人成为更优秀的自己[61] - 需完成两大任务:确保AI系统受人类控制 保证生产力成果为全人类共享[62] - 当前可能进入"数字轴心时代" 重新定义核心价值[62]
寒武纪85后创始人,身家超1500亿
新浪财经· 2025-08-26 10:32
寒武纪股价表现及市值 - 寒武纪8月22日强势涨停 带动科创板大涨近10% 芯片ETF涨幅均约10% [1] - 寒武纪8月25日全天涨幅11.40% 报收1384.93元 市值接近5800亿元 [1] - 创始人陈天石持有29.63%股份 市值达1541亿元 [1] - 寒武纪首次发行价64.39元/股 对应市值257.62亿元 [2] 国产算力芯片市场格局 - 2024年中国加速芯片市场规模超270万张 GPU卡占70%市场份额 [5] - 中国本土AI芯片品牌出货量82万张 占30%市场份额 寒武纪出货2.6万片 燧原出货1.3万片 [5] - 英伟达在中国市场份额70-80% 2024年市场规模超100亿美元 [6] - 国产算力芯片厂商分两大技术路线:GPGPU路线(天数智芯/沐曦/海光)与自主生态路线(华为/寒武纪) [6] 技术突破与生态建设 - DeepSeek-V3.1采用UE8M0 FP8精度格式 相比FP16实现翻倍性能且功耗更低 [8] - FP8精度针对下一代国产芯片设计 推动国产芯片在训练与推理中的应用 [8] - DeepSeek R1模型推动国产芯片适配和生态协同 本土芯片软件生态实现突破 [7] - 国产芯片在软件栈、工具链等生态组件合作加强 打破生态建设僵局 [7] 行业需求与资本投入 - 2024年初中国日均Token消耗量1千亿 6月底突破30万亿 1年半增长300多倍 [11] - 字节跳动每三个月Token消耗接近翻倍 5月底达16.4万亿 [10] - 预计2025年国内算力需求高速增长 市场容量有望翻番 [6] - 腾讯、阿里、百度、字节2025年资本开支突破3000亿元 算力投资有望超5000亿元 [9][10] 厂商动态与订单落地 - 腾讯表示推理芯片供应渠道多元化 有望依托华为、寒武纪、海光满足算力需求 [10] - 华为昇腾服务器在政府、金融、运营商行业落地大单 [11] - 寒武纪存货从2023年末3.45亿元增至2025年一季度27.55亿元 预付账款从1.48亿元增至9.73亿元 [13] 机构观点与市场预期 - 高盛将寒武纪目标价从1223元上调50%至1835元 维持买入评级 [12] - 东海证券预计2025年国产芯片份额有望升至40% [6] - 推理芯片需求爆发 订单向国产芯片倾斜成必然趋势 [14] - 国产芯片凭借技术实力和产品性能 率先实现商业化客户落地 [14]
人工智能行业专题:探究模型能力与应用的进展和边界
国信证券· 2025-08-25 21:15
行业投资评级 - 人工智能行业投资评级为优于大市(维持)[2] 核心观点 - 海外大模型呈现差异化发展,企业调用考虑性价比,OpenAI在技术路径上相对领先,谷歌在端到端原生多模态领先,Anthropic强调实用性和编程场景领先[4] - 兴趣推荐成为AI赋能最明显的场景,主要应用包括广告和游戏行业,通过多模态提升内容理解,进而提升用户点击率、观看广告时长,拉动广告价格和广告位增长[4] - 模型能力不断增强,开始与应用在场景上竞争,通过五个典型案例探讨不同场景下模型与应用企业的竞合关系[4] - 投资建议推荐腾讯控股、快手、阿里巴巴和美图公司[4] 海外大模型差异化发展 - 根据OpenRouter数据,谷歌与Anthropic模型份额合计占据半壁以上江山,谷歌份额31.6%,Anthropic份额25.4%,OpenAI份额18.1%[8][9] - OpenAI技术路径领先,聚焦强化推理与专业领域能力,但端到端多模态生成能力较谷歌偏弱[13] - 谷歌端到端原生多模态领先,尤其在视频生成方向业内领先[13] - Anthropic强调实用性、编程场景领先,高准确度带来高市场占有率[13] - 模型调用价格方面,谷歌与Anthropic相比OpenAI有明显优势,例如Gemini 2.0 Flash输入价格0.10美元/百万tokens,输出价格0.40美元/百万tokens,而GPT-4.1输入价格2.00美元/百万tokens,输出价格8.00美元/百万tokens[10] 国内大模型近期进展 - 国内模型方向各家尚未拉开明显技术差距,需要观察在特定场景的差异化能力[4] - DeepSeek技术研究领先,采用混合注意力机制、动态路由MoE等架构创新,在代码生成、数学计算等专业领域表现出色,主打开源[16] - 阿里自研能力与综合能力强,模型参数与种类丰富,Qwen3.0在多模态和对话交互方面表现突出[16] - 其他厂商如字节豆包大模型各模态表现较均衡,百度文心大模型在中文场景深度优化,腾讯混元大语言模型基于DeepSeek改造[16] 兴趣推荐场景之广告 - AI对广告推荐作用主要体现在通过多模态提升对内容理解,进而提升用户点击率、观看广告时长,拉动广告价格和广告位增长[4] - 搜索和社交媒体推荐存在生产力代差,AI对后者赋能显著,抖音、快手、拼多多、小红书、腾讯视频号等偏推荐场景相比偏搜索场景赋能潜力更大[23] - META通过AI技术赋能广告量价齐升连续七个季度,AI带动广告曝光量增长,通过精准推荐、提升AI内容分发占比、数据标签体系完善提升Reels用户时长增长,AI带动广告单价增长,通过Advantage+工具带动广告主投放环节20% ROI提升[29] - 谷歌AI带动广告转化率改善,广告收入稳健增长,新功能推出后通常能带来20%左右效率改善,25Q2启用AI Max的广告客户通常能获得14%额外转化量,使用智能竞价探索的广告系列平均转化量增长19%[35][37] - Reddit广告收入大幅增加,25Q2推出AI广告工具Reddit Community Intelligence,包含Reddit Insights和Conversation Summary Add-ons,点击率比标准图片广告高出10%以上[40][42] - 腾讯广告25H1连续两个季度实现20%同比高增长,主要来自广告价格CPM提升,AI部署带来更高点击率,微信小店和小游戏带来更完善闭环交易活动[46] - 快手广告收入增长主要驱动是CPM提升,AI赋能广告在营销素材增强、营销投放Agent和营销推荐等环节,25Q1 AIGC营销素材带来日均消耗约3000万人民币,25Q2可灵收入2.5亿元[49] 兴趣推荐场景之游戏 - 游戏是兴趣推荐重要场景,海外AIGC游戏平台Roblox通过AI升级推荐算法,让更多新游戏获得曝光,25Q1平台Top100游戏中有24款是过去一年内推出的,与24Q1相比TOP15游戏推出更多内容更新[4][53] - 由于更多新游戏获得曝光和竞争推荐,平台11-50名的游戏流水同比增长超过1倍,占总流水增量的40%[4][53] - Roblox不断推出多款AI游戏创作工具以降低创作门槛,包括编程助手、各种游戏素材生成工具等,25Q1推出Roblox文本生成功能,开源3D模型Cube 3D,生成超过100万个3D模型[54][55] 模型能力增强与应用边界的争夺 - 情景一:大模型直击原有产品痛点,新增AI原生竞争对手,例如LivePerson面临AI引入新竞争者、客户流失严重,净收入留存率从2024年第二季度83%下降到2025年第二季度78%[64][65] - 情景二:大模型加速原有产品功能开发,同时创新AI原生产品,例如美图公司在原有主力产品中推出更多AI功能,驱动付费率提升,订阅渗透率从23Q1末2.9%提升至25Q2末5.5%[73] - 情景三:AI产品与传统业务收入存在此消彼长相互替代关系,例如C3.AI传统订阅收入增长承压,2025财年传统订阅收入3.276亿美元,同比+18%,但AgenticAI业务年化ARR约6000万美元、生成式AI收入同比增长超100%[78] - 情景四:AI或颠覆原有需求流量入口,市场担忧部分公司会被AI颠覆,包括搜索、广告、人力资源、旅游服务、IT软件等领域公司[79][81] - 情景五:AI在编程、客服等场景降本显著,企业人均产出持续提升,例如Shopify、Applovin、Twilio等公司在员工人数减少的同时,人均产出大幅增加[83]
刚刚,大模型棋王诞生,40轮血战,OpenAI o3豪夺第一,人类大师地位不保?
36氪· 2025-08-22 19:51
国际象棋AI积分赛排名结果 - OpenAI o3以人类等效Elo 1685分排名第一,其Game Arena内部Elo为1397分 [1][3][4] - Grok 4以人类等效Elo 1395分位列第二,Game Arena内部Elo为1112分 [1][3][4] - Gemini 2.5 Pro以人类等效Elo 1343分排名第三,Game Arena内部Elo为1061分 [1][3][4] - DeepSeek R1与GPT-4.1、Claude Sonnet-4、Claude Opus-4并列第五,人类等效Elo在664-759分之间 [1][5][12] 比赛机制与评估方法 - 采用40轮循环赛制(每对模型进行20场白棋和20场黑棋对决)构建Bradley-Terry算法计算的Elo排名 [11][12] - 人类等效Elo通过模型与Stockfish引擎(L0-L3等级)对弈结果线性插值计算,其中L0对应1320分、L1对应1468分、L2对应1608分、L3对应1742分 [13] - 新增效率指标包括平均每回合输出Token数(如GPT-4.1为718 token)和平均每回合推理成本(如Claude Opus-4为24.50单位) [12][16] 技术平台与数据开放 - Kaggle Game Arena平台提供游戏回放功能及可移植棋谱(PGN)数据集,包含模型推理过程记录 [20][24][25] - 测试设计强调规避数据污染问题,通过动态博弈评估模型真实战略推理能力 [22] - 平台未来计划扩展更多游戏排行榜,持续跟踪AI模型在战略规划等认知能力的进步 [25] 性能差距与局限性 - 顶级AI模型(如o3)与人类大师级棋手(2200分)存在515分差距,与Stockfish引擎(3644分)差距显著 [14][16] - 测试局限包括:仅限国际象棋单一游戏、超时限制可能惩罚深度思考模型、抽样参数存在非确定性 [19][22][23]