Claude 3.7 Sonnet

搜索文档

AI被严重低估，AlphaGo缔造者罕见发声：2026年AI自主上岗8小时

36氪· 2025-11-04 20:11

【导读】当我们还在调侃「AI写错代码」时，实验室里的科学家却看到它能独立完成几个小时的复杂任务。AlphaGo作者Julian罕见发声：公众对AI的认知，至少落后一个世代。最新数据更显示，AI正以指数速度逼近专家水准，2026或许就是临界点。我们，是在见证未来，还是在自欺欺人？ AlphaGo、AlphaZero的核心作者——Julian抛出了一个尖锐的比喻：人们今天对AI的态度，很像当初面对新冠疫情早期的反应。 Julian的意思很直接：我们正在严重低估AI的进展。很多人还在笑它写错代码，抱怨它没法替代人类；但在实验室里，研究者早已看到另一幅景象——AI已经能独立完成几个小时的复杂任务，并且还在按指数速度进化。这就是他决定站出来发声的原因：公众的认知，和前沿的现实，之间至少隔着一个世代的落差。科学家不忍再沉默：AI为何被大众低估？ Julian Schrittwieser的名字，或许不像马斯克、奥特曼那样家喻户晓，但在AI圈，他是响当当的存在。作为AlphaGo、AlphaZero、MuZero的核心作者之一，他亲历了AI从「围棋科幻」到「现实碾压」的全过程。也正因如此，当他在个人博客写下那段 ...

AI人格分裂实锤，30万道送命题，撕开OpenAI、谷歌「遮羞布」

36氪· 2025-10-27 08:40

数据集：https://huggingface.co/datasets/jifanz/stress_testing_model_spec 结果发现，这些AI不仅「性格」迥异，而且它们的「行为准则」（即「模型规范」）本身就充满了矛盾和漏洞！实锤！LLM也有自己的「价值观」？想象一下，你让AI帮你做一个商业计划，既要「赚钱」，又要「有良心」。当这两件事冲突时，AI会听谁的？它会不会「精神分裂」？最近，Anthropic联合Thinking Machines机构搞了个大事情。他们设计了30万个这种「两难问题」场景和极限压力测试去「拷问」市面上最强的前沿大模型，包括OpenAI、谷歌Gemini、Anthropic和马斯克的xAI。论文：https://arxiv.org/pdf/2510.07686 今天咱们就来深扒一下这份报告，看看AI世界的「众生相」。 AI的说明书「模型规范」，靠谱吗？「模型规范」是大型语言模型被训练遵循的行为准则。说白了，它就是AI的「三观」和「行为准则」，比如「要乐于助人」、「假设意图良好」、「要保证安全」等。这是训练AI「学好」的基础。大多数情况下，AI模型会毫无问题 ...

CB Insights : AI Agent未来发展趋势报告（AI Agent Bible）

欧米伽未来研究所2025· 2025-10-26 12:02

AI Agent技术变革与市场趋势 - 人工智能正从实验性副驾Copilot迅速演进为自主执行任务的代理Agent，已成为企业核心议程[1] - 自2023年以来全球涌现超过500家相关创业公司，企业财报提及Agent次数激增10倍，每五家新晋独角兽中就有一家构建Agent技术[1] - 竞争焦点从语言模型智能转向数据结合与基础设施构建，全新Agent驱动经济形态正在形成[4] AI Agent技术演进与应用场景 - Agent演进路径清晰：从基础推理聊天机器人→调用外部记忆的副驾→具备推理记忆工具使用能力的Agent→独立规划认知反思的全自动Agent[5] - 应用场景超越客户服务领域，已扩展至医院临床决策、银行金融风险评估、律师事务所法律备忘录起草[5] - 商业化最成熟领域为软件开发和客户服务，客户支持领域82%组织计划未来12个月内使用AI Agent[5] - Y Combinator 2025年春季孵化营中超过70家公司构建Agent解决方案，焦点转向软件开发护栏和垂直行业应用[6] AI Agent商业模式与经济影响 - 编码Agent经历爆炸性收入增长，Anysphere年化经常性收入六个月内从1亿美元飙升至5亿美元，Replit实现数倍增长，Lovable推出8个月达1亿美元ARR[7] - 推理模型导致输出令牌量激增约20倍，造成单位经济效益崩溃，价值2.5万美元合同从盈利2.27万美元转为净亏损1.45万美元[8] - 行业紧急转向成本控制，科技公司实施费率限制和价格上涨，SaaS巨头转向基于使用量的信用点系统，初创公司面临整合压力[8] 市场竞争格局与基础设施重构 - 三大云巨头采取差异化战略：亚马逊定位中立基础设施层通过云积分播种生态系统，谷歌打造开放市场推广互操作协议，微软采取预构建套件深度嵌入企业生态[13] - 数据护城河之战加剧，SaaS巨头收紧API访问权限，Snowflake等公司推动开放数据格式反击[9] - 标准之战已经打响，Anthropic推出模型上下文协议，谷歌推出A2A协议，IBM布局定义Agent通信标准[9] - 催生两大新兴市场：代理商业催生新型支付轨道公司，Agent监控工具需求变得极为迫切[10]

“强烈反对”美国AI公司反华言论，姚顺宇宣布跳槽！

新浪财经· 2025-10-09 18:25

据香港《南华早报》10月8日报道，一名人工智能（AI）领域的中国学者宣布从美国AI初创公司 Anthropic离职，加入其竞争对手谷歌的DeepMind实验室。他表示，Anthropic的"反华言论"是自己离职的重要原因之一。《南华早报》报道称，近年来，包括OpenAI在内的多家美国AI公司对中国的负面言论增加，包括直接点名来自中国的竞争者DeepSeek公司。一名要求匿名的前员工透露，OpenAI内部部分来自中国等国的技术人员对公司的相关言论感到不安。根据姚顺宇（Shunyu Yao）6日在个人博客发布的文章，他在大语言模型Claude的开发商Anthropic工作不到一年就离开。他说自己"强烈反对"该公司的"反华言论"。上个月，Anthropic公司宣布将停止向"中国实体控股的公司"提供人工智能服务，并在内部文件中将中国列为"敌对国家"。对此，姚顺宇在文中写道："需要说明的是，我相信Anthropic的大多数员工并不同意这种定性，但我认为，我已没有办法继续留下来。" 报道称，公开资料显示，姚顺宇本科毕业于清华大学，后在斯坦福大学获得理论与数学物理学博士学位，并曾在加州大学伯克利分校从事 ...

另一位Yao Shunyu也跳槽了：与Anthropic价值观有根本分歧

量子位· 2025-10-08 12:25

核心人事变动 - 谷歌DeepMind迎来新研究科学家姚顺宇，其于10月19日正式加入，担任高级研究科学家，继续从事AI研究 [1] - 姚顺宇于9月19日离开Anthropic，结束了在该公司为期1年的工作 [1] 个人背景与成就 - 姚顺宇为清华大学物理系校友、清华本科特等奖学金获得者，本科时期即在顶级期刊《Physical Review Letters》发表论文 [1][29] - 其在凝聚态物理领域有突破性贡献，2018年首次在国际上给出了关于非厄米系统的拓扑能带理论，并定义了两个新的物理概念 [31][32] - 个人学术影响力显著，谷歌学术显示其论文被引用5020次，h-index为14，i10-index为15 [34] 职业转型动机 - 从理论物理转向AI研究，主要因理论物理领域已多年没有新的实验，难以客观判断理论工作的重要性 [10][11] - 在AI和量子计算之间选择AI，因AI是“有趣的类似物理学的研究”，且量子计算存在实验平台瓶颈 [12][13] - 认为当前大模型研究处于类似17世纪热力学的混沌时代，“不懂原理但能持续找到规律”，对此状态感到熟悉和享受 [14][15][16] 在Anthropic的工作经历 - 在Anthropic工作1年，参与组建了公司的强化学习基础团队，并负责了Claude 3.7 Sonnet框架以及Claude 4系列背后的基本强化学习理论 [1][6] - 其研究能立刻对前沿模型能力产生影响，并见证人们与AI的交互方式随新功能出现而变化，反馈迅速，与物理学研究不同 [18][19] - 感受到Anthropic的工作强度“超级忙”，导致其无暇撰写个人心路历程 [7] 离开Anthropic的原因 - 40%原因为“价值观的根本分歧”，指出Anthropic的一些态度对中国科研者乃至中立立场的员工来说极不友好，个人无法接受 [21][22][23] - 剩余60%原因涉及公司内部细节，未对外公开 [24] 行业动态与观察 - AI领域发展速度惊人，姚顺宇感慨在1年时间内，Claude模型版本已从3.7迭代到4.5 [27] - 尽管已离开，仍评价Anthropic是物理背景PhD转行AI研究的最佳去处之一，因公司对物理背景人才有偏好 [37][38] - 指出Anthropic的核心研究员现已不再撰写论文 [39] 其他相关人才流动 - 提及另一位清华同届校友“姚顺雨”（计算机背景，姚班），其同样在待了1年后于今年8月底、9月初离开OpenAI [43][44][45] - 两位Shunyu Yao先后入场大模型，又先后跳槽，开启工作新旅程 [47][48][49]

速递｜Claude与OpenAI都在用：红杉领投AI代码审查，Irregula获8000万美元融资估值达4.5亿

Z Potentials· 2025-09-18 10:43

融资与估值 - Irregular获得8000万美元新一轮融资，由红杉资本和Redpoint Ventures领投，Wiz首席执行官Assaf Rappaport跟投 [1] - 此轮融资后公司估值达到4.5亿美元 [1] 公司定位与技术能力 - Irregular前身为Pattern Labs，是AI评估领域的重要参与者，其研究成果被Claude 3.7 Sonnet和OpenAI的o3、o4-mini模型安全评估引用 [2] - 公司开发了SOLVE框架，用于评估模型漏洞检测能力，该框架已在业内得到广泛应用 [3] - 公司构建了精密的模拟环境系统，能够在模型发布前进行高强度测试，通过让AI同时扮演攻击者和防御者角色来识别防御体系的有效点和薄弱环节 [3][4] 行业趋势与风险 - 人工智能行业将安全作为重点关切领域，OpenAI今年夏天全面升级了内部安全机制以防范潜在商业间谍活动 [4] - AI模型在识别软件漏洞方面愈发娴熟，这种能力对攻击方和防御方均具有重大影响 [5] - 大型语言模型能力增长引发众多安全隐患，前沿实验室致力于创造更复杂强大的模型，而安全公司需持续应对动态风险 [6] 核心观点 - 大量经济活动将来自人与AI互动及AI与AI互动，这将从多个层面打破现有安全防护体系 [2] - Irregular的使命是守护前沿模型，但需应对如射击移动靶标般的动态安全挑战 [6]

大模型碰到真难题了，测了500道，o3 Pro仅通过15%

机器之心· 2025-09-14 11:07

研究背景与动机 - 现有大模型基准测试面临"难度-真实性"矛盾考试类基准人为设置难度但实际价值有限而基于真实用户交互的基准偏向简单高频问题[1] - 斯坦福大学等机构研究者探索在未解决问题上评估模型能力的新方式[2] UQ数据集构建 - 数据集包含500道未解决问题涵盖计算机理论数学科幻历史等主题用于考察模型推理事实准确性和浏览能力[3] - 问题来源Stack Exchange社区经过三轮筛选：从300万原始问题中基于规则筛选至33,916个(1.13%) 基于大语言模型筛选至7,685个(0.26%) 最终人工审核得到500题(0.02%)[10] - 数据集以科学类问题为主(395题) 其次为技术类(52题) 生活艺术类(35题)和文化娱乐类(16题)[7][11] - 问题被解决后会移除并替换为新未解决问题保持数据集动态更新[12] 验证方法创新 - 开发UQ-Validators复合验证策略利用生成器-验证器能力差距构建无真值验证系统[6] - 采用多模型验证流程：能力递增模型(o3-mini→o4-mini→o3)回答问题然后相互验证答案[15] - 验证准确率提升速度快于答题准确率模型能力越强验证优势越明显[16] 模型性能评估 - 表现最佳模型为OpenAI的o3 Pro 在500题中通过75题(15.0%) 其中4题被确认为正确解答[5][7] - Google的Gemini 2.5 Pro通过25题(5.0%) 其中3题正确 DeepSeek R1通过11题(2.2%) 其中1题正确[7] - Anthropic的Claude Opus 4通过7题(1.4%) Claude 3.7 Sonnet通过6题(1.2%) 均无正确解答[7] - 复合验证策略显著提升验证准确率 Claude 3.7 Sonnet准确率从21.6%提升至73.2% 精度从13.26%提升至20%[21] 验证偏见发现 - 所有模型在评估自身或同系模型时都出现过度乐观现象预测性能远高于实际性能[24] - Gemini明显偏向自身 Claude对所有模型都过度乐观 OpenAI模型对同门模型评价过高[28] - 模型能力递增(o3-mini→o3)可降低但未消除偏见复合验证器能显著削弱自我偏见与过度乐观[25][26] - 更强答案生成模型不一定是更强验证模型 o3作为答案模型弱于Gemini 2.5 Pro但作为验证模型更强[27] 平台与社区建设 - 建立UQ-Platform开放平台让专家共同验证问题与答案实现持续异步社区驱动评估[6] - 人类评审与验证器一致率达92-100% 理由链准确性达76-100% 验证器能为人类评审提供有效支持[23]

大模型

UQ数据集

无监督验证器

Artificial Intelligence

Artificial Intelligence

DeepSeek R1

Claude Opus 4

GPT-5：前端开发者的“选择自己的冒险路线”

36氪· 2025-09-05 18:33

GPT-5前端编码能力表现 - OpenAI声称GPT-5在前端Web开发方面70%的时间击败OpenAI o3模型[2] - 开发体验负责人称GPT-5在前端开发"惊人地出色"[2] - 前端基础设施公司Vercel支持该模型并认为它是"最好的前端AI模型"[2] 开发者对GPT-5的负面评价 - YouTube影响力人物Theo Browne从积极评价转变为负面体验称GPT-5在Cursor中表现远不如测试期[3] - GitHub Copilot Pro用户抱怨GPT-5在总结和解释方面非常弱总体令人失望[3] - Claude Sonnet 4被用户认为比GPT-5好很多[3] - AI工程专家Shawn Wang的民意调查显示40%以上用户认为GPT-5"一般"或"糟糕"[4] - 具体投票结果:23.1%用户兴奋 30.6%认为与Claude相当 10.8%表示失望 35.5%无意见[5] 框架选择与开发模式变革 - OpenAI推荐使用Next.js(TypeScript) React和HTML等框架与GPT-5配合[7] - Moderna的AI产品负责人通过GPT-5从概念到可工作React原型完成全流程开发[7] - AI创业公司Raindrop联合创始人使用GPT-5创建无需React框架的网站仅用HTML CSS和JavaScript[7] - GPT-5可能使开发者绕开React框架直接使用底层Web平台开发基础应用[8] - 浏览器成熟度允许仅用基础技术构建复杂Web应用框架必要性受质疑[8] 模型版本与编码特性差异 - GPT-5不同版本存在性能差异预发布测试使用的高端版本gpt-5-high表现更佳[9][10] - 代码安全公司Sonar研究显示不同LLM有独特编码个性:GPT-4o为"高效的全才" Claude Sonnet 4为"资深架构师"[10] - Claude Sonnet 4功能通过率77.04% 高于GPT-4o的69.67%[11] - 所有模型的主要缺陷类型中代码异味占比均超过89%[11]

前端开发

编码大语言模型

Artificial Intelligence

Artificial Intelligence

GPT-5

JavaScript

Claude Sonnet 4

Anthropic的投资人最看好的40家AI公司 | Jinqiu Select

锦秋集· 2025-08-31 15:01

核心趋势 - 人工智能行业从注重展示生成能力转向构建可运营和可落地的自动化工作流从炫技走向实用[3] - 专注于工作流与Agent化的公司数量和重要性显著提升公司数量从12家增加到14家在名单中占比从26.7%上升至31.1% 净增加2家[4][5] - 新入榜的28家公司中有10家（约占36%）属于工作流与Agent化领域例如Distyl、Pylon、Clarify、Aaru、Granola、Basis、CrewAI、Browserbase、Abridge等[5] 应用形态变化 - AI应用从个人或单点自动化项目转向深度嵌入企业具体业务流程的新条目[6] - 退出榜单的公司包括MultiOn、11x和Rilla 新进入的公司包括专注于客服领域的Pylon、用于客户关系管理的Clarify、处理财务流程的Basis以及在安全运营领域升级的Dropzone和新入榜的Prophet Security[6] - Granola和Fireflies专注于会议内容整理与知识沉淀表明AI正转变为企业核心运营流程的一部分[6] 基础设施支持 - 赋能型基础设施公司从提供纯算力或开源模型集散地转向面向Agent生产化过程的专用组件供应商[7] - CrewAI提供多代理编排框架 Browserbase提供云端浏览器环境 Statsig专注于实验与灰度发布 Together AI、ClickHouse和Fal在AI推理与实时数据分析方面提供关键支持[7] - 底层基础设施的成熟为构建更具体、价值更高的垂直领域应用提供坚实基础[7] 开发者工作流 - 开发者工作流加速器显著上行新入榜的Cursor、Lovable、Bolt.new、CodeRabbit与去年上榜的Factory、Vercel形成从开发到部署的完整生态链[8][9] - 生态覆盖从编辑器/浏览器内的开发辅助到代码提交后的自动化审查再到一键部署环节[9] - 工程团队将Agent化的编码方式正式纳入主干开发流程代码的生成、审查、测试、修复和运行形成紧密联动的自动化闭环[9] 创意内容与语音交互 - 设计与内容生产领域关注度回落公司数量从5家减少到3家净减2家 Runway和Figma退出榜单新增Gamma和HeyGen[10] - 语音与音频方向出现小幅提升公司数量从1家增加到2家净增1家 ElevenLabs行业地位提升至后期阶段新入榜Cartesia[10] - 关注点从制作精美的视频大片式内容转向能够进行实时对话和声音交互的AI Agent 更贴近客服、销售支持、在线培训等可直接量化商业价值的实际场景[10] 医疗健康领域 - 医疗健康领域公司数量从1家增加到2家实现零的突破新进入Abridge和OpenEvidence 去年在榜的Tennr离开名单[11] - AI在医疗场景的应用从后台行政流程自动化转向直接服务于临床一线为医生诊疗决策提供支持[11] - 进入临床现场对AI的准确性、可追溯性和合规性提出远高于后台场景的要求更接近医疗价值链的核心[11] 新增与离开公司 - 新增28家公司离开28家公司[12] - 新增公司包括自湖、Distyl、Listen Labs、Exa等[12][13][14] - 离开公司包括CodiumAl、MultiOn、11x、Rilla、Tennr、Unify、Yurts、Writer、EvenUp、Hebbia、Hex、Typeface、PermitFlow、Read Al、Glean、Wiz、Figma、Abnormal Security、Runway、Drata、Harvey、Hugging Face、Mistral Al、CoreWeave、Unstructured、Coactive、CentML等[15][16][17][18][19]

Agent化工作流

AI推理与实时数据分析

Artificial Intelligence

Artificial Intelligence

Claude 3.7 Sonnet

ChatGPT

GPT - 5

DeepSeek、GPT-5带头转向混合推理，一个token也不能浪费

机器之心· 2025-08-30 18:06

混合推理模式行业趋势 - AI行业面临过度思考导致的算力浪费问题推动自适应计算技术发展 [2][3] - 2024年多家头部公司推出混合推理方案通过动态调整计算资源实现50-80%的token节省 [3][7][10] - 混合推理成为大模型领域新常态成本与性能平衡成为核心竞争力新基准 [11][48] 技术实现路径对比 - 路由方案：OpenAI的GPT-5采用多模型路由系统根据问题复杂度自动选择gpt-5-main或gpt-5-thinking等模型 [36][37] - 单模型双模式：DeepSeek v3.1通过</think>/<think>标记实现思考模式切换在基准测试中减少25-50% token消耗 [3][10][46] - 显式控制方案：阿里Qwen3采用/think和/no_think标记谷歌Gemini 2.5 Flash支持0-24576 token的思考预算调节 [19][23] 头部公司技术布局 - Anthropic的Claude 3.7 Sonnet首创混合推理支持API端精细控制思考时长 [18] - 腾讯Hunyuan-A13B采用双模式思维链框架通过后训练统一优化快慢思考两种模式 [34] - 智谱GLM-4.5通过专家训练+自蒸馏技术整合推理能力实现反思与即时响应模式切换 [35] - 字节Seed 1.6采用Adaptive CoT技术通过强化学习实现帕累托最优的推理链触发机制 [31][32] - 快手KwaiCoder-AutoThink采用两步式训练增加pre-think阶段预判问题难度 [27][28] 性能与成本数据 - GPT-5思考模式比前代减少50-80%输出token [7] - DeepSeek v3.1在AIME 2025等测试中保持性能同时减少25-50% token消耗 [10] - Gemini 2.5 Flash启用推理功能后输出成本相差6倍 [23] - 当前20分钟深度研究调用成本约1美元预计2027年单用户单日Agent调用成本达72美元 [14][15] 技术挑战与演进方向 - 阿里Qwen3混合推理因基准测试表现不佳暂停转向分模型训练方案 [21] - OpenAI路由方案遭遇专业用户质疑存在路由不透明和低质量模型分配问题 [38] - 研究领域聚焦无需训练（提示词/路由/解码操纵）和基于训练（微调/强化学习）两大技术路径 [50][51] - 多模态领域出现R-4B等自适应思考模型自动化程度持续提升 [52] 商业模式创新 - 路由模式使OpenAI可从免费用户提问中识别商业意图导向高算力模型并实现成交抽成 [43] - 企业级应用更关注成本精确控制 Gemini 2.5 Pro的思考预算机制支持像调节水龙头一样调节AI思考成本 [24] - 深度研究等长任务模式导致token消耗每6个月翻倍订阅费上涨压力持续存在 [14][16] 未来发展方向 - 行业竞争重点从"是否能思考"转向"能否以最低代价在恰当时刻思考" [56][57] - 技术目标聚焦更智能的自我调节减少对人类指示的依赖 [57] - 开源模型如DeepSeek v3.1提供高性价比选择企业级部署成本控制需求持续强化 [46][24]

混合推理模式

自适应计算

Artificial Intelligence

Artificial Intelligence