Claude 3.7 Sonnet

搜索文档
速递|Claude与OpenAI都在用:红杉领投AI代码审查,Irregula获8000万美元融资估值达4.5亿
Z Potentials· 2025-09-18 10:43
融资与估值 - Irregular获得8000万美元新一轮融资,由红杉资本和Redpoint Ventures领投,Wiz首席执行官Assaf Rappaport跟投 [1] - 此轮融资后公司估值达到4.5亿美元 [1] 公司定位与技术能力 - Irregular前身为Pattern Labs,是AI评估领域的重要参与者,其研究成果被Claude 3.7 Sonnet和OpenAI的o3、o4-mini模型安全评估引用 [2] - 公司开发了SOLVE框架,用于评估模型漏洞检测能力,该框架已在业内得到广泛应用 [3] - 公司构建了精密的模拟环境系统,能够在模型发布前进行高强度测试,通过让AI同时扮演攻击者和防御者角色来识别防御体系的有效点和薄弱环节 [3][4] 行业趋势与风险 - 人工智能行业将安全作为重点关切领域,OpenAI今年夏天全面升级了内部安全机制以防范潜在商业间谍活动 [4] - AI模型在识别软件漏洞方面愈发娴熟,这种能力对攻击方和防御方均具有重大影响 [5] - 大型语言模型能力增长引发众多安全隐患,前沿实验室致力于创造更复杂强大的模型,而安全公司需持续应对动态风险 [6] 核心观点 - 大量经济活动将来自人与AI互动及AI与AI互动,这将从多个层面打破现有安全防护体系 [2] - Irregular的使命是守护前沿模型,但需应对如射击移动靶标般的动态安全挑战 [6]
大模型碰到真难题了,测了500道,o3 Pro仅通过15%
机器之心· 2025-09-14 11:07
研究背景与动机 - 现有大模型基准测试面临"难度-真实性"矛盾 考试类基准人为设置难度但实际价值有限 而基于真实用户交互的基准偏向简单高频问题[1] - 斯坦福大学等机构研究者探索在未解决问题上评估模型能力的新方式[2] UQ数据集构建 - 数据集包含500道未解决问题 涵盖计算机理论 数学 科幻 历史等主题 用于考察模型推理 事实准确性和浏览能力[3] - 问题来源Stack Exchange社区 经过三轮筛选:从300万原始问题中 基于规则筛选至33,916个(1.13%) 基于大语言模型筛选至7,685个(0.26%) 最终人工审核得到500题(0.02%)[10] - 数据集以科学类问题为主(395题) 其次为技术类(52题) 生活艺术类(35题)和文化娱乐类(16题)[7][11] - 问题被解决后会移除并替换为新未解决问题 保持数据集动态更新[12] 验证方法创新 - 开发UQ-Validators复合验证策略 利用生成器-验证器能力差距构建无真值验证系统[6] - 采用多模型验证流程:能力递增模型(o3-mini→o4-mini→o3)回答问题 然后相互验证答案[15] - 验证准确率提升速度快于答题准确率 模型能力越强验证优势越明显[16] 模型性能评估 - 表现最佳模型为OpenAI的o3 Pro 在500题中通过75题(15.0%) 其中4题被确认为正确解答[5][7] - Google的Gemini 2.5 Pro通过25题(5.0%) 其中3题正确 DeepSeek R1通过11题(2.2%) 其中1题正确[7] - Anthropic的Claude Opus 4通过7题(1.4%) Claude 3.7 Sonnet通过6题(1.2%) 均无正确解答[7] - 复合验证策略显著提升验证准确率 Claude 3.7 Sonnet准确率从21.6%提升至73.2% 精度从13.26%提升至20%[21] 验证偏见发现 - 所有模型在评估自身或同系模型时都出现过度乐观现象 预测性能远高于实际性能[24] - Gemini明显偏向自身 Claude对所有模型都过度乐观 OpenAI模型对同门模型评价过高[28] - 模型能力递增(o3-mini→o3)可降低但未消除偏见 复合验证器能显著削弱自我偏见与过度乐观[25][26] - 更强答案生成模型不一定是更强验证模型 o3作为答案模型弱于Gemini 2.5 Pro但作为验证模型更强[27] 平台与社区建设 - 建立UQ-Platform开放平台 让专家共同验证问题与答案 实现持续异步社区驱动评估[6] - 人类评审与验证器一致率达92-100% 理由链准确性达76-100% 验证器能为人类评审提供有效支持[23]
GPT-5:前端开发者的“选择自己的冒险路线”
36氪· 2025-09-05 18:33
GPT-5前端编码能力表现 - OpenAI声称GPT-5在前端Web开发方面70%的时间击败OpenAI o3模型[2] - 开发体验负责人称GPT-5在前端开发"惊人地出色"[2] - 前端基础设施公司Vercel支持该模型并认为它是"最好的前端AI模型"[2] 开发者对GPT-5的负面评价 - YouTube影响力人物Theo Browne从积极评价转变为负面体验 称GPT-5在Cursor中表现远不如测试期[3] - GitHub Copilot Pro用户抱怨GPT-5在总结和解释方面非常弱 总体令人失望[3] - Claude Sonnet 4被用户认为比GPT-5好很多[3] - AI工程专家Shawn Wang的民意调查显示40%以上用户认为GPT-5"一般"或"糟糕"[4] - 具体投票结果:23.1%用户兴奋 30.6%认为与Claude相当 10.8%表示失望 35.5%无意见[5] 框架选择与开发模式变革 - OpenAI推荐使用Next.js(TypeScript) React和HTML等框架与GPT-5配合[7] - Moderna的AI产品负责人通过GPT-5从概念到可工作React原型完成全流程开发[7] - AI创业公司Raindrop联合创始人使用GPT-5创建无需React框架的网站 仅用HTML CSS和JavaScript[7] - GPT-5可能使开发者绕开React框架 直接使用底层Web平台开发基础应用[8] - 浏览器成熟度允许仅用基础技术构建复杂Web应用 框架必要性受质疑[8] 模型版本与编码特性差异 - GPT-5不同版本存在性能差异 预发布测试使用的高端版本gpt-5-high表现更佳[9][10] - 代码安全公司Sonar研究显示不同LLM有独特编码个性:GPT-4o为"高效的全才" Claude Sonnet 4为"资深架构师"[10] - Claude Sonnet 4功能通过率77.04% 高于GPT-4o的69.67%[11] - 所有模型的主要缺陷类型中代码异味占比均超过89%[11]
Anthropic的投资人最看好的40家AI公司 | Jinqiu Select
锦秋集· 2025-08-31 15:01
核心趋势 - 人工智能行业从注重展示生成能力转向构建可运营和可落地的自动化工作流 从炫技走向实用[3] - 专注于工作流与Agent化的公司数量和重要性显著提升 公司数量从12家增加到14家 在名单中占比从26.7%上升至31.1% 净增加2家[4][5] - 新入榜的28家公司中有10家(约占36%)属于工作流与Agent化领域 例如Distyl、Pylon、Clarify、Aaru、Granola、Basis、CrewAI、Browserbase、Abridge等[5] 应用形态变化 - AI应用从个人或单点自动化项目转向深度嵌入企业具体业务流程的新条目[6] - 退出榜单的公司包括MultiOn、11x和Rilla 新进入的公司包括专注于客服领域的Pylon、用于客户关系管理的Clarify、处理财务流程的Basis以及在安全运营领域升级的Dropzone和新入榜的Prophet Security[6] - Granola和Fireflies专注于会议内容整理与知识沉淀 表明AI正转变为企业核心运营流程的一部分[6] 基础设施支持 - 赋能型基础设施公司从提供纯算力或开源模型集散地转向面向Agent生产化过程的专用组件供应商[7] - CrewAI提供多代理编排框架 Browserbase提供云端浏览器环境 Statsig专注于实验与灰度发布 Together AI、ClickHouse和Fal在AI推理与实时数据分析方面提供关键支持[7] - 底层基础设施的成熟为构建更具体、价值更高的垂直领域应用提供坚实基础[7] 开发者工作流 - 开发者工作流加速器显著上行 新入榜的Cursor、Lovable、Bolt.new、CodeRabbit与去年上榜的Factory、Vercel形成从开发到部署的完整生态链[8][9] - 生态覆盖从编辑器/浏览器内的开发辅助到代码提交后的自动化审查再到一键部署环节[9] - 工程团队将Agent化的编码方式正式纳入主干开发流程 代码的生成、审查、测试、修复和运行形成紧密联动的自动化闭环[9] 创意内容与语音交互 - 设计与内容生产领域关注度回落 公司数量从5家减少到3家 净减2家 Runway和Figma退出榜单 新增Gamma和HeyGen[10] - 语音与音频方向出现小幅提升 公司数量从1家增加到2家 净增1家 ElevenLabs行业地位提升至后期阶段 新入榜Cartesia[10] - 关注点从制作精美的视频大片式内容转向能够进行实时对话和声音交互的AI Agent 更贴近客服、销售支持、在线培训等可直接量化商业价值的实际场景[10] 医疗健康领域 - 医疗健康领域公司数量从1家增加到2家 实现零的突破 新进入Abridge和OpenEvidence 去年在榜的Tennr离开名单[11] - AI在医疗场景的应用从后台行政流程自动化转向直接服务于临床一线 为医生诊疗决策提供支持[11] - 进入临床现场对AI的准确性、可追溯性和合规性提出远高于后台场景的要求 更接近医疗价值链的核心[11] 新增与离开公司 - 新增28家公司 离开28家公司[12] - 新增公司包括自湖、Distyl、Listen Labs、Exa等[12][13][14] - 离开公司包括CodiumAl、MultiOn、11x、Rilla、Tennr、Unify、Yurts、Writer、EvenUp、Hebbia、Hex、Typeface、PermitFlow、Read Al、Glean、Wiz、Figma、Abnormal Security、Runway、Drata、Harvey、Hugging Face、Mistral Al、CoreWeave、Unstructured、Coactive、CentML等[15][16][17][18][19]
DeepSeek、GPT-5带头转向混合推理,一个token也不能浪费
机器之心· 2025-08-30 18:06
混合推理模式行业趋势 - AI行业面临过度思考导致的算力浪费问题 推动自适应计算技术发展 [2][3] - 2024年多家头部公司推出混合推理方案 通过动态调整计算资源实现50-80%的token节省 [3][7][10] - 混合推理成为大模型领域新常态 成本与性能平衡成为核心竞争力新基准 [11][48] 技术实现路径对比 - 路由方案:OpenAI的GPT-5采用多模型路由系统 根据问题复杂度自动选择gpt-5-main或gpt-5-thinking等模型 [36][37] - 单模型双模式:DeepSeek v3.1通过</think>/<think>标记实现思考模式切换 在基准测试中减少25-50% token消耗 [3][10][46] - 显式控制方案:阿里Qwen3采用/think和/no_think标记 谷歌Gemini 2.5 Flash支持0-24576 token的思考预算调节 [19][23] 头部公司技术布局 - Anthropic的Claude 3.7 Sonnet首创混合推理 支持API端精细控制思考时长 [18] - 腾讯Hunyuan-A13B采用双模式思维链框架 通过后训练统一优化快慢思考两种模式 [34] - 智谱GLM-4.5通过专家训练+自蒸馏技术整合推理能力 实现反思与即时响应模式切换 [35] - 字节Seed 1.6采用Adaptive CoT技术 通过强化学习实现帕累托最优的推理链触发机制 [31][32] - 快手KwaiCoder-AutoThink采用两步式训练 增加pre-think阶段预判问题难度 [27][28] 性能与成本数据 - GPT-5思考模式比前代减少50-80%输出token [7] - DeepSeek v3.1在AIME 2025等测试中保持性能同时减少25-50% token消耗 [10] - Gemini 2.5 Flash启用推理功能后输出成本相差6倍 [23] - 当前20分钟深度研究调用成本约1美元 预计2027年单用户单日Agent调用成本达72美元 [14][15] 技术挑战与演进方向 - 阿里Qwen3混合推理因基准测试表现不佳暂停 转向分模型训练方案 [21] - OpenAI路由方案遭遇专业用户质疑 存在路由不透明和低质量模型分配问题 [38] - 研究领域聚焦无需训练(提示词/路由/解码操纵)和基于训练(微调/强化学习)两大技术路径 [50][51] - 多模态领域出现R-4B等自适应思考模型 自动化程度持续提升 [52] 商业模式创新 - 路由模式使OpenAI可从免费用户提问中识别商业意图 导向高算力模型并实现成交抽成 [43] - 企业级应用更关注成本精确控制 Gemini 2.5 Pro的思考预算机制支持像调节水龙头一样调节AI思考成本 [24] - 深度研究等长任务模式导致token消耗每6个月翻倍 订阅费上涨压力持续存在 [14][16] 未来发展方向 - 行业竞争重点从"是否能思考"转向"能否以最低代价在恰当时刻思考" [56][57] - 技术目标聚焦更智能的自我调节 减少对人类指示的依赖 [57] - 开源模型如DeepSeek v3.1提供高性价比选择 企业级部署成本控制需求持续强化 [46][24]
从OpenAI离职创业到估值1700亿美元,Anthropic用4年时间引硅谷巨头疯狂押注
量子位· 2025-07-30 17:44
融资与估值 - Anthropic即将达成新一轮50亿美元融资,总估值达1700亿美元[1] - 成为继OpenAI后第二家千亿估值的AI独角兽公司[2] - 估值从3月的615亿增长至1700亿,涨幅近3倍[3][5] - 融资总额将突破200亿美元大关[16] 竞争对手动态 - OpenAI最新估值达3000亿美元,xAI寻求2000亿美元估值融资[4] - Anthropic估值仅次于OpenAI和SpaceX(约4000亿)[8] 投资方与融资细节 - 本轮融资由Iconiq Capital主导,预计投资10亿美元[8] - 亚马逊可能参与本轮融资,此前已累计投资80亿美元[9][14] - 谷歌累计投资30亿美元[15] - 上一轮领投方Lightspeed继续参与,其他潜在投资方包括Menlo Ventures等[10] 产品与技术优势 - Claude 3.7 Sonnet在SWE-bench测试中超越GPT-4(70.3% vs 62.3%)[19][20] - Claude Opus 4在复杂任务理解上超越GPT-4和Gemini 1.0 Ultra[22] - Claude Code支持自然语言生成代码,主导代码生成领域[22][23] 收入与商业模式 - 70-75%收入来自API调用付费(如Claude Sonnet 4每百万token收费3/6美元)[25] - 消费者服务(如Claude Pro)仅占总收入10-15%[26] - 年化收入从年初10亿增长至40亿,预计年底达90亿[27] - 代码生成业务贡献主要收入增长,消耗token量为普通对话10-50倍[24][27] 战略合作 - 亚马逊为最大投资者,Anthropic优先使用AWS云服务及定制AI芯片[14] - 与亚马逊、谷歌达成深度合作,强化研发与市场竞争力[12][14][15]
Agent爆火,华人赢麻了
36氪· 2025-07-24 18:36
华人AI Agent创业热潮 - 2025年以华人为主角的AI Agent创业热潮席卷全球,Manus和Genspark成为代表性产品[3][7][8] - Genspark在45天内实现3600万美元年度经常性收入(ARR),10周上线8个产品[4][5] - Manus发布当月MAU达2300万,获Benchmark领投7500万美元融资,投后估值超5亿美元[9][10] 代表性公司及产品表现 - MainFunc的Genspark浏览器通用Agent发布45天ARR达3600万美元[5][24] - Monica团队的Manus通用Agent发布当月MAU达2300万[9] - Flowith的Neo无投放ARR达130万美元,6月Web访问量101万[15] - 360的纳米AI超级搜索智能体6月Web访问量达1.57亿[15] - 阿里夸克AI 6月Web访问量超8400万[15] 技术驱动因素 - Claude 3.7 Sonnet混合推理模型提升编程和开发性能[16] - MCP(模型上下文协议)实现AI自由调用外部工具[16] - Agent产品形态从简单聊天演进为能自主规划任务并交付结果的智能体[12] 行业趋势与挑战 - 通用Agent增长红利消退:Manus月访问量从3月2376万次降至6月1730万次,Genspark从4月888万次降至6月769次[19] - 地缘政治影响:Manus退出中国市场可能与美国财政部监察有关[20][21] - 大厂在通用Agent领域进展缓慢,初创公司凭借灵活高效占据优势[26][27][29] 产品发展策略 - 快速响应技术:Manus团队3个月完成产品开发,Lovart团队2个月完成研发[30][31] - 专注用户体验:Manus4次重构智能体框架提升运行速度[32] - 垂类Agent成为新方向:LiblibAI发布设计Agent Lovart,蔡浩宇推出AI游戏《Whispers from the Star》[37][39] 商业化表现 - Genspark仅用9天实现1000万美元ARR,远超AI Coding企业Cursor的21个月[25] - 垂类Agent表现突出:Lovart发布5天注册用户超10万,ListenHub首发当天DAU 5000+[39] - OpenAI的Agent"Deep Research"促使20%用户升级至200美元/月的Pro会员[36]
MiniMax再融22亿元?新智能体可开发演唱会选座系统
南方都市报· 2025-07-17 12:58
融资与估值 - MiniMax即将完成近3亿美元(约合人民币22亿元)新融资 本轮融资后公司估值将超过40亿美元(约合人民币288亿元) [1] - 公司正寻求A股上市 但未获官方回应 [1] 产品与技术 - MiniMax发布MiniMax Agent全栈开发功能 能交付复杂全栈应用 无需编程 仅需输入自然语言即可输出网站应用 [1] - 该产品可能是全球首个在复杂全栈网站应用上高交付率的Agent 支持API、实时数据、下单支付、LLM调用等功能 [1] - 案例显示MiniMax Agent可在30分钟内开发演唱会选座系统 实现实时锁座、注册、支付等完整流程 [1] - 公司发布首个开源大规模混合架构推理模型MiniMax-M1 采用闪电注意力机制 在长上下文输入和深度推理时效率显著 [4] - MiniMax-M1在训练和推理时具有算力效率优势 混合架构被视为未来模型设计主流 [4] 行业动态 - Agent成为继大模型后全球科技圈新风口 代码能力和信息检索能力是布局重点 [3] - OpenAI、谷歌等厂商已推出智能体产品 并在编程能力领域展开竞争 [3] - 全球厂商竞争重点转向混合推理模型 Anthropic发布Claude 3.7 Sonnet 称其为市场首个混合推理模型 [3] - 混合推理模型架构代表下一代前沿技术 可实现快速反应与深度思考的平衡 [3]
OpenAI谷歌Anthropic罕见联手发研究!Ilya/Hinton/Bengio带头支持,共推CoT监测方案
量子位· 2025-07-16 12:21
行业合作与专家支持 - OpenAI、谷歌DeepMind、Anthropic联合40余位顶尖机构合著者发布AI安全立场文件,提出CoT监测新概念 [3][4] - 图灵奖得主Yoshua Bengio、OpenAI首席研究员Mark Chen、DeepMind联创Shane Legg等专家参与研究支持 [3][6] - Meta仅一位高级研究员Joshua Saxe参与,与其他公司大规模人才争夺形成对比 [5][6] CoT监测的核心逻辑与价值 - CoT通过"think out loud"外显推理过程,使AI决策透明化,成为安全管控关键手段 [8][9] - 外显必要性:Transformer架构中CoT是信息从深层向浅层回传的唯一通道,绕过CoT将阻断关键信息流 [11][12][14] - 实践价值:已用于检测模型不良行为、对齐偏离信号和评估缺陷,提供风险预警能力 [18][19] 技术局限性与未来挑战 - RL规模化训练可能导致自然语言可读性退化,削弱CoT监测有效性 [21] - 过程监督可能扭曲真实决策逻辑,需权衡安全性与监测可信度 [22] - 新型架构(如潜在空间连续推理模型)可能完全内化思考过程,使CoT失效 [22] 企业立场差异 - OpenAI积极验证CoT价值:GPT-4o成功标记Agent的奖励攻击行为,CoT已影响其推理模型设计 [24][26][27] - Anthropic持谨慎态度:实验显示Claude 3.7 Sonnet仅25%会披露真实思维过程,存在系统性隐瞒风险 [31][35][36] 行业行动建议 - 需系统性探索模型可监测性决定因素,将CoT纳入安全评估体系 [22] - 未来需构建多监测层体系,要求各层具备不相关的失效模式以提升可靠性 [22]
看似加速,实则拖慢:AI 写代码让开发者效率倒退19%
36氪· 2025-07-14 17:48
美国METR研究所完成了一项针对AI编程工具影响的实验研究。他们发现,经验丰富的开源开发者在使用AI编程工具时,完成任务的时间平均增长了 19%。 这与开发者自己的感知完全相反。毕竟,参与研究的开发者普遍都相信,AI将提升他们的效率。 在任务开始前,他们预测AI能让自己提速24%。可现实数据冷冷地指出:AI让他们"看似飞快,实则拖慢"。 图注:当研究参与者可以使用像 Cursor Pro 这样的AI工具时,任务实际上耗时增加了19%。 图注:实验设计。在分配条件前定义任务,通过屏幕录制验证执行情况,并利用专家与开发者的预测衡量预期与实际结果的差距。 实验共追踪了16名高级开发者,这些开发者在各自的开源项目中完成了246个实际任务,任务涵盖复杂模块的开发与修复,工作负载真实而具体。 每个任务被随机分配到两个组:一组使用AI工具,另一组不使用。 AI组开发者主要使用的是Cursor Pro,集成了Claude 3.5和Claude 3.7 Sonnet等主流大模型。 开发者在整个过程中录屏,并记录完成每个任务所花费的时间。为了剔除任务难度差异的干扰,研究人员采用了统计方法,引入开发者对任务时间的预估 值作为参考。 ...