Claude Sonnet

搜索文档

36氪· 2025-06-30 16:59

近日，人工智能公司 Anthropic 进行了一项实验。他们让自家的人工智能模型Claude，在办公室里经营一家小型实体商店，目标是测试人工智能在现实经济中自主运行的能力。该实验是 Anthropic 与人工智能安全评估公司 Andon Labs 合作，他们将这个项目命名为"Project Vend"。具体操作是，采用 Claude Sonnet 3.7 运营一个位于旧金山办公室的商店。他们还给这个 AI 起了个名字，叫做 Claudius（为方便起见，小编还是叫它 AI ）。Andon Labs 公司的真人扮演供应商；Anthropic 公司的真人扮演大部分顾客。 01 实验流程该AI系统接收的第一条 prompt 主要是："你是一家自动售货机的所有者。"→"你的任务是通过采购和销售热门商品来创造利润。"→"如果你的资金余额低于0美元，你就会破产。" 也就是说，AI 拥有一个初始资金账户，以及自己的名字、电子邮箱地址、以及仓库地址。这个商店实际上是一个小型冰箱，上面放着一些篮子，还有一个用于自助结账的iPad。员工可以询问 AI 关于商品信息，或者报告遇到的问题。此外，AI 还能直接更改自 ...

Artificial Intelligence

Claude

Claude Sonnet 3.7

Artificial Intelligence

Claude

Claude Sonnet 3.7

高考出分！大模型“考生”，有望冲击“清北”！

证券时报· 2025-06-26 14:32

豆包大模型高考表现 - 豆包大模型1.6-Thinking版本在2025年山东高考测评中取得文科总分683分、理科总分648分的成绩，其中语文128分、数学147分、英语144分，物理90分、化学100分、生物76分，地理94分、历史92分、政治84分 [1][3] - 该成绩超过山东特殊类型招生控制线521分和普通类一段线441分，预估赋分后最高可超690分，排名前80位，达到冲击清华北大的水平 [1][6] - 在文科总分排名中位列第一，领先谷歌Gemini 2.5 Pro的651分；理科总分以7分之差位列第二 [5] 大模型横向对比 - 参与对比的模型包括OpenAI o3 high(文科625分/理科579分)、谷歌Gemini 2.5 Pro(文科651分/理科655分)、Anthropic Claude Sonnet 4(文科633分/理科598分)和DeepSeek R1-0528(文科631分/理科615分) [2][3] - 所有测试模型成绩均大幅超过普通类一段线，显示大模型已达到人类优秀考生水平 [2] - DeepSeek R1因缺乏多模态能力无法正常解答占比36%的图像类问题，但仍通过文本推理获得部分分数 [5] 技术突破 - 豆包1.6系列模型采用230B总参数的稀疏MoE架构，支持256K长上下文深度推理和多模态理解 [8] - 通过纯文本预训练、多模态混合持续训练和长上下文持续训练三阶段优化，在参数量不变情况下实现性能显著提升 [8] - 新增"动态思考能力"实现多模态融合思考的效果平衡，在复杂推理、竞赛级数学等测试中跻身全球前列 [8] 行业应用与市场 - 2024年中国AI大模型市场规模约294.16亿元，预计2026年突破700亿元，行业处于爆发式发展阶段 [10] - 豆包大模型已覆盖4亿终端设备，包括小米、OPPO等手机品牌，奔驰、宝马等八成主流车企，以及招商银行、华泰证券等70%系统重要性银行 [11] - 行业分析师认为AI大模型已具备算力高效利用、真实世界感知、自主学习和创作能力，正广泛渗透娱乐、电商、金融等垂直领域 [11] 评测意义 - 高考成为大模型重要测试场景，因其题目全面覆盖文理科和多模态内容，能有效反映模型泛化能力 [9] - 豆包大模型相比去年测评成绩进步显著，文科提高140.5分至683分，理科提高181.5分至648分 [10] - 评测采用山东"3+3"高考模式，开放题由重点高中教师匿名评估并经过多轮质检 [5]

大模型技术

Artificial Intelligence

豆包大模型1.6-Thinking

Anthropic的Claude Sonnet 4

DeepSeek的R1 - 0528

OpenAI的o3 high

大模型技术

Artificial Intelligence

豆包大模型1.6-Thinking

Anthropic的Claude Sonnet 4

DeepSeek的R1 - 0528

OpenAI的o3 high

高考出分！大模型“考生”，有望冲击“清北”！

证券时报· 2025-06-26 14:19

大模型高考表现 - 豆包大模型1.6-Thinking版本在2025年山东高考测评中取得文科总分683分、理科总分648分，超过特殊类型招生控制线（521分）和普通类一段线（441分），预估赋分后最高可达690分，排名前80位，达到冲击清华北大的水平 [1][6] - 在文科总分排名中，豆包1.6-Thinking以683分位列第一，领先谷歌Gemini 2.5 Pro（651分）32分；理科总分Gemini 2.5 Pro以655分排名第一，豆包以648分位列第二 [6] - 基础学科表现优异：豆包语文128分、数学141分、英语144分，与其他主流模型（如Gemini数学140分、英语141分）差距较小，显示基础能力趋近人类优秀考生水平 [3][6] 多模态能力对比 - 山东高考试卷中图像类问题占比36%（378分），豆包凭借多模态能力优势显著，而DeepSeek R1因缺乏多模态支持无法正常解答图像题 [6] - 副科赋分优势明显：豆包物理90分、化学100分、地理94分，资深教师预估其赋分后成绩可提升至690分以上，尤其在化学等难度较高科目表现突出 [1][6] 技术迭代与行业应用 - 豆包1.6系列模型技术突破：采用230B总参数稀疏MoE架构，支持256K长上下文推理，新增动态思考能力和多模态融合，在复杂推理、数学竞赛等测试中跻身全球前列 [8] - 大模型产业价值显现：2024年中国AI大模型市场规模294.16亿元，预计2026年突破700亿元，豆包已覆盖4亿终端设备，渗透汽车、金融等八大行业，包括80%主流车企和70%系统重要性银行 [11][12] 高考作为AI评测场景 - 高考成为大模型核心竞技场：题目覆盖文理科全领域及多模态理解，能有效测试模型泛化能力，同时具备社会关注度，推动厂商积极参与测评 [10] - 豆包成绩年增幅显著：相比2024年测评，文科总分提升140.5分（542.5→683），理科提升181.5分（466.5→648），反映技术迭代速度 [11]

大模型

多模态能力

Artificial Intelligence

Artificial Intelligence

豆包大模型

o3 high

Gemini 2.5 Pro

AI编码工具双雄也开始商业互捧了？Cursor × Claude 最新对谈：两年后，几乎100%代码都将由AI生成！

AI前线· 2025-06-21 11:38

公司发展里程碑 - 成立不到两年即实现年经常性收入1亿美元，达到大多数SaaS公司需十年才能完成的里程碑 [1] - 公司成立一年半总融资达95亿美元，四位创始人年龄均为25岁 [5] - 4个月内ARR从1亿增至3亿美元，团队规模不足50人 [5] - 每日编写代码量达10亿行，工程师人均处理2万笔交易/秒 [3][7] 产品技术突破 - 通过Claude 3.5 Sonnet实现跨文件编辑能力跃升，推动产品大规模普及 [15][16] - 后台Agent功能支持异步任务处理，可完成90%工作后由开发者完善剩余部分 [23] - 采用"用Cursor构建Cursor"的递归开发模式，通过内部使用驱动产品迭代 [20][21] - 代码生成工具在用户中渗透率超90%，Tab功能完成70%手动编码内容 [39] 行业范式变革 - 开发者效率提升10倍，正在重构软件开发范式 [12] - 代码编写将遵循"AI生成+人类审核"模式，预计2027年AI参与度近100% [38][39] - 软件验证成为下一瓶颈，需解决代码审查与隐性知识获取难题 [24][27] - 代码结构趋向扁平化，API设计显性适配模型处理需求 [32] 核心竞争优势 - 专注开发者生产力工具赛道，拒绝盲目扩张保持小团队高效运作 [6] - 获得OpenAI领投的800万美元种子轮融资，形成战略联盟 [6] - 产品技术深度整合Claude系列模型，持续优化代理编码能力 [34][35] - 通过严格限制团队规模（<50人）维持极高人均产出效率 [5][7] 未来发展方向 - 重点突破大型代码库理解能力，解决数百万文件级别的复杂场景 [27][28] - 探索软件自适应进化，实现系统根据用户交互实时调整功能 [41] - 深化非技术因素整合，如销售端需求与代码决策的关联 [30] - 持续优化模型在工具链集成、环境迁移等方面的工程实践 [26]

Anthropic 详述如何构建多智能体研究系统：最适合 3 类场景

投资实习所· 2025-06-16 19:51

多智能体系统核心观点 - 多智能体系统最适合三类场景：高价值并行任务、超出单上下文窗口的信息处理、需要操作多个复杂工具的情况 [1][5] - 多智能体系统通过并行工作实现高效信息压缩，子智能体同步探索问题不同侧面后浓缩关键信息传递给主智能体 [3] - 内部测试显示多智能体系统在广度优先查询中表现突出，Claude Opus 4为主智能体的系统比单智能体版本性能提升90.2% [4] - 多智能体系统通过合理分配计算资源解决问题，token用量单独解释80%的性能差异 [4] - 实际运行中多智能体系统消耗token量是普通聊天的15倍，需匹配任务价值与性能提升 [5] 多智能体系统优势 - 研究工作具有不可预测性，AI Agent能根据进展灵活调整方向，传统线性处理无法胜任 [3] - 信息检索的核心在于从海量数据中提炼洞察，子智能体通过并行工作实现高效压缩 [3] - 当智能水平达到阈值后，多智能体系统成为扩展能力的必由之路，智能体群体能实现远超个体的成就 [3] - 最新Claude模型显著提升token使用效率，Claude Sonnet 4的性能增益超过在Claude Sonnet 3.7上双倍token预算的效果 [4] 研究架构设计 - 系统采用协调器-工作者模式，首席智能体协调流程并委托给并行操作的专门子智能体 [6] - 与传统RAG静态检索不同，采用多步骤动态搜索：持续发现信息、适应新发现、分析结果形成高质量答案 [8] - 主智能体规划方法后将方案存入Memory，创建承担具体研究任务的子智能体独立执行网络搜索 [11] - 主智能体综合结果决定是否深化研究，必要时创建新子智能体或调整策略 [11] - 信息收集完成后传递给CitationAgent处理文档和研究报告，确保每个主张都有准确引用来源 [11] 工程挑战与解决方案 - 早期智能体常出现创建过多子智能体、无止境搜索、过度更新互相干扰等问题 [13] - 提示策略聚焦启发式规则而非僵化条款，编码专家工作模式到提示中并设置防护栏防止失控 [13] - 构建能够从错误位置恢复的系统，利用模型智能优雅处理问题 [16] - 添加完整的生产跟踪功能诊断智能体失败原因，监控决策模式和交互结构保护用户隐私 [19] - 采用彩虹部署逐步将流量从旧版本转移到新版本，避免中断正在运行的智能体 [19] 性能优化策略 - 主智能体并行启动3-5个子智能体，子智能体并行使用3个或以上工具，将复杂查询研究时间缩短高达90% [17] - 教会协调者如何授权，明确具体目标、输出格式、工具指南和任务边界避免重复工作 [17] - 根据查询复杂度调整工作量，将工作量分级规则嵌入提示词 [17] - 工具设计和选择至关重要，为智能体提供明确启发式方法匹配工具使用与用户意图 [17] - 先广后深策略：鼓励智能体先从简短宽泛查询开始，评估可用内容后逐步缩小范围 [17] 评估方法 - 传统评估假设系统遵循固定路径，多智能体可能通过不同有效路径达成目标 [14] - 需要灵活评估方法判断结果正确性及过程合理性，而非检查是否遵循预先规定步骤 [14] - 采用LLM评估器按标准打分（事实准确性、引用准确性等），与人类判断最一致 [18] - 人工评估补缺发现自动化评估遗漏的边缘情况，如非常规查询的幻觉答案等 [18] - 对修改持久状态的智能体进行最终状态评估而非逐轮分析 [22] 应用场景与价值 - 前五类用途包括：跨专业领域开发软件系统（10%）、专业技术内容开发优化（8%）、业务增长与营收战略制定（8%）等 [21] - 用户反馈帮助找到未曾考虑的商业机会，解决复杂医疗保健方案，节省数天工作时间 [20] - 通过精心工程设计、全面测试、注重细节的提示和工具设计实现大规模可靠运行 [20]

多智能体系统

AI Agent

Artificial Intelligence

Artificial Intelligence

Claude

Claude Opus 4

Claude Sonnet 4

多智能体在「燃烧」Token！Anthropic公开发现的一切

机器之心· 2025-06-14 12:12

多智能体系统概述 - 多智能体系统特别适合解决开放式研究问题，这类问题需要动态调整方法和路径[6] - 研究本质是信息压缩，子智能体通过并行处理不同方面信息辅助主智能体完成压缩过程[7] - 多智能体系统在"广度优先"查询任务中表现突出，比单智能体系统性能提升90.2%[8] 系统架构设计 - 采用"协调者-执行者"模式，主导智能体协调多个并行子智能体[14] - 用户查询先由主导智能体分析并生成子智能体，从不同角度并行探索[18] - 与传统RAG方法不同，采用动态搜索流程根据中间结果调整方向[20] - 主导智能体LeadResearcher负责持久化研究计划和综合分析子智能体反馈[21][22][23] 性能优化关键 - token消耗量单独解释80%性能差异，工具调用次数和模型选择是另两个关键因素[15] - 并行调用工具使研究时间缩短90%，从几小时降至几分钟[41] - 提示词工程是优化行为主要手段，需建立准确心理模型[27] - Claude 4系列在提示词工程表现出色，能自我诊断失败原因并提出改进[32] 评估方法 - 采用"LLM担任评审官"方法，通过0.0-1.0评分评估输出质量[49][51] - 评估维度包括事实准确性、引用准确性、完整性等五个方面[58] - 早期开发阶段小样本评估即可发现显著影响[46] - 人工评估能发现自动化评估遗漏的边缘案例问题[54] 工程挑战 - 智能体有状态特性使错误会累积，需构建从错误状态恢复的系统[56] - 部署采用彩虹部署策略，逐步转移流量避免干扰运行中智能体[59] - 同步执行造成瓶颈，异步执行可提高并行性但增加协调复杂度[59] - 原型与生产环境差距较大，需要大量工程投入实现稳定运行[61]

多智能体系统

提示词工程

Artificial Intelligence

Artificial Intelligence

Claude AI

Claude Opus 4

Claude Sonnet 4

Anthropic是如何构建多智能体系统的？ | Jinqiu Select

锦秋集· 2025-06-14 11:58

多智能体系统性能提升 - 以Claude Opus 4为主智能体、Claude Sonnet 4为子智能体的多智能体系统比单独使用Claude Opus 4性能提升90.2% [1][9] - 多智能体系统使用的token是普通聊天的15倍 [1][10] - 通过两层并行化（主智能体同时启动3-5个子智能体，每个子智能体并行使用3个以上工具）使复杂查询研究时间缩短90% [26][27] 系统架构设计 - 采用编排器-工作器模式：主智能体分析需求并制定策略，创建多个子智能体并行探索不同维度信息 [12][15] - 每个子智能体拥有独立上下文窗口，可同时处理不同搜索任务，最后汇总给主智能体 [1][8] - 相比传统检索增强生成(RAG)方法，采用多步动态搜索能灵活调整策略并深入分析 [15] 提示工程原则 - 资源分配需明确规则：简单查询1个智能体执行3-10次工具调用，复杂研究需10个以上子智能体 [2][22] - 工具设计是关键：优先使用专门工具而非通用工具，每个工具需有独特明确用途 [22][23] - 采用先广后精搜索策略：从简短宽泛查询开始，逐步聚焦细节 [23][27] 评估方法创新 - 使用LLM作为评判者，从事实准确性、引用准确性、完整性等维度评分 [30][31] - 从小规模测试开始：20个代表真实使用场景的查询即可验证改动效果 [29] - 人工评估发现自动化遗漏问题，如信息源选择偏差 [32] 生产环境挑战 - 采用彩虹部署策略逐步迁移流量，避免中断运行中的智能体 [34][35] - 同步执行造成瓶颈：主智能体需等待每批子智能体完成才能继续 [35][36] - 错误处理需结合AI智能体适应能力与确定性保障（重试逻辑和定期检查点） [33][34] 应用场景分布 - 主要使用场景：开发跨专业领域软件系统(10%)、优化专业技术内容(8%)、制定业务增长策略(8%)、学术研究(7%)、验证组织信息(5%) [3][39]

AI智能体应用

多智能体系统

Artificial Intelligence

Artificial Intelligence

Claude

Claude Opus 4

Claude Sonnet 4

南凌科技(300921) - 2025年6月4日投资者关系活动记录表附件

2025-06-06 17:08

曾担任朗讯科技贝尔实验室研究员，思科系统全球研发总监，思科系统中国区副总裁 CONTENTS 目录 01 02 GenAI现状和思考 GenAI探索和实践 GenAI现状和思考 01 2024年中国人工智能技术成熟度曲线 › ‹ GenAI热度：GoogleTrends – large language model › ‹ ★ OpenAI chatGPT 2022/11/30 发布 5天注册人数100W，2个月月活人数1亿 GenAI热度：GoogleTrends – AI agent › ‹ ★ OpenAI operator 2025/01/24 发布 ★ Manus 2025/03/06 发布 Gartner 2025 中国企业实现人工智能（AI）价值的重要预测 › ‹ • 到2027年，中国80%的企业将使用多模型生成式人工智能策略来实现多样化的模型功能、满足本地部署要求并获得成本效益 • 到2028年，中国企业对人工智能就绪型数据（特别是非结构化数据）的投资将达到2024年的20倍。 • 到2029年，中国60%的企业将把AI融入其主要产品和服务中，并且这些AI功能将成为收入增长的主要驱动力 ...

虎嗅· 2025-05-31 17:01

公司动态 - 特拉华州总检察长计划聘请投资银行审查OpenAI的重组计划 [1] - OpenAI收购苹果前首席设计官Jony Ive创立的AI硬件公司io [3] - OpenAI计划在韩国首尔设立办事处并启动人才招聘 ChatGPT在韩国周活跃用户增长4.5倍韩国成为仅次于美国的付费订阅用户最多国家 [3] - OpenAI已在东京、新加坡、巴黎、布鲁塞尔、伦敦、都柏林等城市设立办公室首尔办公室将是全球第11个主要城市办公室 [4] 行业竞争 - OpenAI竞对Anthropic年化营收约30亿美元近期发布Claude Opus 4和Claude Sonnet 4模型在编程、工具使用等领域基准测试超越OpenAI o3模型 [4] - Claude Opus 4在Agentic coding SWE-bench测试中达到72.5%/79.4% Claude Sonnet 4达到72.7%/80.2% [6] - Claude Opus 4在Graduate-level reasoning测试中达到79.6%/83.3% Claude Sonnet 4达到75.4%/83.8% [7] - DeepSeek R1模型升级后在Live CodeBench平台性能接近OpenAI o3高版本 [9] - Meta宣布"Llama for Startups"计划鼓励初创企业采用Llama AI模型 Meta AI月活用户突破10亿 [9][10] 战略挑战 - OpenAI同时推进硬件产品开发和全球市场扩张面临内部转型不稳定和战略投资压力 [4] - 竞争对手模型性能快速提升 OpenAI在模型方面的优势正在缩小 [9] - GPT-5迟迟未发布引发对公司能否兼顾战略布局与技术研发的质疑 [11]

Artificial Intelligence

Artificial Intelligence

四大顶尖模型对决！6000 字测评带你看Deepseek R1有多强

歸藏的AI工具箱· 2025-05-29 22:54

昨天 Deepseek-R1 0528 正式开源。在 LiveCodeBench 上，它的表现几乎与 OpenAI 的 o3 (high) 相当；在 Aider 的多语言基准测试中，与 Cla ude Opus 不相上下。在官网上线的时候藏师傅快速测试了一下前端能力，发现强的离谱，于是就想整个大活。 Deepseek-R1-0528 在前端能力上稍逊于 Opus4，彻底超过了 Sonnet 4 以及 Gemini 2.5 Pro。基本上 Opus 可以完成的任务 R1 都能完成，，甚至 Opus 4 不能完成的 R1 也可以完成，只是完成度和结果质量上稍微差一些。考虑到 R1 跟这三者的价格差异，这个成绩已经非常邪门了，tmd 无法想象 R2 的质量。这个测试真的是又费钱又费人，直接把 POE 额度 Claude 额度还有API 都烧没了，希望各位可以给点个赞或者喜欢，我们开始看案例。测试 1：仓库管理系统先来一个昨天跑的比较复杂的效果，我会让这四个模型分别生成一个完整的仓库管理系统，支持商品管理、商品的出库、入库、还有对应的看板。提示词：请帮我创建一个完整的网页版商品管理工具，具体要 ...