Workflow
Claude Sonnet
icon
搜索文档
Claude 开便利亏麻了,AI 被忽悠免费送商品、打折成瘾,最后精神错乱…
36氪· 2025-06-30 16:59
近日,人工智能公司 Anthropic 进行了一项实验。 他们让自家的人工智能模型Claude,在办公室里经营一家小型实体商店,目标是测试人工智能在现实经济中自主运行的能力。 该实验是 Anthropic 与人工智能安全评估公司 Andon Labs 合作,他们将这个项目命名为"Project Vend"。 具体操作是,采用 Claude Sonnet 3.7 运营一个位于旧金山办公室的商店。 他们还给这个 AI 起了个名字,叫做 Claudius(为方便起见,小编还是叫它 AI )。Andon Labs 公司的真人扮演供应商;Anthropic 公司的真人扮演大部分 顾客。 01 实验流程 该AI系统接收的第一条 prompt 主要是:"你是一家自动售货机的所有者。"→"你的任务是通过采购和销售热门商品来创造利润。"→"如果你的资金余额低 于0美元,你就会破产。" 也就是说,AI 拥有一个初始资金账户,以及自己的名字、电子邮箱地址、以及仓库地址。 这个商店实际上是一个小型冰箱,上面放着一些篮子,还有一个用于自助结账的iPad。 员工可以询问 AI 关于商品信息,或者报告遇到的问题。此外,AI 还能直接更改自 ...
高考出分!大模型“考生”,有望冲击“清北”!
证券时报· 2025-06-26 14:32
豆包大模型高考表现 - 豆包大模型1.6-Thinking版本在2025年山东高考测评中取得文科总分683分、理科总分648分的成绩,其中语文128分、数学147分、英语144分,物理90分、化学100分、生物76分,地理94分、历史92分、政治84分 [1][3] - 该成绩超过山东特殊类型招生控制线521分和普通类一段线441分,预估赋分后最高可超690分,排名前80位,达到冲击清华北大的水平 [1][6] - 在文科总分排名中位列第一,领先谷歌Gemini 2.5 Pro的651分;理科总分以7分之差位列第二 [5] 大模型横向对比 - 参与对比的模型包括OpenAI o3 high(文科625分/理科579分)、谷歌Gemini 2.5 Pro(文科651分/理科655分)、Anthropic Claude Sonnet 4(文科633分/理科598分)和DeepSeek R1-0528(文科631分/理科615分) [2][3] - 所有测试模型成绩均大幅超过普通类一段线,显示大模型已达到人类优秀考生水平 [2] - DeepSeek R1因缺乏多模态能力无法正常解答占比36%的图像类问题,但仍通过文本推理获得部分分数 [5] 技术突破 - 豆包1.6系列模型采用230B总参数的稀疏MoE架构,支持256K长上下文深度推理和多模态理解 [8] - 通过纯文本预训练、多模态混合持续训练和长上下文持续训练三阶段优化,在参数量不变情况下实现性能显著提升 [8] - 新增"动态思考能力"实现多模态融合思考的效果平衡,在复杂推理、竞赛级数学等测试中跻身全球前列 [8] 行业应用与市场 - 2024年中国AI大模型市场规模约294.16亿元,预计2026年突破700亿元,行业处于爆发式发展阶段 [10] - 豆包大模型已覆盖4亿终端设备,包括小米、OPPO等手机品牌,奔驰、宝马等八成主流车企,以及招商银行、华泰证券等70%系统重要性银行 [11] - 行业分析师认为AI大模型已具备算力高效利用、真实世界感知、自主学习和创作能力,正广泛渗透娱乐、电商、金融等垂直领域 [11] 评测意义 - 高考成为大模型重要测试场景,因其题目全面覆盖文理科和多模态内容,能有效反映模型泛化能力 [9] - 豆包大模型相比去年测评成绩进步显著,文科提高140.5分至683分,理科提高181.5分至648分 [10] - 评测采用山东"3+3"高考模式,开放题由重点高中教师匿名评估并经过多轮质检 [5]
高考出分!大模型“考生”,有望冲击“清北”!
证券时报· 2025-06-26 14:19
大模型高考表现 - 豆包大模型1.6-Thinking版本在2025年山东高考测评中取得文科总分683分、理科总分648分,超过特殊类型招生控制线(521分)和普通类一段线(441分),预估赋分后最高可达690分,排名前80位,达到冲击清华北大的水平 [1][6] - 在文科总分排名中,豆包1.6-Thinking以683分位列第一,领先谷歌Gemini 2.5 Pro(651分)32分;理科总分Gemini 2.5 Pro以655分排名第一,豆包以648分位列第二 [6] - 基础学科表现优异:豆包语文128分、数学141分、英语144分,与其他主流模型(如Gemini数学140分、英语141分)差距较小,显示基础能力趋近人类优秀考生水平 [3][6] 多模态能力对比 - 山东高考试卷中图像类问题占比36%(378分),豆包凭借多模态能力优势显著,而DeepSeek R1因缺乏多模态支持无法正常解答图像题 [6] - 副科赋分优势明显:豆包物理90分、化学100分、地理94分,资深教师预估其赋分后成绩可提升至690分以上,尤其在化学等难度较高科目表现突出 [1][6] 技术迭代与行业应用 - 豆包1.6系列模型技术突破:采用230B总参数稀疏MoE架构,支持256K长上下文推理,新增动态思考能力和多模态融合,在复杂推理、数学竞赛等测试中跻身全球前列 [8] - 大模型产业价值显现:2024年中国AI大模型市场规模294.16亿元,预计2026年突破700亿元,豆包已覆盖4亿终端设备,渗透汽车、金融等八大行业,包括80%主流车企和70%系统重要性银行 [11][12] 高考作为AI评测场景 - 高考成为大模型核心竞技场:题目覆盖文理科全领域及多模态理解,能有效测试模型泛化能力,同时具备社会关注度,推动厂商积极参与测评 [10] - 豆包成绩年增幅显著:相比2024年测评,文科总分提升140.5分(542.5→683),理科提升181.5分(466.5→648),反映技术迭代速度 [11]
AI编码工具双雄也开始商业互捧了?Cursor × Claude 最新对谈:两年后,几乎100%代码都将由AI生成!
AI前线· 2025-06-21 11:38
公司发展里程碑 - 成立不到两年即实现年经常性收入1亿美元,达到大多数SaaS公司需十年才能完成的里程碑 [1] - 公司成立一年半总融资达95亿美元,四位创始人年龄均为25岁 [5] - 4个月内ARR从1亿增至3亿美元,团队规模不足50人 [5] - 每日编写代码量达10亿行,工程师人均处理2万笔交易/秒 [3][7] 产品技术突破 - 通过Claude 3.5 Sonnet实现跨文件编辑能力跃升,推动产品大规模普及 [15][16] - 后台Agent功能支持异步任务处理,可完成90%工作后由开发者完善剩余部分 [23] - 采用"用Cursor构建Cursor"的递归开发模式,通过内部使用驱动产品迭代 [20][21] - 代码生成工具在用户中渗透率超90%,Tab功能完成70%手动编码内容 [39] 行业范式变革 - 开发者效率提升10倍,正在重构软件开发范式 [12] - 代码编写将遵循"AI生成+人类审核"模式,预计2027年AI参与度近100% [38][39] - 软件验证成为下一瓶颈,需解决代码审查与隐性知识获取难题 [24][27] - 代码结构趋向扁平化,API设计显性适配模型处理需求 [32] 核心竞争优势 - 专注开发者生产力工具赛道,拒绝盲目扩张保持小团队高效运作 [6] - 获得OpenAI领投的800万美元种子轮融资,形成战略联盟 [6] - 产品技术深度整合Claude系列模型,持续优化代理编码能力 [34][35] - 通过严格限制团队规模(<50人)维持极高人均产出效率 [5][7] 未来发展方向 - 重点突破大型代码库理解能力,解决数百万文件级别的复杂场景 [27][28] - 探索软件自适应进化,实现系统根据用户交互实时调整功能 [41] - 深化非技术因素整合,如销售端需求与代码决策的关联 [30] - 持续优化模型在工具链集成、环境迁移等方面的工程实践 [26]
Anthropic 详述如何构建多智能体研究系统:最适合 3 类场景
投资实习所· 2025-06-16 19:51
多智能体系统核心观点 - 多智能体系统最适合三类场景:高价值并行任务、超出单上下文窗口的信息处理、需要操作多个复杂工具的情况 [1][5] - 多智能体系统通过并行工作实现高效信息压缩,子智能体同步探索问题不同侧面后浓缩关键信息传递给主智能体 [3] - 内部测试显示多智能体系统在广度优先查询中表现突出,Claude Opus 4为主智能体的系统比单智能体版本性能提升90.2% [4] - 多智能体系统通过合理分配计算资源解决问题,token用量单独解释80%的性能差异 [4] - 实际运行中多智能体系统消耗token量是普通聊天的15倍,需匹配任务价值与性能提升 [5] 多智能体系统优势 - 研究工作具有不可预测性,AI Agent能根据进展灵活调整方向,传统线性处理无法胜任 [3] - 信息检索的核心在于从海量数据中提炼洞察,子智能体通过并行工作实现高效压缩 [3] - 当智能水平达到阈值后,多智能体系统成为扩展能力的必由之路,智能体群体能实现远超个体的成就 [3] - 最新Claude模型显著提升token使用效率,Claude Sonnet 4的性能增益超过在Claude Sonnet 3.7上双倍token预算的效果 [4] 研究架构设计 - 系统采用协调器-工作者模式,首席智能体协调流程并委托给并行操作的专门子智能体 [6] - 与传统RAG静态检索不同,采用多步骤动态搜索:持续发现信息、适应新发现、分析结果形成高质量答案 [8] - 主智能体规划方法后将方案存入Memory,创建承担具体研究任务的子智能体独立执行网络搜索 [11] - 主智能体综合结果决定是否深化研究,必要时创建新子智能体或调整策略 [11] - 信息收集完成后传递给CitationAgent处理文档和研究报告,确保每个主张都有准确引用来源 [11] 工程挑战与解决方案 - 早期智能体常出现创建过多子智能体、无止境搜索、过度更新互相干扰等问题 [13] - 提示策略聚焦启发式规则而非僵化条款,编码专家工作模式到提示中并设置防护栏防止失控 [13] - 构建能够从错误位置恢复的系统,利用模型智能优雅处理问题 [16] - 添加完整的生产跟踪功能诊断智能体失败原因,监控决策模式和交互结构保护用户隐私 [19] - 采用彩虹部署逐步将流量从旧版本转移到新版本,避免中断正在运行的智能体 [19] 性能优化策略 - 主智能体并行启动3-5个子智能体,子智能体并行使用3个或以上工具,将复杂查询研究时间缩短高达90% [17] - 教会协调者如何授权,明确具体目标、输出格式、工具指南和任务边界避免重复工作 [17] - 根据查询复杂度调整工作量,将工作量分级规则嵌入提示词 [17] - 工具设计和选择至关重要,为智能体提供明确启发式方法匹配工具使用与用户意图 [17] - 先广后深策略:鼓励智能体先从简短宽泛查询开始,评估可用内容后逐步缩小范围 [17] 评估方法 - 传统评估假设系统遵循固定路径,多智能体可能通过不同有效路径达成目标 [14] - 需要灵活评估方法判断结果正确性及过程合理性,而非检查是否遵循预先规定步骤 [14] - 采用LLM评估器按标准打分(事实准确性、引用准确性等),与人类判断最一致 [18] - 人工评估补缺发现自动化评估遗漏的边缘情况,如非常规查询的幻觉答案等 [18] - 对修改持久状态的智能体进行最终状态评估而非逐轮分析 [22] 应用场景与价值 - 前五类用途包括:跨专业领域开发软件系统(10%)、专业技术内容开发优化(8%)、业务增长与营收战略制定(8%)等 [21] - 用户反馈帮助找到未曾考虑的商业机会,解决复杂医疗保健方案,节省数天工作时间 [20] - 通过精心工程设计、全面测试、注重细节的提示和工具设计实现大规模可靠运行 [20]
多智能体在「燃烧」Token!Anthropic公开发现的一切
机器之心· 2025-06-14 12:12
多智能体系统概述 - 多智能体系统特别适合解决开放式研究问题,这类问题需要动态调整方法和路径[6] - 研究本质是信息压缩,子智能体通过并行处理不同方面信息辅助主智能体完成压缩过程[7] - 多智能体系统在"广度优先"查询任务中表现突出,比单智能体系统性能提升90.2%[8] 系统架构设计 - 采用"协调者-执行者"模式,主导智能体协调多个并行子智能体[14] - 用户查询先由主导智能体分析并生成子智能体,从不同角度并行探索[18] - 与传统RAG方法不同,采用动态搜索流程根据中间结果调整方向[20] - 主导智能体LeadResearcher负责持久化研究计划和综合分析子智能体反馈[21][22][23] 性能优化关键 - token消耗量单独解释80%性能差异,工具调用次数和模型选择是另两个关键因素[15] - 并行调用工具使研究时间缩短90%,从几小时降至几分钟[41] - 提示词工程是优化行为主要手段,需建立准确心理模型[27] - Claude 4系列在提示词工程表现出色,能自我诊断失败原因并提出改进[32] 评估方法 - 采用"LLM担任评审官"方法,通过0.0-1.0评分评估输出质量[49][51] - 评估维度包括事实准确性、引用准确性、完整性等五个方面[58] - 早期开发阶段小样本评估即可发现显著影响[46] - 人工评估能发现自动化评估遗漏的边缘案例问题[54] 工程挑战 - 智能体有状态特性使错误会累积,需构建从错误状态恢复的系统[56] - 部署采用彩虹部署策略,逐步转移流量避免干扰运行中智能体[59] - 同步执行造成瓶颈,异步执行可提高并行性但增加协调复杂度[59] - 原型与生产环境差距较大,需要大量工程投入实现稳定运行[61]
Anthropic是如何构建多智能体系统的? | Jinqiu Select
锦秋集· 2025-06-14 11:58
多智能体系统性能提升 - 以Claude Opus 4为主智能体、Claude Sonnet 4为子智能体的多智能体系统比单独使用Claude Opus 4性能提升90.2% [1][9] - 多智能体系统使用的token是普通聊天的15倍 [1][10] - 通过两层并行化(主智能体同时启动3-5个子智能体,每个子智能体并行使用3个以上工具)使复杂查询研究时间缩短90% [26][27] 系统架构设计 - 采用编排器-工作器模式:主智能体分析需求并制定策略,创建多个子智能体并行探索不同维度信息 [12][15] - 每个子智能体拥有独立上下文窗口,可同时处理不同搜索任务,最后汇总给主智能体 [1][8] - 相比传统检索增强生成(RAG)方法,采用多步动态搜索能灵活调整策略并深入分析 [15] 提示工程原则 - 资源分配需明确规则:简单查询1个智能体执行3-10次工具调用,复杂研究需10个以上子智能体 [2][22] - 工具设计是关键:优先使用专门工具而非通用工具,每个工具需有独特明确用途 [22][23] - 采用先广后精搜索策略:从简短宽泛查询开始,逐步聚焦细节 [23][27] 评估方法创新 - 使用LLM作为评判者,从事实准确性、引用准确性、完整性等维度评分 [30][31] - 从小规模测试开始:20个代表真实使用场景的查询即可验证改动效果 [29] - 人工评估发现自动化遗漏问题,如信息源选择偏差 [32] 生产环境挑战 - 采用彩虹部署策略逐步迁移流量,避免中断运行中的智能体 [34][35] - 同步执行造成瓶颈:主智能体需等待每批子智能体完成才能继续 [35][36] - 错误处理需结合AI智能体适应能力与确定性保障(重试逻辑和定期检查点) [33][34] 应用场景分布 - 主要使用场景:开发跨专业领域软件系统(10%)、优化专业技术内容(8%)、制定业务增长策略(8%)、学术研究(7%)、验证组织信息(5%) [3][39]
南凌科技(300921) - 2025年6月4日投资者关系活动记录表附件
2025-06-06 17:08
曾担任朗讯科技贝尔实验室研究员,思科系统全球研发总监,思科系统中国区副总裁 CONTENTS 目录 01 02 GenAI现状和思考 GenAI探索和实践 GenAI现状和思考 01 2024年中国人工智能技术成熟度曲线 › ‹ GenAI热度:GoogleTrends – large language model › ‹ ★ OpenAI chatGPT 2022/11/30 发布 5天注册人数100W,2个月月活人数1亿 GenAI热度:GoogleTrends – AI agent › ‹ ★ OpenAI operator 2025/01/24 发布 ★ Manus 2025/03/06 发布 Gartner 2025 中国企业实现人工智能(AI)价值的重要预测 › ‹ • 到2027年,中国80%的企业将使用多模型生成式人工智能策略 来实现多样化的模型功能、满足本地部署要求并获得成本效益 • 到2028年,中国企业对人工智能就绪型数据(特别是非结构化 数据)的投资将达到2024年的20倍。 • 到2029年,中国60%的企业将把AI融入其主要产品和服务中, 并且这些AI功能将成为收入增长的主要驱动力 ...
OpenAI似乎步子迈太大了
虎嗅· 2025-05-31 17:01
公司动态 - 特拉华州总检察长计划聘请投资银行审查OpenAI的重组计划 [1] - OpenAI收购苹果前首席设计官Jony Ive创立的AI硬件公司io [3] - OpenAI计划在韩国首尔设立办事处并启动人才招聘 ChatGPT在韩国周活跃用户增长4.5倍 韩国成为仅次于美国的付费订阅用户最多国家 [3] - OpenAI已在东京、新加坡、巴黎、布鲁塞尔、伦敦、都柏林等城市设立办公室 首尔办公室将是全球第11个主要城市办公室 [4] 行业竞争 - OpenAI竞对Anthropic年化营收约30亿美元 近期发布Claude Opus 4和Claude Sonnet 4模型 在编程、工具使用等领域基准测试超越OpenAI o3模型 [4] - Claude Opus 4在Agentic coding SWE-bench测试中达到72.5%/79.4% Claude Sonnet 4达到72.7%/80.2% [6] - Claude Opus 4在Graduate-level reasoning测试中达到79.6%/83.3% Claude Sonnet 4达到75.4%/83.8% [7] - DeepSeek R1模型升级后在Live CodeBench平台性能接近OpenAI o3高版本 [9] - Meta宣布"Llama for Startups"计划 鼓励初创企业采用Llama AI模型 Meta AI月活用户突破10亿 [9][10] 战略挑战 - OpenAI同时推进硬件产品开发和全球市场扩张 面临内部转型不稳定和战略投资压力 [4] - 竞争对手模型性能快速提升 OpenAI在模型方面的优势正在缩小 [9] - GPT-5迟迟未发布 引发对公司能否兼顾战略布局与技术研发的质疑 [11]
四大顶尖模型对决!6000 字测评带你看Deepseek R1有多强
歸藏的AI工具箱· 2025-05-29 22:54
昨天 Deepseek-R1 0528 正式开源。 在 LiveCodeBench 上,它的表现几乎与 OpenAI 的 o3 (high) 相当;在 Aider 的多语言基准测试中,与 Cla ude Opus 不相上下。 在官网上线的时候藏师傅快速测试了一下前端能力,发现强的离谱,于是就想整个大活。 Deepseek-R1-0528 在前端能力上稍逊于 Opus4,彻底超过了 Sonnet 4 以及 Gemini 2.5 Pro。 基本上 Opus 可以完成的任务 R1 都能完成,,甚至 Opus 4 不能完成的 R1 也可以完成,只是完成度 和结果质量上稍微差一些。 考虑到 R1 跟这三者的价格差异,这个成绩已经非常邪门了,tmd 无法想象 R2 的质量。 这个测试真的是又费钱又费人, 直接把 POE 额度 Claude 额度还有API 都烧没了,希望各位可以给点个赞或 者喜欢,我们开始看案例。 测试 1:仓库管理系统 先来一个昨天跑的比较复杂的效果,我会让这四个模型分别生成一个完整的仓库管理系统,支持商品管理、商 品的出库、入库、还有对应的看板。 提示词:请帮我创建一个完整的网页版商品管理工具,具体要 ...