Claude Sonnet 4

搜索文档
从OpenAI离职创业到估值1700亿美元,Anthropic用4年时间引硅谷巨头疯狂押注
量子位· 2025-07-30 17:44
要知道,3月份时Anthropic的估值才615亿……不到半年时间,估值直接涨到将近 3倍 。 恐怖如斯的增长,这一波压力直接给到 OpenAI 和 xAI 。 据悉这两家公司今年都各自为数据中心和人才储备筹集了数十亿美元资金,OpenAI最新估值也到了 3000亿美元 ,马斯克最近也在为xAI寻 求融资,目标是 2000亿美元 估值。 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 最新消息,Claude背后公司 Anthropic 即将达成新一轮融资50亿美元,总估值来到 1700亿 。 这也是继OpenAI后,第二家达成千亿估值的AI独角兽公司。 不到半年,估值暴涨近3倍 距离Anthropic上一轮融资 还不到半年 。 今年3月,Anthropic获得了由Lightspeed Venture Partners领投的 35亿美元 融资,此外还有Bessemer Venture Partners、Cisco Investments等一众新老投资方参与。 公司融资总额达到惊人的182亿美元,总估值更是飙升至615亿。 半年后的今天,Anthropic的新一轮融资增长更是吓人: 总融资额约 50亿美元 ...
双“雷”暴击!Trae 被曝资源黑洞、Claude背刺超级付费党,开发者们被“刀”惨了
AI前线· 2025-07-29 14:33
整理 | 褚杏娟、核子可乐 主打"自动化执行、多模型调用、上下文记忆"的 AI 编程应用大热,但运行卡顿、资源消耗惊人、推 理成本过高等问题也随之而来。 近日,Trae 被曝过度消耗资源,同时 Anthropic 宣布 Claude Code 对付费用户增加每周调用限制。 无论是产品侧的性能困境,还是是平台侧的成本管控,两者都指向了同一个事实:AI 产品的资源问 题,不单是厂商的困扰,也时刻影响着每个用户。 Trae 被曝过度消耗资源 开发者"s3gFault"和"obxyz"在为个人项目评估开发环境时,对 Visual Studio Code、Cursor 和 Trae (字节的 VSCode 分支),这三款流行的 IDE 进行了对比分析,初步测试结果显示三者的资源消耗 存在巨大差异: | IDE | Process Count | Memory Usage | Performance Impact | Project Size | | --- | --- | --- | --- | --- | | VS Code | g | ~0.9 GB | Baseline | 107 Files Rust + TS ...
AI模型持续突破,股掌柜证券咨询前瞻科技主线投资机遇
中国产业经济信息网· 2025-07-16 20:10
人工智能技术突破 - 美国大模型独角兽Anthropic发布新一代Claude Opus 4与Claude Sonnet 4,其中Opus 4被誉为"世界上最好的编程模型",在智能体任务中表现稳定高效 [1] - 谷歌在I/O开发者大会推出AI影视制作平台"Flow",整合Veo、Imagen和Gemini三大模型,实现音画同步、剧本生成、角色对话等复杂自动化内容创作 [1] - 昆仑万维正式上线Skywork Super Agents App,标志着中国AI智能体技术加速走向全球用户 [1] 产业链价值重估 - 以AI大模型为代表的前沿技术将成为未来几年资本市场核心焦点,产业链从算力基础设施到应用落地环节均处于持续景气与技术渗透加速的双重推动下 [1] - 在中美科技竞合格局深化、政策支持加码背景下,具有核心技术能力与产业整合优势的本土企业有望在多模态模型、AI Agent、智能终端等关键场景实现快速突破 [1] 投资配置策略 - 股掌柜证券构建AI产业链前瞻性配置图谱,覆盖算法支持、应用生态、智能终端到算力基础设施,帮助投资者精准识别受益环节 [2] - 研究团队建议关注AI大模型技术突破与商业化进程领先的企业,以及有望率先实现产品变现的重点应用场景 [2] - AI大模型在"可用性"与"创造力"层面同步跃升,带动投资逻辑从底层推理走向场景落地 [2]
Kimi K2 详测|超强代码和Agent 能力!内附Claude Code邪修教程
歸藏的AI工具箱· 2025-07-12 02:16
昨晚试了一下在 前端能力上非常强,基本上在一流梯队,我感觉接近 Claude Sonnet 3.7 和 4 之间 ,测试 的几个提示词效果都不错。 最重要的是有人hack了一个用法, 可以替换掉 Claude Code 的默认模型,用 K2 驱动 Claude Code ,再也 不用担心封号,搭配他输出百万 Token 16 元的超划算价格,我直接爽用! 咱们先看测试结果,后面我会附上如何在 Claude Code 中使用 K2 的保姆级教程。 K 2 前端能力测试 我们循序渐进,先来藏师傅的经典提示词,这次加上了 PPT 逻辑,让整个页面支持类似 PPT 的翻页,每一 页的高度固定带来了一些挑战。 大家好,我是歸藏(guizang),熬夜给大家带来 Kimi K2 模型和提升K2模型的CC+K2邪修教程。 今晚 Kimi 终于放出了自己憋了半年的大招,拥有 1T 参数量的 MoE 模型 K2。 基准测试中取得开源模型 SOTA成绩, 尤其在代码、Agent、数学推理任务上表现突出 。 而且模型居然还是开源的,预训练模型和指令微调模型全部开源,可以在 Kimi( kimi.com )快速尝试。 不是很多朋友想 ...
高考出分!大模型“考生”,有望冲击“清北”!
证券时报· 2025-06-26 14:19
大模型高考表现 - 豆包大模型1.6-Thinking版本在2025年山东高考测评中取得文科总分683分、理科总分648分,超过特殊类型招生控制线(521分)和普通类一段线(441分),预估赋分后最高可达690分,排名前80位,达到冲击清华北大的水平 [1][6] - 在文科总分排名中,豆包1.6-Thinking以683分位列第一,领先谷歌Gemini 2.5 Pro(651分)32分;理科总分Gemini 2.5 Pro以655分排名第一,豆包以648分位列第二 [6] - 基础学科表现优异:豆包语文128分、数学141分、英语144分,与其他主流模型(如Gemini数学140分、英语141分)差距较小,显示基础能力趋近人类优秀考生水平 [3][6] 多模态能力对比 - 山东高考试卷中图像类问题占比36%(378分),豆包凭借多模态能力优势显著,而DeepSeek R1因缺乏多模态支持无法正常解答图像题 [6] - 副科赋分优势明显:豆包物理90分、化学100分、地理94分,资深教师预估其赋分后成绩可提升至690分以上,尤其在化学等难度较高科目表现突出 [1][6] 技术迭代与行业应用 - 豆包1.6系列模型技术突破:采用230B总参数稀疏MoE架构,支持256K长上下文推理,新增动态思考能力和多模态融合,在复杂推理、数学竞赛等测试中跻身全球前列 [8] - 大模型产业价值显现:2024年中国AI大模型市场规模294.16亿元,预计2026年突破700亿元,豆包已覆盖4亿终端设备,渗透汽车、金融等八大行业,包括80%主流车企和70%系统重要性银行 [11][12] 高考作为AI评测场景 - 高考成为大模型核心竞技场:题目覆盖文理科全领域及多模态理解,能有效测试模型泛化能力,同时具备社会关注度,推动厂商积极参与测评 [10] - 豆包成绩年增幅显著:相比2024年测评,文科总分提升140.5分(542.5→683),理科提升181.5分(466.5→648),反映技术迭代速度 [11]
AI编码工具双雄也开始商业互捧了?Cursor × Claude 最新对谈:两年后,几乎100%代码都将由AI生成!
AI前线· 2025-06-21 11:38
公司发展里程碑 - 成立不到两年即实现年经常性收入1亿美元,达到大多数SaaS公司需十年才能完成的里程碑 [1] - 公司成立一年半总融资达95亿美元,四位创始人年龄均为25岁 [5] - 4个月内ARR从1亿增至3亿美元,团队规模不足50人 [5] - 每日编写代码量达10亿行,工程师人均处理2万笔交易/秒 [3][7] 产品技术突破 - 通过Claude 3.5 Sonnet实现跨文件编辑能力跃升,推动产品大规模普及 [15][16] - 后台Agent功能支持异步任务处理,可完成90%工作后由开发者完善剩余部分 [23] - 采用"用Cursor构建Cursor"的递归开发模式,通过内部使用驱动产品迭代 [20][21] - 代码生成工具在用户中渗透率超90%,Tab功能完成70%手动编码内容 [39] 行业范式变革 - 开发者效率提升10倍,正在重构软件开发范式 [12] - 代码编写将遵循"AI生成+人类审核"模式,预计2027年AI参与度近100% [38][39] - 软件验证成为下一瓶颈,需解决代码审查与隐性知识获取难题 [24][27] - 代码结构趋向扁平化,API设计显性适配模型处理需求 [32] 核心竞争优势 - 专注开发者生产力工具赛道,拒绝盲目扩张保持小团队高效运作 [6] - 获得OpenAI领投的800万美元种子轮融资,形成战略联盟 [6] - 产品技术深度整合Claude系列模型,持续优化代理编码能力 [34][35] - 通过严格限制团队规模(<50人)维持极高人均产出效率 [5][7] 未来发展方向 - 重点突破大型代码库理解能力,解决数百万文件级别的复杂场景 [27][28] - 探索软件自适应进化,实现系统根据用户交互实时调整功能 [41] - 深化非技术因素整合,如销售端需求与代码决策的关联 [30] - 持续优化模型在工具链集成、环境迁移等方面的工程实践 [26]
Anthropic 详述如何构建多智能体研究系统:最适合 3 类场景
投资实习所· 2025-06-16 19:51
多智能体系统核心观点 - 多智能体系统最适合三类场景:高价值并行任务、超出单上下文窗口的信息处理、需要操作多个复杂工具的情况 [1][5] - 多智能体系统通过并行工作实现高效信息压缩,子智能体同步探索问题不同侧面后浓缩关键信息传递给主智能体 [3] - 内部测试显示多智能体系统在广度优先查询中表现突出,Claude Opus 4为主智能体的系统比单智能体版本性能提升90.2% [4] - 多智能体系统通过合理分配计算资源解决问题,token用量单独解释80%的性能差异 [4] - 实际运行中多智能体系统消耗token量是普通聊天的15倍,需匹配任务价值与性能提升 [5] 多智能体系统优势 - 研究工作具有不可预测性,AI Agent能根据进展灵活调整方向,传统线性处理无法胜任 [3] - 信息检索的核心在于从海量数据中提炼洞察,子智能体通过并行工作实现高效压缩 [3] - 当智能水平达到阈值后,多智能体系统成为扩展能力的必由之路,智能体群体能实现远超个体的成就 [3] - 最新Claude模型显著提升token使用效率,Claude Sonnet 4的性能增益超过在Claude Sonnet 3.7上双倍token预算的效果 [4] 研究架构设计 - 系统采用协调器-工作者模式,首席智能体协调流程并委托给并行操作的专门子智能体 [6] - 与传统RAG静态检索不同,采用多步骤动态搜索:持续发现信息、适应新发现、分析结果形成高质量答案 [8] - 主智能体规划方法后将方案存入Memory,创建承担具体研究任务的子智能体独立执行网络搜索 [11] - 主智能体综合结果决定是否深化研究,必要时创建新子智能体或调整策略 [11] - 信息收集完成后传递给CitationAgent处理文档和研究报告,确保每个主张都有准确引用来源 [11] 工程挑战与解决方案 - 早期智能体常出现创建过多子智能体、无止境搜索、过度更新互相干扰等问题 [13] - 提示策略聚焦启发式规则而非僵化条款,编码专家工作模式到提示中并设置防护栏防止失控 [13] - 构建能够从错误位置恢复的系统,利用模型智能优雅处理问题 [16] - 添加完整的生产跟踪功能诊断智能体失败原因,监控决策模式和交互结构保护用户隐私 [19] - 采用彩虹部署逐步将流量从旧版本转移到新版本,避免中断正在运行的智能体 [19] 性能优化策略 - 主智能体并行启动3-5个子智能体,子智能体并行使用3个或以上工具,将复杂查询研究时间缩短高达90% [17] - 教会协调者如何授权,明确具体目标、输出格式、工具指南和任务边界避免重复工作 [17] - 根据查询复杂度调整工作量,将工作量分级规则嵌入提示词 [17] - 工具设计和选择至关重要,为智能体提供明确启发式方法匹配工具使用与用户意图 [17] - 先广后深策略:鼓励智能体先从简短宽泛查询开始,评估可用内容后逐步缩小范围 [17] 评估方法 - 传统评估假设系统遵循固定路径,多智能体可能通过不同有效路径达成目标 [14] - 需要灵活评估方法判断结果正确性及过程合理性,而非检查是否遵循预先规定步骤 [14] - 采用LLM评估器按标准打分(事实准确性、引用准确性等),与人类判断最一致 [18] - 人工评估补缺发现自动化评估遗漏的边缘情况,如非常规查询的幻觉答案等 [18] - 对修改持久状态的智能体进行最终状态评估而非逐轮分析 [22] 应用场景与价值 - 前五类用途包括:跨专业领域开发软件系统(10%)、专业技术内容开发优化(8%)、业务增长与营收战略制定(8%)等 [21] - 用户反馈帮助找到未曾考虑的商业机会,解决复杂医疗保健方案,节省数天工作时间 [20] - 通过精心工程设计、全面测试、注重细节的提示和工具设计实现大规模可靠运行 [20]
多智能体在「燃烧」Token!Anthropic公开发现的一切
机器之心· 2025-06-14 12:12
多智能体系统概述 - 多智能体系统特别适合解决开放式研究问题,这类问题需要动态调整方法和路径[6] - 研究本质是信息压缩,子智能体通过并行处理不同方面信息辅助主智能体完成压缩过程[7] - 多智能体系统在"广度优先"查询任务中表现突出,比单智能体系统性能提升90.2%[8] 系统架构设计 - 采用"协调者-执行者"模式,主导智能体协调多个并行子智能体[14] - 用户查询先由主导智能体分析并生成子智能体,从不同角度并行探索[18] - 与传统RAG方法不同,采用动态搜索流程根据中间结果调整方向[20] - 主导智能体LeadResearcher负责持久化研究计划和综合分析子智能体反馈[21][22][23] 性能优化关键 - token消耗量单独解释80%性能差异,工具调用次数和模型选择是另两个关键因素[15] - 并行调用工具使研究时间缩短90%,从几小时降至几分钟[41] - 提示词工程是优化行为主要手段,需建立准确心理模型[27] - Claude 4系列在提示词工程表现出色,能自我诊断失败原因并提出改进[32] 评估方法 - 采用"LLM担任评审官"方法,通过0.0-1.0评分评估输出质量[49][51] - 评估维度包括事实准确性、引用准确性、完整性等五个方面[58] - 早期开发阶段小样本评估即可发现显著影响[46] - 人工评估能发现自动化评估遗漏的边缘案例问题[54] 工程挑战 - 智能体有状态特性使错误会累积,需构建从错误状态恢复的系统[56] - 部署采用彩虹部署策略,逐步转移流量避免干扰运行中智能体[59] - 同步执行造成瓶颈,异步执行可提高并行性但增加协调复杂度[59] - 原型与生产环境差距较大,需要大量工程投入实现稳定运行[61]
Anthropic是如何构建多智能体系统的? | Jinqiu Select
锦秋集· 2025-06-14 11:58
多智能体系统性能提升 - 以Claude Opus 4为主智能体、Claude Sonnet 4为子智能体的多智能体系统比单独使用Claude Opus 4性能提升90.2% [1][9] - 多智能体系统使用的token是普通聊天的15倍 [1][10] - 通过两层并行化(主智能体同时启动3-5个子智能体,每个子智能体并行使用3个以上工具)使复杂查询研究时间缩短90% [26][27] 系统架构设计 - 采用编排器-工作器模式:主智能体分析需求并制定策略,创建多个子智能体并行探索不同维度信息 [12][15] - 每个子智能体拥有独立上下文窗口,可同时处理不同搜索任务,最后汇总给主智能体 [1][8] - 相比传统检索增强生成(RAG)方法,采用多步动态搜索能灵活调整策略并深入分析 [15] 提示工程原则 - 资源分配需明确规则:简单查询1个智能体执行3-10次工具调用,复杂研究需10个以上子智能体 [2][22] - 工具设计是关键:优先使用专门工具而非通用工具,每个工具需有独特明确用途 [22][23] - 采用先广后精搜索策略:从简短宽泛查询开始,逐步聚焦细节 [23][27] 评估方法创新 - 使用LLM作为评判者,从事实准确性、引用准确性、完整性等维度评分 [30][31] - 从小规模测试开始:20个代表真实使用场景的查询即可验证改动效果 [29] - 人工评估发现自动化遗漏问题,如信息源选择偏差 [32] 生产环境挑战 - 采用彩虹部署策略逐步迁移流量,避免中断运行中的智能体 [34][35] - 同步执行造成瓶颈:主智能体需等待每批子智能体完成才能继续 [35][36] - 错误处理需结合AI智能体适应能力与确定性保障(重试逻辑和定期检查点) [33][34] 应用场景分布 - 主要使用场景:开发跨专业领域软件系统(10%)、优化专业技术内容(8%)、制定业务增长策略(8%)、学术研究(7%)、验证组织信息(5%) [3][39]
南凌科技(300921) - 2025年6月4日投资者关系活动记录表附件
2025-06-06 17:08
GenAI现状 - 2022年11月30日OpenAI chatGPT发布,5天注册人数达100万,2个月月活人数1亿 [13] - 2025年1月24日OpenAI operator发布,3月6日Manus发布 [14] - 到2027年,中国80%的企业将使用多模型生成式人工智能策略 [16] - 到2028年,中国企业对人工智能就绪型数据的投资将达2024年的20倍 [16] - 到2029年,中国60%的企业将把AI融入主要产品和服务,AI功能成收入增长主要驱动力 [16] - 大模型推理成本大规模下降,开源大模型不断涌现且性能接近闭源大模型 [18][19] GenAI机会 产业链机会 - 算力(训练、推理)、硬件芯片/服务器、大模型(预训练、后训练/调优)、应用/智能体、平台(coze,manus)、行业应用 [22] 企业应用机会 - 改造/提升公司产品/服务/流程/商业模式,使用AI提升产品能力/客户体验、降本增效,扩展产品适用场景、开展新业务 [24] - 网安SASE架构演进,算力云边协同的算力池NovaEngine [24] GenAI实践 内部工具 - 编程助手(Cursor,Claude Sonnet 4) [26] - 智能助理(运维工单助手、产品知识库助手) [27][33] 产品核心能力提升 - SoC平台利用大模型及调优技术适配安全日志降噪场景,效率高、噪声抑制率高、误报率低 [45][46][47] GenAI新需求 SASE需求 - AI应用分布式、高性能低延迟、零信任体系和访问控制、统一安全策略管理等需要SASE,但面临AI供应链安全、数据隐私和访问权限等新挑战 [49][50] 网络安全架构需求 - 需要对AI流量性能优化、全程可控、满足细颗粒度权限控制零信任准则、强化数据安全和合规的AI原生网络安全架构 [51] 算力需求 - 云边协同的AI算力池NovaEngine [52]