Claude Code
搜索文档
国产模型性能继续迭代,成本优势持续凸显
东方证券· 2026-06-21 15:04
1)智谱今日上线并开源 GLM-5.2,在 Code Arena 评估系统中,GLM-5.2 取得全 球第二、可用模型第一的表现。 计算机行业 行业研究 | 动态跟踪 国产模型性能继续迭代,成本优势持续凸 显 核心观点 事件: 2)据 Axios 报道,微软正在考虑将中国开源模型 DeepSeek V4 的微调版本,引入 其企业 AI 工具 Copilot Cowork,作为 OpenAI 和 Anthropic 模型的低成本替代选项。 投资建议与投资标的 我们认为,Anthropic 领先模型的下架,将有利于国产领先模型公司形成替代效 应,相关标的包括智谱(02513,未评级)、MINIMAX-W(00100,未评级),另外, GLM-5.2 在 Coding 能力上的提升并开源,有利于国内 AI Coding 业务企业,相关标的 包括卓易信息(688258,买入)。 国产模型公司服务需求的增长,对算力和 Token 工厂行业带来驱动,相关公司包括 润建股份(002929,未评级)、协创数据(300857,未评级)、海光信息(688041,买 入)、中科曙光(603019,买入)、亚康股份(301085,未 ...
花钱雇AI当同事,我的生意怎么样了?
虎嗅APP· 2026-06-21 11:13
文章核心观点 - “数字员工”(AI Agent)正从科幻概念转变为现实的工作方式,其能力在最近一两年得到显著提升,能够接管浏览器、读写文件、执行代码、调用终端,真正“动手干活”[3] - 多个行业的独立开发者、小团队、中小企业主和打工人已在实际工作中部署“数字员工”,这些数字员工无需支付工资和社保、可24小时在线,每月成本仅为一两千元人民币,显著提升了工作效率并降低了人力成本[4] - 成功应用“数字员工”的关键在于找到具体的工作场景,将个人方法论沉淀为技能(Skill),并持续积累“上下文”以训练出真正有用的智能体,而非追求一步到位的全自动化[11][12][19][34] 各行业应用案例与关键实践 法律行业应用 - 律师使用Agent工具处理法律业务,例如从数十上百页的证据和数百条合同条款中定位关键信息,并将Agent渗透到办案、研究、创作等环节[7][8] - 通过编写45个特定技能(Skill),让Agent自动完成法律新闻抓取、材料归档、格式转换、法律检索分析及文书初稿撰写等工作,将律师本职业务的工作时间压缩至20%[8][11] - 每月在AI工具订阅上花费约一千元人民币,使用的工具包括Claude Code、Codex、WorkBuddy和QodeWork[10] 跨境电商行业应用 - 一家跨境电商公司用四个数字员工(Claude、Fin、Cursor及自动化系统)替代了原有的三名员工(美工、运营、客服),将每月近五万元人民币的人力与社保成本降至约四千元人民币的AI订阅与API月费[14][17] - 数字员工分工明确:Claude负责英文文案、Fin处理客服、Cursor管理代码、自动化系统监控广告投放与数据,实现了竞品价格监控、客服响应、广告规则自动化运行等[15] - 应用过程中曾出现AI生成错误促销文案的事故,因此强调所有面向客户的内容必须经过人工审核[17] 投资行业应用 - 投资经理利用在本地电脑上运行的Agent,在夜间自动完成公司研究,包括抓取专利、分析数据库、爬取创始人公开信息等,从而节省时间、增加睡眠[22][23] - 构建多智能体系统用于初步筛选商业计划书,每周可处理三四百份BP,AI进行初筛分级后,由人工或另一Agent进行后续处理,显著提升了项目覆盖率和效率[25] - 每月AI开销平均在一千美元以内,在密集尽调时可达两千多美元,估算“数字员工”可解决80%以上的工作,而其成本占个人收入比例不到10%[26][27] 创业与软件开发 - 一名非职业程序员背景的创始人,借助ChatGPT、Cursor、Codex等AI工具,独立搭建并维护复杂的商业网站,完成了从需求构思到结果上线的全流程,极大压缩了产品开发周期[29][30] - 将AI工具按角色分工:ChatGPT作为首席顾问、Cursor作为工程师、Codex处理重复性工作、Figma负责设计,形成了高效的“数字团队”[31] - 每月在AI工具上投入约一千元人民币,并为其团队表现打分7.5分,认为其执行力强但缺乏责任感,核心决策必须由人类把控[32] 媒体与内容创作 - 记者使用AI(如Claude、Kimi、写作Agent)作为“实习生”、“编辑”和“老师”,协助完成访谈整理、稿件润色、逻辑梳理及降低学习门槛等工作[36][37][38] - 每月在AI工具上的花费在1000到1500元人民币之间,用于接入本地知识库、信息调研和写作辅助[39] - 为当前AI员工表现打7分,认为其绝对质量尚有不足,强调最有效的使用者是清楚AI边界并能将想法快速落地的人,而非单纯追求效率提升[40]
接连两位大咖出走,谷歌到底出了什么BUG?
虎嗅APP· 2026-06-20 21:51
文章核心观点 - 谷歌在AI领域,特别是在AI Agent产品上,正面临模型迭代缓慢、产品体验不佳、组织架构混乱导致的全栈优势丧失等问题,尽管其拥有强大的硬件、模型和用户入口基础 [5][17] - 行业竞争格局显示,OpenAI和Anthropic在AI Agent(如Codex和Claude Code)的产品化、商业化及用户增长上表现强劲,而谷歌的对应产品Antigravity则发展滞后 [5][40][41] 谷歌全栈优势的丧失 - 谷歌曾凭借自研TPU芯片(第七代Ironwood,一个pod提供42.5 ExaFlops算力)、统一的DeepMind研究体系以及Chrome、Android、YouTube等数十亿日活的用户入口,构建了强大的全栈优势 [9][10][11] - 文生图产品Nano Banana的成功得益于其低风险、短链路的特性,能够通过全栈快速迭代并收集用户反馈,从而在作图能力上超越GPT-4o [13][14][15] - 然而,在需要跨模型、权限、执行环境和承担长期责任的AI Agent产品上,谷歌的全栈能力出现协调问题,优势无法复刻 [15][16] 组织架构混乱导致产品线重叠与低效 - 谷歌内部至少有Google DeepMind、Google Labs、Google Cloud等多个互不统属的组织负责AI Agent相关能力,各自有不同的KPI和汇报线,导致资源分散 [21][23][25][26] - 这造成了产品线混乱:多个功能重叠的AI编程工具(如Gemini CLI、Jules、Code Assist、Firebase Studio、Antigravity)由不同团队开发,拥有不同品牌、入口和收费模式,甚至存在互相替代的情况 [18][19][20] - 缺乏统一的产品负责制,例如Antigravity由Google DeepMind孵化、Google Labs维护,又需接入Google Cloud体系,最终导致无人对其长期成功负责 [26][27][29] 评测导向与任务交付能力的脱节 - 谷歌的叙事过度依赖模型在受控环境下的基准测试(benchmark)分数,但行业已更看重模型在真实、长链条任务中的交付能力 [30][39] - 真实任务(如修复复杂bug)涉及多个步骤和外部工具调用,即使单步正确率达95%,连续20步全部成功的概率也仅约36% [34][35] - AI Agent产品的核心护城河在于错误恢复、状态保存、权限确认等可靠机制,而谷歌的Antigravity 2.0缺乏此类完整机制 [36][38] 行业竞争与商业化差距 - 竞争对手产品增长迅速:OpenAI的Codex桌面App上线首周下载量超100万,两个月后周活用户达400万;Anthropic的Claude Code在2026年2月暗示其年化收入已突破20亿美元 [40] - 商业化模式落后:Claude Code和Codex均有清晰的企业按人头付费模式,而谷歌的Antigravity 2.0发布一个多月后仍无明确企业版定价,仅通过Gemini Enterprise Agent赠送额度,未能形成有效的收费产品 [41][42]