Workflow
Claude Skills
icon
搜索文档
OpenAI、Google、Anthropic 都在做的 “Agent 工具箱” 是什么丨晚点播客
晚点LatePost· 2025-10-20 11:51
行业动态与巨头布局 - 2024年10月,OpenAI、Google、Anthropic三家主要模型公司均在Agent开发工具上推出新动作:OpenAI推出AgentKit,Google发布Gemini CLI Extensions,Anthropic推出Claude Skills [6] - Agent工具链已成为硅谷创业热点,LangChain融资1亿美元成为独角兽,ElevenLabs员工老股交易估值达66亿美元,OpenAI以11亿美元全股收购Statsig [7][24] - 过往全球开发者工具市场规模约200-300亿美元,AI可能将该市场规模推高十倍 [9] OpenAI AgentKit产品解析 - AgentKit涵盖Agent构建、部署和维护全周期,包括可视化构建工具Agent Builder、前端部署工具ChatKit以及评估优化工具New Evals [12] - Agent Builder通过拖拽式工作流构建Agent,思路与追求高度自动化的AGI终局路径相反,但更易于在企业中安全落地 [13] - ChatGPT周活跃用户达8亿,为开发者提供巨大分发红利和信任背书,有助于应用冷启动和进入大型企业采购流程 [15] - OpenAI不会放弃to B市场,其用户规模、生态竞争压力及B端数据对模型提升的重要性都支撑其持续投入企业侧 [17] Agent工具链的六次进化 - 第一次进化在2022年底ChatGPT发布后,催生LangChain等框架以管理外部数据和复杂任务编排 [26] - 第二次进化在2023年6月OpenAI官方支持function calling,以及2024年11月Anthropic发布MCP协议促进工具复用 [26] - 第三次进化在2024年5月GPT-4o推出高质量语音模式,带火实时音视频基础设施如LiveKit [27] - 第四次进化由Claude 3.5 Sonnet增强编码能力推动,产生对安全代码执行沙盒环境的需求 [27] - 第五次进化在2024年9月OpenAI发布o1 preview提升推理能力,催生强化学习微调和评估监督工具 [27] - 第六次进化是2024年10月Computer Use和Browser Use能力出现,形成完整的浏览器操作生态 [28] 关键创业方向与公司案例 - Composio作为MCP协议集成商,提供数百个高质量MCP Server,其产品Rube能根据任务自动调用正确的MCP Server [30][31] - Composio通过AI Agent自动生成和优化MCP Server代码,形成数据闭环和自进化壁垒 [34][35] - LiveKit作为实时音视频基础设施,日通话量从一年前的100万次增长至2000万次,年增20倍,服务OpenAI、Salesforce等大客户 [38][39] - 语音交互存在两种范式:级联式(语音→文本→模型→文本→语音)和端到端语音到语音,后者被认为是终局但前者在当前更可控 [40] - 记忆方案公司Letta提出"睡眠时计算"概念,为Agent提供情境、流程、知识和角色四类记忆管理 [42][43] 市场规模与投资逻辑 - AI可能将全球软件市场规模从6500亿美元推高至约10万亿美元,服务于AI Agent的工具链市场规模可能达到2000-5000亿美元 [50][51] - 百亿美元级公司的出现需具备成为行业标准、形成自进化数据闭环、卡住关键工作流节点三个维度 [53] - 具体机会领域包括智能体身份与调度(如Composio)、Agent可观测性(如Braintrust)、实时通信(如LiveKit)以及工作流集成 [52]
Gen AI for Business #79: The Diwali Edition
Medium· 2025-10-20 02:58
核心观点 - 生成式人工智能正在重塑行业、基础设施和未来工作,本周新闻涵盖了从OpenAI定制芯片、谷歌医疗突破到新治理法律和不断上升的电力成本等多个方面,展示了技术的光明面与阴影面[1] 模型发展 - 微软发布首个内部开发的文本到图像模型MAI-Image-1,声称通过创意专业人士的反馈减少了“通用”风格,生成速度比大型模型更快,在LMArena基准测试中位列前十[7] - xAI加入开发“世界模型”的竞赛,该系统通过视频/机器人数据训练,以理解物理丰富的环境,用于游戏和机器人技术,计划最早于2026年发布AI生成游戏[6] - 谷歌Gemma模型帮助发现新的潜在癌症治疗途径,系统分析了数百万分子相互作用,发现结合CK2抑制剂和低剂量干扰素可增强难以治疗肿瘤的免疫识别[11] - Anthropic发布新旗舰模型Claude Sonnet 4.5,在SWE-bench Verified上达到最先进水平,在OSWorld真实世界计算机任务上达到61.4%,声称能在复杂任务上保持专注超过30小时[15] - Anthropic推出“Claude Skills”系统,允许开发者为Claude模型构建定制能力,将其转变为模块化代理框架[15] 平台与工具更新 - 微软为Windows 11推出新AI功能,深化Copilot集成,包括唤醒词“Hey Copilot”、将Copilot Vision扩展到所有市场,以及实验性“Copilot Actions”模式,允许助手从桌面执行现实世界任务[7] - 谷歌迭代AI Studio,进行UI更新和开发者中心更新,包括Gemini/GenMedia/TTS/Live的整合Playground、新主页、实时速率限制仪表板,以及Gemini 2.5 Flash Image的“构建模式”[11] - 谷歌推出Veo 3.1和Flow的高级功能,Veo 3.1专注于现实主义、叙事控制和更严格的提示遵循,Flow扩展了编辑工具集,包括更丰富的音频集成和修改照明、阴影的控制[11] - 谷歌Meet悄悄推出“AI驱动虚拟化妆”功能,与美宝莲和欧莱雅等美容品牌合作,实时调整照明、色调和纹理[11] - 谷歌照片推出语音驱动编辑功能,用户只需描述想要的更改即可编辑图像,支持语音输入和键入提示[35] 芯片与硬件 - NVIDIA宣布DGX Spark开始发货,这款“世界上最小的AI超级计算机”在紧凑桌面单元中提供高达1 PFLOP性能,具有128 GB统一CPU-GPU一致性内存,基于Grace Blackwell (GB10)和NVLink-C2C构建[16] - Oracle确认其下一波云AI产品将由Nvidia Blackwell GPU提供支持,将捆绑优化的CUDA、TensorRT和企业微服务用于模型部署[16] - Oracle和AMD扩大合作伙伴关系,从2026年第三季度开始,OCI将提供由50,000个AMD Instinct MI450 GPU初始驱动的公开可用AI超级集群,2027年进一步扩展[16] - 微软倡导具有本地推理和辅助工作流程的“AI PC”,而苹果发布旨在设备上AI加速的M5芯片,M5提升至10核CPU和10核GPU,添加与GPU管道绑定的神经加速,声称AI任务峰值GPU性能比M4高4倍[20] 合作伙伴关系与投资 - OpenAI与Broadcom建立10千兆瓦合作伙伴关系,旨在超越竞争对手[4] - OpenAI与沃尔玛建立合作伙伴关系,让用户通过一句话购物[4] - Meta和Arm扩大合作,将Arm的Neoverse与Meta的排名/推荐引擎配对,目标是在Meta基础设施中实现性能每瓦增益[10] - NVIDIA、微软、xAI和BlackRock参与收购Aligned Data Centers的交易,价值约400亿美元,Aligned运营约50个园区,管理近5吉瓦容量,财团计划注入300亿美元初始股权,并通过债务融资扩展至1000亿美元[28] - 阿里巴巴重申3800亿元(约530亿美元)的三年AI/云支出,并继续扩展基础设施,如本周宣布的第二个迪拜数据中心[24] 行业应用与案例 - 近一半(47%)美国银行决策者表示其机构在2025年已全面推出生成式AI,高于2023年的10%,三分之二的高管同比增加AI支出[31] - MIT技术评论报道AI设计病毒已出现并正在杀死细菌,Arc研究所/斯坦福大学研究人员报告首个AI生成、实验室可行的噬菌体基因组,设计了16种感染大肠杆菌的新噬菌体[32] - BMC医学综述调查大型语言模型如何进入临床试验堆栈:方案起草、资格解析、患者匹配、招募消息、站点可行性和不良事件编码[32] - Adobe推出AI代理,包括Audience Agent寻找购买群体角色、Journey Agent协调活动和Data Insights Agent呈现趋势,旨在保护品牌声音[20] 监管与政策 - 美国政府在出口管制豁免下批准Nvidia向阿联酋经审查的项目销售先进AI芯片,该决定涵盖低于最严格性能级别的选定配置[21] - 美联储理事克里斯托弗·沃勒警告AI可能“放大金融市场波动”,如果模型驱动类似羊群的算法行为,敦促银行在交易和贷款中部署生成模型前嵌入风险控制[21] - 加州成为美国首个监管AI伴侣聊天机器人的州,要求披露非人类身份、验证用户年龄并包括心理健康支持触发器,该法律于2026年1月生效,对违规行为引入严厉处罚[22] 研究与趋势 - Gartner的新供应链战略炒作周期将生成式AI置于幻灭低谷期,许多试点项目难以生产化,而供应链网络安全处于膨胀预期峰值[26] - 搜索引擎土地比较不同AI引擎如ChatGPT、Gemini、Claude、DeepSeek和Perplexity的检索策略、实时网络使用和引用行为,强调生成引擎优化(GEO)的重要性[36] - 论文《通过早期经验的代理学习》提出模仿学习和强化学习之间的“中间地带”:在代理自身早期交互上训练,无需显式奖励信号,在八个环境中评估报告有效性和域外泛化能力提升[36] 风险与挑战 - ScienceDirect论文发现将仅250个恶意或“中毒”文档注入模型微调语料库可显著偏置其输出,改变安全过滤器或泄露秘密,实验使用Llama 3和Mistral等开放模型,显示即使标准防御下也存在漏洞[13] - 好莱坞与AI斗争加深,OpenAI和工作室在版权和同意上冲突,Sora-2允许用户将真实人物和著名角色放入AI视频,引发工作室、机构和家庭的快速反弹[27] - 分析显示电价上涨集中在大型数据中心建设附近地区,AI加速电力需求增长,Bloomberg 9月29日交互文档记录热点和本地价格峰值,DOE估计2028年数据中心需求升至美国电力约6.7-12%(2023年约4.4%)[28] - OpenAI的Sora视频模型尚未公开,但数百个“Sora”仿冒应用出现在苹果App Store,在开始下架前积累数千下载,一些应用仍通过苹果过滤器,使用近乎相同的名称、图标和描述[29]
“Claude Skills很棒,可能比 MCP 更重要”
36氪· 2025-10-17 15:56
Anthropic发布Claude Skills新功能模式 - 公司推出Claude Skills新模式,使模型能够获取新功能[1] - Skills是包含SKILLmd文件的目录,包含指令、脚本和资源,用于为代理提供附加功能[3] - 全新文档生成功能完全通过Skill实现,涵盖pdf、docx、xlsx和pptx文件格式[3] Skills技术实现与成本效益 - 会话开始时,Claude工具扫描所有可用Skill文件,从Markdown文件前置YAML读取简短说明[3] - 实现方式具有极高成本效益,每Skills仅占用几十个额外token[3] - 只有在用户请求该Skill协助解决任务时才需要加载完整详情[3] Skills实际应用案例 - slack-gif-creator skill示例用于创建专为Slack优化的GIF动图,包含尺寸约束验证器和可组合动画元件[4] - 使用slack-gif-creator skill生成GIF时,Claude会检查文件大小确保不超过2 MB限制[8] - 如果文件尺寸太大,模型会尝试进一步缩小[8] Skills与编码环境依赖 - Skills机制依赖于模型能够访问文件系统、具备导航工具以及执行命令的能力[9] - 这种向本地机器扩展的模式在Cursor、Claude Code、Codex CLI和Gemini CLI等编码智能体工具中得到应用[9] - Skills需要为模型提供安全的编码环境,考虑将运行环境沙箱化以限制潜在攻击[9] Skills与MCP协议对比 - Skills相比MCP协议具有显著优势,避免对token的大量消耗[14] - MCP的GitHub官方实现消耗巨量上下文token,影响模型实际作用空间[14] - Skills允许用Markdown文件描述任务,在需要确保可靠性或效率时引入额外脚本[14] Skills的设计优势与生态前景 - Skills设计简洁,仅包含Markdown文本、少量YAML元数据和可选脚本[17] - Skills易于共享,预计将有大量Skills以单文件形式实现,复杂Skills采用文件夹形式包含更多文件[15] - Skills可与其他模型配合使用,如Codex CLI或Gemini CLI,即使工具本身不具备系统性skill知识也能正常起效[15] Skills的潜在应用场景 - 可构建"数据新闻智能体",处理获取人口普查数据、分析结构、发布数据等任务[13][19] - 可使用Python库将不同格式数据加载进SQLite或DuckDB,在线发布为S3存储桶内的Parquet格式文件[19] - 可由数据报告skill从新数据中发现故事,另一Skill使用D3构建数据可视化结论[19]
“Claude Skills很棒,可能比 MCP 更重要”
AI前线· 2025-10-17 15:00
Claude Skills 产品概述 - Anthropic 发布 Claude Skills,这是一种让模型获取新功能的全新模式 [2] - Skill 是一个包含 SKILL.md 文件的目录,内含为代理提供附加功能的指令、脚本和资源 [4] - Claude 只会在 Skill 与当前任务相关时才会调用,使用后能更好地完成特定任务,例如使用 Excel 或遵循组织内部的品牌指南 [5] Skills 的技术实现机制 - 会话开始时,Claude 会扫描所有可用 Skill 文件,并从 Markdown 文件的前置 YAML 中读取简短说明,每 Skills 仅占用几十个额外 token,具有极高的成本效益 [6] - Skills 机制的实现依赖于模型能够访问文件系统、具备导航工具以及在该环境下执行命令的能力 [12] - Skills 将复杂部分交给大模型框架和计算机环境处理,本身更接近大模型的精髓——提供文本让模型自行解决问题 [27] Skills 的实际应用案例 - Claude 的全新文档生成功能完全通过 Skill 实现,现已被纳入 Anthropic 代码库,涵盖.pdf、.docx、xlsx 以及.pptx 文件 [4] - slack-gif-creator skill 示例可创建专为 Slack 优化的 GIF 动图,包含尺寸约束验证器,Slack GIF 的最大体积不会超过 2 MB [7][10] - 通过设置装满 Skills 的文件夹,可以构建"数据新闻智能体",实现从获取人口普查数据到发布可视化结论的全流程自动化 [16][19] Skills 与 MCP 的竞争优势 - 相比模型上下文协议(MCP),Skills 避免了 MCP 对 token 的大量消耗问题,GitHub 官方 MCP 本身就消耗了巨量上下文 token [18] - 几乎一切原本需要 MCP 实现的功能,现在都可以用 CLI 工具解决,大模型知道如何调用 cli-tool –help 并自行处理 [20] - Skills 非常易于共享,预计将有大量 Skills 以单文件形式实现,更复杂的则采取文件夹形式包含更多文件 [21] Skills 的跨模型兼容性与生态展望 - Skills 能与其他模型配合使用,例如将 Codex CLI 或 Gemini CLI 指向 Skills 文件夹,整个流程可以正常起效 [23] - 预计后续将迎来 Skills 生态的寒武纪大爆发,相比之下今年的 MCP 热潮都显得平淡无奇 [24] - Claude Code 不仅仅是一款编码工具,更是一款通用型计算机自动化工具,可视为一种通用智能体 [15]