Workflow
Agent Skills
icon
搜索文档
未知机构:中信科技产业海外AI叙事或重回乐观情形重视海外算力链新一轮上涨机遇-20260202
未知机构· 2026-02-02 10:15
纪要涉及的行业或公司 * **行业**:人工智能(AI)算力产业链,特别是海外算力链,涵盖云服务、芯片、光模块、服务器等环节[1][3] * **公司**: * **云服务商(CSP)**:亚马逊云(AWS)、谷歌云、Meta[1][2][3] * **芯片与硬件**:英伟达、台积电[1][3] * **光模块与设备**:中际旭创、新易盛、长飞光纤[3] * **服务器/PCB**:工业富联、胜宏科技[3] * **模型公司**:Anthropic、Meta、Google、阿里、腾讯、Minimax[1][2][3] * **其他**:兆易创新[3] 核心观点和论据 * **核心判断:海外AI算力需求走强,产业链或迎修复** * 近期海外推理与训练算力需求同步走强,亚马逊云、谷歌云相继涨价,台积电上修资本支出(Capex)[1] * 尽管AI应用大规模商业化能见度有限,但在模型与应用密集催化下,未来3–6个月海外算力需求有望进一步上行,市场对算力“泡沫论”的担忧可能阶段性缓解[1] * 在海外模型与应用密集催化下,算力需求有望维持上行,板块情绪或阶段性修复[3] * **推理侧需求驱动:Agent应用落地** * MoltBot等新一代AI智能体(Agent)显著提升对电脑操作与复杂任务的处理能力,带来更高的推理算力消耗[1] * Anthropic持续推出Claude Code、Agent Skills等产品,拓展了Agent应用场景[1] * OpenRouter数据显示,2026年1月初以来Token调用量持续快速增长[2] * 参考上一轮Gemini模型对谷歌云的拉动效应,Anthropic及其云服务供应商有望成为推理需求上行的核心受益方[2] * **训练侧需求驱动:模型持续迭代** * 2026年第一季度(Q1)新一轮模型有望集中发布[2] * 语言模型方面,Grok-5、GPT-6等持续探索规模扩展(Scaling)[2] * 多模态方面,Veo-4等视频生成模型快速迭代,对训练算力提出更高要求[2] * 工业界与学术界对模型能力边界的持续探索,为训练算力需求提供支撑[2] * **近期财报与事件催化** * Meta财报超预期并上修了Capex指引[2] * 2月5日谷歌、2月6日亚马逊财报将验证云服务商(CSP)的Capex趋势[2] * 2月26日英伟达财报及3月中旬的GTC大会,以及3月的OFC大会,有望进一步强化全年算力投资预期[2] 其他重要内容(投资策略建议) * **建议关注三类投资机会**: 1. **云厂商**:Agent推动推理需求上行,Anthropic相关产业链核心受益,推荐亚马逊、谷歌[3] 2. **海外算力链**:英伟达链前期受“TPU替代GPU”叙事压制,在模型迭代窗口期重估弹性更大,推荐英伟达、兆易创新、中际旭创、新易盛、长飞光纤、胜宏科技、工业富联[3] 3. **模型公司**:模型能力超预期带来估值重估,关注Meta、Google、阿里、腾讯、Minimax[3]
中信证券:海外AI模型与应用密集催化推动下 算力产业链或迎来新一轮上涨
智通财经网· 2026-01-30 08:49
文章核心观点 - 近期海外推理和训练算力需求旺盛,推动亚马逊云和谷歌云涨价,前期对算力需求的担忧有望得到阶段性缓解,未来3-6个月内海外算力链有望重回乐观情形 [1] - 建议重点关注三类投资机遇:算力需求上行带来的云厂商投资机遇、海外算力链投资机遇、以及模型能力超预期带来的模型公司重估机遇 [1] 报告缘起与行业趋势 - 2026年1月23日,AWS对EC2机器学习容量块实施约15%的价格上调;1月27日,谷歌云宣布旗下云网络传输服务将涨价,其中北美地区涨幅翻倍 [2] - 本轮云服务涨价源自GPU推理和训练需求的持续上行,预计未来3-6个月算力需求仍有望进一步上行 [2] 推理侧算力需求 - AI智能体应用(如MoltBot)加速落地,处理更复杂任务带来更多算力消耗;Anthropic发布一系列产品(如Claude Code、Claude in Excel)扩展了Agent落地场景 [3] - 根据OpenRouter数据,自2026年1月初起,Token调用量已连续2–3周保持高速增长,AI应用使用量持续攀升 [3] - 根据The Information,Anthropic上调2026和2027年营收预期分别至180亿美元和550亿美元,其云服务供应商有望迎来推理需求的迅速上行 [3] 训练侧算力需求 - 2026年第一季度,新一轮模型有望密集发布,包括语言模型(如Grok-5、GPT-6)和多模态视频生成模型(如Veo-4) [8] - 新模型料将采用更多数据和更大参数规模在新一代算力平台GB300上训练,从而支撑训练算力需求 [8] - 若Grok-5、GPT-6、Veo-4等模型能力超预期,对应的英伟达链和谷歌链有望迎来普涨机遇,其中英伟达链因前期受“TPU抢占GPU份额”叙事压制,此轮重估弹性或更大 [8] 财报与事件催化 - 美股四季报是验证算力需求和资本支出延续性的关键时点 [9] - 2026年1月29日,微软和Meta财报发布,有望首次验证市场判断;随后谷歌(2月5日)和亚马逊(2月6日)的财报将完善全年资本支出指引 [9] - 英伟达财报(2月26日)和GTC大会(3月16-19日)有望开启市场对全年算力投资新一轮上升周期的判断,成为海外算力叙事转向乐观的重要催化点 [9] 相关公司及财报日期 - 列出了多家与算力产业链相关的公司及其即将发布的财报日期,包括阿斯麦、微软、Meta、谷歌、亚马逊、AMD、英伟达、博通、甲骨文等 [10]
从入门到用好 Agent Skills,看这一篇就足够了
Founder Park· 2026-01-21 13:52
Claude Skills的概念与原理 - Skills是模块化的能力扩展包,用于扩展通用Agent的功能,每个Skill打包了LLM指令、元数据和可选资源(脚本、模板等),Agent在需要时自动使用它们[22] - 可以将Skill理解为“通用Agent的扩展包”或“工作交接SOP大礼包”,它教会Agent如何完整处理特定工作,将执行方法、工具调用方式及相关知识材料封装为一个完整的“能力扩展包”[14][23] - 一个相对标准的Skill结构包括:必需的SKILL.md核心指令文件,以及可选的scripts/可执行代码、references/参考文档和assets/素材资源目录[24] Skills与MCP的区别及技术优势 - MCP是一种开放标准协议,关注AI如何以统一方式调用外部的工具、数据和服务,本身不定义任务逻辑或执行流程[18] - Skill则教会Agent如何完整处理特定工作,它将执行方法、工具调用方式以及相关知识材料封装为一个完整的“能力扩展包”,使Agent具备稳定、可复用的做事方法[18] - Skills相较于Workflow和程序编写的AI应用有三个关键优势:非技术人员可用零代码、自然语言编写;能突破预设限制,灵活响应用户输入,应对边缘情况;多个Skill可以自由联用,应用方式极其灵活[33] Skills的真实价值与潜力 - Skills的价值被大大低估,一个好Skill能发挥的智能效果,甚至能轻松等同、超越完整的AI产品,任何不懂技术的人都能开发属于自己的Skills[3][4] - 非技术出身的领域专家,离自己做专业Agent只剩隔着一层窗户纸——将专业经验和工作流程用文档形式写清楚,Agent就能照着执行[54] - Skills让更多人、组织、行业参与AI应用的创造成为可能,不必说服IT团队理解需求或等待产品迭代,自己就能创建工具并随时调整Skill的行为[163][164] Skills的核心运行机制:渐进式披露 - Skills采用“渐进式披露”机制来管理上下文长度,Skill内容被划分为三个层级:Level 1(SKILL.md元数据,始终加载,约100 tokens)、Level 2(SKILL.md正文,触发时加载,建议少于5000 tokens)和Level 3(子技能文档、代码脚本、资源等,按需动态加载)[77][79][85] - 默认只加载元数据意味着可以给一个Agent同时安装很多Skills而不影响上下文性能[82] - Level 3的代码脚本在Agent电脑(虚拟机)中直接调用,脚本代码本身不进Context Window,只有运行完成后的输出会进入Agent的Context[90] Skills对AI产品设计的影响与未来趋势 - 基于Skills的垂直Agent,在性能、开销上的问题并非不可解决的持续性问题,因为Skills能直接调用代码逻辑而不进Context窗口,Agent也可以只承担类似hook的角色,实质上和正常程序运行并无差别[101][102] - 未来AI Native产品的发展趋势可能是:内置类似Skill的指引,当用户输入时,AI快速自行判断并自动匹配各种Skills来处理,从而用同一个多模态输入框处理用户各种不同的输入,并能灵活应对边缘问题和提供绝对个性化的生成需求[103][104] - 结合token价格下降和Agent速度提升的趋势,Skills-based的Agent产品有望成为主流[102] Skills的适用场景 - 最典型的信号是:为了完成某个任务,在多轮对话中需要不断向AI解释一件事应该怎么做,此时应将规则打包成一个Skill,一次创建永久复用[141][142] - 当某些任务需要特定知识、模板、材料才能做好时,属于“通用Agent + 垂直知识”的典型场景,适合使用Skill[143][144] - 当一个任务需要多个流程协同完成时,可以将每个环节的指令文档、可执行脚本、参考材料、可用资源打包成单个或多个Skill,让Agent智能调用不同的Skill模块来完成复杂任务[146][148][149] Skills的生态现状与创业机会 - Claude Skills于2025年10月中旬正式发布,两个月后Agent Skills作为开放标准被进一步发布,意在引导一个新的AI Agent开发生态,OpenAI、Github、VS Code、Cursor均已跟进[10][11][13] - 现有Skills公开市场(如skillsmp.com/zh)尚不完善,缺少合理的分类、排序与精选体系,导致用户难以找到需要的Skills[126][129] - 对于Agent创业者及非技术领域专家,Skills代表新机会:垂直Agent工具用传统方式开发周期需数周,但用Skill方式几小时甚至几分钟就能测试起来,且智力与能力上限有机会直逼通用Agent,这极大地降低了验证想法的成本[156][157][161]
“扣子”推出全新功能Agent Skills、Agent Plan
科技日报· 2026-01-20 08:47
字节跳动AI Agent平台“扣子”品牌升级 - 字节跳动旗下AI Agent平台“扣子”于1月19日宣布进行2.0品牌升级,新版本集成了Agent Skill、Agent Plan、Agent Coding、Agent Office能力,旨在让AI成为用户的“工作伙伴” [1] 核心能力:Agent Skill(技能) - Agent Skill是“场景最佳实践+所需工具”的封装,通过封装领域知识、标准化操作流程或集成专用工具,将通用AI的认知能力与特定任务需求相结合,以应对高度专业化、高精度或高可控要求的复杂场景 [1] - 在扣子Skills生态中,行业专家可将经验沉淀为“可出售的技能”,企业团队可共享专业标准作业程序(SOP)和最佳实践,特定领域新人即使没有行业经验也能一键使用他人的方法论 [1] - 扣子官方视频Skill正式上线,支持自动生成视频脚本、匹配视觉素材,并完成剪辑、转场、配乐等后续流程 [2] 核心能力:Agent Plan(长期计划) - Agent Plan即“长期计划”,使AI从“即时问答工具”升级为“可持续运作的智能体”,用户设定目标后,扣子能够持续执行、主动汇报并最终交付任务 [2] - 以自媒体账号运营为例,扣子能与用户讨论账号定位,拆解各阶段运营策略,并帮助创作内容 [2] - 用户若想写一本书,只需提供主题和目标,扣子可自行搜集资料、撰写初稿并根据反馈调整,达成例如3周内写出10万字初稿的计划,该功能也可用于完成如备考雅思等学习目标 [2]
字节跳动:“扣子”官宣2.0品牌升级,推出全新功能Agent Skills、Agent Plan
新浪财经· 2026-01-19 18:27
字节跳动AI Agent平台“扣子”2.0品牌升级 - 公司旗下AI Agent平台“扣子”宣布进行2.0品牌升级,核心是集成Agent Skill、Agent Plan、Agent Coding、Agent Office四大能力,旨在让AI成为用户的“工作伙伴” [1][3] Agent Skill(技能) - Agent Skills本质上是“场景最佳实践 + 所需工具”的封装,通过封装领域知识、标准化操作流程或集成专用工具,将通用AI认知能力与特定任务需求结合,以贴合多元化、高标准的实际应用场景,保证输出稳定性 [1][3] - 全新推出技能商店,用户可浏览、选择并一键安装由官方及优质开发者创建的专项技能模块,例如“新年绘本”、“互动教学”、“投资知识库”、“法律类案检索”等 [1][4] - 平台可根据任务场景,智能调用或组合多个已安装技能,以提供综合性解决方案 [1][4] Agent Plan(长期计划) - Agent Plan功能让AI从“即时问答工具”升级为“可持续运作的智能体”,用户只需确定目标与实现方式,平台即可持续执行、主动汇报并最终交付任务 [2][4] - 该功能实现了复杂目标的闭环管理,能将一个需要数小时、数天甚至更长时间完成的宏观目标(如“一款市场竞品分析报告”)分解为多个步骤,并持续追踪进度、管理中间状态直至交付成果 [2][4] Agent Office(办公能力) - Agent Office可深度理解职场场景,处理包括撰写战略报告Word文档、制作分析PPT、梳理Excel数据等办公任务 [2][4] Agent Coding(编程开发) - 作为一站式云端Vibe Coding开发平台,扣子编程实现了Vibe Agent、Vibe Workflow、Vibe Web、Vibe App几大核心功能开箱即用 [2][5] - 用户通过连续对话即可轻松构建智能体、工作流、网站、移动应用等,平台提供Vibe Infra基础设施,支持一键部署上线 [5] - 在该编程平台上,Agent能够自己编写提示词、安装知识库、开发工具,并能在多轮对话过程中进行自我迭代 [5]
骗你的,其实AI根本不需要那么多提示词
36氪· 2026-01-07 09:00
核心观点 - Anthropic公司推出的Agent Skills技术,通过模块化技能包让AI能够按需调用特定功能,显著提升了AI执行复杂任务的效率和易用性,可能成为继MCP协议之后AI应用的新趋势 [2][4][23][24] 产品功能与演示 - Agent Skills功能允许AI像学习新技能一样,掌握并执行特定任务,例如制作特定风格的PPT或编写符合规范的代码 [7][8][11][13] - 演示显示,Claude在启用Skills后,能根据指令直接生成苹果公司风格的PPT,并自动完成从HTML/CSS编写到转换为原生PowerPoint格式的全过程 [8] - 该功能可调用前端技能,例如成功复刻了老版QQ的蓝底风格前端页面,包括经典弹窗等细节 [11] - 在代码辅助方面,仅需提供一段PyTorch函数代码并指示“帮我补上”,AI便能参考Docstring技能规范,自动补全符合官方标准的注释 [13] 技术优势与用户体验 - 相比传统提示词,Skills的主要优势在于:用户只需在创建技能时描述一次需求,后续调用不占用对话上下文,且创建过程有AI引导,更为友好 [15] - 技能可以打包成压缩包分享,实现“即插即用”,用户可以从社区(如Skillsmp网站)获取他人分享的技能包 [15] - 实际应用案例显示,创建一个“科技编辑写作助手”技能后,用户仅需输入“帮我TM写篇稿子”一句话,AI便能在一分钟内自动搜索技能库、匹配风格并生成文章大纲 [16][17][18] - 若不使用Skills,完成类似写作任务需要手动粘贴长达800字的提示词模板并上传大量资料,导致上下文占用高达几十万tokens,效率低下 [19][21] 技术原理与行业定位 - Skills本质上是一套模块化的指令包架构,其核心机制是让AI在推理阶段自行判断并加载所需技能,实现“自行发现,按需加载” [21][23] - 该技术采用“渐进式信息披露”原则,技能包内包含指令、元数据和资源,AI仅在需要时才读取相关资源 [21] - Skills与之前推出的MCP协议定位不同:MCP定义了AI如何访问外部数据(如本地文件、数据库),而Skills定义了AI在获取数据后如何处理这些数据 [24] - Anthropic将Skills打造成了一个开放标准,意图引领行业趋势,类似于之前推广MCP协议的做法 [4][23][24]
腾讯研究院AI速递 20251020
腾讯研究院· 2025-10-20 00:01
英伟达与台积电合作推进先进制程本土化 - 英伟达与台积电在美国亚利桑那工厂历史性亮相首片用于AI的Blackwell芯片晶圆,首次实现先进芯片的"美国本土造"[1] - 台积电亚利桑那工厂总投资达1650亿美元,计划生产2纳米、3纳米、4纳米和A16等先进制程芯片[1] - Blackwell芯片采用定制4NP工艺,拥有2080亿晶体管,两个子芯片通过NV-HBI连接速度高达10TB/s[1] Anthropic提升AI代理能力与模块化 - Anthropic发布Agent Skills功能,允许将提示词、代码包等专业能力打包成可按需加载的skills,支持多个skills叠加且Claude自动识别所需能力[2] - Skills可在Claude apps、Claude Code和API三个平台通用移植,包含核心指令、可执行脚本和资源文件,仅在需要时加载最小必要信息[2] - 官方预设包括9个处理常见文档格式的skills,用户可自定义上传,并提供辅助工具帮助创建新skills[2] 生成式AI模型在3D内容创建取得突破 - 李飞飞团队发布实时生成式世界模型RTFM,仅需单块H100 GPU即可实时渲染持久且3D一致的世界[3] - RTFM采用自回归扩散Transformer架构,通过端到端学习大规模视频数据,无需构建显式3D表征,直接从2D图像生成新视角图像并模拟反射等复杂效果[3] - 模型通过带位姿的帧作为空间记忆实现无限持久性,配合上下文调度技术可在长时间交互中保持大型世界几何形状持久性[3] AI代理在软件开发与测试自动化进展 - Manus 1.5版本引入具备操作能力的"内建浏览器",允许AI像用户一样点击网页按钮、测试功能、修复bug,将上线部署等传统人工环节纳入Agent执行能力[4] - 新增Library文件库统一管理生成内容,开放多人协同编辑,平均任务完成时长从15分36秒缩短至3分43秒,效率提升约77%[4] - 实测通过自然语言完全无代码完成音乐网页应用构建,包括歌词改写、情绪调节、音频上传等交互功能[4] 操作系统集成AI实现人机交互革新 - Windows 11大更新引入"Hey Copilot"语音唤醒功能和Copilot Vision屏幕理解能力,可实时查看屏幕内容并指导用户操作[5] - Copilot Actions可在本地文件上执行操作如整理照片、提取PDF信息等,Copilot Connectors打通OneDrive、Outlook和Google等主流应用[5] - 文件资源管理器集成Manus AI操作,可右键文档选择自动生成网站,还整合了视频编辑和会议安排功能[6] 多模态文档解析技术达到新水平 - 百度开源PaddleOCR-VL多模态文档解析模型,仅0.9B参数量在OmniDocBench V1.5榜单获92.6分全球第一,在四大核心能力全部拿下SOTA[7] - 模型支持109种语言,覆盖手写、竖排、艺术字体等复杂形态,公式识别CDM得分0.9453,表格理解得分89.8,阅读顺序预测误差仅0.043[7] - 采用两阶段架构融合动态分辨率视觉编码器与语言模型,在单张A100上推理速度达1881token/s,发布16小时内登顶HuggingFace Trending全球第一[7] AI加速核聚变能源研发进程 - Google DeepMind与核聚变能源巨头CFS合作,利用AI加速"人造太阳"SPARC装置研发,其开发的TORAX等离子体模拟器可运行数百万次虚拟实验[8] - 合作聚焦三大方向:构建快速精准可微分的聚变等离子体模拟系统、寻找最大化聚变能量输出的高效路径、运用强化学习探索实时控制策略[8] - TORAX能在CPU与GPU灵活运行并无缝集成AI模型,通过强化学习AI Agent可在模拟环境中探索海量潜在运行场景[8] AI对劳动力市场产生结构性影响 - 哈佛大学研究通过追踪6200万劳动者和超2.45亿招聘信息发现,采用AI的企业初级岗位显著下降,主要通过放缓招聘而非裁员实现[9] - AI冲击最大的人群是强校和普通名校毕业生,顶尖精英大学和末流院校反而受影响较小,呈现"U型"格局[9] - 批发零售行业初级岗位风险最大,内容审核员、财会行政等办公室底层职位面临替代,技能呈现"两极化"趋势[9] AI生成内容引发互联网生态担忧 - Reddit联合创始人预警互联网被AI生成内容淹没失去真实生命力,OpenAI CEO认为该理论可能有道理,现在存在很多大模型驱动的账号[10] - 监测显示机器人流量约占整体应用流量31%,自动化流量达51%,AI生成文章数量在2024年11月首次超过人类撰写文章[10] - 研究指出模型在AI生成数据上继续训练会导致"模型崩溃",AI内容成为训练数据可能带来模型能力下降[10] 对AI发展路径与AGI前景的行业观点 - AI专家Andrej Karpathy直言智能体存在认知缺陷,强化学习很糟糕,认为AGI仍需十年时间[11] - 强调强化学习通过噪声极大,人类并不真正使用强化学习,预训练是"糟糕的进化",LLM被预训练文档记忆所困扰[11] - 预计AGI将融入约2%GDP增长而非爆炸式增长,认为AI本质是计算的延伸,教育是让人类在AI时代保持价值的关键[11]