Workflow
Cursor
icon
搜索文档
量化看市场系列之十四:一文了解Hermes Agent
华创证券· 2026-04-10 12:43
量化模型与构建方式 本报告主要介绍AI Agent工具Hermes,并未涉及具体的量化投资模型或量化因子的构建、测试与评价[7]。报告内容聚焦于该工具的功能、架构及其在金融工程领域的潜在应用场景[1][39]。 量化因子与构建方式 本报告未涉及具体的量化因子构建。 模型的回测效果 本报告未提供任何量化模型的回测效果数据。 因子的回测效果 本报告未提供任何量化因子的回测效果数据。
Cursor会死吗?
虎嗅APP· 2026-04-08 18:18
公司当前表现与市场认知的矛盾 - 公司年化收入在三个月内从10亿美元翻倍至20亿美元,穿越零到二十亿的速度创下硅谷纪录 [5] - 公司每天生成1.5亿行企业代码,超过三分之二的财富500强企业是其客户,新一轮融资目标估值达500亿美元 [5] - 尽管财务数据全面向好,但开发者社区出现“公司已死”的舆论,反映出市场叙事与公司实际数据之间的脱节 [6][7] - 公司最重要的模型供应商Anthropic推出的竞品Claude Code,在发布八个月后年化收入已超过25亿美元,在绝对值上反超了公司 [9][17] - 个人开发者迁移成本低,其流失暂时被占公司收入60%的企业合同增长所掩盖,但企业采购最终会跟随开发者的选择 [18][19][20] 行业技术范式转变带来的根本挑战 - 行业正经历从“AI辅助编码”到“AI自主编码”的第二次相变,其终局形态可能不再需要传统的集成开发环境 [12][29] - 竞品Claude Code是第二次相变的产物,它在终端运行并自主写代码,而非在编辑器内辅助,这改变了开发者的工作方式 [30] - 证据显示AI自主编码的成熟度可能被高估,其在大型成熟代码库上的可靠性不足,人机协作的中间态可能持续数年 [32][33][35] - GitHub上4%的公开提交由Claude Code完成,但其中约90%属于星标不足两颗的个人实验仓库,尚未大规模渗透企业生产环境 [32] - 一项2025年的实验显示,在大型成熟代码库上使用AI工具,实际效率可能不升反降,核心矛盾依然存在 [33] 公司的竞争格局与结构性弱点 - 公司被三个方向的竞争力量挤压:Anthropic(模型供应商兼竞品)、OpenAI(收购竞品并推出Codex agent)、以及微软旗下拥有分发垄断地位的GitHub Copilot [9] - 公司的产品严重依赖第三方模型,几乎将全部收入用于向Anthropic采购API,导致收入增长与成本同步放大,毛利率为负 [27] - 公司在技术范式与产业结构层的嵌入较浅,未能成为AI编码领域的基础设施标准,仍是一个应用层产品 [27] - 个人开发者是行业风向的“金丝雀”,其大规模迁移至Claude Code等工具,预示着企业采购管道未来可能干涸 [20][21] - 在Pragmatic Engineer 2026年2月的调查中,46%的开发者将Claude Code列为最喜爱的AI编码工具,公司以19%的得票率排在第二位 [16] 公司的战略应对与转型路径 - 公司正在训练自研模型Composer 2,该模型基于拥有1.04万亿参数的中国开源模型Kimi K2.5,并进行了计算量扩大四倍的训练 [38][39] - 公司拥有独特的资产:每天1.5亿行企业代码的真实编码行为数据,用于大规模强化学习,这是其自研模型存在的理由 [40] - 自研模型Composer 2在内部基准上准确率达61.3%,比上一版提升37%,若成功可改善毛利率并使公司向平台公司转型 [41] - 公司同时押注模型中立的编排层,并推出云端智能体Cloud Agent,试图从IDE向agent调度平台转型 [41][44] - 公司面临转型约束:AI研究团队规模远小于竞争对手,且数据飞轮的有效性依赖于用户留存,而用户迁移正在发生 [44][45] 决定公司命运的关键变量 - 公司的命运取决于两个速度的竞赛:AI自主编码技术成熟的速度,与公司自我蜕变的速度 [47] - 如果“AI辅助编码”的中间态足够持久,公司有时间完成从应用层到“模型+平台”的跃迁;如果技术范式转变过快,公司可能面临硬着陆 [47] - 行业权力正在重新分配,从程序员流向工具公司,现在正收回到掌握核心模型能力的公司手中,应用层公司需要守住自己的位置 [48]
大厂「牛马」,被迫用AI
36氪· 2026-04-07 18:37
文章核心观点 - 互联网大厂正从鼓励使用AI转向隐性强制使用AI 工作方式发生根本性变革 员工面临效率提升与工作异化的双重体验[4][5] - AI工具的应用在提升部分工作效率的同时 也带来了新的工作负担和考核压力 并引发了员工对自身价值及可替代性的普遍焦虑[5][18][25][33] - 企业正通过制定战略、监控使用量、设定考核指标等方式自上而下推动AI深度融入业务流程 目标是实现效率的倍数提升和流程自动化[23][27][46][47] - 这场变革正在重塑劳动力市场 标准化岗位面临冲击 而具备深度思考、需求分析和规划能力的人才价值凸显 同时可能伴随岗位减少和招聘策略调整[40][47][49][58] 大厂推行AI的策略与考核 - 企业推行策略从初期鼓励使用、提供额度 逐步转向设定明确使用率指标、监控Token消耗量并与绩效挂钩[7][23][24][46] - 部分公司强制要求使用自研AI工具 理由是数据安全 并限制或禁止使用外部工具如Claude、ChatGPT[9][54] - 考核方式多样化 包括追踪员工AI使用频率、设定每周使用次数或Token消耗量指标、要求提交AI倡议并按季度打分 长期不达标者可能进入绩效改进计划[24][35][46] - 部门层面有具体考核指标 例如强制要求一定比例(如50%)的开发需求由AI Agent端到端生成 并计划在未来几年内提升自动化比例[27] 员工使用AI的真实体验与困境 - AI在处理重复性、标准化任务时能提升效率 例如快速生成代码片段、定位数据问题、输出产品需求文档 有案例将PRD输出周期从数周压缩到一天[5][39][43][49] - 但AI在涉及复杂逻辑、数据分析、工程判断时能力不稳定、出错率高 需要大量人工调试、校验和返工 有时反而降低整体效率[11][18][24] - 员工为满足考核要求可能出现“刷使用量”行为 例如删除代码让AI重写 但最终仍需人工修正 造成资源浪费[20] - 使用公司自研或指定工具时 常面临额度限制、能力不如外部工具的问题 员工需在“省着用”和完成任务之间权衡[10][24][28] AI对工作内容与岗位的冲击 - 企业要求员工将个人工作经验、流程、技术细节文档化、Skills化 并纳入考核 这被部分员工视为在将自己的技能SOP化 加速自身被替代的过程[27][32][33] - 效率提升的明确目标是员工个人效率提升3至5倍 企业已停止招聘数据分析、程序开发、财务分析等方向的新人 岗位减少成为可能[47][49] - 工作价值评估标准发生变化 踏实钻研底层逻辑的员工可能被视为“不活跃分子” 而频繁调试提示词的员工则被看作积极典型 引发员工对核心能力退化的担忧[5][25] - AI降低了创业和试错成本 案例显示个人创业者利用AI在半年内完成过去需百人团队开发的ToB教育系统 预示未来小型高效团队将成为可能[58] 不同岗位从业者的具体案例 - **运营岗位**:为用AI完成一个数据看板任务 反复调试修改高达80次 耗时远超人工 但为满足“AI产出”要求不得不为之[12][18] - **工程师/程序员岗位**:公司要求80%工程师每周使用内部AI编程助手 并追踪使用频率 但工具在处理高复杂度工程时能力不足 生成代码常为半成品[23][24] - **通信协议工程师**:通过针对性研究让AI适配工作 AI帮助快速筛选无效信息 使其整体产出提升 绩效靠前 认为AI是人与人竞争的新工具[36][39][41] - **企业CIO**:通过制定严格AI战略与考核 推动流程重塑 使AI深度介入核心工作流 自身工作重心转向与AI头脑风暴、规划顶层逻辑[43][46][49] - **高级研发**:自费使用多种AI工具 月支出近500美元 月Token消耗量达30到40亿 但搭建规范AI使用的系统使其工作更忙[52][53] 行业趋势与未来展望 - AI应用正从辅助工具向驱动核心业务流程、重塑工作模式的方向发展 纯粹依赖人力和时长的工作时代正在终结[5][46] - 就业市场将遵循技术革命规律 标准化、重复性强的岗位必然受到冲击 而需要深度思考、创意策划和资源整合的岗位价值将提升[50][58] - 企业招聘逻辑转向抢占AI人才身位 而非单纯满足人力需求 同时AI将降低中小企业研发成本 催生新的团队和机会[58] - 全社会对AI能力的掌握程度将成为新的职业竞争力分水岭 同样的技术水平 是否会使用AI将在面试和薪资上拉开差距[40]
Karpathy教你搭「第二大脑」:三个文件夹就够了
深思SenseAI· 2026-04-05 16:23
文章核心观点 - 一种极简的AI个人知识管理方案正在兴起,其核心在于使用三个文件夹和一个自然语言规则文件构建结构,而非依赖复杂软件,从而让AI承担知识整理、关联和进化的核心工作,实现知识的复利增长 [1][15][33] 系统架构与核心组件 - **三个核心文件夹**:系统骨架由`raw/`、`wiki/`和`outputs/`三个文件夹构成,分别用于存放原始素材、AI整理后的知识库以及AI生成的回答与报告 [3] - **一个规则文件**:在项目根目录创建如`CLAUDE.md`的规则文件,用自然语言定义知识库主题、目录结构和维基组织规则,这是整个系统的灵魂,无需数据库或复杂代码 [14][17] - **极简与扁平化**:该方案强调极简,核心就是一个嵌套的`.md`文件目录,无需安装专用软件或注册账号,纯文本文件确保长期兼容性和可访问性 [4][6][31] 工作流程与操作指南 - **素材输入**:用户将所有类型的原始素材(如文章、笔记、截图、会议记录)无需整理地存入`raw/`文件夹,示例中有人存放了40多个格式混杂的文件 [7][8] - **自动化采集**:可采用自动化工具提升效率,例如Vercel Labs发布的`agent-browser`命令行工具,其GitHub星标超过2.6万,据称比Playwright MCP节省82%的token消耗,能处理动态加载页面 [10][11] - **AI编译维基**:用户通过AI编程工具(如Claude Code)指示AI读取`raw/`内容,并依据规则文件在`wiki/`中自动生成带摘要、互相链接的主题文件及索引,用户无需手动编辑 [18][19][21] - **主动提问与知识进化**:当维基积累一定内容后,用户可向AI提问,AI将基于知识库内素材进行跨文档检索和分析,生成的回答可存回`outputs/`或用于更新维基,形成越问越聪明的复利循环 [23][24] - **定期审计(月度体检)**:需定期指示AI检查维基内容,识别矛盾、未解释的概念或无来源支撑的结论,并建议补充内容,以防止错误信息在系统中复利增长 [25][26] 方案优势与核心理念 - **降低门槛与工具痴迷**:该方案无任何使用门槛,直指“工具痴迷症”痛点,认为好的结构(三个文件夹)比拥有众多功能的复杂工具(如Obsidian插件)更为重要 [1][29][32] - **发现隐性关联**:系统的核心价值在于AI能够发现并串联用户未注意到的不同素材间的联系,从而生成新的见解,这超越了简单的记忆辅助 [21][22] - **范式转换**:标志着AI时代知识管理的范式转换——规则用人话编写,执行交给机器,将管理重点从工具选择转向结构设计 [17][31] - **实现复利效应**:系统通过持续问答和更新实现知识复利增长,但需配合定期体检来规避错误复利增长的风险 [24][26][34]
当智能体学会共享记忆,下一个万亿平台诞生
深思SenseAI· 2026-04-04 11:07
一个核心趋势:从孤立记忆到共享上下文图谱 - 行业正从关注单个智能体的“记忆”功能,转向构建支持多智能体协作的“共享上下文图谱”,这被视为智能体协作范式的根本转变和下一代基础设施[2][27][32] - Karpathy从开发者视角,Foundation Capital从企业投资视角,以及Anthropic、OpenAI、Google等头部实验室的产品动向,均指向同一结论,表明行业共识正在快速形成[1][10][31] - 共享上下文图谱不是简单的聊天历史存档,而是结构化的、可推理的、可自我进化的知识网络,其价值在于实现智能体间的知识自由流通与协作,类比从个人电脑到互联网的连接革命[9][27] 当前“记忆”方案的局限性 - 现有智能体记忆功能(如Claude的持久记忆、ChatGPT的对话记忆)本质是“更高级的剪贴板”,仅服务于单用户与单智能体间的连续性,属于“单机游戏”[4][26] - 当智能体数量增长时,信息同步问题呈指数级爆炸,手动维护不可能,当前方案无法解决多个智能体之间的协作与信息壁垒问题[6][30] - 现有记忆方案中,所有信息权重相同,缺乏信任机制,无法区分猜测与已验证结论,导致幻觉可能被复合放大[18][19] 共享上下文图谱的核心价值与架构 - 共享上下文图谱的核心是创建一套可共同推理的、结构化的共享上下文,以解决智能体协作的地基问题,其价值远超单纯的“更大的记忆”[2][10] - 在企业侧,其价值在于记录“决策血统”(即决策的完整推理链条、依据和上下文),这将成为人工智能时代最有价值的数字资产,下一代企业软件竞争将围绕“上下文系统”展开[10][31] 1. **协作架构示例**:以六个编程智能体协作为例,共享上下文图谱包含五个子图:代码图谱、决策图谱、会话图谱、任务图谱、代码仓库图谱,形成持久化、结构化的决策痕迹[13] 2. **协作效率质变**:通过查询共享图谱,智能体能一次性获得完整上下文,实现“零协调开销”,将协作从“能否做到”的层面提升效率,而非仅10%的改进[16][17] 信任机制的关键作用 - 共享必须伴随信任分层机制,这是解决智能体输出可靠性问题的关键[18][22] - 可借鉴人类软件工作流建立信任等级:工作记忆(私有草稿)、共享工作记忆(团队暂存)、长期记忆(永久发布)、已验证记忆(共识确认),智能体可按需筛选不同信任级别的信息[20][21][22] - 信任等级是管理大规模智能体集群(如10个、100个、1000个)的必要过滤器,其现实意义在于确保关键决策(如药品安全检查)基于多方独立验证的可信信息,而非单一智能体声明[23][24][25] 市场机会与战略启示 - Foundation Capital分析指出,“上下文图谱”是下一个万亿美元级别的平台机会[1][11] - 与上一代以Salesforce、Workday、SAP为代表的“记录系统”(万亿级市场)不同,下一代竞争将围绕“上下文系统”展开,且赢家更可能是开放协议而非中心化平台,因为智能体天然跨平台运行[10][31] - 对行业参与者的启示:不应只关注提升单个智能体能力,而应提前布局智能体间协作的基础设施,理解和搭建共享上下文体系可能比追逐最新模型更具长期价值[30][32]
「龙虾」和 vibe coding 正如何改变我们的思维:一场来自小白、创业者和工程师不同视角的讨论|声东击西
声动活泼· 2026-04-03 17:32
AI Agent的兴起与OpenClaw的启示 - AI正从聊天机器人演变为能“自己干活”的智能体,OpenClaw的爆火标志着AI开始拥有“手脚”,能够执行实际任务[3][4] - OpenClaw的出现带来了全新的“面向智能体的软件”思维方式,软件可以自我进化,而不仅仅是执行预设的固定功能[11] - OpenClaw是开源的,其代码公开吸引了全球开发者参与,作者一天能收到1000个代码提交,这种协作规模前所未有[13] Vibe Coding对工作方式的变革 - Vibe Coding(随心编程)降低了编程门槛,使没有技术背景的人也能借助AI实现想法并构建产品[3][6] - AI在延续性创新上极大提升了产出效率,例如程序员借助AI可能将单日产出功能数量从1个提升至10个[6] - 对于需求方,Vibe Coding是帮助理清想法、制作高质量原型的有效过程,但从原型到稳定可用的公司级系统仍需专业工程师团队介入[19] 智能体软件的核心特征与能力边界 - 主动性:OpenClaw通过简单的定时器(如每30分钟运行一次)实现了类似7x24小时个人助理的体验,这与当前主流AI产品的定时功能有显著差异[16] - 长记忆机制:通过按天拆分和搜索历史聊天记录来实现,使AI能拥有持续的背景信息[16] - 技能机制:AI可以学习并记住用户偏好的特定任务执行步骤,并能反复使用,类似于“带新人”的过程[16] - 当前AI模型能力仍有限制,存在重复性等问题,OpenClaw是智能体软件发展的起点和转折点,而非终极形态[16] - AI擅长处理结果可量化、可自我迭代的任务,而人类不可替代的价值在于处理不可被量化的部分[24] 对组织与工作流程的重构 - AI能够将公司运营中许多靠“感觉”或“直觉”判断的环节(如内容选题标准、界面设计好坏)进行工程化拆解,使其变得可描述、可执行[20][21] - 创业者或公司管理者更容易应用此类AI工具,因为他们脑中已有清晰的业务流程模型,能够识别出可由AI自动化的环节[20] - 所有SaaS公司都在向提供智能体级服务转型,未来的AI可能会承担初级产品经理等角色[20] 对个人职业发展的影响与建议 - 世界变化加速,年轻人通过在校期间实践(如自建选课系统)和接触真实项目,毕业时可能比过去拥有更资深的相关经验[26] - 个人需要不断使用最好的AI工具并跟上新趋势,通过实践来打开思路,而不仅仅是思考[28] - 专业技能的基础变得更重要,它能帮助个人判断AI产出的对错与优劣,避免产出沦为缺乏独特性的“最大公约数”[28] - 品味(审美)是经过大量积累打磨出的关键能力,能让人一眼分辨产品好坏,未来需要专注于寻找和发挥自己与众不同之处[28] - 个人应专注于自身最擅长的领域,例如深入理解用户需求、痛苦与希望,这些是AI难以替代的部分,同时,用好AI本身就是在锻炼目标设定、流程管理和过程控制等管理能力[31] - 面对AI浪潮,无需以防御心态思考“AI做不了什么”,而应积极寻找并发挥自身独特优势[31]
Stripe 工程师部署了自主智能体 Minions,每周生成数千个拉取请求
AI前线· 2026-04-03 16:26
文章核心观点 - 支付公司Stripe成功部署了名为“Minions”的自主编程智能体系统 该系统能够根据单条指令端到端地完成软件开发任务 每周可生成超过**1300个**可直接用于生产环境的拉取请求[2] - 该系统代表了智能体驱动软件开发的主流趋势 即基于大语言模型的智能体与开发环境、版本控制和CI/CD流水线深度集成 能以极少的监督生成生产级代码 显著提升开发者生产力[6] Minions系统概述与能力 - Minions是一个自主编程智能体 能够根据单条指令端到端地完成软件开发任务 实现了大语言模型与内部开发者工具的集成[2] - 该系统与GitHub Copilot等交互式编程助手不同 它执行一次性、端到端的任务 任务来源包括Slack对话、缺陷报告或功能需求[3] - 任务描述发送给Minion后 它会使用“蓝图”来编排工作 生成所需的代码、测试和文档 并最终提交一个拉取请求供人工审核[3] - 该系统由Block开发的Goose的内部分支演进而来 并针对Stripe的大语言模型基础设施进行了定制和优化[5] 部署规模与生产影响 - Minions目前每周可生成超过**1300个**拉取请求 高于早期试验中的**1000个**[2] - 由Minions管理的代码支撑着Stripe每年超过**1万亿美元**的支付额 运行在与金融机构、监管框架和合规性义务相关的复杂依赖关系中[2] - 所有由Minions生成的变更均会经过人工审核 但不包含任何人写的代码[2] 系统架构与可靠性 - Minions通过“蓝图”进行编排 蓝图是用代码定义的工作流 规定如何将任务拆分为子任务 并根据任务类型由确定性的例程或智能体来处理[5] - Stripe工程师将蓝图描述为与代码交织在一起的智能体技能集合 在保证效率的同时保留了适应性[5] - 系统通过CI/CD流水线、自动化测试和静态分析来强化可靠性 确保生成的变更在人工审核前符合工程标准[6] - Minions在定义明确的任务上表现最佳 例如配置调整、依赖升级和小型重构[6] 行业趋势与意义 - 该系统反映了智能体驱动软件开发的广泛趋势 基于大语言模型的智能体正与开发环境、版本控制和CI/CD流水线深度集成[6] - Stripe的经验表明 自主编程智能体可以显著提升开发者的生产力 同时保持严格的质量控制[6] - 在支撑万亿级支付规模的复杂系统中部署自主智能体 可靠性与正确性仍是核心要求[2]
别再卖工具了,卖结果|红杉合伙人的万亿判断
深思SenseAI· 2026-04-02 15:44
文章核心观点 - 红杉资本合伙人Julien Bek提出,下一个万亿美元市值的公司将是一家“伪装成服务公司的软件公司”,其推文获得280万次浏览和4400个点赞 [2] - 核心论点是:未来的赢家将不是销售AI工具(Copilot)的公司,而是直接销售工作成果(Autopilot)的公司,即用软件自动化替代传统人力服务 [2][3][4] 智能与判断的框架 - 将工作分为“智能”和“判断”两类:“智能”指规则化、可编码的任务;“判断”则需要经验、直觉和品味 [6] - 软件工程是目前AI工具使用率最高的职业,占全部专业AI工具使用量的**49.7%**,远超第二名(个位数),因为其工作大部分是“智能”活 [7][8] - Cursor产品的变化显示,一年前AI多用于自动补全,如今超过一半的任务由AI Agent主动发起,这个翻转发生在不到12个月内 [9] - 软件工程率先达到高自动化水平,其他行业也将遵循这一路径 [10] 副驾与自驾的产品形态 - **Copilot(副驾)**:销售工具,增强专业人士效率,由专业人士对结果负责,例如Harvey服务于律所,Rogo服务于投行 [12] - **Autopilot(自驾)**:销售结果,客户购买的是完成的工作本身,而非工具,例如Crosby销售做好的NDA合同,WithCoverage销售保险 [13] - Autopilot瞄准的是人力预算,而非工具预算,任何行业的人力预算都远大于工具预算 [15] - 企业每花1美元在软件上,会花6美元在服务上,Autopilot的总可寻址市场是某一类别所有的人力支出 [16] Autopilot的切入策略与市场机会 - 最佳切入点是**已经外包出去的业务**,原因有三:1) 客户心理上已接受工作外部化;2) 预算已存在且清晰;3) 客户购买的就是结果 [18][19][20] - 替换外包合同是供应商置换,而替换内部员工是组织架构调整,难度差一个数量级 [21] - 战术公式:从已外包的、高智能比例任务起步,做好分发,随AI能力增长逐步向内包的、需要判断的工作扩展 [22] - 红杉列出了各行业服务市场规模与自动化潜力机会地图,例如: - 招聘与人才派遣:市场规模**2000亿美元以上**[24] - 供应链与采购:市场规模**2000亿美元以上**,全球供应链因合同漏洞导致的损失占总支出的**2–5%**[24][25] - 管理咨询:市场规模**3000–4000亿美元**,是判断工作的终极战场 [24][25] - 会计与审计:市场规模**500–800亿美元**,美国过去五年净减少**34万**名注册会计师,**75%** 的CPA临近退休 [24][25] - 医疗账单:市场规模**500–800亿美元**,流程高度规则化,有约**7万**个标准化诊断代码 [24][25] 发展趋势与竞争格局 - Copilot和Autopilot最终会汇聚,今天的判断会随着AI积累专有数据而变成明天的智能 [26] - 例如Harvey正从服务于律所的Copilot,转向直接对企业客户提供法律服务的Autopilot [26] - Copilot公司向Autopilot转型面临“创新者困境”,可能切掉现有客户(如律所),这为纯Autopilot玩家留下了窗口期 [26] - 预测:**2025年**增长最快的AI公司是Copilot;**2026年**许多公司将尝试转型Autopilot,而纯Autopilot公司因无历史包袱将迎来机会 [27] 对创业者和企业的启示 - 对创业者:关键问题是目标行业当前的“智能比例”高低,智能比例越高,Autopilot越快能赢;智能比例低,则需要先通过Copilot积累数据 [29] - 对企业决策者:当前外包出去的工作是首批被替换的目标,因为替换供应商比裁员容易得多 [30] - 软件工程从Copilot到Autopilot的转变用了不到两年,其他行业的转变也不会需要更长时间 [30]
首届「龙虾学术大会」,斯坦福+普林斯顿联合发起
量子位· 2026-04-02 15:00
文章核心观点 - 由斯坦福和普林斯顿联合发起的Claw4S会议,旨在挑战并重塑科研出版体系的底层逻辑,其核心主张是AI时代的科学成果应以可执行的代码(Skill)形式呈现,而非传统的PDF论文,以此解决科研复现危机[1][3][4][6] 科研现状与问题 - AI for Science领域快速发展,但背后存在严重的“复现性危机”,传统论文用自然语言和静态图表描述方法,难以确保结果可被重做[2] - 在AI深度介入科研的背景下,模型版本、随机种子、数据预处理等环节的模糊性进一步加剧了复现困难[2] 新范式:Skill vs. Paper - Claw4S会议重新定义学术提交物为“Skill”(技能),而非“Paper”(论文),其核心理念是“论文描述科学,技能执行科学”[4][5] - 一个合格的Skill是一套端到端可运行的研究工作流,允许任何人或AI Agent直接Fork、运行、复现及改进,实现“你的方法好不好,别说,跑给我看”的验证方式[5][6] - 该范式与Claude Code、Cursor等主流AI编程工具兼容,研究者可直接让AI搭档完成投稿[7] 颠覆性审稿机制 - Claw4S设计了一套三阶段AI Agent Review流程,彻底改变传统审稿模式[8] - 第一阶段为执行:AI Agent自动运行提交的Skill,无法运行则直接淘汰,将可执行性设为最低门槛[9][12] - 第二阶段为评估:AI对成功运行的Skill进行严谨性与清晰度评分,建立客观基线[10] - 第三阶段为元审查:人类评审委员介入核验结果并做出最终裁决[11] 会议背景与阵容 - 会议拥有来自斯坦福和普林斯顿的全明星阵容,由AI4Science Catalyst Institute、AutoBio、AutoX、英伟达、Haven联合发起[13][14] - 大会主席包括斯坦福大学医学院终身教授、CRISPR基因编辑领域奠基人之一丛乐,以及普林斯顿大学人工智能创新中心主任、该校最年轻的终身教授之一王梦迪[14] 会议关键信息 - 提交截止日期为2026年4月初[15] - 奖金池总额为50,200美元,最多可有364位获奖者[15] - 已提交作品可在clawrxiv.io浏览,一键投稿可通过OpenClaw向AI Agent发送指定命令完成[15] - 会议官网为https://claw.stanford.edu[15]
别再让 AI 瞎写代码了!装上这个开源 Skills,让 AI 自动按工程流程做项目~
菜鸟教程· 2026-03-30 11:34
AI代码生成工具的工程化痛点 - 当前大模型在代码生成领域的能力已验证,但输出结果有时混乱且不可靠[1] - 传统AI编码方式让AI跳过了软件开发最关键的部分——流程,导致问题频发[2] - 直接使用AI生成的代码看似合规,但运行时常漏洞百出,最终可能不如手动编写[3][6] Superpowers项目概述与核心价值 - Superpowers是一个面向AI编程Agent的开源技能框架与工程化工作流系统[3] - 该项目为Claude Code、Cursor等AI编码工具装上工程化思维内核,强制遵循完整开发流程[3] - 其核心价值在于从根源上解决AI代码质量低下的痛点,将错误发现阶段前移[3][8] - 项目已获得超过123,000个Star,显示出极高的受欢迎程度[8] Superpowers的核心机制:可组合技能(Skills) - 项目将专业开发实践封装成一系列预定义、可组合的工作模板,称为Skills[5] - 用户无需手动编写复杂Prompt,只需描述目标,AI会自动触发相应技能组合[5] - 关键技能包括:需求分析、任务规划、测试驱动开发、系统化调试、规范审查、Git工作树管理等[7] Superpowers与传统AI编码方式的对比 - 执行模式:从单次生成转变为多阶段执行[8] - 控制方式:从依赖Prompt转变为基于Workflow + Skills[8] - 错误发现:从后期发现转变为前移至开发早期[8] - 任务粒度:从粗粒度转变为原子级细粒度[8] - 可靠性:从不稳定转变为可控[8] Superpowers的安装与集成 - 项目支持多种主流AI编码工具,包括Claude Code、Cursor、Codex、OpenCode和Gemini CLI[11][12][13][14] - 不同平台的安装方式不同,可通过官方插件市场、执行指令或CLI命令进行安装[11][13][14] - 安装成功后,在Claude Code中输入指令即可触发Superpowers的工作流,例如“设计一个好看的手机产品宣传页”会显示“superpowers: brainstorming”[14] Superpowers的核心工作流程 - 工作流始于头脑风暴,在编码前先梳理需求、完善设计,并输出可确认的方案文档[15] - 设计确认后,在新建的独立Git工作树分支中初始化并校验测试环境[15] - 将任务拆解为2-5分钟可完成的小步骤,明确文件路径、代码与验证方法[15][21] - 采用子智能体开发模式,分配子智能体执行原子任务,并进行规格与质量两阶段评审[15] - 严格遵循测试驱动开发的“红-绿-重构”流程,先写测试再写代码,无测试的代码会被自动删除[15][27] - 任务间按计划进行代码评审,按问题级别上报,严重问题直接阻断流程[15] - 任务完成后验证测试,提供合并、创建PR、保留或丢弃分支的选项,并清理工作区[15][29] 应用实例:从零开发Todo App的对比 - 传统方式:直接提示“用React帮我写一个Todo App”,AI一次性生成大量代码,但易导致状态管理不规范、缺少单元测试、边界情况未处理、修改易引发其他Bug等问题[18][21] - Superpowers结构化方式:按步骤推进,首先通过提问细化需求,将模糊想法转化为清晰的需求文档[20] - 任务拆解阶段,AI将整体功能拆分为一系列小任务,例如初始化项目、定义数据模型、实现增删改查功能、添加本地存储、编写测试用例等,极大降低了认知负担[21][25][30] - 任务执行采用子代理机制和Git worktree隔离,一次专注一个微任务[26] - 强制进行测试驱动开发,先编写必然失败的测试用例,再编写最小化代码使测试通过,最后重构优化[27][31] - 每个任务完成后进行两阶段代码审查,确保符合规格并评估代码质量,严重问题自动打回重做[28]