数字生命卡兹克
搜索文档
我们花了两天时间,终于造出了能自我进化的Skills管理器。
数字生命卡兹克· 2026-01-23 10:00
文章核心观点 - 作者针对AI技能(Skills)管理中的痛点,开发并开源了一套名为“Skills管理三件套”的工具,旨在实现Skills的自动化管理和自我进化 [15] - 这套工具解决了从GitHub项目创建Skills、批量管理检查更新、以及基于使用经验自主迭代优化三大核心问题,使Skills库能够动态更新并积累经验 [15][42][82] Skills管理三件套解决方案 - **github-to-skills**:一个专用的GitHub项目转Skills工具,它在生成的SKILL.md文件中强制注入`github_url`和`github_hash`元数据,为每个Skill创建唯一的身份ID,为后续自动化管理奠定基础 [16][44][52][56][62] - **skill-manager**:作为Skills的大管家,具备三大功能:1) 查询并列出所有本地Skills的类型、描述和版本;2) 监控基于GitHub的Skills版本状态,通过对比本地与远程哈希值来标识“最新”或“过期”;3) 提供一键删除Skills的管理功能 [17][64][66][67][69][71] - **skill-evolution-manager**:负责根据对话反馈和使用经验优化迭代Skills,它将经验数据独立存储于自定义的`evolution.json`文件中,当主SKILL.md文件被新版本覆盖后,能自动将存档经验重新注入,实现Skills的持续进化而不丢失历史调优成果 [16][35][36][38][75][79] 工具解决的问题与效果 - **解决Skills更新与维护难题**:手动管理GitHub项目打包的Skills更新繁琐,新工具能自动检查更新状态并执行升级,例如检查出`company-claude-skills`状态为“过期”,而`yt-dlp`状态为“最新” [11][20][21][22][23][26] - **解决经验迭代与版本更新的冲突**:通过分离主技能文件(SKILL.md)和经验存档文件(evolution.json),确保从GitHub拉取的新版本不会覆盖用户在使用中积累的Bug修复和优化经验,实现了“游戏存档”式的经验保留机制 [28][29][32][34][35][37] - **提升管理效率与体验**:用户只需通过自然语言指令(如“帮我检查一下所有的Skills状态”、“开始升级”)即可完成批量扫描、状态报告和升级操作,全程自动化,无需手动干预 [21][26][40][74] 项目现状与开源分享 - 作者已将这三个Skills工具开源,发布在GitHub仓库“Khazix-Skills”中,供社区自由下载和使用 [88][89][90] - 该仓库在文章发布时已包含`github-to-skills`、`skill-manager`和`skill-evolution-manager`三个核心技能,并获得了1个star,但尚无fork或已发布的版本 [90][100] - 作者承认该方案可能并非完美,但希望其思路能起到抛砖引玉的作用,推动社区共同探索更好的Skills管理实践 [13][43][86][89][92]
一个被忽视的Prompt技巧,居然是复制+粘贴。
数字生命卡兹克· 2026-01-22 11:09
文章核心观点 - 一种名为“提示词重复”的简单技巧能显著提升非推理类大语言模型的回答准确率 该方法仅需将用户问题原样复制粘贴一遍 无需添加任何额外指令或解释 根据谷歌论文的实验结果 在70个基准模型组合测试中 该方法在47个组合中胜出 其余23个打平 无一失败 部分任务准确率可从21%飙升至97% [1][5][7][25] - 该技巧主要适用于非推理模型 对已具备思维链能力的推理模型效果有限 其原理在于大模型是因果语言模型 重复问题为模型提供了“回头看”的机会 使其在第二次处理问题时能结合第一次的全部信息进行更准确的表征和判断 [14][28][30][31] - 这一发现挑战了人们对提示词工程复杂化、玄学化的普遍认知 表明对于许多纯粹的问答场景 最简单直接的重复操作可能是最有效的优化手段 其思想可类比人类社会的复述、强调等行为 并可能影响未来模型的训练与推理优化方向 [45][46][48][51][52] 实验设计与方法 - 谷歌的研究测试了七个主流非推理大模型 包括Gemini 2.0 Flash、Flash Lite、GPT-4o、GPT-4o-mini、Claude 3 Haiku、Claude 3.7 Sonnet以及DeepSeek V3 均通过官方API进行测试 [13] - 测试任务涵盖多个常见基准数据集 如ARC、OpenBookQA、GSM8K、MMLU-Pro、MATH等 并包含两个自定义任务:NameIndex和MiddleMatch 用于测试模型在列表索引和中间匹配场景下的表现 [18][19][20] - 实验方法极为简单 仅将原始查询模板从“<查询>”改为“<查询><查询>” 即在原问题后不加任何修饰地直接重复一遍问题本身 然后对比两种方式下模型的回答准确率 [22][23] 实验结果与数据 - 提示词重复方法在70个基准模型组合测试中赢得了47次 其余23次打平 没有一次失败 所有测试模型的性能均得到了改善 [7][25] - 性能提升显著且广泛 在某些任务上 模型的准确率从21.33%大幅提高至97.33% [1][7] - 衍生实验表明 将提示词重复三遍也能带来类似的性能提升效果 [27] 技术原理阐释 - 大语言模型通常采用因果语言模型架构 在生成下一个词时只能看到之前的文本 无法前瞻后续内容 [28][29] - 当问题被重复时 例如从“Q”变为“Q1Q2” 模型在处理第二个问题“Q2”的每个词时 其注意力机制可以“看到”第一个问题“Q1”的全部内容 这相当于为模型提供了一次回顾和重新思考整个问题的机会 [30][31] - 通过一个选择题的例子进行类比说明:第一次阅读选项时 模型缺乏后续的场景信息作为判断依据 而当问题重复后 模型在第二次处理选项时 已经携带了第一次获得的完整场景信息 从而能做出更准确的判断 [34][36][37] 适用性与影响 - 该技巧主要对非推理模型有效 例如DeepSeek V3 而对于像DeepSeek R1这类具备深度思考能力的推理模型效果不明显 因为推理模型在思考过程中已经自发地学会了复述问题这一技巧 [14][40][41] - 非推理模型与推理模型的核心区别在于速度与准确性的权衡 非推理模型响应速度快但准确性相对较低 推理模型准确性高但速度慢 提示词重复技巧可以在不牺牲非推理模型速度的前提下 大幅提升其准确性 因此在许多实际应用场景中具有重要价值 [15][17][18] - 这一发现促使人们重新思考提示词工程的价值 对于许多短问题问答场景 复杂的提示词结构可能并非必要 最简单的重复操作可能带来最显著的收益 [45][50][51] 未来展望与引申思考 - 论文提出了未来的研究方向 包括将提示词重复结构融入模型的预训练或微调流程 优化推理阶段的键值缓存以提升效率 尝试只重复提示词的关键部分 以及探索在多模态输入上的应用等 [52] - 文章将这一技术原理引申至人类行为与社会现象 指出重复是人类社会中普遍存在的强化认知和情感的手段 如复述、强调、朗诵、宣誓等 人工智能世界的规律在某种程度上是高度压缩后的人类世界规律的反映 [55][62][65] - 最终 文章建议在面对复杂问题或混乱情境时 无论是与AI交互还是处理个人事务 重复核心信息以聚焦重点可能是一种简单而有效的策略 [66][67][68]
Skills的最正确用法,是将整个Github压缩成你自己的超级技能库。
数字生命卡兹克· 2026-01-21 10:18
文章核心观点 - 利用先进的AI Agent平台(如Coze、OpenCode、Claude Code)及其Skills功能,可以将GitHub上成熟的开源项目快速封装成可调用的技能,从而让普通用户无需深厚技术背景也能便捷地使用这些强大工具,极大地扩展个人能力边界 [3][8][43] 方法论:将开源项目Skill化的具体流程 - 提出明确需求,使用具备强大搜索能力的AI模型(如GPT-5.2 Thinking)在GitHub上寻找对应的经典开源项目 [9] - 获取项目链接后,在支持Skills的AI开发环境中(如装有`skill-creator`的OpenCode),指示AI将该项目打包封装成一个Skill [11][12] - 建议在封装时先让AI进行规划(Plan模式),以提高成功率和后期稳定性 [12] - 首次运行封装好的Skill时,推荐使用GPT 5.2 Codex以获取更好体验,AI会指导解决运行中遇到的环境配置等问题 [22][24] - 将首次运行积累的经验和解决方案反馈给AI,让其更新Skill文件,从而实现后续使用的快速启动和固化 [29][30] 成功案例与应用场景 - **视频下载**:将拥有143k星标、支持上千个网站的`yt-dlp`项目封装成Skill,实现快速视频下载,首次运行后再次使用仅需十几秒 [10][18][28] - **网页转桌面应用**:将拥有45k星标的`Pake`项目Skill化,可一键将网页项目打包成轻量级桌面APP [33][35] - **格式转换**:将多个顶级格式转换开源项目(如FFmpeg、ImageMagick)封装成一个万能格式转换Skill,解决多种格式转化需求 [4][37] - **网页存档**:将`ArchiveBox`项目转为Skill,可以多种格式保存想要存档的网页 [37][38] - **密码破译**:将著名的`Ciphey`项目转为Skill,可在本地配合Agent进行密码破译 [39] 核心理念与价值主张 - 避免重复造轮子,直接利用开源世界数十年的积累,将经过时间考验、稳定高效的开源项目转化为个人可用的技能 [2][3] - AI和Skills技术降低了使用高级开源工具的门槛,使普通用户能够跨越复杂的环境部署和命令行操作障碍 [2][3] - 通过将开源项目Skill化,个人可以构建一个强大的、个性化的技能弹药库,背后是“全人类过去数十年的积累” [41][43] - 这种方法将曾经遥不可及的强大工具变得触手可及,显著扩展了个人的能力范围,创造了新的可能性 [42][44]
火爆全网的Skills,终于有了最简单的打开方式。
数字生命卡兹克· 2026-01-20 10:18
扣子2.0版本核心更新 - 产品更新至2.0版本,并更换了logo [1] - 本次更新引入了两个被作者认为非常实用且及时的核心功能:Skills(技能)和长期计划 [4] Skills(技能)功能详解 - Skills被视为继2024年Prompt工程、2025年上下文工程之后,2026年可能兴起的“Skills工程” [4] - 此前Skills功能主要集成在如OpenCode、CodeX、Antigravity等编程工具中,对普通用户门槛较高 [4] - 扣子作为一款Agent产品,集成Skills功能顺理成章,大幅降低了普通用户使用和创建Skills的门槛 [4] - 用户可通过在对话框输入“@”键来调用已拥有的技能 [4] - 官方内置了大量开箱即用的技能,涵盖写作、制作PPT、设计、视频处理等领域 [6] - 用户也可以使用他人创建并上架到技能商店的技能 [7] Skills的创建与抽象化价值 - 作者强调,未来个人的核心竞争力在于能否将重复性需求抽象成Skills并集成到主Agent中 [7] - 任何需要重复3次及以上的非沟通类任务,都应该被Skill化 [7] - 扣子平台的核心价值之一是帮助用户以极低成本将个人经验Skill化 [7] - 平台提供了两种创建技能的方式,分别面向普通用户和专业用户 [7] 面向普通用户的“口喷式”Skills开发 - 这是扣子上主流的技能构建方式,用户通过自然语言描述即可创建技能 [8] - 例如,用户可以将著名的开源多媒体处理工具FFmpeg的GitHub链接发给AI,要求其打包成一个用于视频格式转换、分辨率修改等功能的Skill [9][10][13] - 构建过程约需一两分钟,部署后即可在对话中调用 [14][15][19] - 实际测试中,调用该技能将一段视频转换为小于10MB的GIF,耗时仅几十秒,效果符合要求 [21][23] - 用户还可以将多个相关开源项目(如FFmpeg和ImageMagick)合并,创建一个能同时处理视频和图片的复合型Skill [24][25][27] - 此类复合技能可处理复杂连续任务,例如按要求将图片转为指定格式并调整视频分辨率,全程自动化处理仅需约2分钟 [29] - 创建好的技能可以上架到技能商店供所有用户使用 [30][32] 面向专业用户的Skills迁移 - 对于已通过Claude Code或OpenCode等工具创建了大量Skills的专业用户,扣子支持直接上传技能文件包(.zip或.skill格式)进行迁移 [33] - 系统会自动识别并创建技能,实现从其他平台到扣子的无缝平移 [33][37] - 目前部分迁移技能的运行成功率尚有优化空间 [38] Skills功能的当前局限与展望 - 目前扣子2.0上的技能只能单独使用,尚不支持多个Skill之间的互相结合与调用,这在一定程度上限制了其能力 [40] - 该更新对于降低Skills使用门槛、推动其普及具有重要作用 [39] - 补齐技能联动等关键短板后,AI助手的能力将得到质的飞跃 [58][60] 长期计划功能详解 - 长期计划功能允许用户为AI设定一个长期目标,AI会将其分解为可执行的步骤,用户只需按计划执行 [42][43] - 例如,用户可以创建一个“2026年全年健康执行路径规划”,AI会先了解用户当前身体状况,然后生成详细的阶段性规划书 [50][54] - 规划书内容系统,包含整体目标、阶段划分、关键里程碑和量化追踪指标体系等 [54] - AI会自动将计划任务添加到日程中,并在设定时间通过网页端弹窗提醒用户 [55] - 在计划执行过程中,用户可以通过与AI对话来不断调整和优化计划 [55] 长期计划功能的当前局限 - 目前计划提醒仅支持网页端,扣子的APP端尚未支持该功能的通知 [55] - 在移动端使用长期计划被认为是刚需,预计APP端支持会很快更新 [57]
飞书合作的第一款AI硬件来了,居然是个AI录音豆。
数字生命卡兹克· 2026-01-19 10:28
产品发布与核心定位 - 飞书与安克创新合作发布首款AI硬件产品,命名为“AI录音豆” [1] - 产品采用“硬件+软件+AI服务”的合作模式,安克创新负责硬件,飞书提供软件与AI服务 [3] 产品设计与形态 - 产品主体为小型圆形“录音豆”,具备磁吸功能,可夹在衣领或吸附于金属表面 [5][14] - 配套磁吸充电舱可为录音豆充电,产品形态区别于传统的“AI录音卡片” [6][13] - 产品尺寸小巧,约与旧版一元硬币相当,重量约为两枚一元硬币 [18][20] - 采用单按键机械结构设计,按键状态(自锁/弹出)清晰,便于盲操作交互 [20] 核心功能与使用场景 - 核心功能为录音,并通过飞书进行AI转写、总结,生成智能会议纪要 [27][30] - 支持实时翻译功能,适用于如英文发布会等场景 [40] - 产品定位为解决传统AI录音卡片与手机无线充电冲突的痛点 [11] - 适用于线下会议、访谈、电话等多种需要录音与内容整理的场景 [8][40] 性能与续航 - AI录音豆单次续航约为7至8小时 [25] - 配合充电舱(电量320毫安时)使用,总续航时间可达约32小时 [25] - 录音质量进行了底噪抑制和人声强化,在十人会议室各角落均可清晰拾音 [27][40] - 录音文件自动同步至云端,开启“快速传输”功能可将传输速度提升约10倍,数小时录音传输约需3分钟 [25][26] 飞书生态集成与优势 - 录音内容经飞书处理后可生成包含卡片总结、表格对比的可视化智能会议纪要 [28][30][33] - 通过“飞书妙记”功能生成区分说话人的高精度逐字稿 [35] - 所有录音及生成的文字内容可自动存入“飞书知识问答”库,形成企业知识沉淀并支持后续问答 [24][37][39] - 对于飞书企业用户,该硬件生成的数据能无缝进入现有工作流与知识体系,实现从录音到知识复用的闭环 [22][24][40] 用户体验与市场定位 - 产品解决了飞书用户需手动打开APP录音的繁琐操作,硬件一键操作更为便捷 [20] - 对于深度使用飞书的组织,该产品能显著提升信息记录、整理与知识管理的效率 [36][40][43] - 产品售价为899元,附赠6个月免费会员,后续可继承用户原有的飞书AI额度,对飞书企业会员具有吸引力 [41]
火爆全网的《卢浮宫小猫》AI视频万字创作心得分享,这可能是他们最毫无保留的一次。
数字生命卡兹克· 2026-01-16 09:25
文章核心观点 - 文章详细记录了数字艺术家海辛与阿文为浦东美术馆卢浮宫大展创作AI宣传片《卢浮宫小猫》的全流程,分享了从创意、选角、定调、音乐、分镜、美术到动画的完整方法论与实战经验,旨在展示AI工具在专业影视创作中的高效应用与艺术潜力 [8][9][24] - 创作者强调,尽管当前AI模型能力强大且便捷,但专业创作者更应借此追求更高的艺术标准,通过深入的手工构思与分次迭代来控制作品质量,而非依赖AI代理一键生成,模型越方便越要逼自己做得更好 [165][166] 选角与故事设定 - 项目最初主角设定为与浦东美术馆黑白主题色匹配的奶牛猫,故事围绕一幅油画展开,但因宣传周期长需两支短片,追车情节会导致调性偏离“美术馆官方宣传片”气质而被整体弃用 [27][28][30] - 最终确定主角为一白一橘两只猫,白猫代表法国,橘猫延续其作为“上海代言”的属性,此设定既保证了主角视觉明亮以吸引观众眼球,也呼应了之前的作品系列 [32] - 影片分为上下两支,上半支讲述法国小白猫来上海的故事,下半支讲述浦东代言橘猫去看展的故事,两支短片均围绕实际展品(孔雀纹样盘与“赛诗会诗版”)进行叙事设计 [19][20][22] 影片定调与音乐设计 - 创作早期即确定影片“调性”,包含核心画面影调与音乐两部分,音乐能直接引导观众感受并反向决定剪辑节奏 [36] - 受浦东美术馆“镜厅”启发,确立了“镜像”核心概念,用以结构卢浮宫与浦东美术馆、上海与巴黎、两只小猫之间的关系,早期探索了分屏动画形式 [39][41] - 主乐器选择钢琴,原因一是其干净的和弦与“水波纹”倒影质感联想契合,二是镜厅的格子结构让人联想到钢琴键盘的秩序感 [46] - 叙事类短片配乐需要“弧线”以匹配故事的起承转合,结构包括开篇引入、展开叙述、转折、高潮旋律和专门补写的收尾(outro) [47][49] - 使用Suno生成和编辑音乐,因其可对片段进行细致控制,如规定旋律长度和特定时间点的情绪,并通过调整“音频影响度”(Audio influence)在保留基础旋律上进行变奏,例如为上海篇加入萨克斯以营造老上海爵士感 [50][52] 分镜构思与叙事节奏 - 开篇分镜要求“信息量高”,力求在前三个镜头内讲清故事,例如第一个镜头暗示故事核心(如猫与海报),第二个特写介绍主角,第三个全景交代环境与镜像关系 [57][59][60] - 分镜节奏感来自景别的变化,避免全景接全景的单一感,通过全景与特写的切换形成收放感,并用简单动画引导观众视线 [62] - 在展示白猫喜爱孔雀纹样盘的奇幻段落中,通过镜头运动与构图设计引导注意力:用卢浮宫经典雕塑(如胜利女神像)作背景点缀,采用极端仰拍使前景白猫占据更大体积,强迫观众关注猫的同时识别地点 [67] - 为保持观众注意力始终跟随主角,会刻意拿掉容易“抢戏”的元素,如画框中的人像 [70] - 高潮后的“回转现实”处理简洁,通过切回猫的特写再切至客观镜头,让观众明白奇幻段落源自猫的幻想 [71] - 对于信息量大的段落(如展品运输),采用蒙太奇和分屏处理,并避免出现人脸以防止观众注意力被转移 [76] - 转场设计注重“意向连续”,例如前后镜头都出现飞机意向,即使风格从写实跳至马赛克艺术也不会让观众感到突兀 [83] 美术风格与AI工具应用 - 美术原则是“第一眼要好看(电影感),第二眼要耐看(丰富的细节)” [97] - 为契合卢浮宫伊斯兰艺术展主题,深入研究了该艺术风格,并总结出“伊兹尼克风格”(Iznik style)和“马赛克艺术”(Mosaic art)等高效关键词 [96] - 选对AI模型被类比为“选对乙方”,目前生图主力是Nano Banana Pro,也用于大部分修改,部分配合Photoshop手动细调 [100] - 展示了AI高效修改的能力,例如项目中途将主角从黑猫全部改为白猫,使用早期工具耗时一天半完成所有镜头修改,而使用Banana Pro后可通过一句话指令批量完成,效率更高 [102][105][107] - 提示词撰写趋向简化,依赖模型的多模态理解能力,例如直接上传图片让AI提取元素并转换风格,而非撰写长篇提示 [111] - 对于复杂创意(如“猫在水边跑,倒影是孔雀”),必须分步迭代:先构建透视草图,生成基础场景;再逐步添加细节(如铺地砖、加入展品);最后处理动画,而非一次性交给AI生成 [120][122][123][124][127][129] - 提升AI合成成功率的技巧包括:先裁剪素材再生成以使模型更聚焦;对于需要多次复用的主体(如猫、蝴蝶),先将其提取到纯色背景再更换背景,避免模型“吃掉”主体或改变其外观 [132][137] - Photoshop的“协调”功能在合成时用于自动匹配环境光影,提升效率,但整体使用频率在降低 [141][143] - 对于需要高度确定性的地标或展品镜头,常采用将AI生成的猫合成到真实场景照片上的方法 [131] 动画制作与视频工具 - 主力视频工具是Google的Flow,常用模型是Veo 3.1,因其画面更具电影感,辅助使用可灵、海螺、即梦、万相、Ruma等 [147] - Flow的涂鸦功能可有效指导角色动作,例如在首帧上画运动路径并附加提示词,能让猫按指定方向走出画外 [149][152] - 认为当前已进入可以“P视频”的时代,Flow的隐藏编辑功能允许在生成视频中添加、删除元素,甚至改变摄像机运镜 [150] - Luma的Ray3在测试中表现出强大的视频合成与质量提升能力,但生成速度较慢 [153] - 万相(Wan)2.6的“新建角色”功能对动物角色生成效果出色,能基于一段模糊视频创建高清、被“主人认可”的角色,并用于新场景表演 [154] - 制作落版(结尾)微动效时,有时会选用动态幅度较小的上一代模型,以避免新模型过度发挥导致动效夸张 [157] 创作流程与废稿反思 - 创作流程遵循“先定画面与音乐调性,再推进分镜”的顺序 [34][36] - 对于关键镜头,采用“先确定尾帧(高潮画面),再反推设计首帧和镜头运动”的方法,以收敛想象,使镜头可控 [70] - 在情节未完全确定时,会用Sora等工具跑样例以快速测试节奏和构图,但最终是否采用取决于其是否符合既定影调与叙事逻辑 [80] - 废稿量巨大,尤其在效率工具升级后探索更多,例如曾尝试制作上海特色的“蝴蝶酥”镜头、卢浮宫内的夸张动效以及利用光影构成蝴蝶的创意镜头,均因动态实现困难或风格不符“低调奇幻”的基调而放弃 [160][162][164][167]
一个全新的世界模型,终于让AI视频进入了“无限流”时代。
数字生命卡兹克· 2026-01-14 08:23
PixVerse R1实时世界生成模型的技术定位与特点 - 公司推出下一代实时世界生成模型PixVerse R1 能够根据用户输入的Prompt连续、实时地生成并改变视频流剧情 用户可在过程中随时用Prompt修改视频进程 每次输入后约2秒延迟 世界剧情即随之变化 若用户不进行干预 模型可自行无限、连续地生成视觉流 公司将其称为“实时世界生成模型” [2][3] 当前“世界模型”的主流定义与分类 - 行业对“世界模型”的定义较为宽泛 指能够用可持续的内部状态预测世界变化 并可被交互和验证的模型 该术语目前常被用于指代三类方向:视频生成模型、可交互的生成世界、面向机器人和自动驾驶的物理仿真基础模型 [4] - 行业现有的世界模型代表主要分为三个方向:以Google Genie 3为代表的 一次生成后可实时导航的动态视频世界模型 可维持24fps、720p及分钟级一致性 [7][8] 以李飞飞World Labs Marble为代表的 侧重于三维空间重建、生成与模拟的3D类世界模型 其核心在于3D表示和空间一致性 [12][14] 以英伟达Cosmos为代表的 专注于为自动驾驶、机器人等提供高保真物理仿真与合成数据的基础模型平台 [19] PixVerse R1的创新方向与产品体验 - PixVerse R1为世界模型领域补上了第四个方向:实时视频生成 并提供了可实测的Demo版本 [22][23] - 产品体验需邀请码进入 每个实时生成会话限时5分钟 主要原因是实时生成对算力消耗极大 [26][35] - 用户体验反馈极为积极 产品提供了预设模板(如卡通、1944、赛博朋克等)和自定义模式 用户可通过文本或语音输入Prompt实时引导剧情发展 创造了高度互动、充满惊喜和未知乐趣的体验 被形容为一种全新的娱乐形态 [31][40][42][44][45][48][54] 实时世界生成模型预示的行业未来 - 该技术可能重塑未来娱乐内容形态 电影、综艺、游戏等可能不再是固定时长的文件 而是由世界模型驱动的、永远流动的世界时间线 [56] - 未来的内容创作模式可能是:创作者提供一个起点和世界观设定 由世界模型自主演进剧情 观众则通过一句话、一个表情或一次选择来轻微影响剧情走向 最终实现同一宇宙下的不同时间支线体验 [57][58] - 该技术的出现被认为是AI模型发展历史上具有重要意义的一步 代表了新颖且极具未来感的发展方向 [62][64]
一文带你看懂,火爆全网的Skills到底是个啥。
数字生命卡兹克· 2026-01-13 09:05
Skills的概念与热度 - Skills是AI领域当前的热点概念,其热度在AI圈内已不亚于当年的Prompts [4] - 各种Skills相关的GitHub仓库受到广泛关注,例如一个包含50多个Claude技能的仓库已获得18K星标,另一个名为superpowers的基于Skills的开发工作流程项目也获得18K星标 [2][3] Skills的定义与核心特征 - Skills翻译为“技能”,是给AI Agent(智能体)使用的技能 [4] - 在形式上,Skills是一个文件夹,而不仅仅是文本,其中可以包含Prompt、参考文档、脚本等多种资源,供Agent在需要时加载 [23] - Skills的核心作用是**将流程性知识封装成可复用的能力包**,使Agent能够随需调用并稳定执行任务 [29] - Skills的设计采用了“渐进式披露”原则,即先加载元信息目录,再按需加载详细内容,以优化Token使用并降低认知负荷 [25][28] Skills与Prompt、MCP的区别 - **Prompt**:相当于对Agent(比喻为实习生)的**口头临时指令**,适合一次性、临场、可变的场景,其作用范围仅限于当前对话轮次 [25] - **Skills**:相当于给Agent的**内部SOP手册或知识库**,包含规范、脚本、模板等,可供Agent在需要时自行查阅并复用 [25] - **MCP**:相当于给Agent的**门禁卡**,其功能是让AI应用能够安全地连接和调用外部系统或API,不涉及具体任务执行方法的教导 [29][30] Skills的应用案例与价值 - **AI选题系统**:通过1个主控Agent和3个Skills(热点采集、选题生成、选题审核)实现自动化,将原本需要2-3小时的人工选题流程大幅简化 [4][5][6][7] - **整合包生成器**:通过Skill将复杂的GitHub开源项目(如Manim动画引擎)打包成带有前端界面的一键启动整合包,解决了非技术用户的痛点 [9][13][16][18] - Skills的价值在于**复用**,无论是专业人士封装工作流,还是普通用户固化常用需求,都能显著提升效率,其潜力被市场认为仍被大大低估 [18] Skills的技术规范与创建 - Skills由Anthropic公司于2025年10月在Claude Code上首次推出,并于2025年12月18日作为开放标准发布,从而引爆了生态 [19][21] - 一个标准的Skill文件夹**名称必须使用小写字母和连字符**(例如 `hotspot-collector`) [36] - 每个Skill文件夹中,**`SKILL.md` 是唯一必需的核心文件**,其结构固定为两部分 [37] 1. **YAML头部**:包含 `name` 和 `description` 字段,用于Skill识别 [37] 2. **Markdown主体**:详细的工作流程、输出格式要求和示例 [38] - `description` 字段至关重要,需使用**第三人称**清晰描述Skill的功能和调用时机,并包含触发关键词,同时建议将整个 `SKILL.md` 文件控制在500行以内以保证最佳效果 [38][39] Skills的生态与获取 - 除了Claude Code,OpenCode、Codex、Cursor、Codebuddy等主流编程工具均已兼容Skills标准 [23] - Anthropic官方开源了一个Skills仓库(`https://github.com/anthropics/skills`),提供了大量实用Skills,该仓库已获得**38.3k星标**和**3.5k分叉** [44][45] - 官方仓库中包含了16个示例Skills,涵盖文档处理、前端设计、PDF/Excel操作、Skill创建等多个领域,其中 `skill-creator` 这个Skill本身就可以指导用户创建新的Skills [45][46][47] Skills的安装与使用 - **安装方法一(命令安装)**:在Claude Code或OpenCode中,直接向AI发送包含Skill项目地址的Prompt指令即可完成安装 [49][51][52] - **安装方法二(手动放置)**:将Skill文件夹拖放到指定本地目录 [54] - Claude Code路径:`~/.claude/skills` [55] - OpenCode路径:`~/.config/opencode/skill` (macOS/Linux) 或 `C:\Users\[用户名]\config\opencode\skill` (Windows) [55][56] - 建议将Skills安装在全局目录,以便在所有项目中共用 [56] - 使用Skills时,用户只需通过自然语言对话提出需求,Agent便会自动判断并调用相应的Skill来执行任务 [57]
手把手教你用上开源版Claude Code,人人都可以体验编程Agent的魅力了。
数字生命卡兹克· 2026-01-12 09:05
文章核心观点 - 开源产品组合OpenCode与oh-my-opencode插件能够替代并超越Claude Code,为普通用户开启了轻松使用编程Agent进行Vibe Coding的时代 [2][37][53] - 该组合通过集成多款顶级AI模型并简化安装配置流程,显著降低了编程Agent的使用门槛 [2][40][52] 产品介绍与优势 - OpenCode是一款提供专用客户端的开源编程Agent,支持macOS、Windows和Linux系统,无需使用复杂IDE或命令行即可通过对话界面操作 [3][4] - 社区插件oh-my-opencode极大地增强了OpenCode的功能,内置了分工明确的专家角色Agent,并能并行处理任务,大幅提升生产力和易用性 [35][40][41] - 该产品组合兼容Claude Code的功能,并支持完整的LSP和精选的MCP,功能全面 [42][43] 模型集成与配置 - OpenCode支持调用包括GPT、Gemini、Claude以及GLM Coding Plan在内的几乎所有主流AI模型 [13][14] - 用户可通过订阅ChatGPT Pro/Plus(200美元)和Gemini Ultra(250美元)会员,在OpenCode中授权使用其开发额度,从而调用包括GPT‑5.2‑Codex、Gemini 3 Pro和Claude Opus 4.5在内的顶级模型 [2][16][24][28] - 通过安装opencode-antigravity-auth插件,用户可以使用Google Antigravity IDE的额度来访问Gemini 3 Pro和Claude Opus 4.5模型 [28][29] - 对于无付费订阅的用户,可以使用免费的GLM-4.7或MiniMax 2.1模型来完成大多数普通任务 [16][33][34] 市场动态与竞争 - Anthropic公司(Claude)近期采取了封闭策略,封杀了OpenCode等第三方调用其Claude Code订阅套餐的通道,并封禁了一批用户账号 [16][18] - 作为竞争回应,OpenAI的Codex几乎在几小时后便宣布支持OpenCode,允许ChatGPT订阅套餐直接授权 [19][20] 安装与使用教程 - 安装OpenCode只需从其官网下载对应操作系统的客户端并完成安装 [3][4][6] - 在OpenCode中添加模型时,点击界面左下角的“+”号,选择相应供应商并完成授权即可 [12][21][27] - 安装oh-my-opencode插件只需在OpenCode中新建对话并发送指定的安装Prompt指令,然后根据引导完成配置 [45][46][47][51]
唐杰、杨植麟、姚顺雨、林俊旸罕见同台分享,这3个小时的信息密度实在太高了。
数字生命卡兹克· 2026-01-10 20:37
文章核心观点 - 多位中国AI行业领军人物在AGI-NEXT会议上探讨了行业发展趋势,核心观点认为Chat聊天范式竞争已结束,下一阶段竞争焦点转向Action(执行任务)和Agent(智能体)[6] - 行业将出现明显分化,包括To C与To B市场的分化,以及垂直整合与模型应用分层路径的分化[12] - 对下一代技术范式(如自主学习)持乐观态度,并认为2025-2026年可能出现关键信号[21][23][28] - 智能体(Agent)在2026年有望创造显著经济价值,能够处理更长时间跨度的任务[32] - 中国AI公司在未来3-5年有成为全球领先者的机会,但需克服算力、市场环境和文化等挑战[39][40][41][45][46] 行业分化趋势 - **To C与To B市场分化明显**:To C产品(如ChatGPT)对大部分用户而言是搜索引擎的加强版,用户感受变化不大;而To B市场对智能水平高度敏感,智能越高代表生产力越高,用户愿意为最强模型支付溢价(例如200美元/月 vs 50或20美元/月的次优模型)[13][14] - **To B市场呈现“赢家通吃”趋势**:最强的模型与稍弱模型之间的分化会越来越明显,因为用户无法预知次优模型在哪些任务上会出错,需要额外精力监控[15] - **技术路径出现分化**:垂直整合路线(模型与产品强耦合)在To C领域(如ChatGPT、豆包)依然成立;但在To B领域,趋势似乎是模型层与应用层分离,强大的模型被不同的应用用于各种生产力环节[15] 下一代技术范式展望 - **自主学习是热门方向但定义多样**:硅谷已形成共识,但具体指代的任务场景各异,例如聊天个性化、代码环境适应、探索新科学领域等[21] - **自主学习已在发生**:例如ChatGPT利用用户数据优化聊天风格,Claude Code项目95%的代码由Claude自身编写以帮助其变得更好[22] - **范式突破可能发生在2025-2026年**:例如Cursor等公司已开始每几小时用最新用户数据训练模型,被视为早期信号[23] - **学术界与工业界将协同创新**:随着学校算力资源增加(尽管与工业界仍有10倍差距),学术界具备创新基因,将研究工业界未及解决的问题,如智能上界、资源分配、幻觉与资源的平衡(类似经济学中的风险收益平衡)等[18][19][28] - **效率瓶颈驱动创新**:大模型投入巨大但效率不高,继续Scaling的收益递减。未来需要定义“智能效率”,即用更少投入获得同等智能增量,这将成为范式创新的驱动力[29][30] 智能体(Agent)发展战略 - **To B Agent价值明确且处于上升曲线**:其价值与模型智能水平直接正相关,模型越智能,解决任务越多,带来的收益越大[32][33] - **当前瓶颈在于部署与教育**:即使模型停止进步,将现有模型更好部署到各公司也能带来10倍或100倍的收益,对GDP产生5%-10%的影响(目前影响不足1%)。同时,教育用户使用工具至关重要[34] - **Agent进化方向是更长的任务时长与主动性**:期待2026年Agent能处理人类1-2周工作量的任务流。更高级的Agent应具备自主进化和主动思考能力,但这引发了安全问题[25][32][35] - **通用Agent的机会存在于长尾需求**:解决广泛、分散的长尾问题是AI的魅力所在,也是挑战。模型公司凭借算力和数据可能快速解决部分问题,但套壳应用若做得更好也有机会[36][37] - **Agent发展有四个阶段**:从目标与规划皆由人定义,最终发展到目标与规划皆由大模型内生定义[37] 中国AI公司的机遇与挑战 - **成为全球领先者的概率与条件**:有嘉宾认为概率很高,也有嘉宾给出20%的乐观估计[39][47]。关键条件包括:突破算力瓶颈(如光刻机)、发展更成熟的To B市场或参与国际竞争、以及培养更多具有冒险精神和前沿探索意愿的人才[40][41][46] - **中美研究文化差异**:中国团队更倾向于做已被证明可行的、确定性高的事情(如预训练),对刷榜和数字指标看得较重。需要积累文化底蕴,并敢于坚持自己认为正确的方向,而非仅受榜单束缚[43][44] - **算力分配制约创新**:美国公司将大量计算资源投入下一代研究,而中国公司的大量算力被交付任务占据,用于前沿探索的资源相对捉襟见肘[45] - **软硬结合与冒险精神**:存在通过模型与芯片协同设计实现创新的机会。年轻一代(90后、00后)冒险精神增强,营商环境的改善有助于创新[46][49] - **历史借鉴与未来信心**:回顾互联网发展,中国在应用层面实现了赶超。在AI领域,To C应用可能百花齐放,To B解决方案也将跟进,关键在于创造让聪明人敢于冒险的环境并坚持到底[48][49][50]