ffmpeg
搜索文档
为什么一夜之间大家都在做CLI?
虎嗅APP· 2026-04-01 23:23
文章核心观点 - 近期多家看似不相关的公司(如飞书、Google、Stripe、ElevenLabs、网易云音乐)不约而同地发布命令行工具,这标志着CLI正在被重新发明,成为AI能力扩展的关键基础设施[5][43] - 命令行工具与AI特别适配,因为AI是“文字进、文字出”的,而CLI是纯文本的,AI天生就在这个环境中运作[12][13] - 新一代CLI工具从设计之初就假设调用者可能是AI,它们将执行能力、标准通信协议和使用说明书打包在一起,形成了一个跨平台、免审核、人和AI都能使用的“事实上的插件”,这比传统的插件模式更具优势[31][42][44][90] 一、CLI的定义及其与AI的适配性 - CLI是命令行界面,用户通过输入文本指令来执行任务,与图形界面相比,它更精确且易于自动化[10][12] - 由于AI本质上是处理文本的,因此CLI是AI的天然操作环境,AI可以通过执行一行命令来完成复杂任务,而无需操作图形界面[12][13] 二、AI的能力边界与扩展 - AI的能力边界取决于它能调用的工具和获得的上下文(说明书),没有工具,AI无法执行相关任务[18][21][23] - AI的实际能力 = 它能调用的工具 + 它拿到的上下文[23] - 对于训练数据中未包含的新工具,AI极度依赖显式的说明书(如Skills文件)来学习如何使用,工具越新,这种依赖性越强[24][25][26] 三、新一代CLI的设计哲学 - 传统CLI是为人类程序员设计的,输出是给人看的彩色文字,并可能包含交互式菜单,这会导致AI卡住[29][30] - 新一代CLI为AI设计:所有操作通过参数一次性传入,避免弹出交互式菜单;输出采用JSON等结构化格式供AI直接解析[31][36] - 以飞书CLI为例,它包含200多条命令,覆盖日历、消息、文档等11个领域,AI可通过调用相应命令直接操作,无需打开飞书App[31][32] 四、CLI作为AI的万能插件 - 新一代CLI工具集成了MCP、Skills和Plugin三者的功能,成为一个跨平台、模型无关的执行层[42][47][52] - 与平台锁定的Plugin不同,CLI工具安装后,可以被不同的AI模型(如Claude Code、Cursor、Gemini CLI)调用[45][46] - CLI工具可以通过Shell管道进行组合,实现更复杂的工作流,这是当前Plugin模式难以做到的[51] 五、当前CLI工具面临的问题与挑战 - **安全问题**:CLI直接执行Shell命令,缺乏Plugin沙箱环境中的细粒度权限控制,目前主要依赖`--dry-run`和弹窗确认来补救[56][58] - **说明书过大**:庞大的Skills文件会占用大量AI上下文窗口,导致推理质量下降,例如Google Workspace CLI的Skills文件平均为1.6KB,设计精良[60][61] - **交互设计问题**:为人类设计的交互式提示会卡住AI,需要增加`--no-interactive`等参数[62] - **输出信息过载**:查询可能返回数万字符的JSON,淹没关键信息,需要像Google Workspace CLI使用`field masks`来控制返回字段[64][65] - 根本原因在于“为AI设计”和“在AI中验证”是两件事[66] 六、AI管理自身工具的实践 - 在开发工具时,应转变思路,让AI来管理自己的工具,例如让AI读取`--help`信息、处理安装错误和权限配置,这比编写覆盖所有边界情况的传统安装逻辑更可靠[70][72][74] - 提出了一个5维Agent兼容度评分,从是否为AI设计、是否支持结构化输出、自查、预览和注意上下文大小五个方面评估CLI工具的AI友好度,以呼吁工具开发者重视对AI的适配[74][75] 七、行业生态的缺口 - **发现机制缺失**:用户难以知晓有哪些可用的AI CLI工具,npm和GitHub有条件但缺乏动力成为AI工具的“应用商店”[79] - **认证流程繁琐**:不同服务(飞书、Google、Stripe)有各自的登录认证体系,用户安装多个工具时需要重复登录,体验不佳[81] - **安装体验不佳**:现有的包管理器(如npm、brew)是为懂命令行的开发者设计的,当操作者变为AI时,权限、依赖缺失等问题成为障碍[83][84] - 行业当前缺乏让工具、协议和说明书能被高效发现、安装和信任的基础设施层,构建此层基础设施的公司将成为AI时代的npm[86][87] 八、总结:CLI成为AI能力分发的关键 - CLI正成为当下效率最高的AI能力分发方式,每个好用的CLI工具都为AI增加一项技能,同时减少上下文噪音[89][91] - 行业正处于新旧交替的混乱时代,旧的格式、数据壁垒、包管理器与新的AI原生工具链交织在一起[92][93]
为什么一夜之间大家都在做 CLI?
歸藏的AI工具箱· 2026-03-30 08:33
行业趋势:AI驱动CLI工具复兴 - 近期,包括飞书、Google、Stripe、ElevenLabs、网易云音乐在内的多家看似不相关的公司,不约而同地发布了命令行界面工具[1][2] - 这一趋势的核心驱动力是AI代理的兴起,因为CLI的纯文本交互模式与AI“文字进、文字出”的运作方式天然契合[8][9] - 行业观点认为,CLI正在成为当下效率最高的AI能力分发方式,一个CLI工具同时包含执行能力、通信协议和使用说明,构成一个完整的AI插件[85][86] CLI工具的设计哲学转变 - 新一代CLI工具的设计初衷是假设调用者可能是AI,因此与传统面向程序员的CLI有本质区别[24] - 为适配AI,新工具的设计原则包括:所有操作通过参数一次性传入以避免交互式弹窗、默认输出JSON等结构化格式以便AI解析、自带`Skills`说明书文件、支持`--dry-run`预览模式[26] - 这些工具还支持AI通过查询来了解其命令和参数,无需阅读完整文档[26] CLI作为AI的能力扩展基础设施 - AI的实际能力取决于其能调用的工具和获得的上下文(说明书)[17] - 对于训练数据中未包含的新工具(如2026年发布的飞书CLI),AI极度依赖显式提供的`Skills`说明书文件来了解其功能[19][20] - 工具越新,AI对其显式说明书的依赖就越强,因为训练数据永远追不上工具的发布速度[21][22] - 通过安装不同的CLI工具(如ffmpeg处理视频、飞书CLI管理日程),AI能够获得相应的新技能[14][15][16] CLI对比传统AI插件的优势 - 新一代CLI工具将执行能力(CLI命令)、通信协议(如MCP)和使用说明(`Skills`)三者打包,形成了一个事实上的插件[34][36] - 相较于平台锁定的插件(如Claude Code的插件只能在Claude Code中使用),CLI工具是模型无关的执行层,任何AI模型(如Claude、Cursor、Gemini、DeepSeek、Qwen)都能调用[38][39][40] - CLI工具的分发更自由,通常通过`npm`等包管理器发布,无需经过严格的平台审核流程[41] - CLI支持通过Shell管道进行工具组合,这是几十年前的设计但在AI时代重新焕发价值,而插件之间通常是隔离的,缺乏标准组合方式[44] 当前CLI工具面临的主要挑战与缺陷 - **安全性是结构性缺陷**:CLI直接执行shell命令,缺乏类似插件沙箱的细粒度权限控制(如“只读不写”),目前仅靠`--dry-run`和弹窗确认作为补救措施[48][49][50] - **说明书过大影响AI性能**:部分工具的`Skills`文件过大,会占用大量AI上下文窗口容量,导致推理质量下降;作为正面案例,Google Workspace CLI的`Skills`文件平均仅1.6KB[53] - **交互式提示导致AI卡死**:早期Stripe CLI等工具设计的交互式选择菜单会导致AI代理无法处理,后来通过增加`--no-interactive`参数解决[54] - **输出信息过载**:一些查询会返回数万字符的JSON,淹没有用信息;Google Workspace CLI采用`field masks`设计来限制返回字段大小,但跟进者尚少[56][57][58] 行业基础设施的缺口与未来机会 - **缺乏发现机制**:用户目前难以系统性地发现有哪些CLI工具可供AI使用,`npm`和`GitHub`最有条件成为AI工具的“应用商店”,但缺乏相关动力[75] - **认证体验碎片化**:不同工具(飞书、Google、Stripe等)拥有独立的登录认证体系,给用户带来巨大摩擦[76] - **安装流程对AI不友好**:现有的包管理器(如`npm`、`brew`)是为懂命令行的开发者设计的,当操作者变为AI时,权限问题、依赖缺失、路径冲突等会成为实际障碍[77][78] - 行业当前不缺工具、协议和说明书,缺的是让这三者能够被发现、被便捷安装、被信任的基础设施层,谁能构建出这一层,谁就将成为AI时代的`npm`[81][82][83]
普通人用Gemini CLI提效的 1 万种方法!藏师傅保姆级教程
歸藏的AI工具箱· 2025-07-02 17:08
产品定位 - 谷歌推出完全免费的命令行AI工具Gemini CLI,对标近期火爆的Claude Code [1] - 与Cursor等IDE工具的核心区别在于无界面、纯命令行操作,但支持自动执行任务和处理本地文件 [3][4] - 内置谷歌搜索/文件读写等工具,输入/tools可查看全部支持功能 [4] - 支持MCP工具扩展上下文能力 [6] 技术特性 - 多模态能力支持图片内容分析/批量重命名/打标 [38][39] - 可调用本地软件实现视频剪辑(ffmpeg)/文档转换(Pandoc)/图片处理(ImageMagick)等专业功能 [49][63][67] - 通过Homebrew一键安装第三方工具如yt-dlp实现视频下载 [60][61] - 支持将复杂操作封装成脚本实现一键执行,如deep_work.sh脚本可自动开关软件/切换系统模式 [43] 应用场景 - 知识管理:自动分析Obsidian笔记库并建立反向链接/生成索引文档 [34][35][36] - 内容创作:改写文章/生成博客及推特版本/自动制作PPT [31][32][33][46] - 多媒体处理:视频转GIF/添加水印/配乐/序列帧转换 [53][54][57][59] - 文件批处理:图片重命名/尺寸调整/拼接/格式转换 [39][65][66] 用户体验 - 非技术人员可通过自然语言交互完成专业操作,无需编程知识 [8][9] - 采用NPX安装方式降低使用门槛,仅需终端输入npx命令即可运行 [18][19] - 推荐配合Bob翻译软件解决英文界面问题 [24] - 操作限制在指定文件夹内执行避免系统风险 [15][16]