ffmpeg - 财报，业绩电话会，研报，新闻

ffmpeg

搜索文档

虎嗅APP· 2026-04-01 23:23

文章核心观点 - 近期多家看似不相关的公司（如飞书、Google、Stripe、ElevenLabs、网易云音乐）不约而同地发布命令行工具，这标志着CLI正在被重新发明，成为AI能力扩展的关键基础设施[5][43] - 命令行工具与AI特别适配，因为AI是“文字进、文字出”的，而CLI是纯文本的，AI天生就在这个环境中运作[12][13] - 新一代CLI工具从设计之初就假设调用者可能是AI，它们将执行能力、标准通信协议和使用说明书打包在一起，形成了一个跨平台、免审核、人和AI都能使用的“事实上的插件”，这比传统的插件模式更具优势[31][42][44][90] 一、CLI的定义及其与AI的适配性 - CLI是命令行界面，用户通过输入文本指令来执行任务，与图形界面相比，它更精确且易于自动化[10][12] - 由于AI本质上是处理文本的，因此CLI是AI的天然操作环境，AI可以通过执行一行命令来完成复杂任务，而无需操作图形界面[12][13] 二、AI的能力边界与扩展 - AI的能力边界取决于它能调用的工具和获得的上下文（说明书），没有工具，AI无法执行相关任务[18][21][23] - AI的实际能力 = 它能调用的工具 + 它拿到的上下文[23] - 对于训练数据中未包含的新工具，AI极度依赖显式的说明书（如Skills文件）来学习如何使用，工具越新，这种依赖性越强[24][25][26] 三、新一代CLI的设计哲学 - 传统CLI是为人类程序员设计的，输出是给人看的彩色文字，并可能包含交互式菜单，这会导致AI卡住[29][30] - 新一代CLI为AI设计：所有操作通过参数一次性传入，避免弹出交互式菜单；输出采用JSON等结构化格式供AI直接解析[31][36] - 以飞书CLI为例，它包含200多条命令，覆盖日历、消息、文档等11个领域，AI可通过调用相应命令直接操作，无需打开飞书App[31][32] 四、CLI作为AI的万能插件 - 新一代CLI工具集成了MCP、Skills和Plugin三者的功能，成为一个跨平台、模型无关的执行层[42][47][52] - 与平台锁定的Plugin不同，CLI工具安装后，可以被不同的AI模型（如Claude Code、Cursor、Gemini CLI）调用[45][46] - CLI工具可以通过Shell管道进行组合，实现更复杂的工作流，这是当前Plugin模式难以做到的[51] 五、当前CLI工具面临的问题与挑战 - **安全问题**：CLI直接执行Shell命令，缺乏Plugin沙箱环境中的细粒度权限控制，目前主要依赖`--dry-run`和弹窗确认来补救[56][58] - **说明书过大**：庞大的Skills文件会占用大量AI上下文窗口，导致推理质量下降，例如Google Workspace CLI的Skills文件平均为1.6KB，设计精良[60][61] - **交互设计问题**：为人类设计的交互式提示会卡住AI，需要增加`--no-interactive`等参数[62] - **输出信息过载**：查询可能返回数万字符的JSON，淹没关键信息，需要像Google Workspace CLI使用`field masks`来控制返回字段[64][65] - 根本原因在于“为AI设计”和“在AI中验证”是两件事[66] 六、AI管理自身工具的实践 - 在开发工具时，应转变思路，让AI来管理自己的工具，例如让AI读取`--help`信息、处理安装错误和权限配置，这比编写覆盖所有边界情况的传统安装逻辑更可靠[70][72][74] - 提出了一个5维Agent兼容度评分，从是否为AI设计、是否支持结构化输出、自查、预览和注意上下文大小五个方面评估CLI工具的AI友好度，以呼吁工具开发者重视对AI的适配[74][75] 七、行业生态的缺口 - **发现机制缺失**：用户难以知晓有哪些可用的AI CLI工具，npm和GitHub有条件但缺乏动力成为AI工具的“应用商店”[79] - **认证流程繁琐**：不同服务（飞书、Google、Stripe）有各自的登录认证体系，用户安装多个工具时需要重复登录，体验不佳[81] - **安装体验不佳**：现有的包管理器（如npm、brew）是为懂命令行的开发者设计的，当操作者变为AI时，权限、依赖缺失等问题成为障碍[83][84] - 行业当前缺乏让工具、协议和说明书能被高效发现、安装和信任的基础设施层，构建此层基础设施的公司将成为AI时代的npm[86][87] 八、总结：CLI成为AI能力分发的关键 - CLI正成为当下效率最高的AI能力分发方式，每个好用的CLI工具都为AI增加一项技能，同时减少上下文噪音[89][91] - 行业正处于新旧交替的混乱时代，旧的格式、数据壁垒、包管理器与新的AI原生工具链交织在一起[92][93]

歸藏的AI工具箱· 2026-03-30 08:33

行业趋势：AI驱动CLI工具复兴 - 近期，包括飞书、Google、Stripe、ElevenLabs、网易云音乐在内的多家看似不相关的公司，不约而同地发布了命令行界面工具[1][2] - 这一趋势的核心驱动力是AI代理的兴起，因为CLI的纯文本交互模式与AI“文字进、文字出”的运作方式天然契合[8][9] - 行业观点认为，CLI正在成为当下效率最高的AI能力分发方式，一个CLI工具同时包含执行能力、通信协议和使用说明，构成一个完整的AI插件[85][86] CLI工具的设计哲学转变 - 新一代CLI工具的设计初衷是假设调用者可能是AI，因此与传统面向程序员的CLI有本质区别[24] - 为适配AI，新工具的设计原则包括：所有操作通过参数一次性传入以避免交互式弹窗、默认输出JSON等结构化格式以便AI解析、自带`Skills`说明书文件、支持`--dry-run`预览模式[26] - 这些工具还支持AI通过查询来了解其命令和参数，无需阅读完整文档[26] CLI作为AI的能力扩展基础设施 - AI的实际能力取决于其能调用的工具和获得的上下文（说明书）[17] - 对于训练数据中未包含的新工具（如2026年发布的飞书CLI），AI极度依赖显式提供的`Skills`说明书文件来了解其功能[19][20] - 工具越新，AI对其显式说明书的依赖就越强，因为训练数据永远追不上工具的发布速度[21][22] - 通过安装不同的CLI工具（如ffmpeg处理视频、飞书CLI管理日程），AI能够获得相应的新技能[14][15][16] CLI对比传统AI插件的优势 - 新一代CLI工具将执行能力（CLI命令）、通信协议（如MCP）和使用说明（`Skills`）三者打包，形成了一个事实上的插件[34][36] - 相较于平台锁定的插件（如Claude Code的插件只能在Claude Code中使用），CLI工具是模型无关的执行层，任何AI模型（如Claude、Cursor、Gemini、DeepSeek、Qwen）都能调用[38][39][40] - CLI工具的分发更自由，通常通过`npm`等包管理器发布，无需经过严格的平台审核流程[41] - CLI支持通过Shell管道进行工具组合，这是几十年前的设计但在AI时代重新焕发价值，而插件之间通常是隔离的，缺乏标准组合方式[44] 当前CLI工具面临的主要挑战与缺陷 - **安全性是结构性缺陷**：CLI直接执行shell命令，缺乏类似插件沙箱的细粒度权限控制（如“只读不写”），目前仅靠`--dry-run`和弹窗确认作为补救措施[48][49][50] - **说明书过大影响AI性能**：部分工具的`Skills`文件过大，会占用大量AI上下文窗口容量，导致推理质量下降；作为正面案例，Google Workspace CLI的`Skills`文件平均仅1.6KB[53] - **交互式提示导致AI卡死**：早期Stripe CLI等工具设计的交互式选择菜单会导致AI代理无法处理，后来通过增加`--no-interactive`参数解决[54] - **输出信息过载**：一些查询会返回数万字符的JSON，淹没有用信息；Google Workspace CLI采用`field masks`设计来限制返回字段大小，但跟进者尚少[56][57][58] 行业基础设施的缺口与未来机会 - **缺乏发现机制**：用户目前难以系统性地发现有哪些CLI工具可供AI使用，`npm`和`GitHub`最有条件成为AI工具的“应用商店”，但缺乏相关动力[75] - **认证体验碎片化**：不同工具（飞书、Google、Stripe等）拥有独立的登录认证体系，给用户带来巨大摩擦[76] - **安装流程对AI不友好**：现有的包管理器（如`npm`、`brew`）是为懂命令行的开发者设计的，当操作者变为AI时，权限问题、依赖缺失、路径冲突等会成为实际障碍[77][78] - 行业当前不缺工具、协议和说明书，缺的是让这三者能够被发现、被便捷安装、被信任的基础设施层，谁能构建出这一层，谁就将成为AI时代的`npm`[81][82][83]

普通人用Gemini CLI提效的 1 万种方法！藏师傅保姆级教程

歸藏的AI工具箱· 2025-07-02 17:08

产品定位 - 谷歌推出完全免费的命令行AI工具Gemini CLI，对标近期火爆的Claude Code [1] - 与Cursor等IDE工具的核心区别在于无界面、纯命令行操作，但支持自动执行任务和处理本地文件 [3][4] - 内置谷歌搜索/文件读写等工具，输入/tools可查看全部支持功能 [4] - 支持MCP工具扩展上下文能力 [6] 技术特性 - 多模态能力支持图片内容分析/批量重命名/打标 [38][39] - 可调用本地软件实现视频剪辑(ffmpeg)/文档转换(Pandoc)/图片处理(ImageMagick)等专业功能 [49][63][67] - 通过Homebrew一键安装第三方工具如yt-dlp实现视频下载 [60][61] - 支持将复杂操作封装成脚本实现一键执行，如deep_work.sh脚本可自动开关软件/切换系统模式 [43] 应用场景 - 知识管理：自动分析Obsidian笔记库并建立反向链接/生成索引文档 [34][35][36] - 内容创作：改写文章/生成博客及推特版本/自动制作PPT [31][32][33][46] - 多媒体处理：视频转GIF/添加水印/配乐/序列帧转换 [53][54][57][59] - 文件批处理：图片重命名/尺寸调整/拼接/格式转换 [39][65][66] 用户体验 - 非技术人员可通过自然语言交互完成专业操作，无需编程知识 [8][9] - 采用NPX安装方式降低使用门槛，仅需终端输入npx命令即可运行 [18][19] - 推荐配合Bob翻译软件解决英文界面问题 [24] - 操作限制在指定文件夹内执行避免系统风险 [15][16]