Workflow
歸藏的AI工具箱
icon
搜索文档
Clawdbot 教程 01:模型的配置和切换
歸藏的AI工具箱· 2026-02-01 01:19
文章核心观点 - 文章是一篇关于在Macmini上为Clawdbot配置国产AI模型的技术指南,旨在解决用户在配置过程中遇到的常见问题,特别是针对Minimax和Kimi等模型[1][2][3] 模型配置方法 - 配置模型时优先使用 `openclaw configure` 命令,这是最省事的方法,能解决大部分配置问题[6] - 执行命令后,需依次选择本地部署、配置模型,并输入相应的API Key[9] 模型选择与版本区分 - 配置Minimax M2.1时,在模型选择中应选“Minimax”[11] - 配置Kimi K2.5时,在模型选择中应选“moonshot AI”[12] - Minimax存在国内版与海外版区别:国内coding plan会员应选带“cn”的选项,海外用户则选不带“cn”的选项[16] - Kimi有专门的coding plan选项,可以直接选择,而Minimax即使购买了coding plan会员,在配置时也直接选择Minimax[14] 手动配置文件修正 - 若自动配置失败或选错版本,需手动修改配置文件,位置在 `/Users/你的用户名/.openclaw/openclaw.json`[17][18] - 修正核心是修改`baseURL`参数:Minimax国内版为 `api.minimaxi.com`,海外版为 `api.minimax.io`[19][22][23] - 需注意配置文件中`agents`部分的`fallbacks`参数,确保切换的模型已在此列出,否则可能不生效[25] 模型切换与使用 - 配置完成后,在TUI界面中输入 `/model` 命令可切换模型,TUI启动命令为 `openclaw tui`[27] - 切换模型前,建议先用 `/new` 命令开新窗口,以降低出错风险[29] - 切换模型后若输入指令返回“no output”,并不一定代表配置失败,可能是输出到了其他已配置的环境(如Web环境或Telegram bot),需前往其他环境查看[30][31][32][33] 支持的模型总结 - 作者成功配置了三个主流国产模型,均能正常工作:Kimi使用国内版,Minimax使用海外版,GLM使用海外版[34] 核心步骤总结 - 配置Clawdbot国产模型的核心三步为:1) 优先使用 `openclaw configure` 命令配置;2) 若不行,手动修改配置文件里的 `baseURL`;3) 切换模型使用 `/model` 命令[37]
AI 互动游戏的 GPT 时刻到了!谷歌Genie 3首测!太牛了!
歸藏的AI工具箱· 2026-01-30 02:33
谷歌在去年夏天发布了一个世界模型 Genie 3。 结果我去,太牛批了! 我感觉今年一定是 AI 互动游戏和互动视频的大年! 简单总结一下 Genie 3 的特点: 口说无凭,我们来看看藏师傅跑的一些测试。 首先我自己创建了一个史前森林世界,角色我选了一个恐龙。 支持实时生成 24 帧 720P 可以可以交互的视频内容。 而且还可以保持超过几分钟的一致性。 演示视频真的很顶,但是由于成本太高一直没有开放使用。 刚刚,谷歌宣布美国 18 岁以上的 Ultra 用户可以直接尝试 Genie 3。 藏师傅赶紧去试了一下,趁着人少。 它会先生成一张首帧图片,你确定没问题了就可以开始生成世界。 可以看到我在本身连接美国服务延迟很高的情况下,这个 视角控制和角色 运动控制都非常跟手。 差不多跟顶着高延迟玩美服游戏差不多。 而且恐龙运动非常顺滑和符合生物特征, 角色一致性保持的很好 ,几乎没有变化。 操控延迟非常低 可以控制角色的方向和镜头的方向。 画面清晰度相当可以用 角色跟环境的物理交互相当真实。 可以持续操控角色超一分钟 我故意进行了一些大幅运动,环境一致性也没问题,没有突然变化和抽搐。 这时候我发现不对了,这东西好 ...
告别 AI 土味审美!Kimi K2.5 实测:扔个视频复刻 iOS 级丝滑动效
歸藏的AI工具箱· 2026-01-27 18:37
以往 AI 默认生成的结果都非常土,比如常见的那个蓝紫色渐变。 如果你每次 AI 生成的网页视觉效果都不符合要求,我推荐你试试 Kimi K2.5。 K2.5 发布其实对于设计师和普通人的帮助都非常大: 这两个加起来迭代代码和生成网页的时候就很舒服了。 你可以随便找一些参考内容扔给他,图片、视频、网页链接都可以。 然后通过截图和标记不断的迭代你的网页作品。 Kimi 上线了他们的 K2.5 模型,前端审美非常好,几乎要赶上 Gemini 3 了。 图片的多模态识别获得了增强,新支持视频的多模态识别。 测试过程中,即使是他随便发挥生成的网页都非常漂亮。 真的非常对我一个设计师的胃口。 第一次生成的时候交互动效效果已经还原的很好了。 基础的视觉部分有些小问题,比如左侧文字颜色和右侧对齐问题 1. 对于设计师来说:它可以更好地遵循你的设计稿和提示词,帮你还原并完成你想象中的设计。 2. 对于普通人来说:你可以不用管提示词,也不用去找漂亮的设计稿,只需要把你的内容交给它即可。 我们来看一些藏师傅的测试。 既然支持视频了,我们就搞一个难点的,我找了一个 Tab 切换的交互视频。 这个组件虽然小,但是交互挺复杂的。 切换 ...
你们问了一万遍的票据风图片提示词,它终于来了!
歸藏的AI工具箱· 2026-01-21 18:21
产品功能与特性 - 该产品是一个名为“Document-illustrator”的Skills,核心功能是分析当前文件夹下的任何格式文档,并批量为文档的每个部分生成配图和封面[5] - 该Skills内置了三套图片生成风格:票据风格、矢量插画风格、渐变玻璃卡片风格,用户可按喜好选择[8] - 支持选择图片生成的分辨率(2K、4K)和比例(16:9、3:4),并支持选择是否生成总结性质的封面图片[10] - 生成过程会展示归纳结果供用户确认,以确保所有重要信息都被包含在配图中[10] - 该工具适用于为小红书、微信图文、抖音图文等内容快速生成配图[6] 使用方法与安装 - 用户可通过在终端输入命令 `npx skills add https://github.com/op7418/Document-illustrator-skill` 进行安装[11] - 安装完成后,需在`.env`文件中填写从aistudio.google.com/api-keys获取的AI Studio API Key,并且该API需要开启付费[12][13] - 在Claude Code中,通过发送指定指令(如“帮我用 /document-illustrator 这个Skills为 @”文档名称“ 这个文档生成配图”)来启动工具,随后根据引导选择图片比例等选项[13] - 使用示例显示,该Skills成功读取了一篇约1000字的关于AI编程工具概念演化的文章,并准备进入配图偏好设置阶段[15] 替代方案与提示词 - 对于不希望使用该Skills的用户,提供了可直接复用的图片生成提示词[16] - 该提示词源自去年三月发布的“给模型写代码的提示词”,展示了Nano Banana Pro模型的强大能力[16] - 提示词详细规定了设计风格要求,包括数字极简票券风、黑白对比主导、票券化布局、几何分区明确、东西方美学融合等[17] - 提示词对文字排版风格提出了具体要求,如中英混排对比、尺寸层级分明、多向排列组合、间距精确控制等[17] - 提示词还规定了视觉元素风格,包括功能性指示符、UI元素借鉴、边框与分割线、简约图形符号等[17] - 用户只需将文案或标题填入指定位置,即可使用该提示词生成中文封面海报[17] 项目信息 - 该Skills的项目开源地址为 https://github.com/op7418/Document-illustrator-skill [18][20]
小白 Vibe Coding 发行全平台&可变现应用指南
歸藏的AI工具箱· 2026-01-20 19:44
Youware平台的核心能力与产品定位 - 公司通过Youware平台,特别是其新上线的YouBase后端数据库服务和CoView功能,显著降低了“Vibe Coding”的门槛,使得普通用户也能构建完整、可分发且可变现的跨平台应用 [1][34] - 公司提供的YouBase服务是一个专为编码Agent设计的AI后端和数据库基建,解决了以往AI编程中缺乏后端支持、API密钥存储不安全等核心痛点,使创建可正式发布的产品成为可能 [4][19][34] YouBase服务的具体功能 - YouBase提供内置的后端服务和数据库,支持创建数据表(如存储日记原文和标签的表)、管理用户系统以及存储敏感信息(如API密钥和支付Token),无需用户自行搭建后端 [14][17][19][27] - 该服务集成了用户认证系统,支持注册登录、邀请码核销管理,甚至可配置第三方登录(如谷歌登录),用户和邀请码数据可在后台直接查看与管理 [11][27][28] - YouBase支持与外部服务集成,例如可方便地集成Stripe支付服务,完成付费体系搭建,相关密钥被安全存储在平台的Secrets中 [32] CoView功能降低开发与修改门槛 - 公司上线的CoView功能允许用户通过屏幕录制结合语音指示,向模型精确描述UI修改位置与需求,极大降低了用户(尤其是新手)在描述界面修改时的操作与认知成本 [21] - 该功能通过分析用户的视频和音频内容,将需求转化为专业术语指令给模型,解决了自然语言描述界面修改不精确的难题 [21] 实现全平台应用分发与部署 - 公司平台支持将网页项目打包成渐进式网络应用(PWA),用户可将网站以独立应用形式安装到手机或电脑桌面,实现全平台(iOS、安卓、Mac、Windows)的类原生应用体验,并能离线使用 [6][29][30] - 平台现已支持绑定用户自定义域名,取代了此前只能使用Youware域名的限制,这有利于产品分发和建立品牌信任感 [33] 基于平台能力构建的示例应用:Vibe Diary - 示例应用Vibe Diary是一个AI日记软件,采用“Append-only”单文件记录模式,全年记录仅数万字,便于整年日记内容交由AI分析,形成用户的个人记忆库 [2] - 该应用具备多项AI增强功能:支持语音输入,保存时AI自动分析内容并添加标签;AI自动判断内容是否为待办事项,并纳入Todo列表管理 [6][7] - 应用设计精良,采用莫兰迪色系,每日日记卡片颜色不同;支持通过关键词、日期、标签进行全能检索;并可将所有日记导出为单个Markdown文件,便于与各类AI模型交互 [8][9][10] 开发流程与最佳实践 - 开发建议从构建最核心链路开始,例如先创建数据存储结构(原文表与标签表),再逐步添加功能 [14] - 在UI设计上,可向模型提供参考产品的截图或设计稿,要求其提取设计元素和组件样式,以创建美观且一致的UI系统 [23] - 模型选择上,在生成初始版本和核心逻辑时推荐使用Sonnet 4.5,而在优化样式时则可切换为Gemini 3 Pro [12] 行业意义与公司战略 - 随着模型代码能力提升,AI编程的基础设施建设变得至关重要,公司通过提供完整的后端基建,大幅降低了编码成本 [34] - 此举为AI编程产品创造了新的利润增长点和产品壁垒,使得最普通的用户也能创建完整可发行的产品成为可能 [34]
Claude Code太难?Coze帮你3分钟做出可变现的 Skills
歸藏的AI工具箱· 2026-01-19 18:06
Coze 2.0平台核心升级 - 平台通过一系列升级,旨在解决AI技能(Skills)生态中构建、分发与变现的难题,使拥有专业认知但缺乏工程能力的人也能参与价值分配[1] - 平台升级后成为一个全部线上托管的AI工作伙伴,为专业用户提供能力变现渠道,为普通用户提供提升效率的工具[42] AI技能(Skills)的使用与获取 - 平台提供了大量官方预置技能,如表格处理、PPT生成、网页生成、播客生成等,用户可在首页输入框下方直接调用[5] - 平台上线了技能商店,覆盖抖音视频分析、文章写作、内容检索、图片视频生成等多个领域,用户可浏览并安装所需技能[6] - 技能商店中已收录许多创作者的作品,例如公众号SVG生成器、包含多种流程的写作技能等[6] - 用户安装技能后,可在“我的技能”或首页技能列表的“更多”中找到并使用[7] AI技能(Skills)的创建与开发 - 平台上线了Coze编程平台,支持用自然语言开发技能,显著降低了开发门槛[8] - 开发流程采用“Vibe Coding”模式,用户只需用自然语言描述需求,平台即可生成技能初版,并在约2分钟内完成[8][11] - 平台内置Git功能,自动提交和备份修改,方便开发者回溯任一版本[11] - 开发者可在右侧测试生成技能,并根据测试结果,在左侧用自然语言指导平台迭代修改技能,形成“修改-测试-修改”的循环[12] - 平台编程能力可自动调用所有Coze内置模型服务(如豆包、Seedream图片生成),也支持通过API文档和Key集成外部服务[10] - 平台支持直接上传并测试用户在Claude Code等其他平台已编写好的技能文件,简化了迁移流程[20] - 开发成功案例:一个PPT生成技能,具备双比例适配(16:9与3:4)、智能审核(先确认大纲)及多格式输出(图片与PDF)等核心功能[13] - 平台提供方便的图片预览与编辑组件,支持修改文字、擦除内容等操作,以修正生成图片中的小问题[18] AI技能(Skills)的设计哲学与分发变现 - 技能设计应避免“功能堆砌”,提倡原子化,即专注于解决一个核心问题并将其做到极致[21][24] - 平台解决了技能分发与变现的痛点,提供了集中的发布平台[21] - 开发者可在技能编辑页面直接部署技能,并可选择将其“上架到技能商店”[21][23][25] - 技能商店支持“按月付费”模式,为拥有独特认知和流程的创作者提供了将能力变现的渠道[25] - 此次升级大幅降低了工作流和Agent软件的编写门槛,并结合便捷的分发,为各行业擅长与AI交互及技能概念的人创造了机会[26] 长期计划能力 - 平台上线了“长期计划”功能,可将用户的宏大目标分解为可执行的有序工作计划,适用于不擅长规划或难以自律的用户[27] - 用户只需简单描述目标(如“两个月减重7公斤”),平台会通过对话补充必要上下文(如身高、运动能力等),随后制定详细计划[29] - 计划批准后,用户可在页面上方的日程表中查看每日任务、执行并打卡,并可开启浏览器通知接收提醒[33] - 示例计划:为一个32岁男性(身高173cm,体重87kg,BMI 29.1)制定为期8周、减重7kg(平均每周0.88kg)的科学减重计划,包含代谢计算、个性化饮食方案、科学运动计划、进度跟踪体系及权威信息源索引[3] 新年福利活动 - 临近新年,平台在技能商店提供了“新年绘本”和“新年人生四宫格”等福利技能[37] - 用户可使用技能生成虚拟图像用于社交分享,同时平台提供实体版本制作并邮寄的服务[39] - 例如“新年人生四宫格”技能,可生成模板并创建拍照应用,用户调整照片后即可一键下单;通过邀请朋友使用平台获取的积分,有机会免费获得实体照片摆件[39][40]
独一份!带动效的 PPT 生成 Agent!使用教学&创作思路
歸藏的AI工具箱· 2026-01-13 15:28
文章核心观点 - 作者成功开发并开源了一个名为“NanoBanana PPT Skills”的复杂AI代理工具,该工具能够利用Claude Code等CLI工具,根据用户文档自动生成带有动态转场动画的演示文稿,显著提升了PPT的视觉效果和专业性 [4][5][9] - 该技能的构建过程展示了AI编码能力已达到一个临界点,AI能够自我指挥和构建复杂系统,其开发成本约为20美元,主要使用了Anthropic的Sonnet 4.5模型 [40][41] 更新后PPT生成技能的核心能力 - 生成PPT时会询问用户是否生成视频转场,选择“是”则会同时导出图片版演示和视频版演示 [5] - 视频演示包含两部分:一个设计好的网页播放器,以及一个完整的演示视频文件 [6][9] - 网页播放器设计特点:仅在切换页面时播放转场视频,页面内容为静态图片以方便讲解;首页封面设计为无限循环的动态视频,适用于演讲前等待或暖场环节 [7] - 完整的演示视频方便用户直接分享和展示 [9] 技能的使用与安装方法 - 该技能用于Claude Code或OpenCode等支持Skills的CLI工具,项目已在GitHub开源 [12][15] - 使用前需准备两个API:Google AI Studio的API(需开启付费以调用Nano Banana Pro模型生成图片)和可灵AI的API(用于生成转场动画视频,建议使用69元体验包) [17][18][19] - 安装过程通过向Claude Code发送特定提示词完成,提示词中包含设置技能目录、克隆项目、安装依赖、配置API密钥等步骤,用户需将提示词中的三个API密钥替换为自己的 [21][22] - 安装完成后,在存放目标文档的文件夹中启动Claude Code,通过指令调用技能即可,技能会引导用户选择PPT页数、是否添加动效、图片分辨率等选项,之后全自动运行 [23][25] 技能的系统架构与创作思路 - 整体架构复杂,涉及多个模块协同工作,作者通过让Claude Code绘制架构图来厘清逻辑 [31][32] - 核心工作流程包括:分析用户输入文档并规划内容;调用PPT生成模块和风格加载器;生成图片提示词并调用Nano Banana Pro API生成图片;为每页转场生成首尾帧提示词;调用可灵API的Kling-2.6视频模型Pro模式生成转场视频;生成嵌入视频和图片的演示网页;使用本地的FFmpeg将图片和视频剪辑成完整演示视频;最终输出视频并打开演示网页 [34][35] - 关键技术点:设计了一个“元提示词”,由Claude Code根据该提示词和生成的图片来生成具体的视频转场提示词,这种方法被认为具有潜在价值 [36] - 复杂处理环节:FFmpeg的视频合成流程涉及图片时长控制、与视频分辨率对齐、最终拼接和压缩等 [38] 开发经验与行业观察 - 开发过程本身是重要的学习经历,通过构建复杂Agent可以深入理解其难点与逻辑,并对市面上的同类产品形成判断 [38] - Claude Code在开发中提供了多方面辅助,包括绘制流程图解释逻辑、指导API密钥存储方式、生成清晰的Readme文档以降低使用门槛,甚至指导如何在GitHub添加演示视频 [39] - 整个技能的开发基本由Claude Code(使用Sonnet 4.5模型)完成,总API费用约为20美元,获得了可通用的PPT生成代理,性价比突出 [40] - 结合Anthropic公司透露其Cowork功能与Claude Code基本由Claude Code自身编写,作者认为AI编码已达到“自我指挥”和“自我复制”的临界点,当前节点可能成为未来发展的重要里程碑 [41][42]
简单快速的用 Claude Code 帮你创建 PPT 生成 Skills
歸藏的AI工具箱· 2026-01-09 16:16
Claude Code与AI辅助编程工具Skills的兴起 - Claude Code近期热度很高 其强大的编程能力以及Skills功能受到关注[2] - Skills是一种可以用AI辅助构建简单Agent的能力 对Claude Code的加持很大[2] - 用户创建了名为Nano Banana PPT生成的Skills 可将文档转换为可直接演示的PPT[2] - 该教程旨在教授如何使用该Skills以及如何创建自己的Skills[2] Nano Banana PPT生成Skills的安装与使用 - 安装前提是已安装Claude Code并准备一个已付费的谷歌API[3] - 安装过程极大降低了非开发者的门槛 未来可能成为标配[6] - 安装方法是通过复制特定的提示词给Claude Code或其他编码Agent 由其自动完成安装[5][7] - 提示词包含从GitHub克隆项目、创建Python虚拟环境、安装依赖、配置环境变量、验证安装和运行测试等步骤[8][9] - 使用方法是安装后将文本文件放入新文件夹 启动Claude Code并指示其基于文档创建PPT[11] - 目前Skills内置两套主题:渐变拟物玻璃卡片风格和矢量插画风格[12] 如何创建自定义Skills - 创建Skills首先需明确要完成的工作 例如创建一个通用的PPT生成Skills[17] - Skills本质上是将实践过或沉淀好的工作流自动化[18] - 创建前需准备相关资料 如风格提示词、API文档、测试文档和API密钥 建议使用Markdown格式[18][20] - 可让Claude Code协助梳理需求和准备上下文信息 避免其在生成过程中自行猜测导致错误[21] - 开始执行前最好开启计划模式 Claude Code会规划所有步骤并按序执行[22] - 创建过程中Claude Code会询问细节 如文件位置、技术栈选择、API密钥等 完成后会自行测试[25][26] - 首次创建后建议使用Git进行版本管理 以便迭代和回滚[27] - 若想开源Skills 可让Claude Code协助编写易于阅读的Readme页面[30] Skills的局限性与发展建议 - Skills功能不能太复杂 否则提示词遵循和上下文会出现问题[36] - 建议将一整套流程中需要的不同工具打包成不同的Skills 以降低出错概率并提高灵活性[36]
从大厂设计师到超级一人公司:6000字回顾我和AI的2025
歸藏的AI工具箱· 2025-12-30 18:34
作者个人转型与业务模式 - 作者身份从大厂设计师转变为自由职业者,专注于将“歸藏”打造成一个可持续输出、有收入并能帮助行业朋友的“超级一人公司”[4] - 作者强调在AI加持下,个人能力边际得到提升,使得一人运营多个平台成为可能[19][20] AI自媒体运营与成果 - 在即刻平台拥有近25,000名粉丝,被视为相当高的粉丝量[6] - 在Twitter平台粉丝量达到11万,作者认为该平台是获取AI行业前沿信息的关键渠道[10][12] - 微信公众号粉丝量从年初的1万多增长至约7.8万,目标是达到10万以上[16] - 开始制作视频内容,在抖音、小红书、视频号等平台取得良好数据表现,包括数十万至上百万的播放量[17] - 作者认为AI洗稿能力提升导致图文内容商业价值下降,视频内容成为重要方向[17] AI社群运营与活动 - 运营付费AIGC周刊社群,会员数量(含续费)达到约2000个,被认为是中国规模较大的AI社群之一[28] - 探索新的社群推广模式,在销售社群会员的同时,联合推广国产AI产品,帮助创业者提升销售额[24][30] - 在11月初的大型活动中,与超过30个AI产品的负责人进行沟通协作,并独立负责营销方案制定和抽奖等环节[29] AI创作内容与趋势 - 在图像与视频生成领域产出大量内容,是作者涨粉最多的领域[34] - 推动“Vibe Coding”(通过自然语言生成网页)概念的普及,相关提示词被广泛引用[34] - 关注并产出关于AI Agent、MCP(模型上下文协议)等周边服务的内容[35][36] - 强化学习在工具使用及编程领域的应用,是推动2025年AI进入新阶段的关键技术之一,极大地促进了Vibe Coding和Agent工具的爆发[53] - 多模态能力的爆发是另一关键技术突破,体现在图像、视频、音频的理解与生成质量飞速提高,例如Sora 2、Veo 3.1、Nano Banana Pro、Seedream 4.0等模型[55][56] 关注的AI产品与公司 - **Medeo**:一款支持多模型、可通过自然语言进行视频编辑的AI Agent[44] - **Youware**:一个Vibe Coding工具及社区,允许用户通过自然语言创建并分享网页[46] - **Listenhub**:一个从AI音频平台进化为全面的AI创作平台,支持声音克隆、AI播客、PPT和视频生成[47] - **Chatwise**:一个整合各平台模型优势并支持工具调用的产品,让用户能简单构建Agent[58][62] - **Manus**:被认为是第一个展示通用Agent形态的产品,在Agent交互和构建方法上给行业带来启发[60] - **Claude Code**:在推动AI编程落地和人机融合工作方法上被认为具有天才设计[60] - **AI Studio的Build模式**:谷歌整合其AI模型能力的产品,几乎完全用AI模型替代后端,尤其在Gemini 1.5 Pro更新后优势凸显[61][63] 对2026年AI行业的展望 - 强化学习应用将继续进化,例如Gemini 3 Pro和Flash模型的进展[67] - 大型算力中心(如OpenAI的Stargate)建设完成,将催生更强大的模型[67] - 期待视频生成领域出现“Nano Banana Pro时刻”,即实现全面的理解、编排及编辑能力[67] - Vibe Coding将在2026年迎来其“DeepSeek时刻”,实现极大的破圈[67] - Agent产品的发展将更侧重于垂直领域,而非通用Agent[67] - 随着工具调用和上下文管理技术的突破,2026年Agent领域可能还有一次突破[68]
太猛了!谷歌悄悄在 Gemini 里塞了个 N8N 进去
歸藏的AI工具箱· 2025-12-19 17:28
谷歌Gemini平台Gem功能重大更新 - 谷歌Gemini平台中的Gem功能(类似GPTs)近期完成重要更新,其能力从仅能保存提示词的水平,升级为可直接生成带有界面的网页应用,功能显著增强[1][2] - 新版Gem功能支持用户上传任何图片或文档作为输入,并能创建网页输出结果,同时可以调用谷歌全部模型,功能相当强大[2] - 此次更新实质上是将谷歌近期发布的Agent构建工具Opal内置到了Gemini平台中,使其更加易用[6] 新版Gem功能的核心特性与创建流程 - 用户可通过Gemini侧边栏的“探索Gem”选项进入,界面新增“New Gem”实验入口,点击即可进入创建页面[7][9] - 创建过程极为简化,用户仅需在输入框中描述想要构建的应用,系统便会自动开始构建,右侧会显示进度并允许实时测试[12][14] - 新Gem支持极其丰富的输入格式,包括常见文件、YouTube视频、网页操作录制视频以及涂鸦[15] 应用案例展示:数据分析与个性化生成 - 以力量训练数据分析为例,用户上传CSV文件后,Gem能生成详细报告,包含数据看板、各类表格及个性化训练建议[13][17] - 生成内容支持通过修改提示词进行实时调整,例如将报告语言从英文改为中文[17][19] - 生成的训练分析报告内容全面,例如:覆盖106天内的24个训练日,平均每4.6天训练一次;按身体部位分析总训练容量,其中上半身约29775.25 kg*reps*sets,腿部约24157.50 kg*reps*sets[19] - 报告能自动识别进步与退步的练习,例如:高位下拉容量从1000.0增加到1500.0,而坐姿划船容量从1440.0减少到810.0[19] - 另一案例是屏幕使用时间分析工具,上传截图后可生成包含可视化海报、文本分析及基于分析建议的音频博客的完整网页应用[4][33] 高级编辑功能与Opal工作流 - 用户可点击“Open Advanced Editor”进入Opal界面进行高级编辑,该界面直观展示了数据处理、模型调用、输入输出的完整工作流卡片[21][23] - 编辑界面主要分为四个部分:添加卡片的区域、应用/卡片预览区域、用于修改应用的提示词输入区、以及代表每个处理步骤并可进行链接的卡片编辑区[23][24] - 用户可通过提示词让系统自动修改工作流,也可点击具体卡片进行精细化调整,例如选择不同模型或修改提示词[25][26][29] 强大的多模态模型集成 - 在Opal编辑器中,用户可为不同任务卡片选择专门的谷歌模型,覆盖文本、音频、视频、图像等多种模态[26] - 可用模型包括:用于文本/音频/视频/表格/图片处理的Gemini 2.5 Flash或Gemini 3 Pro;用于文生图的Imagen 4;用于图生图的Nano Banana Pro;用于视频生成的Veo模型;用于文本转语音的AudioLM模型;以及音乐生成模型Lyria 2[26][27] 应用分享与平台整合战略 - 创建完成的应用可通过“Share App”按钮生成分享链接,其他用户登录谷歌后即可使用,系统会根据用户的Gemini会员等级扣除相应的模型使用额度[36] - 此次更新体现了谷歌强大的产品整合能力,将AI实验室孵化的多个产品(如Opal、NoteBookLM)整合进Gemini平台,形成了功能全面、额度高、模型强大的生态系统[38]