歸藏的AI工具箱
搜索文档
太猛了!谷歌悄悄在 Gemini 里塞了个 N8N 进去
歸藏的AI工具箱· 2025-12-19 17:28
前几天,去 Gemini 玩的时候发现谷歌的 Gem 功能,也就是类似 GPT 的 GPTs 功能更新了。 原来这个东西的能力非常之差,基本就是保存一段提示词然后给提示词起个名字的水平。 但是前几天发现他更新了,现在可以直 接帮你生成带有界面的网页应用 ,支持任 何图片或者文档的输入,也可以创建网页输出结果,而且可以调用所有的谷歌模型,功能相当强大。 比如我这里就用他创建了一个屏幕使用时间分析工具,上传你的屏幕使用时间他就会帮你创建 一个网页展示和分析你的屏幕使用时间状况。 具体包含一个非常漂亮的可视化海报,还有文本分析以及一个基于你屏幕使用时间建议的音频 博客。 进入到创建页面之后很简单的一个输入框,你直接告诉他想要做什么就可以了。 仔细探索了一下发现这个就是将前几天谷歌发布的类似 N8N 的 Agent 构建工具 Opal 内置到 了 Gemini 里面,而且更加易用了,今天大概教一下大家这个如何玩以及 Opal 的进阶操作。 首先是入口我们进到 Gemini 里面之后,在侧边栏这里找到"探索Gem"这个选项进去就行。 进去之后你就看到除了之前的 Gem 界面和设置之外,上面出现了一个全新 Gem 的实验 ...
字节 Seedance 1.5 Pro 藏师傅实测:可以说方言的音画同出视频模型
歸藏的AI工具箱· 2025-12-18 12:38
字节在前几天发布了 Seedance 1.5 Pro 视频生成模型。 4. 支持首尾帧生成视频,最长可单次生成 12 秒视频,还有 5 秒和 10 秒可选。 令人惊喜且独特的方言效果 音画同出可以直出方言这个太惊喜了,在我们国内的影视作品里面方言内容一直是为角色赋 予真实性和地方特色非常好用的一个手段,这下一些影视方面的应用要拓展了。 提示词: 重点是支持音画同出了,而且在本地化方面下了很多的功夫。 先看一下藏师傅的测试视频混剪: 结合官方介绍和我的测试结果说一下这次升级的主要内容: 1. 视频支持音画同步生成,支持多种主流方言,并且显著提升口型、语调对齐能力, 方言效果很好; 2. 增强语义理解,模型可以比较好的解析叙事语境,声音与画面同步情绪控制和专业 的表演能力提升非常大; 3. 精准且丰富的镜头控制,自主机位调度,长镜头、推轨变焦、希区柯克等都没问 题; 镜头怼着一个脸庞黝黑的老陕西人,他蹲在板凳上,手里捧着个脸盆大的青花瓷海碗,里面的面条被红彤彤 的油泼辣子裹得严严实实。他左手捏着一瓣蒜,咔嚓咬掉半截,右手猛地往嘴里猛吃了一大口面,发出震天响的吸溜 声。抬起头时嘴边全是红油,他冲着镜头一瞪眼,满脸陶 ...
Medeo 教程:一次生成无脑抽卡不可取,真正的视频 Agent 应该啥样
歸藏的AI工具箱· 2025-12-16 07:06
文章核心观点 - AI视频生成智能体Medeo的1.0版本在自然语言交互、提示词泛化能力、多模型支持及视频编辑灵活性方面取得显著进步,代表了视频创作领域的突破性进展 [1][4][9][67] Medeo 1.0版本的核心能力与进步 - 支持通过自然语言对生成的视频进行灵活修改和调整,解决了早期同类产品执行路径死板、泛化性不强的问题 [1][8] - 支持超过上千字的超长提示词,并具备优秀的泛化性,能够制作各种风格和垂类视频 [1] - 几乎支持市面上所有常见的图像和视频生成模型,用户可通过提示词指定使用特定模型,例如Sora或Gemini [9][10] - 提供混合编辑体验,既支持自然语言编辑,也保留了用户熟悉的传统剪辑界面进行精细操控 [10] 产品功能与操作 - 界面简洁直观,提供包含画面、台词、剪辑方式及音乐的完整视频模板供用户直接套用 [5][6] - 支持生成16:9横版和9:16竖版两种常见比例视频 [6] - 提供高度自定义设置,包括视频时长、生成类型、画面风格、配音声音等 [6] - 支持从URL拉取或本地上传文本和图片作为创作素材 [6] - 用户仅需在输入框描述视频需求即可开始创作,无需过度详细描述 [7] 应用案例与提示词策略 - **微缩模型风格科普视频**:通过详细提示词定义了视觉风格、解说人设、配乐及剧本结构,成功生成关于《基地》小说世界观及SpaceX火箭回收的科普短片 [15][25][31] - **生活方式商品宣传片**:通过提示词将产品解构为艺术体验,强调感官美学与生活场景结合,成功为自定义键盘生成了高质量宣传视频,商品细节还原度极高 [32][34][36][39] - **哈基米Meme风格讲解视频**:通过上传并标记Meme角色图片,结合特定语言体系的提示词,成功将《诡秘之主》等作品改编为萌宠角色演绎的抽象风格讲解视频 [45][49][51][55] - 提示词创作模式强调与AI智能体的“共创”和迭代优化,AI能自行反思内容不足并提出改进方案 [20][22][30][47] 技术架构与行业意义 - 公司通过构建名为“Gensystem”的专用语言系统来解决视频创作的“不可能三角”难题,该系统由Medeo DSL、Context System和Environment三部分构成 [58][62] - 该架构旨在平衡使用门槛、生产成本和效果控制,避免传统产品存在的高门槛、工具割裂或内容多样性受限等问题 [60][62] - 系统的成功在于其强大的上下文管理、获取能力以及AI在图像设计、视频剪辑与构建方面的智能,使得单一提示词能完成多领域、多能力的视频构建 [64][65][66][67]
Gemini 3+Nano Banana Pro+3D 生成+手势控制=?藏师傅教你炫酷展示运动成果
歸藏的AI工具箱· 2025-12-05 20:02
文章核心观点 - 文章介绍了一套利用AI工具(特别是Nano Banana Pro和Gemini)为户外运动爱好者(徒步、滑雪、骑行、露营)生成个性化Q版数据展示海报,并将其进一步转化为可交互的3D模型展示网页的完整流程[3][4][6][7][8] 户外运动Q版海报生成方法 - 核心方法:在支持Nano Banana Pro的平台(如Gemini APP、AI Studio等)上传运动打卡照及数据截图,并输入特定提示词即可生成海报[8] - 滑雪海报提示词要点:任务为海报设计与滑雪轨迹留念,需联网查找雪场信息;画面主体为奶油蛋糕般的雪山切片模型,需刻画S型滑行轨迹;必须将用户上传的雪板/头盔图片转化为Q版微缩模型作为视觉焦点;底部采用冰雪酷炫风格排版,标题示例为“[雪场名称] 粉雪日”[10][11][12][13] - 骑行海报提示词要点:任务为海报设计与骑行成就记录,需联网查找地标建筑特征和天气;画面中心为漂浮的3D地形切片及地标微缩模型,地形上需呈现蜿蜒的柏油公路;必须将用户上传的自行车图片转化为Q版微缩模型置于路线终点;底部采用极简风格数据可视化,可包含海拔爬升剖面图[16][17][18][19] - 徒步海报提示词要点:任务为海报设计与户外徒步纪念,需联网查找地标建筑特征和天气;主体为地标建筑或景观的轴侧微缩模型,需包含蜿蜒的徒步小径;必须将用户上传的登山包/登山鞋/冲锋衣图片转化为Q版微缩人物模型置于山峰高点;底部采用户外杂志风格排版,标题示例为“[山峰名称] 登顶记录”[21][22][23] - 露营海报提示词要点:任务为海报设计与精致露营记录,需联网查找地点植被、地标及天气;主体为地标或景观的轴侧微缩模型;必须将用户上传的帐篷/天幕图片转化为Q版微缩模型置于场景中心,并还原颜色与品牌特征;氛围为夜景模式,帐篷有内透光效;底部采用日系杂志风格排版,标题示例为“[营地名称] 露营记”[25][26][27][28] 从海报到交互式3D模型的进阶应用 - 3D模型生成:使用tripo3d.ai或hyper3d.ai等工具,上传生成的Q版海报图片即可一键生成3D模型,下载时需选择GLB格式[31][33] - 3D模型展示网页构建:在AI Studio的“Build”模式下,用自然语言向Gemini 3 Pro描述需求(如上传GLB模型并渲染、展示运动数据截图卡片、采用伪3D拟物化设计风格),即可自动生成功能网页[40][41] - 手势控制功能添加:在已构建的网页基础上,通过向Gemini描述增加手势控制的需求(如手掌左滑停止旋转、右滑继续旋转、捏手指缩小、张开手掌放大),即可一次性实现该交互功能[7][41] 所用工具与技术的评价 - AI Studio被评价为“Vibe Coding神器”,内置各种谷歌模型和基础服务API,除个别模型外无需付费,编程成功率高[41] - 整套流程展示了利用现有AI工具(Nano Banana Pro用于图像生成,Gemini用于代码生成)快速构建个性化、可视化数字产品的可能性[8][40][41]
视频进入可编辑时代:藏师傅教你视频版 Banana 可灵 O1
歸藏的AI工具箱· 2025-12-02 13:18
可灵O1模型的核心能力与产品定位 - 公司发布“可灵O1”,这是一个大一统的视频、图像生成和编辑工具,支持在一个界面和流程中完成全部视频图片编辑和生成工作 [2] - 该模型是一个统一的多模态视频大模型,融合了参考生视频、文生视频、首尾帧、内容增删与风格重绘等任务,实现从生成到修改的一站式完成 [2] - 模型支持生成约3至10秒的自由叙事镜头,并能灵活控制节奏与镜头长度 [2] 多模态输入与自然语言编辑 - 模型支持图片、视频、主体与文字的多模态输入,用户可直接用自然语言进行精细编辑,无需依赖遮罩或关键帧 [2] - 在视频编辑中,用户只需上传视频并在提示词输入框中通过“@”指代素材,即可通过文本指令修改视频内容,例如改变人物服饰 [4][6] - 对于图片参考编辑,用户可上传单图或多图作为参考,并需在提示词中详细描述背景的运动方式或前景,以增强画面真实感 [7] 主体功能与一致性保持 - 模型新增“主体”功能,允许用户创建并保存常用角色、道具或场景,该功能通过上传多张不同角度的图片来创建主体,大幅提高了在视频生成中角色、道具、场景的特征稳定性与镜头间一致性 [10][13] - 用户可以将多个主体叠加使用,例如将人物主体与道具主体结合,即使在复杂环境下,模型也能保持高度的融合度与真实感 [15] - 该功能对电商展示尤其利好,通过创建商品主体,可在任意运镜下保持产品展示的稳定,甚至能保留细微的划痕和使用痕迹 [17] 视频生成与编辑的具体应用 - 模型支持自由选择10秒内的单条视频生成时长,并按时长扣除灵感值,这为视频Agent产品及轻度展示场景提供了成本优势 [18] - 模型能直接转变视频风格,如转换为毛毡风格、动漫风格或8-bit像素风格,用户仅需一句提示词即可完成以前成本很高的复杂风格转换 [19] - 模型支持首尾帧生成视频,结合视频编辑功能可创造出大场景转换等炫酷特效,过渡效果自然 [20][21] 图像生成与编辑能力 - 在图片模式下,模型支持上传多张图片并加入对应主体进行编辑,例如实现与动画角色的合影,并能保持场景与人物的一致性 [22] - 图片编辑同样支持与主体混合修改,以增强一致性,例如将人物换上特定服饰主体并更换场景主体 [25] 行业发展趋势与模型意义 - 视频领域正在复刻图片领域的发展路径,模型展现出更好的推理能力、世界知识和更强大的编辑能力 [29] - 回顾今年三四月的图像编辑模型质量,再看最近短短半年的发展成果,表明该领域一旦起步,进展将非常迅速 [29]
藏师傅用 Nano Banana Pro 帮你想去哪就去哪
歸藏的AI工具箱· 2025-11-25 20:59
产品核心功能 - 基于Nano Banana Pro的实时检索能力,通过输入经纬度可直接生成对应地点的照片,并整合当前位置的实时时间和天气信息以增强场景真实性[1][2] - 产品具备两种主要图像生成模式:Scenery风景模式仅生成当前位置的实时风景照,Travel Portrait人像打卡模式支持用户上传个人或合照,生成结合当地实时时间、天气和温度的个性化打卡照片,系统会根据气温自动调整人物着装[8][13][15][17][18] - 特色功能包括时间机器(Time Machine),可模拟生成任意历史或未来年代(如公元1000年的伊斯坦布尔)的打卡照,以及平行宇宙模式,支持输入影视作品名称或风格(如黑客帝国)生成对应主题图像[20][21] - 恶搞模式(Prank Mode)可在生成的图像中添加意外元素,例如在外景中插入外星人等趣味内容[23] 技术实现与平台支持 - 产品通过AI Studio的Build模式快速开发完成,目前提供官网(https://bananacamera.trickle.host/)支持地址搜索或地图点击触发图像生成[4][7][8] - 多平台接入方式包括:AI Studio(功能最全但需付费API Key)、Poe(消耗订阅积分,当前Nano Banana Pro模型可能存在繁忙问题)、Youware(支持免费试用但使用普通模型,中文生成效果可能受限)[30] - 底层技术依赖Nano Banana Pro的实时数据检索能力,用户可通过替换提示词中的经纬度(例如40.00023661635351, 116.27808154448789)自定义生成目标地点的图像[31] 应用场景与潜力 - 产品可模拟全球任意地点(如太平洋中央、南极冰盖、珠穆朗玛峰)的虚拟打卡,突破物理限制[26] - 时间机器与风格自定义功能允许用户通过组合提示词元素生成多样化结果,例如基于历史建筑风格或影视主题的创意图像[20][21][25] - 官网提供预设地址示例,用户上传照片后可快速生成打卡照,降低操作门槛[28]
Nano Banana Pro和顶级设计Agent Lovart会擦出怎样的火花?
歸藏的AI工具箱· 2025-11-22 20:50
产品发布与促销活动 - 谷歌推出基于Gemini 3优化后的Nano Banana Pro模型,能力大幅提升并解决多语言问题[2] - Lovart公司于11月21日至11月23日期间推出Nano Banana Pro全员免费使用活动,在此期间订阅Basic及以上会员可享受365天0积分无限量使用权[3] - 现有Basic以上等级会员自动获得365天Banana Pro 0积分权益,Nano Banana(NB1)、Seedream 4、Midjourney v7等模型同步享受365天0积分无限量使用[3] 技术应用与功能实现 - 通过画布内Image Generator功能可直接选择模型、上传图片和选择分辨率,避免调用其他模型导致的积分消耗[5] - 支持@指定模型功能,在Agent输入框@Nano Banana Pro后跟提示词可实现定向模型调用[7] - 右侧Agent输入框提供模型选择图标,可预设目标模型实现直接需求输入[9] 图像生成技术创新 - 实现动漫角色与写实场景的多角色结合,通过多步可控步骤保持环境写实风格仅人物动漫化[11][13] - 采用先生成写实环境照片再添加动漫人物的两阶段生成方式,有效避免环境动漫化问题[14][15] - 支持真人场景与动漫人物混合生成,增强视觉反差感[17] 实时数据集成应用 - Nano Banana Pro具备检索实时信息能力,可根据经纬度生成具体位置的实景图像[19] - 集成当地实时时间氛围和天气信息,如黄石公园案例中准确呈现夜晚场景和零下四度刚下雪的天气条件[20] - 经纬度定位准确率较高,测试中仅出现一次定位偏差案例[20] 个性化图像生成方案 - 结合谷歌地图经纬度信息实现个性化打卡照片生成,根据所在地风格自动匹配人物服装[22][23][26] - 提供两种水印生成方式:Agent输入框生成前端渲染水印或Image Generator直接生成模型水印[26] - 依托模型强大的一致性保持能力,生成人像相似度极高[28] 文档处理与PPT生成 - Lovart实现比NotebookLM更强大的PPT生成能力,支持整套PPT一键生成[30] - 提供多种风格模板:手绘板书风格、迪特拉姆斯极简风格、英雄联盟UI风格、渐变色便当盒风格、赛博手绘风格[30][32][39][41][45] - 采用分页生成模式确保风格一致,生成图片分辨率高于NotebookLM,文本信息更清晰[30][47] 技术协同效应 - 模型能力提升与Agent功能形成相辅相成关系,模型越强Agent能力相应增强[48] - Lovart平台使Nano Banana Pro在批量生成、一致性保持和多能力调用方面获得显著能力放大[48] - 优化重点在于区分必要功能与模型自主能力,实现"少即是多"的技术适配策略[48]
顶级邪修再战 Nano Banana Pro ,超多玩法,太猛了这玩意!
歸藏的AI工具箱· 2025-11-21 01:30
模型核心能力 - 模型在中文支持、世界知识、实时信息整合及多模态生成方面表现卓越,将图片模型能力推向新高度 [2][69] - 模型具备增强的推理能力,可基于实时信息生成准确且上下文丰富的视觉内容,例如根据当前天气生成UI设计稿 [5][6][7][9] - 支持在图像中直接生成高质量、易读的多语言文本,中文表现优异 [9][14][15][17] 技术性能与规格 - 模型可混合多达14张图片元素,并保持最多5位人物的一致性和相似性 [9] - 支持多种纵横比以及2K和4K分辨率 [9] - 在多图片场景下展现出卓越的一致性与风格融合能力,例如将五件风格迥异的家具自然融入同一室内环境 [32][33] 实际应用场景 - 在电商设计领域潜力巨大,能高精度保持商品细节一致性并生成高质量产品海报 [24][25][27][29] - 具备实用的人像编辑功能,可实现轻度美颜、换发型等操作,效果自然且能被设备面部识别算法识别 [35][36][37][40] - 强大的风格迁移与UI设计能力,能模仿给定设计稿风格生成全新应用界面,保留关键视觉元素 [64][65] 内容生成与版权 - 模型在IP内容生成方面限制较少,可成功生成如《大闹天宫》风格杰瑞鼠、权游关系图、宝可梦游戏截图等各类版权角色内容 [43][44][46][48] - 具备漫画翻译、上色、超分放大等能力,笔触细节保持完好,显著提升内容制作效率 [52][54] - 在复杂美学设计如酸性海报生成中表现出色,能精确抠图、重构背景并添加符合主题的文案排版 [56][57][58][59][60][62] 模型可用性 - 模型已集成至多个第三方应用,如Lovart、Listenhub等 [67] - 谷歌Gemini APP提供免费使用但分辨率受限为1K,Ultra用户可在Flow中使用满血版Nano Banana Pro,AI Studio需付费API账号 [67]
慢一点、深一点|藏师傅带你看清 Gemini3 真实实力
歸藏的AI工具箱· 2025-11-19 16:04
核心观点 - Gemini 3 Pro模型在绝大多数基准测试中达到SOTA水平,性能表现显著超越竞争对手[1] - 该模型在多模态理解、代码生成和复杂任务执行方面展现出卓越能力,特别是在视觉推理和数学领域大幅领先[2] - 通过实际应用测试验证了其在视频分析、产品设计、网页开发和互动内容生成等多个场景的实用价值[4][5] 基准测试表现 - Humanity's Last Exam学术推理测试中,无工具条件下得分37.5%,使用搜索和代码执行后提升至45.8%[2] - ARC-AGI-2视觉推理测试得分31.1%,超过第二名四倍以上,显示真正的推理能力[2] - GPQA Diamond科学知识测试得分91.9%,AIME 2025数学测试无工具条件下得分95.0%,使用代码执行后达到100%[2] - MathArena Apex数学竞赛问题测试得分23.4%,显著高于第二名的1.6%[2] - LiveCodeBench Pro竞技编程Elo评分达到2,439分,领先第二名196分[2] - Vending-Bench 2长周期任务净价值达到5,478.16美元,是第二名的近十倍[2] 多模态理解能力 - 视频分析能够详细描述每个分镜的动画效果和画面主体内容,并提供AE插件建议[6][7] - 产品宣传视频总结能够准确提炼核心定位、宣传主题和详细功能[8][9] - MMMU-Pro多模态理解测试得分81.0%,Video-MMMU视频知识获取测试得分87.6%[2] - ScreenSpot-Pro屏幕理解测试得分72.7%,大幅领先第二名的36.2%[2] 代码生成与开发能力 - 在AI Studio的Build模式下能够生成可直接调用谷歌AI能力的网页应用[11] - 实现设计Agent产品,支持自主完成图像编辑和设计任务,无需详细说明实现方案[12] - 设计稿还原能力出色,能够完美复现复杂设计图的排版细节,包括字号、字体颜色和行间距[18][20] - 能够生成交互式滚动叙事网页,实现复杂的3D动画效果和弹性动画曲线[25][33] 实际应用案例 - 生成了包含对话、语音、人物头像和背景的互动式游戏,类似GalaGame形式[34] - 实现了视频Agent功能,能够自动生成剧本、分镜提示词并调用Veo API生成多段视频[22][23] - 3D体素艺术生成能力,能够从图片创建带缩放动画和闪光特效的三维场景[44] - 复刻了Krea AI聚合应用的界面和功能,展示了快速的产品原型开发能力[23] 产品优势与机会 - 在谷歌AI Studio和Antigravity IDE上可免费使用,降低了开发门槛[5] - 滚动叙事网页生成技术为产品宣传视频制作提供了新的解决方案[25][33] - 互动内容生成能力结合苹果平台政策变化,可能催生新的内容消费平台机会[35] - 设计Agent的实现展示了AI在创意工作流程中的自动化潜力[12][14]
阿里“闪电战”再发力,这次是千问APP
歸藏的AI工具箱· 2025-11-17 12:04
模型能力与行业地位 - 公司是唯一在模型种类和模型能力两方面能与谷歌和OpenAI竞争的团队[1] - 刚发布的Qwen3-Max模型能力非常强悍,仅次于海外三巨头的头部模型[1] - 开源模型Qwen3-235B在Lmarena上排名开源第一[1] - Qwen3-Max在测评中得分1432,与OpenAI的GPT-4.5(1442分)和Anthropic的Claude系列(1444-1449分)处于同一梯队[2] 模型生态与社区影响力 - Huggingface下载量前十的模型中超过一半是Qwen系列模型[2] - 模型覆盖0.5B到480B的参数规模,满足不同应用场景需求[3] - Qwen2.5-7B-Instruct模型下载量达1150万,Qwen2.5-3B-Instruct下载量达446万[3] - 社区活跃度高,Qwen3Guard系列模型在8天内更新多个版本[6] 产品功能覆盖范围 - 产品覆盖LLM、视频生成、深度研究、翻译模型、图片生成、图片编辑、语音转录、音频生成、代码生成、音视频通话等全栈AI能力[4] - 千问APP集成Qwen3闭源模型,可完成所有常见的AI任务[8] - 支持图像识别与讲解,能准确识别复杂场景如银杏树和古建筑[13][15] - 具备拍照翻译功能,可输出文字翻译和排版正确的翻译后图片[20] 用户体验与产品设计 - 产品设计风格简洁一致,主要功能集中在主页和胶囊区域,支持自然语言触发[10] - 所有功能目前免费提供,视频生成功能每日提供15次免费额度[12] - 深度研究功能UI设计清晰,展示规划大纲和搜索过程,支持生成8000字详细报告[29][30] - 生成结果支持下载为PDF和Word格式,方便用户使用[31] 技术特色与创新功能 - 图像生成和编辑支持连续编辑,可多次处理同一张照片[38] - 视频生成模型在开源领域占有量最大,支持直接生成音效和音乐[40] - 视频生成分辨率高且无水印,每日免费15次[43] - 实时记录功能支持环境声音转录、区分发言人,并具备实时英文翻译能力[44] 行业应用场景 - 健康数据分析功能可将体检报告关联指标整合解释,提供改善建议[23][25] - 课堂笔记功能可根据场景总结知识点并生成思维导图[45] - 产品还包含AI PPT生成、AI视频通话、智能写作等多样化能力[48] - 背靠阿里生态,与淘宝、高德、钉钉、飞猪等业务形成协同效应[8]