歸藏的AI工具箱

搜索文档
不看这藏师傅篇深度拆解,你永远不知道Lovart AI有多可怕(有邀请码)
歸藏的AI工具箱· 2025-05-13 16:42
Lovart AI产品能力分析 - 产品定位为通用设计Agent 兼顾设计小白和专业用户 大幅降低设计门槛 [2][3] - 用户群体覆盖个体户老板 营销人员 设计师 电商从业者等 仅需文字描述即可获得高质量设计产出 [3] - 测试案例显示 仅用几十字提示词就能生成完整视频广告所需的分镜素材 完成度极高 [4] 工作流程深度解析 - 分析阶段远超预期 包括产品信息提取 视觉风格定义 视频脚本创作等专业流程 [6] - 设计前进行详细调研 包括广告主角设定 分镜场景描述等 专业度超过多数调研Agent [9] - 图片生成阶段自动选择合适模型和Lora 主动维持人像一致性 技术实现难度高 [13] - 创新性生成解释性网页 以长截图形式展示分镜设计 保持统一视觉风格 [19] 视频生成技术突破 - 在超长上下文环境下稳定运行 8个分镜生成耗时十几分钟 体现强大技术优化能力 [22] - 实现全流程自动化 包括分镜生成 背景音乐创作 口播语音合成等 完成度远超行业水平 [24] - 测试案例中成功将T恤图像移植到模特身上 并自动生成多分辨率广告图 展示强大图像处理能力 [28] 行业竞争壁垒分析 - 专业度构成核心壁垒 需深度理解垂直领域需求 图像视频模型工作流及Agent技术 [29] - 非依赖预训练模型 而是通过各环节专业优化建立竞争优势 形成难以追赶的技术积累 [29] - 产品响应速度快 能迅速实现用户反馈的功能改进 如4o图片去黄处理等 [28]
AI也需要"记笔记":Karpathy从Claude 1.6万字提示词中看到的未来
歸藏的AI工具箱· 2025-05-12 16:28
LLM 的系统提示就是在对话一开始递给 AI 的"一页说明书",用来告诉它该扮演什么角色、遵守哪 些规则、用什么方式回答用户。 大概来看一下这么长的提示词里面主要都是一些什么内容: 而且整个提示词中充满了临时修改的的痕迹,这些修改往往没有使用 XML 或者 Markdown 格式的列表,就 是一段话,看起来像是针对一些热点事件或者问题修复打的补丁。 **Acknowledgments** I would like to thank my supervisor, for his kind of support. I would like to thank my supervisor, for his kind of support. 如果懒得看内容可以听一下,播客使用 listenhub 制作 前几天 Cluade 新的系统提示词泄露了,居然有 16,739 个单词,非常长。 相比之下,OpenAI 在 ChatGPT 中的 o4-mini 的系统提示有 2,218 个单词,只是 Claude 的 13%。 什么是系统提示词 Claude 整个系统提示词这么长维护和更新甚至版本控制应该都需要一个专门的流程,不然 ...
生成网页可以垫视频了?教你用 Gemini 2.5 最强大的能力
歸藏的AI工具箱· 2025-05-09 16:34
毕竟平时合作的前端开发给他视频不给参数的时候他连这个还原度都达不到。 我好像感觉自己发现了 Gemini 2.5 Pro 0506 版本最强的能力。 它可以根据你上传的网页交互视频,生成还原度非常高的网页效果!这篇内容顺便教大家如何更好地使用这个 能力。 这些效果往往是文字和图片难以描述的。 可以说这次的前端能力提升真正的将 Gemini 的多模态能力在开发领域释放了出来。 可以先看一下这个效果。 虽然在设计师看来他还原的还需要进行一些小优化,但是已经非常好了。 首先是一个前段时间看到的交互,一个邮箱地址包含了名字、网页、邮箱和 Ins 账号,同时 Hover 对应的图 标对应的文字就会高亮。 可以看到他搞的还是不错的,虽然有些小问题,比如图标不需要变色,有些细节丢了,比如虚线是需要保住一 部分文字的间距的。 先来介绍一下 Gemini 2.5 Pro 0506 这个版本 顾名思义这个是谷歌在五月六号发布的,他们也叫 I/O 版本,是为了 12 天之后的谷歌 I/O 大会发布准备 的。 谷歌说这个版本的主要更新内容是:在前端和用户界面开发方面实现显著改进,同时在基本编码任务如代码转 换和编辑以及创建复杂的智能 ...
设计师的 ChatGPT 时刻:Figma 这次把“设计即代码”玩成现实
歸藏的AI工具箱· 2025-05-08 16:55
自从 Cursor 和 AI 编程火了之后,AI 编程产品大概就分成了两类。 Cursor 和 Windsurf 这类 AI IDE: 这类产品具有本身 IDE 开发产品的所有能力,AI 是附加的,并且有补全、chat、Agents 三类主要的 AI 功 能,即使不使用这些 AI 能力你也可以用他们正常写代码开发。 V0 和 Lovable 这类 Vibe Coding 产品: 这类产品的特点是主要靠跟 AI 编码 Agents 对话来编码,所以他们虽然也有可以看代码的能力但是基本上也 就是只能看看了。 这两类产品面向的人群是完全不同的,但显然 Lovable 这种产品在用户群体的覆盖范围更大,毕竟人人都会 打字描述需求。 目前 Vibe Coding 的问题都挺明显的,很多时候很多需求只是通过语言不太好描述,而且不是所有人都懂开 发和设计中的一些术语。 当然 Lovable 之类的支持上传设计稿,但是目前的多模态模型还是不太能将单纯的图片信息映射到代码上, 尤其是一些设计细节,比如跟白色很接近的灰色,或者很细的描边。 Gemini 2.5Pro 的多模态和前端能力已经很强了,单纯从图片设计稿还原还是有些问题 ...
一图展示全部信息:提示词 + Figma 十秒精修,让长网页秒变封面(内有白嫖福利)
歸藏的AI工具箱· 2025-05-06 16:09
其实这个是从藏师傅的 3.0 网页生成提示词拓展而来的,如果你还没看 3.0 的提示词可以看看《 藏师傅的网 页生成提示词 3.0| 原来 Gemini 2.5 Pro 这么强 》。 上周 Orange 来找我说用我的 3.0 提示词把刚发布的千问 3 模型内容变成类似苹果发布会 PPT 的一图流展 示非常直观。 开头先来个福利: 我最近发现我自己的网页提示词在 Gemini 效果很好,但是 AI Studio 的 Gemini 2.5 是限速的。 谷歌现在 Gemini 应用会给学生免费到 2026 年,会在八月验证 edu 邮件,所以你起码 可以免费试 用三个月的 Gemini 高级版 ,这里点击 Get Offer 领取: https://gemini.google/students/ 上周发了个 DeepSeek-Prover-V2 的一图流介绍,一张图展示了 Prover-V2 的主要信息,非常清晰直观, 很多朋友都问怎么做的。 今天就教一下大家, 如何用提示词生成网页之后再将网页变成对应的图片,而且我还会教你怎么用 Figma 调 整生成之后的小问题,导出完美的图片 。 就是有个问题是生成的网页很 ...
设计速度提升100倍,质量翻10倍:豆包超能创意1.0体验
歸藏的AI工具箱· 2025-04-29 16:18
豆包前段时间新的图片模型的实力大家应该也看到了。 强大的提示词理解加上字体和营销图片生成能力直接让人人都能生成自己需要的营销图片或者进行字体设计。 就在前天 豆包又更新了超能创意 1.0 模式 ,我被灰度到了试了一下,给我整麻了。 图片的生成效率和修改效率大幅提升,让本来就很低的设计门槛又低了一大截。 我们可以先看个例子再介绍 我输入的提示词为: 参考下面的提示词帮我生成十个其他知名品牌的胶囊 16:9 图片,先基于品牌和主营业务更改提示词 中的内容然后在生成。 示例提示词为:一个高高的、外观逼真且充满活力的胶囊体水平漂浮着。它的左半边是标志性的星 巴克绿色,标有"Starbucks – Uplifting the Everyday"字样以及经典的美人鱼(Siren)标志。右半 边是透明的,里面填充着漂浮的烘焙咖啡豆、细腻的奶泡漩涡、手绘咖啡杯图标以及代表社区连接 的抽象暖色调线条,需要有背景色。 来看看他给我的结果,我根本没提要哪些品牌,也没提这些品牌的主营业务和典型产品。 他直接从LLM 模型拿到了这些知识然后还按照要求改了提示词 ,太离谱了,而且 这十张图片的生成速度比 4 o 一张都要快很多 。 我测 ...
AI 工具堆里最豪横的那一个:纳米 MCP 万能工具箱上手(内有邀请码和藏师傅手搓智能体)
歸藏的AI工具箱· 2025-04-28 18:45
上周真是 MCP 诞生以来热度最高的一周,大家扎堆发布 MCP 的 Agents 工具。 纳米也发布了自己基于 MCP 驱动的 Agents 服务 "MCP万能工具箱"。 这个工具箱不仅包含纳米AI自研的十几个MCP工具,还引入了近百个第三方MCP工具,工具总量目前位居国内第一。 MCP 工具覆盖办公协作、学术研究、生活服务、搜索引擎、金融、媒体娱乐、数据抓取等多个领域。 今天终于有空详细玩了一下,还基于纳米的能力做了一个 Agents 帮大家生成藏师傅同款的展示网页。 深度研究智能体 先来看一下深度研究智能体,这部分直接就可以用不需要你任何配置,直接调用纳米的规划、搜索能力最后帮你生成各种形式的展示内容。 你可以在纳米 AI 客户端左侧智能体的部分找到深度研究智能体的入口,然后点击使用就行。 这里除了可以搜索网上内容外,也支持搜索你自己个人知识库的内容,比如我这里就让他基于网络和我自己的知识库搜索 MCP 的相关内容并且生成对应的网页解 释和 PDF 文件。 他经过 20 分钟的搜索和思考之后给了一个非常详细的报告,PDF 里面的内容非常丰富,总共消耗了 47 万 Token,而且这些都是免费的。 比如 M ...
从搜索到解决方案:解锁火山 DeepSearch 的“三连跳” MCP 玩法
歸藏的AI工具箱· 2025-04-24 17:34
最近真是捅了 MCP 窝了,上周火山开了一次开发者见面会,发布了挺多东西的,主要有: RTC 硬件这个也不太好测试,主要我也不懂,而且需要硬件,这次主要试一下 DeepSearch 服务。 其实现在所谓的 Agents 服务主要的任务和内容还是基于AI 搜索信息的加工和再整理,这部分是核心,也是 非常吃技术能力的地方。 火山把这部分能力变成应用之后对于开发者来说省了很多事情,人人都能搞 DeepSearch 了。 效果怎么样 先来一个最常见的问题和测试旅游规划。 即使这种看起来简单的任务很多 AI 搜索其实做的不好,看着内容输出很多,很多都是各个景点介绍的废话。 用户其实需要的是实时性比较强的信息,比如交通怎么安排,怎么样可以顺路,一些危险的项目需要准备哪些 东西等。 正式发布了豆包深度思考模型 Doubao-1.5-thinking-pro 和全新的视觉理解模型 Doubao-1.5-vision- pro,这个咱们上周介绍过了,视觉推理非常强大, 感兴趣可以去看我的测试 。 还发布了方舟 × RTC 硬件:把端侧自动唤醒与云端大模型语音能力一次打包,让玩具、家居、穿戴等设备 一键升级为能与人自然实时对话的 ...
藏师傅的网页生成提示词 3.0| 原来 Gemini 2.5 Pro 这么强
歸藏的AI工具箱· 2025-04-23 16:32
早上群里有个朋友说自己用 Gemini APP 里面的深度研究搞了一个特斯拉 Q1 财报的分析文档,另一个朋友 说转成网页,我就说我试试。 我直接把他的文档和我最近探索出来的提示词就放到了 Chatwise 里面,以往我都是用 Claude 3.7 生成网页 的,这次默认是 Gemini 2.5 Pro,我也没看就按下了回车。 没想到生成的网页炒鸡惊艳,Gemini 的网页内容很多同时理解了提示词提到的设计风格,非常漂亮。 可以看图也可以在这里预览: https://kueaqan0fo.app.yourware.so/ | | | | | | $0.41 | 可比 -13% YoY | 同比 -16% YoY 网比 +154% YoY | | Acknowledged uncertainty, 94 update planned. Unusual admission of political/brand impact. | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | FRITTY les a 2025 01 ...
不会 3D 也行?教你用AI创建非常酷炫的 NFT 3D 卡片动画
歸藏的AI工具箱· 2025-04-23 16:32
昨天在推特上刷到一个老哥用 4o 和可灵做的的品牌 3D 卡片看起来很惊艳。 所以昨天下午就尝试复刻和发散看看有什么其他玩法,没想到真的搞出来了,整个工作流还是很有价值的,而 且这套思路可以用在很多其他地方,这里教大家一下。 先看一下结果,我这里发散的是生成类似 NFT 的装备卡片,然后我们可以给这些装备卡片编一个背景故事搞 一个网站展示,让这些视频看起来更具价值一些。 我们先来看第一部分这部分的主要学习的部分是 json 的提示词写法,他把需要修改的部分都抽象成了变量 名,这样我们就不需要管核心部分的提示,只需要在改变的时候填写下面卡片内容的部分就行。 另外这种方法也可以快速创建很多风格一致的图片,比如我上面的三个卡片都是一样的风格。 这里我改了一下提示词,将整套提示词的主题变为了游戏装备这样的话整体做成视频之后表现力会好些,而且 更加契合。 用 Json 方式的提示词,这样方便产出一致性很高的图片,只需要改参数部分的文案就行 将图片用可灵 1.6 的首尾帧生成视频,首帧和尾帧一样的图片和提示词写法需要学习 最后是视频的展示部分,这部分是我加的,教大家用剪映让你的视频更出彩 把跟展示无关的部分改为了中文方便 ...