Workflow
歸藏的AI工具箱
icon
搜索文档
Liblib AI上线Kontext,门槛大幅降低!藏师傅手把手教你用它解决图片问题
歸藏的AI工具箱· 2025-06-09 14:44
FLUX Kontext功能与应用 - FLUX Kontext是一款全能图像编辑应用,支持图片局部修改、去水印、去除背景人物等操作 [1] - 该工具已集成至Liblib平台,支持Web UI和Comfyui两种使用方式,用户无需本地部署即可在线处理图片 [2] - 即将上线多图参考功能,可实现人物服饰更换、道具添加等复杂编辑 [11][12] Web UI基础操作指南 - 使用流程:在Liblib首页添加F1 Kontext模型→进入在线生成界面→选择图生图模式→输入提示词(支持中文自动翻译)→调整图像比例→生成图片 [4][6][7] - 典型应用案例:通过提示词生成"厨房中的Labubu"形象,包含厨师帽、围裙、烘焙道具等细节 [9] Comfyui高级功能实现 单图处理 - 工作流获取后直接拖入界面,通过"加载图像"节点上传图片,中文提示词自动翻译功能简化操作 [14][16] - 智能优化能力:可自动调整车身角度、环境光线(如黄昏车灯提亮)及运动模糊效果,实现场景转换 [18][19] 多图融合 - 双图/三图融合支持将产品植入指定环境或模特穿戴指定服饰,优先保持产品细节(如化妆品瓶身透明度、文字保留) [21][24] - 关键技术参数:aspect_ratio控制输出比例,环境元素自动重组确保画面自然度 [16][22] - 典型场景:化妆品瓶与橘子和花丛融合、模特在拱门建筑前手持产品等 [24][29] 图像后处理优化 - 内置放大工作流可提升分辨率,整合FLUX Lora模型改善肤质、材质和色彩表现 [31][32] - 工作流获取地址:通过指定链接下载预置模板 [34]
从今天起,奶奶也能一句话做出爆款设计了|即梦AI图片3.0智能参考指南
歸藏的AI工具箱· 2025-06-06 18:53
核心观点 - 即梦AI图片3 0的智能参考功能突破传统设计工具限制 用户仅需提示词即可完成各类图片设计 包括海报 电商封面 视频封面等 [1] - 新功能支持基于原图生成内容 实现照片编辑 风格转换 文字添加等复杂操作 大幅降低设计门槛 [1][16] - 模型在电商营销物料 IP人像封面等商业场景展现强大应用潜力 支持商品还原与排版复刻 [26][30][37] 基本能力测试 人像编辑 - 支持从背景更换到配饰调整的全方位人像修改 融合度达到人眼无法识别的水平 [2] - 成功实现姿势调整 滤镜添加 拍立得风格转换等操作 保留原图核心特征 [5] 风格化图片处理 - 对潮流玩偶Labubu实现换装改造 精准保持材质纹理并同步更新阴影效果 [7][8] 文字生成与修改 - 可精准生成金色立体书法字体等复杂文字样式 位置控制准确 [10][11] - 支持将原有3D Q版挤压效果文字从3字扩展为5字 保持风格一致性 [13][14] 日常应用场景 照片处理 - 覆盖美图软件四大核心需求:加滤镜 改内容 调比例 增装饰 [16] - 一键生成撕拉片风格照片 支持连续编辑添加手写文字 [16][18][19] 自动化设计 - 输入"海报"提示词即可自动生成契合原图风格的设计方案 [21] - 支持自定义文字内容 如咖啡打卡标记等个性化应用 [23] 商业场景应用 电商营销 - 解决商品还原度问题 保持产品ID不变的同时优化背景融合 [26][29] - 输入简单文案如"29 9元蛋糕新品海报"即可生成完整营销素材 含自动补充的广告语 [32] 视频/IP封面 - 实现探店类封面人物抠图+场景合成的复杂效果 单次提示完成 [37] - 支持复刻影视飓风等专业视频封面的排版结构与视觉元素 [39][40] 技术实现 - 功能由SeedEdit3 0和DreamPoster双模型驱动 后者专攻文字修改与海报生成 [41] - 操作流程简化:上传图片后输入提示词直接生成 全量上线在即 [41][42]
对普通人最有用的一次!藏师傅教你用FLUX Kontext解决一切图片问题
歸藏的AI工具箱· 2025-06-03 14:53
模型功能 - 黑森林工作室发布生成式流匹配模型FLUX Kontext,具备对图片进行编辑而不影响未编辑区域的能力,支持多张图片参考生成新图像并保持高度一致性[1][2] - 模型支持通过简单英文提示词实现精细修改,包括添加配饰、改变姿势、更换背景和服装,修改后的人物面部一致性与环境融合良好[3] - 模型可处理复杂水印去除、身体瑕疵优化、电商商品展示图生成、景区游客去除、真实照片与动漫风格转换、海报文字修改等多样化需求[4][18][26][9][11][13] - 模型在修复老照片上色和风格转换方面表现优异,能自然处理色彩和明暗关系,并保持人物主要特征[7][9][11] - 模型支持修改海报内容,包括文字和背景色更换,且不影响原有其他内容,字体风格保持一致[13][15] 技术细节 - 模型分辨率为固定值,画全身照时面部可能因像素区域过小而变糊[5] - 模型不支持中文提示词,需通过翻译软件转换,但修改图片中的中文文字不受影响[3][15] - 多图参考时人脸ID保持会下降,最佳方式是避免修改面部[44] - 模型可识别图片中的涂鸦标记,通过圈定修改区域实现精确编辑[44] 应用场景 - 电商领域:一键生成商品展示图,支持复杂商品与模特合成,还原细节如服装文字和配饰[26][31] - 平面设计:为Logo添加材质和背景,替代3D渲染需求,还原笔画细节[21] - 旅游摄影:去除景区照片中无关游客,保留主体或纯风景[24] - 个人修图:自然实现瘦脸、瘦身、增肌等美颜美体效果,避免传统修图的生硬感[34][37][38] 使用渠道 - 简单操作推荐FLUX官方Playground和Krea平台,前者提供200积分,单图消耗4积分[40] - 开发或多图参考推荐Fal渠道,支持Comfyui插件,无需本地算力,适合Mac用户[42][43] 成本优势 - 单图编辑成本为0.08美元(约0.5元人民币),显著低于GPT-4o的1.4元人民币[45] - 未来将开源Dev版Kontext模型,进一步降低成本[45]
近期必读,Mary Meeker 340页PPT分析AI现状和未来
歸藏的AI工具箱· 2025-06-01 12:37
人工智能发展趋势概述 - Mary Meeker最新发布340页《人工智能趋势报告》,标志着其研究方向从互联网转向AI领域[1] - 报告显示AI技术演进速度和范围前所未有,变革速度远超历史任何时期[27] - ChatGPT达到1亿用户仅用24个月,速度是TikTok的375倍、Netflix的515倍[16][32] 技术发展加速特征 - 计算专利授权量在ChatGPT发布后两年激增6000份,增速超1995年互联网泡沫时期[4][5] - AI模型训练计算量(FLOP)年均增长超360%,15年累计增长100亿倍,远超摩尔定律[10] - 基础设施从CPU转向GPU,NVIDIA数据中心收入2024年占全球数据中心资本支出25%[7][45] 市场应用与商业化 - OpenAI年化收入92亿美元但估值达3000亿美元,收入倍数33倍;Perplexity估值倍数高达75倍[24][25] - 摩根大通预计AI/ML创造价值两年内增长65%,已在投行服务、运营优化等领域全面部署[19] - 全球AI公司融资总额达950亿美元,年收入仅110亿美元,呈现高增长高消耗特征[61] 技术性能与成本动态 - AI推理成本两年下降997%,每百万代币价格从数美元降至美分级[51] - 顶级模型性能差距缩小,中国DeepSeek R1在MATH测试达93%接近OpenAI的95%[55][76] - 训练成本八年增长2400倍,100亿美元级模型训练或于2025年启动[45][51] 行业竞争格局演变 - 中美竞争白热化,中国MAU前十AI应用均为本土开发,DeepSeek四个月获5400万用户[82] - 开源模型数量两年增长33倍,Meta Llama下载量八个月增长34倍[60][72] - 六大科技公司资本支出2024年占收入15%,较十年前提升7个百分点[45] 物理世界融合进展 - Waymo自动驾驶市场份额20个月从0%增至27%,特斯拉FSD里程33个月增长100倍[88] - 农业AI应用累计除草23万英亩,减少10万加仑农药使用[91] - 卫星互联网推动全球网络普及,Starlink用户32年实现202%年增长[97][103] 工作模式变革 - 72%美国职场人士认为AI显著提升工作质量和效率[38] - GitHubAI开发者仓库16个月增长175%,使用AI开发者比例从44%升至63%[55] - 美国AI职位发布量七年增长448%,非AIIT职位下降9%[108] 基础设施投资 - 全球数据中心支出2024年达4550亿美元,美国新建容量四年增长16倍[45] - 六大科技公司自由现金流十年增长263%至3890亿美元,现金储备4430亿美元[45] - AWS将49%收入投入AI基建,远超2013年云基建27%的投入比例[45]
四大顶尖模型对决!6000 字测评带你看Deepseek R1有多强
歸藏的AI工具箱· 2025-05-29 22:54
DeepSeek-R1 0528模型性能表现 - 在LiveCodeBench上表现接近OpenAI的o3(high)水平 在Aider多语言基准测试中与Claude Opus相当[1] - 前端开发能力测试中稍逊于Opus4 但全面超越Sonnet4和Gemini 2.5 Pro 部分任务完成度甚至超过Opus4[3] - 价格仅为竞品的1/30 性价比优势显著[51] 技术能力测试结果 仓库管理系统 - 唯一完整实现商品管理/库存管理/看板三页面架构 包含假数据生成功能 其他模型均出现功能缺失或报错[11] - 采用专业SaaS平台侧边栏设计 竞品界面简陋且存在保存失败等基础功能缺陷[11] 点阵动画编辑器 - 完美实现P5.js全屏互动点阵 支持5种动画模式和5种点形状 夜间模式切换正常[17] - 竞品普遍存在点阵不动/缺失等严重问题 Opus4夜间模式配色异常[17] 图片渐变色提取工具 - 美学设计最佳 添加SEO优化内容和应用场景介绍 但未实现核心取色功能[20] - Claude系列完成基础功能但界面简陋 Gemini完全报错[19][21] 白噪音日签网站 - 美学表现仅次于Opus4 存在音乐按钮扁平化/名言遮罩过度等问题[27] - Opus4在字体排版/动效细节上表现最优 Gemini加入图片切换动效[27][28] 睡眠监测APP - 单页面完成度最高 实现响应式导航设计 卡片和图标处理专业[34] - 仅Opus4完成多页面架构 但移动端图标尺寸过小 Gemini生成四个无法交互的页面[34] 复杂俄罗斯方块 - 完整实现主题切换功能 但遗漏特殊方块设计 界面组件标准化程度高[48] - Claude系列完成特殊方块逻辑但缺少主题切换 Gemini存在落点判定Bug[48][49] 行业影响 - 开源模型性能突破30倍价格差距 显著降低AI应用门槛[51] - 在多模态任务中展现差异化优势 前端开发/创意设计领域潜力突出[3][17] - 持续迭代能力值得期待 R2版本可能带来更大技术跃升[4]
搜攻略到凌晨3点?飞猪AI“问一问”用1张表谋杀废话
歸藏的AI工具箱· 2025-05-29 14:10
飞猪旅行Agent产品分析 产品核心功能 - 独家上下文构建能力显著优于同类产品 能生成真正可执行的旅行规划方案 包含景点详情 打卡点 机票酒店 路程耗时等关键信息[1] - 采用多Agent并行处理架构 包括"路线制定师"、"预算管理师"、"智慧交通顾问"等专业模块 大幅提升查询效率但消耗较高Token成本[8] - 支持动态预算调整 用户修改预算后可自动更新酒店机票选择并重新生成方案[13] 行程规划特性 - 初始生成3种差异化方案 按探险程度 文化体验 奢华等级等维度分类 标注总预算(¥3568-7801区间) 耗时(7天)及推荐指数[6][7] - 提供可视化地图标注 显示景点间距 路线及每日行程节点 方案一详细标注每日景点名称及位置信息[4][9] - 行程卡片集成直接预订功能 支持收藏景点/机酒信息 每个节点可快捷编辑提问 酒店机票附带AI推荐理由[11] 数据呈现方式 - 费用明细表拆分交通(¥2682) 住宿(¥2225) 门票(¥2894)等类别 方案三总预算达¥7801包含高端服务[7] - 每日行程结束推送必要注意事项 涵盖高海拔适应 天气变化 宗教禁忌等实用建议[13] - 特价机票查询功能可识别节假日出行需求 如端午节特价机票检索[20] 技术实现优势 - 深度整合通义等大模型能力 在路线合理性 机酒匹配等垂直领域建立数据壁垒[18] - 交互设计优化输入体验 复杂地名可通过点击编辑简化输入流程[11] - 方案生成逻辑透明化 每个推荐方案均注明设计理由及适用人群标签[6]
文旅新玩法!藏师傅教你做食物微缩景观宣传海报&视频
歸藏的AI工具箱· 2025-05-28 16:06
AI生成内容创新应用 - GPT-4o的图片生成功能被用于创造超现实风格的食品键盘 键盘按键采用微缩甜点设计 包括马卡龙 迷你蛋糕 水果挞等 色彩鲜亮 质感逼真 场景设定为烘焙坊灯光环境 [1][2] - 该技术进一步拓展至城市主题微缩场景 将城市代表性食物与景观结合 例如成都主题中 辣椒和青花椒排列成"成都"汉字 火锅红油形成河流 食材化作山峦 糍粑熊猫在香菜竹林嬉戏 [5][8] 多模态AI工具协同 - 豆包和GPT-4o均可实现类似场景生成 但GPT-4o输出的场景更简洁 [3] - Veo3视频生成技术可扩展应用 通过延时摄影风格动态展现微缩景观的组装过程 支持从无到有的渐进式构建 但需注意其对中文支持有限 城市名称需用拼音表示 [6][7] 文旅产业应用潜力 - 该技术特别适合制作文旅宣传素材 可诱导用户生成代表各自城市的特色食物微缩场景 具有较强视觉吸引力和传播性 [4] - 成都案例展示完整技术路径 包含3D等距渲染 Q版设计 元素符号化处理(如豆腐皮乌篷船)等手法 形成热辣安逸的整体氛围 [5][8] 技术实现优化方向 - 可通过Flow功能实现一镜到底的连贯视频效果 但需考虑抽卡机制带来的成本问题 [6] - 建议结合《Veo3和FLOW一手实测》中的技巧 利用20美元Gemini Pro会员在Gemini App和FLOW中使用Veo3功能 [9]
终于不用羡慕老外了!美团竟然做出了类似V0&Bolt的AI编程神器
歸藏的AI工具箱· 2025-05-27 15:24
美团NoCode产品分析 产品核心能力 - 零代码应用生成工具可构建复杂多页面产品 支持动态网页生成、AI自动优化、数据库集成等完整开发生命周期功能 [1][3][32] - 展示类网页生成测试中 对特斯拉财报文档的图表呈现效果优异 动效完整且主题色应用准确 [2] - 商品管理工具测试中一次性生成功能完整的产品 包含商品CRUD、库存操作记录、响应式设计等23项功能模块 库存总值显示¥571,496 [5][8][11][13] - 路径规划工具成功集成谷歌地图API 实现地点拖拽排序、路线可视化等复杂交互 需修复地图样式冲突问题 [17][20][27][30] 技术实现特点 - 采用TailwindCSS 3.0+框架 支持专业图标库和Google Fonts 商务配色方案严谨 [4][7][13] - 错误自修复机制可分析React组件缺失value属性等复杂问题 提供具体修改方案 [14][15] - Dev Mode集成Cursor IDE功能 支持代码片段修改与实时预览 [31][32] - Database服务实现云端数据存储 通过自然语言指令即可完成数据迁移 [32] 设计规范体系 - 视觉设计遵循Bento Grid风格 主背景色F9F8F4 高亮色DA7759 强调超大字体对比 [4] - Neubrutalism风格项目采用4-8px黑边框 霓虹绿(00FF88)主色调 实现不对称布局 [19][21] - 严格禁用emoji作为主要图标 要求使用Font Awesome等专业图标库 [7][11] - 动效设计模仿Apple官网 滚动交互配合CSS动画过渡 [4][26] 行业意义 - 填补国内Vibe Coding领域空白 功能对标海外V0/Bolt等产品 [1][33] - 降低开发者使用门槛 测试案例显示非技术人员可完成复杂系统开发 [16][34] - 数据库与API集成能力使生成产品具备商业应用价值 非演示级项目 [3][17][32]
V0做不到、Bolt搞不定,Youware用MCP一键解决网页生成最大难题
歸藏的AI工具箱· 2025-05-26 11:02
Youware产品功能更新 - 支持调用MCP生成网页,解决网页生成中最麻烦的素材获取问题 [2][3] - 深度适配主流MCP服务(如Figma、FLUX、hugeicons),使用门槛低且效果优秀 [8][9] - 新增积分系统(Kont),用户可通过网页浏览量兑换美元 [21] - 首页优化作品分类筛选功能,便于用户查找社区网站 [22] - 作品页增加随机按钮,可直接跳转至其他优秀社区作品 [22] MCP技术应用案例 - 通过Figma MCP读取设计稿数据,结合FLUX MCP生成图片、hugeicons MCP拉取图标,实现复杂网页的自动生成(含响应式适配) [4][5][6][7] - 旅行网页案例中,整合Figma(设计稿)、Unsplash(图片)、Hugeicons(图标)、Google Maps(景点信息)等多MCP协同工作 [14][15][16] - 生成的网页可通过"Boost"功能一键优化视觉表现(如布局、图片清晰度、动效、SVG点缀) [17][18] 用户体验优化 - 提供"Select"按钮支持局部优化,用户可指定位置调整(如图片替换为横向排版) [17] - MCP配置极简,除Figma/Notion等需API外,其他点击即用无需设置 [13] - 相比同类产品(Lovble/V0/Bolt),大幅降低素材匹配与填充的操作复杂度 [19] 社区与活动 - 推出复古风格网站生成挑战,奖金高达1000美元,并设社交媒体推荐奖励 [22] - 持续展示社区优秀作品,强化创作者内容分享生态 [20][22]
AI编码新神登基,藏师傅一手Claude 4实测
歸藏的AI工具箱· 2025-05-23 02:00
核心观点 - Claude 4发布标志着AI代码生成能力的重大突破,公司CEO预测2027年所有代码将由AI生成[1] - Claude Opus 4被定位为全球最佳编码模型,在复杂任务和代理工作流中表现优异[1][4] - 开发者大会揭示AI代理未来三大发展方向:上下文智能、长时间执行、真正协作[17][19] 产品发布 定价策略 - Claude Sonnet 4向免费用户开放[3] - API定价维持不变:Opus 4输入/输出每百万token 15/75美元,Sonnet 4为3/15美元[3] 技术能力 - 编码能力在SWE-bench(72.5%)和Terminal-bench(43.2%)领先行业[4] - 支持数千步操作的长时间任务,可持续工作数小时[4] - 记忆能力显著提升,可创建维护"记忆文件"[8] 新功能 - 扩展思维与工具使用进入测试阶段,支持并行工具操作[5] - Claude Code全面开放,集成GitHub Actions/VSCode/JetBrains[5] - 新增代码执行工具、MCP连接器、Files API等API功能[5] 性能测试 前端开发 - 成功生成Bento Grid风格作品集网页,实现8项复杂设计要求[9][14] - 自动优化交互细节如滚动条样式、数据卡片hover效果[9] - 完美融合特斯拉红(E31937)与黑色背景的科技感设计[9] 全栈开发 - 零基础构建功能完整的电商后台,包含动态定价、SKU选择等交互组件[10][11] - 实现广告管理系统仪表盘,支持多图表筛选和实时数据更新[15] - 所有案例均使用TailwindCSS 3.0+/Framer Motion等现代技术栈[13][18] 开发者生态 - 主题自定义提示词执行成功率显著提升,Sonnet 4免费开放降低使用门槛[15] - 原生支持VS Code/JetBrains等主流IDE,提升开发者体验[5] - 测试显示模型能自主补充未明确要求的交互逻辑和动效[10][12]