Workflow
歸藏的AI工具箱
icon
搜索文档
文旅新玩法!藏师傅教你做食物微缩景观宣传海报&视频
歸藏的AI工具箱· 2025-05-28 16:06
AI生成内容创新应用 - GPT-4o的图片生成功能被用于创造超现实风格的食品键盘 键盘按键采用微缩甜点设计 包括马卡龙 迷你蛋糕 水果挞等 色彩鲜亮 质感逼真 场景设定为烘焙坊灯光环境 [1][2] - 该技术进一步拓展至城市主题微缩场景 将城市代表性食物与景观结合 例如成都主题中 辣椒和青花椒排列成"成都"汉字 火锅红油形成河流 食材化作山峦 糍粑熊猫在香菜竹林嬉戏 [5][8] 多模态AI工具协同 - 豆包和GPT-4o均可实现类似场景生成 但GPT-4o输出的场景更简洁 [3] - Veo3视频生成技术可扩展应用 通过延时摄影风格动态展现微缩景观的组装过程 支持从无到有的渐进式构建 但需注意其对中文支持有限 城市名称需用拼音表示 [6][7] 文旅产业应用潜力 - 该技术特别适合制作文旅宣传素材 可诱导用户生成代表各自城市的特色食物微缩场景 具有较强视觉吸引力和传播性 [4] - 成都案例展示完整技术路径 包含3D等距渲染 Q版设计 元素符号化处理(如豆腐皮乌篷船)等手法 形成热辣安逸的整体氛围 [5][8] 技术实现优化方向 - 可通过Flow功能实现一镜到底的连贯视频效果 但需考虑抽卡机制带来的成本问题 [6] - 建议结合《Veo3和FLOW一手实测》中的技巧 利用20美元Gemini Pro会员在Gemini App和FLOW中使用Veo3功能 [9]
终于不用羡慕老外了!美团竟然做出了类似V0&Bolt的AI编程神器
歸藏的AI工具箱· 2025-05-27 15:24
美团NoCode产品分析 产品核心能力 - 零代码应用生成工具可构建复杂多页面产品 支持动态网页生成、AI自动优化、数据库集成等完整开发生命周期功能 [1][3][32] - 展示类网页生成测试中 对特斯拉财报文档的图表呈现效果优异 动效完整且主题色应用准确 [2] - 商品管理工具测试中一次性生成功能完整的产品 包含商品CRUD、库存操作记录、响应式设计等23项功能模块 库存总值显示¥571,496 [5][8][11][13] - 路径规划工具成功集成谷歌地图API 实现地点拖拽排序、路线可视化等复杂交互 需修复地图样式冲突问题 [17][20][27][30] 技术实现特点 - 采用TailwindCSS 3.0+框架 支持专业图标库和Google Fonts 商务配色方案严谨 [4][7][13] - 错误自修复机制可分析React组件缺失value属性等复杂问题 提供具体修改方案 [14][15] - Dev Mode集成Cursor IDE功能 支持代码片段修改与实时预览 [31][32] - Database服务实现云端数据存储 通过自然语言指令即可完成数据迁移 [32] 设计规范体系 - 视觉设计遵循Bento Grid风格 主背景色F9F8F4 高亮色DA7759 强调超大字体对比 [4] - Neubrutalism风格项目采用4-8px黑边框 霓虹绿(00FF88)主色调 实现不对称布局 [19][21] - 严格禁用emoji作为主要图标 要求使用Font Awesome等专业图标库 [7][11] - 动效设计模仿Apple官网 滚动交互配合CSS动画过渡 [4][26] 行业意义 - 填补国内Vibe Coding领域空白 功能对标海外V0/Bolt等产品 [1][33] - 降低开发者使用门槛 测试案例显示非技术人员可完成复杂系统开发 [16][34] - 数据库与API集成能力使生成产品具备商业应用价值 非演示级项目 [3][17][32]
V0做不到、Bolt搞不定,Youware用MCP一键解决网页生成最大难题
歸藏的AI工具箱· 2025-05-26 11:02
Youware产品功能更新 - 支持调用MCP生成网页,解决网页生成中最麻烦的素材获取问题 [2][3] - 深度适配主流MCP服务(如Figma、FLUX、hugeicons),使用门槛低且效果优秀 [8][9] - 新增积分系统(Kont),用户可通过网页浏览量兑换美元 [21] - 首页优化作品分类筛选功能,便于用户查找社区网站 [22] - 作品页增加随机按钮,可直接跳转至其他优秀社区作品 [22] MCP技术应用案例 - 通过Figma MCP读取设计稿数据,结合FLUX MCP生成图片、hugeicons MCP拉取图标,实现复杂网页的自动生成(含响应式适配) [4][5][6][7] - 旅行网页案例中,整合Figma(设计稿)、Unsplash(图片)、Hugeicons(图标)、Google Maps(景点信息)等多MCP协同工作 [14][15][16] - 生成的网页可通过"Boost"功能一键优化视觉表现(如布局、图片清晰度、动效、SVG点缀) [17][18] 用户体验优化 - 提供"Select"按钮支持局部优化,用户可指定位置调整(如图片替换为横向排版) [17] - MCP配置极简,除Figma/Notion等需API外,其他点击即用无需设置 [13] - 相比同类产品(Lovble/V0/Bolt),大幅降低素材匹配与填充的操作复杂度 [19] 社区与活动 - 推出复古风格网站生成挑战,奖金高达1000美元,并设社交媒体推荐奖励 [22] - 持续展示社区优秀作品,强化创作者内容分享生态 [20][22]
AI编码新神登基,藏师傅一手Claude 4实测
歸藏的AI工具箱· 2025-05-23 02:00
核心观点 - Claude 4发布标志着AI代码生成能力的重大突破,公司CEO预测2027年所有代码将由AI生成[1] - Claude Opus 4被定位为全球最佳编码模型,在复杂任务和代理工作流中表现优异[1][4] - 开发者大会揭示AI代理未来三大发展方向:上下文智能、长时间执行、真正协作[17][19] 产品发布 定价策略 - Claude Sonnet 4向免费用户开放[3] - API定价维持不变:Opus 4输入/输出每百万token 15/75美元,Sonnet 4为3/15美元[3] 技术能力 - 编码能力在SWE-bench(72.5%)和Terminal-bench(43.2%)领先行业[4] - 支持数千步操作的长时间任务,可持续工作数小时[4] - 记忆能力显著提升,可创建维护"记忆文件"[8] 新功能 - 扩展思维与工具使用进入测试阶段,支持并行工具操作[5] - Claude Code全面开放,集成GitHub Actions/VSCode/JetBrains[5] - 新增代码执行工具、MCP连接器、Files API等API功能[5] 性能测试 前端开发 - 成功生成Bento Grid风格作品集网页,实现8项复杂设计要求[9][14] - 自动优化交互细节如滚动条样式、数据卡片hover效果[9] - 完美融合特斯拉红(E31937)与黑色背景的科技感设计[9] 全栈开发 - 零基础构建功能完整的电商后台,包含动态定价、SKU选择等交互组件[10][11] - 实现广告管理系统仪表盘,支持多图表筛选和实时数据更新[15] - 所有案例均使用TailwindCSS 3.0+/Framer Motion等现代技术栈[13][18] 开发者生态 - 主题自定义提示词执行成功率显著提升,Sonnet 4免费开放降低使用门槛[15] - 原生支持VS Code/JetBrains等主流IDE,提升开发者体验[5] - 测试显示模型能自主补充未明确要求的交互逻辑和动效[10][12]
我用这个产品做了小米5.22发布会官网,同事:这不是官方做的?
歸藏的AI工具箱· 2025-05-22 17:24
前几天受邀参加了天工超级智能体(Skywork Super Agents)的提前测试。 试了一下我发现,相较于各种大包大揽的所谓通用智能体,天工非常的务实,专注于帮助打工人优化我们每天 接触最多也是最繁琐的三个交付物,也就是所谓的 Office 三件套,文档、表格、PPT。 天工超级智能体 不是简单的生成一个交付物就结束了,而是考虑到了整个内容的生命周期 ,从意图判断到内 容检索到高品质生成到编辑和修改都做了非常多的优化,最大限度的保证内容的可用性。 先介绍一下天工超级智能体的主要能力: 网页生成 我发现他们有网页生成模式,那是时候掏出藏师傅的老测试项目了。 今晚不是有小米发布会吗,我想了一个很好的测试方式, 直接让他给小米做一个发布会预热网页 。 这个除了考验对藏师傅网页生成提示词的还原以外,也非常考验对于最新信息的检索能力,因为很多都是预测 信息,而且都是最近几天发布的,我们很容易就能看到检索的质量。 我也根据小米的设计风格改了一下网页生成提示词,大家有类似场景可以直接用。 这里可以看案例回放: https://www.skywork.ai/share/project/192542753810075238 ...
CEO的智囊团,实习生的救命稻草:这个飞书功能如何让所有人都变高效
歸藏的AI工具箱· 2025-05-21 15:18
飞书知识问答功能概述 - 飞书知识问答是企业专属AI问答工具 可基于互联网知识和组织内部数据(消息/文档/知识库/文件)提供精准回答 [2] - 功能与组织数据深度协同 数据积累越多AI能力越强 对高管和一线员工均有显著效率提升 [1] - 支持内容创作辅助 帮助用户快速获取业务洞察 [3] 企业场景应用 - **项目筹备场景**: - 可快速查询跨部门项目进度 精确输出时间地点/核心进展/协作方等关键信息 节省90%文档查阅时间 [4] - 自动分类检索嘉宾演讲主题 解决原始文档未分类整理的痛点 [5] - 同步展示相关图片素材(如海报/场地照片) 提升跨团队协作效率 [7] - **管理决策场景**: - 生成结构化筹备建议 覆盖场地选择/推广策略/嘉宾管理等全流程 [9] - 10分钟内自动生成进度汇报文档 替代传统需半天的人工整理 [12] - 管理层可穿透式查询项目细节 突破传统逐级汇报的信息壁垒 [17] 个人知识管理 - 自动分析用户文档内容 如系统梳理网页生成提示词 提出写作结构/模型适配/产品化等优化建议 [19] - 深度检索飞书知识库内容 如生成Comfyui入门教程并附带教学视频 效率较传统检索提升80% [21] 技术差异化优势 - 核心突破在于上下文获取能力 飞书文档体系提供了企业场景最丰富的上下文数据 [22] - 相比通用AI产品 其企业数据整合度更高 在B端管理场景实现信息利用率300%提升 [22]
Veo3和FLOW一手实测:谷歌这次成了,这次视频创作可能彻底变天
歸藏的AI工具箱· 2025-05-21 15:18
谷歌视频模型Veo3和FLOW产品测评 核心观点 - 谷歌Veo3视频模型整合音效生成、语音同步及唇形同步技术,显著提升视频生成可用性,对剪辑软件、数字人产品形成降维打击[1][2][3] - FLOW作为配套AI视频创作工具,支持文生视频、图生视频及素材编排,填补谷歌在AI视频创作领域的空白[15][18][20] - 模型在复杂运动、多分镜一致性、长视频延长等场景表现优异,可生成游戏画面、ASMR内容及历史人物教学视频[5][6][7][8][9] Veo3技术特性 - **多模态生成**:同步生成环境音、语音并实现精准唇形同步,支持跨分镜人物一致性[2][7][11] - **复杂场景处理**:篮球运动音效(球鞋摩擦、篮筐碰撞声)准确率100%,游戏UI与人物动作符合提示词要求[5][6] - **长视频能力**:支持视频延长至16秒以上,保持内容连贯性,可生成完整ASMR视频[8][9][28] FLOW产品功能 - **创作模式**:支持文生视频(英文提示词)、图生视频(首尾帧控制)及三图素材风格迁移[18][20][21] - **剪辑编排**:Scenebuilder模块可调整分镜顺序,通过进度条定位插入点,导出1080P超清视频[23][25][26] - **延长技巧**:需切换至首尾帧模式并定位最后一帧,避免退回素材库中断生成[28] 行业应用场景 - **数字人领域**:实现多人唇形同步,播客对谈场景中语音与表情情绪100%匹配[11][12][13] - **教育内容**:生成牛顿讲解万有引力等历史人物教学视频,分镜切换时间可压缩至2秒内[7] - **UGC创作**:一键生成带环境音的ASMR视频,大幅降低专业级视频制作门槛[8][9][10]
这宣传图也太上流了!藏师傅教大家如何用4o搭配提示词生成
歸藏的AI工具箱· 2025-05-19 16:58
ListenHub新产品发布 - ListenHub推出新产品可将任何内容一分钟转换为播客[1] - 新产品采用AI技术实现快速内容转换[1] 拟物图标生成技术 - 模仿Airbnb新拟物风格图标生成技术[1] - 使用GPT分析文章内容并生成匹配图标[2] - 提供两种图标风格选择:多色彩风格和简洁统一风格[4] - 藏师傅风格强调真实材质与细腻光影[5][6] - 迪特拉姆斯风格采用3D等距视图和真实材质纹理[7][8][9][10][11] 网页生成技术 - 使用Markdown链接实现图片上传[16] - 生成类似苹果发布会PPT风格的Bento Grid网页[17] - 网页设计要求包括响应式布局和视觉元素对比[17] - 采用HTML5、TailwindCSS 3.0+和JavaScript技术[17] - 提供网页优化方法参考[18] 工具与资源 - 提供图片处理工具链接[16] - 推荐使用Gemini生成代码并通过Youware部署[18] - 提供进一步优化网页的教程参考[18]
不会剪辑?一句话生成完整可编辑的视频:Medeo 带你看视频生成的未来
歸藏的AI工具箱· 2025-05-16 16:11
Medeo产品核心功能 - 提供AI视频生成服务,可根据用户提供的素材或口播稿自动剪辑并生成完整视频[1][2] - 支持从零开始生成视频,仅需一个点子或提示词即可自动生成科普类视频内容[3][4] - 具备幼儿教育视频生成能力,可制作风格可爱的教学视频[6][7] - 支持小说视频化,能自动提取内容场景并生成连贯视频片段[8] - 适用于营销场景,可快速生成高质量产品广告视频[9][10] 产品技术特点 - 生成速度快,仅需几分钟即可完成视频制作[4] - 支持两种素材处理模式:Fall AI(全生成)和Smart Match(素材匹配)[11] - 可自动提取网页链接中的文字和素材进行视频转换[11] - 允许用户上传自定义图片、视频或文稿进行匹配[11] - 提供精准编辑功能,可单独修改口播内容或替换分镜素材[13][14] 应用场景优势 - 资讯类内容制作时可确保视频与主题高度相关[12] - 教育领域可快速生成专业教学视频[6] - 营销领域能大幅降低广告制作成本至几元级别[9] - 极大降低视频制作门槛,使非专业人士也能产出高质量内容[16] 用户体验设计 - 操作界面简单直观,仅需输入文字要求即可生成视频[11] - 支持高级设置如背景音乐、语音音色、视频时长等参数调整[11] - 提供"Only Use Provide media"选项确保素材准确性[12] - 导出便捷,会员可去除水印[15] 行业影响 - 突破传统视频制作技术门槛,释放个人创意潜力[16] - 可能改变内容创作和广告制作行业的成本结构[9] - 预示AI在内容分发和筛选领域的发展方向[16]
Speech-02语音模型登顶国际榜单:完美复刻声音,同事听后难辨真伪
歸藏的AI工具箱· 2025-05-15 17:14
藏师傅很多时候早上上班和洗澡之前都是听音乐的,虽然我喜欢看小说, 但之前 对那种 AI 生成的音频听书 嗤之以鼻。 但是那天无意间用了一下起点新的听书功能 , 发现居然都这么牛了,前几天交流发现他们的语音生成服务居 然是用的 MiniMax 的 Speech 模型,而且就是我最喜欢那个「说书先生」的角色。 最近发现他们更新 的 Speech-02 音频模型, 在Artifici al Analysis 的 ELO 评价榜单上吊打 Open AI 和 Ele venLabs 一众海外音频模型,基本上霸榜了。 Hugging Face上,不出意外,也是第一名的成绩。 这次 Speech-02 最大的创新在于引入了可学习的说话人编码器,它能 从参考音频中提取音色特征,无需音 频转录 。基于这个就可以实现很多能力,比如 只需要一段 十几秒的 语言就能实现高质量的声音参考能力 ; 因为说话人编码器捕捉的是与语言无关的音色特征, 还能实现将音色迁移到别的语言上 ,这个对于内容出海 很有帮助; Speech-02还 带来了 非常高的可扩展性 ,音色可以用在情感控制、文本到音色、专业语音参考等下游任 务,不需要更换模型。 另 ...