歸藏的AI工具箱 - 财报，业绩电话会，研报，新闻

歸藏的AI工具箱

搜索文档

歸藏的AI工具箱· 2025-08-22 17:10

可灵2.1首尾帧模型技术能力 - 模型在提示词理解和遵循以及图片转换自然度方面表现优异基本达到首尾帧功能天花板[1] - 支持完全无关两张图片的顺滑转换但前后关联图片能带来更强视觉冲击[2] - 生成效率极高单条视频从制作到生成仅需半小时期间可并行处理其他任务[2] 图片素材获取方法论 - 采用相同提示词抽卡方式利用模型多图生成时种子一致特性可获得相似度高图片特别适合展示类视频[9] - 通过修改提示词抽卡先生成尾帧图片后再逆向调整部分元素实现人物或物品的移动与消失效果[12] - 运用FLUX Kontext等图像编辑模型通过自然语言指令精确控制图片编辑实现材质添加与背景更换[15] 提示词生成系统 - 开发差异化提示词生成策略自动判断图片关联性（A类关联性强/B类差异巨大）并匹配对应转场方案[28] - A类图片采用"原地演变"策略聚焦主体状态风格或环境变化避免使用摄像机移动[29] - B类图片采用"运镜驱动转场"策略强制使用推拉摇移等镜头运动连接画面并附加特效变化增强关联性[29][32] 商业化应用场景 - 电商领域可实现模特产品一致性展示解决手部细节问题可用性极高[18] - 支持文字特效生成通过材质替换和环境同步变化提升视觉表现力[21][23] - 玩偶变装等娱乐化应用展现技术泛化能力[25] 工作流优化方案 - 建议将流程固化为标准化模板（首尾帧链接+差异分类+提示词+成片链接）实现10秒出提示词和半小时出片的高效生产[39] - 强调从"特效思维"转向"叙事思维" 通过构建因果关联使视频单价提升5倍[41] - 三张王牌拿图法（同提示词/改提示词/图像编辑）结合万能提示词形成完整解决方案[40]

今天起，不用下载飞书也能用飞书多维表格了！

歸藏的AI工具箱· 2025-08-21 12:50

产品战略升级 - 飞书多维表格作为独立产品开放无需下载或注册飞书即可使用支持跨平台接入第三方IM系统[3][4][6] - 产品保留完整功能包括仪表盘、工作流、高级权限及AI能力有效降低企业数字化成本[8] - 目标成为零代码自主定制业务系统的新起点适用于不同规模企业[6][18] 核心功能优势 - AI功能全面覆盖包括AI字段捷径、仪表盘AI分析和AI生成公式大幅降低使用门槛[11] - 专业级BI分析能力具备BI主题和组件完整覆盖专业软件常用功能[13] - 高性能数据库底座可承载高速增长且结构复杂的核心业务[15] - 零代码搭建系统无需编程能力即可实现业务创新[17] 市场应用案例 - 永旺使用产品替代亿元级自研派遣员工管理系统[17] - 伊芙丽与珂蒂丝的会员管理系统周活超2000人[17] - 海底捞、雅迪等国内外知名企业均已落地应用[17]

谷歌Pixel发布汇总：硬件与软件全面AI化，那谁你就学叭

歸藏的AI工具箱· 2025-08-21 12:50

核心观点 - 谷歌2025年硬件发布会全面展示AI与硬件深度融合产品覆盖手机、手表、耳机及智能家居设备端侧模型广泛部署功能聚焦健康管理、影像处理和多设备协同 [1][30][32] - AI功能实现从被动触发到主动建议的转变系统级应用深度整合支持自然语言交互和实时数据分析 [17][24][32] - 公司通过自研Tensor芯片强化本地AI算力但芯片架构选择导致性能提升受限 [15] AI健康管理功能 - Gemini驱动个人健康教练提供个性化健身计划实时调整训练目标基于睡眠数据生成适应性睡眠计划 [4][5] - 健康教练支持实时签到调整主动分享健康趋势洞察解答科学依据的个性化问题 [5] - Pixel Watch 4集成Gemini健身教练通过抬腕交谈功能提供主动健身指导基于手表指标数据 [26] AI影像处理能力 - 自然语言修图功能支持语音或文字指令编辑照片可实现背景替换、添加创意元素等操作 [7] - 拍照教练提供构图、光线等逐步引导建议帮助提升拍摄质量 [9] - Pixel 10 Pro系列配备100倍数码变焦通过本地扩散模型补充放大后的细节 [11] 多模态端侧AI部署 - 所有Pixel 10手机搭载Tensor G5芯片本地运行Gemini Nano模型 [15] - Voice Translate功能实现实时通话翻译模仿对方音色目前不支持中文 [19] - 录音机应用可基于哼唱生成音乐支持风格选择 [26] 智能家居与设备协同 - Gemini for Home智能大屏设备支持环境视觉识别模糊指令媒体播放复杂智能家居控制 [13] - Magic Cue功能串联谷歌应用信息在合适场景建议一键分享 [17] - NotebookLM与截图、录音应用整合自动建议内容收藏至笔记本 [24] 硬件产品AI升级 - Pixel Buds Pro 2耳机内置Tensor A1芯片支持嘈杂环境通话自动调节降噪通过头部动作接听电话 [28] - Call Screen功能为未接来电提供实时转录 AI识别留言并建议后续操作 [21] - Gemini Live更新支持摄像头物品高亮 Veo3模型生成视频 [23]

手机“自动驾驶”时代来了，智谱还让手机拥有“云替身”

歸藏的AI工具箱· 2025-08-20 16:54

核心观点 - 智谱推出新版AutoGLM 实现全球首个手机通用Agent 通过云手机技术跨平台操控设备支持复杂多应用任务执行显著提升移动端操作效率并拓展AI应用场景 [1][3][4] 技术能力 - 云手机Agent在云端运行任务解放用户本地设备资源支持iOS、安卓和网页全平台客户端 [4] - 实现跨应用程序自动泛化任务执行即将新增定时任务功能 [4] - 多模态内容识别能力突出能处理高德地图等界面复杂、元素密集的应用 [9] - 通过手机虚拟机解决权限控制问题避免与用户设备权限冲突 [24] 应用场景 - 生活服务: 自动规划行程例如跨大众点评和高德地图完成餐厅筛选与通勤查询涉及20余次点击操作 [7][9] - 比价购物: 同步搜索京东和拼多多商品例如大疆无人机京东最低价4837.9元拼多多百亿补贴价4219元提供优惠详情和购买建议 [11][14] - 内容运营: 检索小红书、抖音热门内容并整合加工提供发布策略和互动数据侧重点 [16][17] - 适老化支持: 帮助老人操作腾讯视频等复杂APP 例如通过筛选功能找剧集并加入收藏 [19][21] 行业影响 - 中国互联网80%流量集中于移动端 AutoGLM通过云手机技术突破用户时间限制创造无限注意力经济增长通道 [24][28] - 解决国内特殊环境需求: 必需操作依赖手机APP 与海外以网页为主的服务模式存在显著差异 [22] - 面临验证码和反爬机制等执行障碍需与互联网巨头协同构建稳定Agent运行环境 [26] - 手机Agent化成为不可避免趋势模型能力已达标生态建设成为关键发展因素 [26]

手机通用Agent

Artificial Intelligence

AutoGLM

手机通用Agent

Artificial Intelligence

AutoGLM

桌面端已经过时了，这个 AI 直接在手机开了 Agent 商店

歸藏的AI工具箱· 2025-08-15 18:01

产品定位与核心功能 - 产品定位为具有陪伴感的AI生活助手，通过情感化设计和个性化交互提升用户体验 [26][27][28] - 核心功能分为两部分：个性化AI聊天陪伴和移动端应用生成能力 [4] - 应用生成采用"微信+小程序"模式，用户可通过自然语言指令创建定制化应用 [4][16] 差异化设计特点 - 采用马卡龙形象作为视觉载体，通过颜色和形象定制强化用户归属感 [3][11] - 交互设计突出情感元素，包括动态思考动画、侧边栏半展示等细节 [6] - 通过前期用户偏好问卷定制AI对话风格，与主流AI形成差异化 [3][6] 应用生成生态系统 - 内置"灵感库"功能作为应用分发平台，涵盖生活工作多个场景 [9] - 应用生成过程完全由AI完成，支持即时修改和迭代 [16][17] - 已展示的应用案例包括健身记录、股票分析等复杂功能 [17][23] - 系统内置OCR、多模态API等技术支持应用开发 [19][20] 经济模型设计 - 采用"杏仁"作为内部流通货币，形成创作者经济闭环 [11] - 用户可通过应用创作、社区贡献、邀请等方式获取杏仁 [11] - 优质应用创作者可持续获得杏仁收益，降低使用成本 [11] 市场定位洞察 - 瞄准移动端生活场景需求，填补桌面端AI工具的市场空白 [15] - 聚焦个性化需求强烈的垂直领域如美妆、健身、钓鱼等 [15] - 通过降低应用开发门槛，将创造权赋予普通用户 [28] 技术实现特点 - 具备长期记忆能力，可自动记录用户习惯和偏好 [4] - 支持复杂功能如Apple Watch数据解析、股票数据分析等 [17][23] - 集成图片生成API，可自动创建多种风格的分享图片 [20]

AI Application Creation

AI Agent

Software

Macaron

AI Application Creation

AI Agent

Software

Macaron

超绝文字生成+一键公众号排版，扣子空间新功能解决所有日常设计

歸藏的AI工具箱· 2025-08-12 18:09

核心功能特点 - 通过自然语言描述即可生成70分设计结果无需设计风格或字体等提示词[3] - 支持精细修改功能包括改字消除超分抠图和AI修改[8] - 具备搜索功能可批量生产小红书风格知识卡片[6] - 支持上传参考图学习排版无需提示词生成定制化封面[8] - 直接生成公众号图文排版实现一键复制功能[8] 高级应用场景 - 基于文档生成12张连续性漫画保持服装和人物特征一致性[13][14] - 将文档转换为多种形式包括PPT 播客和网页[15] - 生成完整公众号文章包含所有素材图和文案排版支持3:4封面和2:1图片标签[18][19] - 制作实用海报如小区停水通知包含时间楼栋影响建议和联系电话[22] - 创建商业宣传材料如秋季校招9:16海报和1:1群发配图[25] - 生成超市蔬菜促销海报含三类蔬菜促销信息[28] - 制作教育培训海报如亲子科学实验营含时间地点年龄名额费用和二维码[31] 技术实现细节 - 超分功能提升2倍清晰度且文字显示不受影响[41] - 无痕改字功能保持字体一致性且准确率极高[39] - 擦除功能实现重绘效果消除物体后无违和感[36] - AI修改功能针对单张图片生效提升定位精度[34] 市场价值定位 - 满足日常设计需求包括小店海报物业通知和小红书帖子[42] - 解决传统设计服务高成本和高沟通门槛问题[42] - 免费提供四张可用设计图操作成本极低[33] - 使商业智慧能通过视觉呈现突破设计费和设计师门槛[42]

不吹不黑，GPT-5代码能力究竟怎么样？跟 Gemini 和 Claude 的对比测试给你答案

歸藏的AI工具箱· 2025-08-08 17:44

GPT-5前端能力测试 - GPT-5在Bento Grid风格网页设计中展现出较强的视觉设计能力，能够满足复杂的设计要求包括响应式布局、色彩渐变和高亮元素处理[5] - 在微信公众号封面设计任务中，GPT-5相比其他模型能更好地控制内容不超出画布并保持基本设计元素[16] - 测试显示GPT-5在提示词遵循方面表现稳定，不会出现类似Claude 4.1违反设计约束使用emoji的情况[6] 多模型对比测试 - 在库存管理系统开发中，GPT-5将所有功能集成到单页面但牺牲了用户体验，而Claude 4.1采用分页设计更符合常规交互逻辑[30] - BI画布定制开发中GPT-5是唯一完整实现拖放和调整大小功能的模型，Claude 4.1和Gemini 2.5 Pro均存在功能缺陷[35] - 奢侈品电商结账流程测试中GPT-5在页面一致性、响应式设计和流程完整性方面表现最优，Claude 4.1存在布局问题，Gemini 2.5 Pro样式处理较差[53] 技术能力评估 - GPT-5在复杂前端任务中展现出显著进步，特别是在约束条件下的样式执行和功能实现方面优于前代模型[54] - 模型仍存在上下文窗口限制问题，32K上下文在多次交互后容易出现遗忘现象影响持续开发体验[55] - 不同版本GPT-5存在功能差异，Pro版及以上才支持128K上下文窗口和更灵活的思考模式[56]

藏师傅暴论：AI工具尽头是生态｜即梦AI 创作者成长计划介绍

歸藏的AI工具箱· 2025-08-07 17:12

行业现状分析 - AI图像视频模型能力已具备产出优秀作品的条件，但行业进入瓶颈期，表现为内容质量和创作者质量平台化[1][3] - 行业面临"富饶中的贫困"现象：工具多但门槛高、创作易但变现难、产出易但成长难[3] - 技术门槛与创作自由存在矛盾，创作者需同时掌握传统工具和AI提示词技能[4] - 优质AI作品缺乏曝光渠道，内容平台存在打压或原创保护问题，导致商业变现困难[5] - 创作生态碎片化，作品完成需跨多个平台，即梦是目前整合较完善的产品[7] 即梦平台解决方案 - 平台定位从AI工具扩展为内容平台和创作者交流平台[9] - 功能覆盖全链路AI内容生产，包括图像生成、视频生成、唇形同步等10余种工具[10] - 首页探索页面活跃度高，作品发布与探索流程顺畅[11] - 提供分层创作者扶持计划（潜力新星/进阶探索/超创），最高奖励达每条2万积分和每周2000元现金[13][15] - 对接稀缺资源如国际影节、字节系商单等[15] - 覆盖全类型创作者，解决行业重视频轻平面问题[15] 行业启示 - AI创作工具需同时关注产品功能和用户成长体系[19] - 应建立从创作到商业化的完整闭环，而非仅关注工具本身[17] - 平台运营和创作者归属感可能成为未来竞争壁垒[17] - 即梦已完成从工具平台到内容生态的转型，形成模型-社区-商业化闭环[18] - 行业竞争重点已从工具使用转向内容曝光能力[22] 创作者现状 - 早期优秀创作者逐渐沉寂，缺乏持续支持体系[7][21] - 部分创作者虽获得短期成功但难以持续（如短片爆红后删号、接单后退回传统领域）[21] - 大量创作者陷入"作品优质但无人知晓"的困境[21] - 创作门槛降低后，核心挑战转变为如何让作品获得持续曝光[22]

藏师傅教你做即将爆火的AI玄学祈福壁纸，不止提示词还有创作思路

歸藏的AI工具箱· 2025-08-04 14:42

AI许愿祈福壁纸教程核心观点 - 教程展示了如何利用AI生成融合传统神仙与现代元素的许愿祈福壁纸通过结构化提示词实现创意发散 [4][9][17] - 创作核心在于三部分提示词组合：画面结构人物描述排版内容各部分可独立修改产生新变体 [9][10][12] - 模态扩展（静态图转动态壁纸）与文化跨界（游戏影视IP）能显著提升内容表现力与传播性 [17][19][20] 提示词结构分析 **画面主要结构** - 基础模板采用复古票据原型米黄底色配繁复绿纹边框可替换为符纸等传统载体 [5][9] - 关键视觉元素包含粗糙纸张纹理红色篆刻印章以及中英文混合排版（如"小人退散"粗体居中） [5][10] **人物描述** - 神仙角色需结合现代道具（钟馗持电话财神用吸尘器）消解宗教严肃性避免AI绘制误差争议 [12] - 通过特征强化辨识度（月老配桃花红线）弥补AI对冷门神仙的识别不足 [12][20] **排版内容** - 文字层级优先保证核心大字准确（如"GOOD LUCK"）装饰性小字容错率较高 [10] - 英文内容可采用谐音双关（大展宏兔→兔子关羽）增强趣味性 [20] 创意发散路径 - 文化符号跨界：结合热门影视IP（哪吒2鹿童）或游戏元素（战锤40K机械神甫） [20] - 模态创新：静态壁纸升级为解锁播放的动态视频提升视觉冲击力 [3][17] - 细分场景定制：针对电子设备祈福电竞场景等垂直需求设计专属形象 [20]

BFL&Krea重磅开源新图像模型，专注于极致真实细节去 AI 感

歸藏的AI工具箱· 2025-08-01 00:19

开源图像模型FLUX.1-Krea - Black Forest Labs与Krea合作开源了FLUX.1-Krea图像模型，专注于生成具有独特美感且无"AI效果"的自然细节图像 [1] - 该模型完全兼容现有的FLUX开源模型生态系统，并发布了详细的技术报告解释模型实现思路和训练过程 [1] - 模型训练目标是"制作看起来不像AI的AI图像"，旨在解决当前AI图像常见的模糊背景、蜡质皮肤质感等问题 [11] AI风格问题分析 - 当前AI生成图像存在明显的"AI风格"问题，包括过于模糊的背景、蜡质皮肤质感和乏味构图等 [9] - 过度追求技术指标和基准优化导致早期图像模型的真实感、风格多样性和创造性融合被忽视 [10] - 现有评估基准主要关注提示词遵从性（空间关系、属性绑定等），而忽视了美学评估 [12] 模型训练方法 - 训练分为预训练和后训练两个阶段：预训练注重"模式覆盖"和"世界理解"，后训练则聚焦美学优化 [17][20] - 预训练阶段使用包含"劣质"数据的多样化数据集，使模型能够理解负面提示词 [21] - 后训练采用监督微调(SFT)和基于人类反馈的强化学习(RLHF)两阶段方法 [28] - 后训练数据量少(<1M)但质量高，偏好标签由专业标注员精心收集 [31] 技术实现细节 - 使用flux-dev-raw作为基础模型，这是一个12亿参数的扩散变换器模型，具有丰富的世界知识和多样化输出能力 [26][27] - 在RLHF阶段采用TPO偏好优化技术，进行多轮优化以校准模型输出 [29] - 发现将模型过拟合到特定风格比使用"全球"用户偏好数据更有效 [32] - 模型下载和完整公告已发布在Hugging Face和公司官网 [33]

AI图像去AI感

Artificial Intelligence

FLUX.1-Krea [dev]

flux-dev-raw

AI图像去AI感

Artificial Intelligence

FLUX.1-Krea [dev]

flux-dev-raw

Previous Next