Workflow
歸藏的AI工具箱
icon
搜索文档
手机“自动驾驶”时代来了,智谱还让手机拥有“云替身”
歸藏的AI工具箱· 2025-08-20 16:54
核心观点 - 智谱推出新版AutoGLM 实现全球首个手机通用Agent 通过云手机技术跨平台操控设备 支持复杂多应用任务执行 显著提升移动端操作效率并拓展AI应用场景 [1][3][4] 技术能力 - 云手机Agent在云端运行任务 解放用户本地设备资源 支持iOS、安卓和网页全平台客户端 [4] - 实现跨应用程序自动泛化任务执行 即将新增定时任务功能 [4] - 多模态内容识别能力突出 能处理高德地图等界面复杂、元素密集的应用 [9] - 通过手机虚拟机解决权限控制问题 避免与用户设备权限冲突 [24] 应用场景 - 生活服务: 自动规划行程 例如跨大众点评和高德地图完成餐厅筛选与通勤查询 涉及20余次点击操作 [7][9] - 比价购物: 同步搜索京东和拼多多商品 例如大疆无人机 京东最低价4837.9元 拼多多百亿补贴价4219元 提供优惠详情和购买建议 [11][14] - 内容运营: 检索小红书、抖音热门内容并整合加工 提供发布策略和互动数据侧重点 [16][17] - 适老化支持: 帮助老人操作腾讯视频等复杂APP 例如通过筛选功能找剧集并加入收藏 [19][21] 行业影响 - 中国互联网80%流量集中于移动端 AutoGLM通过云手机技术突破用户时间限制 创造无限注意力经济增长通道 [24][28] - 解决国内特殊环境需求: 必需操作依赖手机APP 与海外以网页为主的服务模式存在显著差异 [22] - 面临验证码和反爬机制等执行障碍 需与互联网巨头协同构建稳定Agent运行环境 [26] - 手机Agent化成为不可避免趋势 模型能力已达标 生态建设成为关键发展因素 [26]
桌面端已经过时了,这个 AI 直接在手机开了 Agent 商店
歸藏的AI工具箱· 2025-08-15 18:01
产品定位与核心功能 - 产品定位为具有陪伴感的AI生活助手,通过情感化设计和个性化交互提升用户体验 [26][27][28] - 核心功能分为两部分:个性化AI聊天陪伴和移动端应用生成能力 [4] - 应用生成采用"微信+小程序"模式,用户可通过自然语言指令创建定制化应用 [4][16] 差异化设计特点 - 采用马卡龙形象作为视觉载体,通过颜色和形象定制强化用户归属感 [3][11] - 交互设计突出情感元素,包括动态思考动画、侧边栏半展示等细节 [6] - 通过前期用户偏好问卷定制AI对话风格,与主流AI形成差异化 [3][6] 应用生成生态系统 - 内置"灵感库"功能作为应用分发平台,涵盖生活工作多个场景 [9] - 应用生成过程完全由AI完成,支持即时修改和迭代 [16][17] - 已展示的应用案例包括健身记录、股票分析等复杂功能 [17][23] - 系统内置OCR、多模态API等技术支持应用开发 [19][20] 经济模型设计 - 采用"杏仁"作为内部流通货币,形成创作者经济闭环 [11] - 用户可通过应用创作、社区贡献、邀请等方式获取杏仁 [11] - 优质应用创作者可持续获得杏仁收益,降低使用成本 [11] 市场定位洞察 - 瞄准移动端生活场景需求,填补桌面端AI工具的市场空白 [15] - 聚焦个性化需求强烈的垂直领域如美妆、健身、钓鱼等 [15] - 通过降低应用开发门槛,将创造权赋予普通用户 [28] 技术实现特点 - 具备长期记忆能力,可自动记录用户习惯和偏好 [4] - 支持复杂功能如Apple Watch数据解析、股票数据分析等 [17][23] - 集成图片生成API,可自动创建多种风格的分享图片 [20]
超绝文字生成+一键公众号排版,扣子空间新功能解决所有日常设计
歸藏的AI工具箱· 2025-08-12 18:09
核心功能特点 - 通过自然语言描述即可生成70分设计结果 无需设计风格或字体等提示词[3] - 支持精细修改功能 包括改字 消除 超分 抠图和AI修改[8] - 具备搜索功能 可批量生产小红书风格知识卡片[6] - 支持上传参考图学习排版 无需提示词生成定制化封面[8] - 直接生成公众号图文排版 实现一键复制功能[8] 高级应用场景 - 基于文档生成12张连续性漫画 保持服装和人物特征一致性[13][14] - 将文档转换为多种形式包括PPT 播客和网页[15] - 生成完整公众号文章 包含所有素材图和文案排版 支持3:4封面和2:1图片标签[18][19] - 制作实用海报如小区停水通知 包含时间 楼栋影响 建议和联系电话[22] - 创建商业宣传材料如秋季校招9:16海报和1:1群发配图[25] - 生成超市蔬菜促销海报含三类蔬菜促销信息[28] - 制作教育培训海报如亲子科学实验营含时间 地点 年龄 名额 费用和二维码[31] 技术实现细节 - 超分功能提升2倍清晰度且文字显示不受影响[41] - 无痕改字功能保持字体一致性且准确率极高[39] - 擦除功能实现重绘效果 消除物体后无违和感[36] - AI修改功能针对单张图片生效 提升定位精度[34] 市场价值定位 - 满足日常设计需求包括小店海报 物业通知和小红书帖子[42] - 解决传统设计服务高成本和高沟通门槛问题[42] - 免费提供四张可用设计图 操作成本极低[33] - 使商业智慧能通过视觉呈现 突破设计费和设计师门槛[42]
不吹不黑,GPT-5代码能力究竟怎么样?跟 Gemini 和 Claude 的对比测试给你答案
歸藏的AI工具箱· 2025-08-08 17:44
GPT-5前端能力测试 - GPT-5在Bento Grid风格网页设计中展现出较强的视觉设计能力,能够满足复杂的设计要求包括响应式布局、色彩渐变和高亮元素处理[5] - 在微信公众号封面设计任务中,GPT-5相比其他模型能更好地控制内容不超出画布并保持基本设计元素[16] - 测试显示GPT-5在提示词遵循方面表现稳定,不会出现类似Claude 4.1违反设计约束使用emoji的情况[6] 多模型对比测试 - 在库存管理系统开发中,GPT-5将所有功能集成到单页面但牺牲了用户体验,而Claude 4.1采用分页设计更符合常规交互逻辑[30] - BI画布定制开发中GPT-5是唯一完整实现拖放和调整大小功能的模型,Claude 4.1和Gemini 2.5 Pro均存在功能缺陷[35] - 奢侈品电商结账流程测试中GPT-5在页面一致性、响应式设计和流程完整性方面表现最优,Claude 4.1存在布局问题,Gemini 2.5 Pro样式处理较差[53] 技术能力评估 - GPT-5在复杂前端任务中展现出显著进步,特别是在约束条件下的样式执行和功能实现方面优于前代模型[54] - 模型仍存在上下文窗口限制问题,32K上下文在多次交互后容易出现遗忘现象影响持续开发体验[55] - 不同版本GPT-5存在功能差异,Pro版及以上才支持128K上下文窗口和更灵活的思考模式[56]
藏师傅暴论:AI工具尽头是生态|即梦AI 创作者成长计划介绍
歸藏的AI工具箱· 2025-08-07 17:12
行业现状分析 - AI图像视频模型能力已具备产出优秀作品的条件,但行业进入瓶颈期,表现为内容质量和创作者质量平台化[1][3] - 行业面临"富饶中的贫困"现象:工具多但门槛高、创作易但变现难、产出易但成长难[3] - 技术门槛与创作自由存在矛盾,创作者需同时掌握传统工具和AI提示词技能[4] - 优质AI作品缺乏曝光渠道,内容平台存在打压或原创保护问题,导致商业变现困难[5] - 创作生态碎片化,作品完成需跨多个平台,即梦是目前整合较完善的产品[7] 即梦平台解决方案 - 平台定位从AI工具扩展为内容平台和创作者交流平台[9] - 功能覆盖全链路AI内容生产,包括图像生成、视频生成、唇形同步等10余种工具[10] - 首页探索页面活跃度高,作品发布与探索流程顺畅[11] - 提供分层创作者扶持计划(潜力新星/进阶探索/超创),最高奖励达每条2万积分和每周2000元现金[13][15] - 对接稀缺资源如国际影节、字节系商单等[15] - 覆盖全类型创作者,解决行业重视频轻平面问题[15] 行业启示 - AI创作工具需同时关注产品功能和用户成长体系[19] - 应建立从创作到商业化的完整闭环,而非仅关注工具本身[17] - 平台运营和创作者归属感可能成为未来竞争壁垒[17] - 即梦已完成从工具平台到内容生态的转型,形成模型-社区-商业化闭环[18] - 行业竞争重点已从工具使用转向内容曝光能力[22] 创作者现状 - 早期优秀创作者逐渐沉寂,缺乏持续支持体系[7][21] - 部分创作者虽获得短期成功但难以持续(如短片爆红后删号、接单后退回传统领域)[21] - 大量创作者陷入"作品优质但无人知晓"的困境[21] - 创作门槛降低后,核心挑战转变为如何让作品获得持续曝光[22]
藏师傅教你做即将爆火的AI玄学祈福壁纸,不止提示词还有创作思路
歸藏的AI工具箱· 2025-08-04 14:42
AI许愿祈福壁纸教程 核心观点 - 教程展示了如何利用AI生成融合传统神仙与现代元素的许愿祈福壁纸 通过结构化提示词实现创意发散 [4][9][17] - 创作核心在于三部分提示词组合:画面结构 人物描述 排版内容 各部分可独立修改产生新变体 [9][10][12] - 模态扩展(静态图转动态壁纸)与文化跨界(游戏 影视IP)能显著提升内容表现力与传播性 [17][19][20] 提示词结构分析 **画面主要结构** - 基础模板采用复古票据原型 米黄底色配繁复绿纹边框 可替换为符纸等传统载体 [5][9] - 关键视觉元素包含粗糙纸张纹理 红色篆刻印章 以及中英文混合排版(如"小人退散"粗体居中) [5][10] **人物描述** - 神仙角色需结合现代道具(钟馗持电话 财神用吸尘器)消解宗教严肃性 避免AI绘制误差争议 [12] - 通过特征强化辨识度(月老配桃花红线)弥补AI对冷门神仙的识别不足 [12][20] **排版内容** - 文字层级优先保证核心大字准确(如"GOOD LUCK") 装饰性小字容错率较高 [10] - 英文内容可采用谐音双关(大展宏兔→兔子关羽)增强趣味性 [20] 创意发散路径 - 文化符号跨界:结合热门影视IP(哪吒2鹿童)或游戏元素(战锤40K机械神甫) [20] - 模态创新:静态壁纸升级为解锁播放的动态视频 提升视觉冲击力 [3][17] - 细分场景定制:针对电子设备祈福 电竞场景等垂直需求设计专属形象 [20]
BFL&Krea重磅开源新图像模型,专注于极致真实细节去 AI 感
歸藏的AI工具箱· 2025-08-01 00:19
开源图像模型FLUX.1-Krea - Black Forest Labs与Krea合作开源了FLUX.1-Krea图像模型,专注于生成具有独特美感且无"AI效果"的自然细节图像 [1] - 该模型完全兼容现有的FLUX开源模型生态系统,并发布了详细的技术报告解释模型实现思路和训练过程 [1] - 模型训练目标是"制作看起来不像AI的AI图像",旨在解决当前AI图像常见的模糊背景、蜡质皮肤质感等问题 [11] AI风格问题分析 - 当前AI生成图像存在明显的"AI风格"问题,包括过于模糊的背景、蜡质皮肤质感和乏味构图等 [9] - 过度追求技术指标和基准优化导致早期图像模型的真实感、风格多样性和创造性融合被忽视 [10] - 现有评估基准主要关注提示词遵从性(空间关系、属性绑定等),而忽视了美学评估 [12] 模型训练方法 - 训练分为预训练和后训练两个阶段:预训练注重"模式覆盖"和"世界理解",后训练则聚焦美学优化 [17][20] - 预训练阶段使用包含"劣质"数据的多样化数据集,使模型能够理解负面提示词 [21] - 后训练采用监督微调(SFT)和基于人类反馈的强化学习(RLHF)两阶段方法 [28] - 后训练数据量少(<1M)但质量高,偏好标签由专业标注员精心收集 [31] 技术实现细节 - 使用flux-dev-raw作为基础模型,这是一个12亿参数的扩散变换器模型,具有丰富的世界知识和多样化输出能力 [26][27] - 在RLHF阶段采用TPO偏好优化技术,进行多轮优化以校准模型输出 [29] - 发现将模型过拟合到特定风格比使用"全球"用户偏好数据更有效 [32] - 模型下载和完整公告已发布在Hugging Face和公司官网 [33]
6000 字,学不会退网!藏师傅Trickle AI保姆级Vibe Coding高级通关攻略
歸藏的AI工具箱· 2025-07-30 16:31
Trickle AI产品分析 - 通过Magic Canvas实现永久上下文管理 将数据库、素材、知识库和规则可视化集成在无限画布中 突破传统AI编码工具的上下文限制 [19][20] - 创新的Edit模式允许直接选中页面元素进行可视化修改 大幅降低Token消耗 支持60多次版本迭代仅消耗几百积分(17美元会员送1500积分) [23][24][35] - 内置设计变量系统可全局修改样式 避免传统Agent逐元素修改导致的上下文混乱 支持变量拆分和新建 [29][31][33] Vibe Coding范式变革 - 实现从Prompt魔法阶段(2022-2023)到范式迁移阶段(2024-)的跨越 重构开发定义 类比DOS到图形界面的进化 [71] - 支持完整网站开发流程 包括数据库集成、SEO优化、域名绑定和数据分析 传统工具如Framer需数十小时完成的任务仅需6美元成本 [12][59][60] - 突破非开发者使用门槛 通过自然语言交互完成复杂功能开发 如自动生成CSV数据导入后台页面 [40][41][56] 行业竞争格局影响 - 产品能力超越Framer和Webflow等可视化建站工具 预计将抢占其市场份额 [12][68] - 解决行业痛点:传统编码Agent存在上下文溢出、样式迭代困难、缺乏后端服务等限制 Trickle AI通过工程优化实现稳定输出 [13][18][67] - 开创"数字造物主操作系统"新品类 整合设计系统与AI能力形成网络效应 [71][72] 开发者能力要求转变 - 未来重点转向系统思维训练 如理解数据在Algolia索引、前端组件间的流动 而非记忆CSS属性 [72] - 建立人机协作新契约 建议采用"30%原则":AI完成70%实现 人类保留30%关键决策权 [72] - 认知外骨骼模式解放脑力 使开发者聚焦用户体验设计而非具体实现细节 [72]
一句话克隆 ChatGPT Agent?智谱GLM-4.5首测:零配置,全功能|内有福利
歸藏的AI工具箱· 2025-07-28 23:20
模型性能与参数 - GLM-4.5总参数335B,激活参数32B,GLM-4.5-Air总参数106B,激活参数12B [1] - 模型在推理、代码和智能体能力测试表现优异,支持混合推理,性价比高,输入0.8元/百万tokens,输出2元/百万tokens,高速版输出速度超过100 Token每秒 [1] - 虽然总参数低于竞品,但代码能力不逊色甚至更优,混合推理能力可自动补全短提示词信息或精准遵循详细指令 [2] 核心功能与技术特点 - API兼容多种Agent能力(知识库检索、搜索等),可简化产品构建流程,单API Key即可实现弱化版ChatGPT Agent模式 [3] - 生成PPT视觉效果优于GPT [3] - 支持Claude Code模型兼容替换 [5] - 内置搜索工具信息检索质量高,时效性强,覆盖全面(如WAIC场馆、日程、交通等) [28] - 支持通过Anthropic API端点与Claude Code集成,修改环境变量即可切换 [29][30][31] 实际应用案例表现 - 简单指令生成完整功能(如Gmail页面自动包含点击分栏详情功能) [7] - 自动选择技术栈(如Three.js库)并生成动态效果丰富的3D抽象艺术 [9] - 复杂前端组件一次生成无bug(如支持视图切换/事件拖拽的日历组件) [10][11][12] - 企业级应用开发(OKR管理系统)完美实现多语言切换、进度计算、数据可视化 [13][14][15] - 高端电商流程开发(含购物车/结账三步骤)严格遵循设计规范,UI交互专业 [17][19][20][21][23][24] - 动态网页生成符合Bento Grid风格,整合实时数据与动效 [27][28] 商业模式与竞争优势 - 采用后发集成策略,将推理/代码/Agent/搜索/MCP/Claude兼容等模块整合为统一解决方案 [35][37] - 定价低于行业标准(50元包月无上限调用),同时提供更强功能 [34] - 通过单一API消除多模型编排复杂度,将跨模型协作简化为自然语言指令 [36]
ShellAgent 2.0 体验:让前端消失,省掉 70% 开发资源
歸藏的AI工具箱· 2025-07-25 10:34
Myshell ShellAgent 2.0功能特点 - 通过提示词即可生成Agent应用,无需复杂前端开发,所有交互在Chatbot中完成[1] - 创建门槛极低,用户只需描述需求,系统会自动分析并补充细节[2][3] - 内置可视化工具展示Agent生成进度和用户旅程图,旅程图可选中作为修改上下文[4] - 支持生成专业级应用如八字推算,包含排盘、命局详解、流年分析、开运建议等完整功能[7][8] - 支持生成运势海报图片,帮助用户形象理解运势结果[8] - 内置Web3工具,可分析钱包地址生成娱乐性报告,降低区块链数据理解门槛[13] - 支持将PDF/网页内容转换为互动闪卡或音频摘要,提升学习效率[17][18] - 采用通用组件替代复杂前端,大幅降低开发成本和Token消耗[21] 典型应用案例 - 八字推算Agent:输入日期自动生成专业命理分析,包含五行、大运、健康建议等[7][8] - Web3八卦追踪Agent:输入钱包地址生成易懂的资产分析报告,包含投资风格、NFT解读等[13][15] - 学习辅助Agent:将文档转换为闪卡/音频,支持核心要点总结和问答测试[17][20] 技术实现 - 采用需求分析→细节补充→自动生成的流程[4] - 集成多种AI模型:Gemini 2.5 Pro用于数据处理,Janus Pro用于多模态理解[13] - 音频生成采用ElevenLabs技术,支持中英文转换[20] - 支持Remix功能,用户可基于现有Agent二次开发[20] 行业影响 - 显著降低AI应用开发门槛,使非技术人员也能快速实现创意[2][21] - 通过标准化交互模式提升开发效率,可能改变AI应用开发生态[21] - 在Web3领域提供数据可视化创新,促进区块链技术普及[13]