歸藏的AI工具箱

搜索文档
BFL&Krea重磅开源新图像模型,专注于极致真实细节去 AI 感
歸藏的AI工具箱· 2025-08-01 00:19
我去! Black Forest Labs 和 Krea 一起开源了一个新的图像模型 FLUX.1-Krea [dev] 专注于打造具有独特美感的图像。没有"AI 效果",没有过曝的高光,只有自然的细节。 而且这个模型完全可以兼容之前的 FLUX 开源模型生态系统,这个太重要了。 而且他们发布了一个技术报告,详细介绍了模型的实现思路和训练过程,也介绍了一下 AI 感出现的原因,这 部分更重要,我总结和分析一下。 先看案例 解析"AI 风格" "当一个指标成为目标时,它就不再是一个好的指标" —Charles Goodhart 大家最近对 AI 脸和 AI 质感诟病都很多,在使用 AI 生成图像时,一个明显的趋势是它们独特的外观:过于模 糊的背景、蜡质的皮肤质感、乏味的构图等等。这些问题共同构成了现在所谓的"AI 风格"。 人们常常关注模型有多"聪明"。我们经常看到用户测试复杂的提示词。它能让马骑上宇航员吗?它能把酒杯 倒满吗?它能正确渲染文字吗? 多年来,我们设计了各种基准来将这些问题形式化为具体的指标。研究界在推动生成模型方面取得了显著成 就。 然而,在追求技术能力和基准优化的过程中,早期图像模型中那种杂乱 ...
6000 字,学不会退网!藏师傅Trickle AI保姆级Vibe Coding高级通关攻略
歸藏的AI工具箱· 2025-07-30 16:31
Trickle AI产品分析 - 通过Magic Canvas实现永久上下文管理 将数据库、素材、知识库和规则可视化集成在无限画布中 突破传统AI编码工具的上下文限制 [19][20] - 创新的Edit模式允许直接选中页面元素进行可视化修改 大幅降低Token消耗 支持60多次版本迭代仅消耗几百积分(17美元会员送1500积分) [23][24][35] - 内置设计变量系统可全局修改样式 避免传统Agent逐元素修改导致的上下文混乱 支持变量拆分和新建 [29][31][33] Vibe Coding范式变革 - 实现从Prompt魔法阶段(2022-2023)到范式迁移阶段(2024-)的跨越 重构开发定义 类比DOS到图形界面的进化 [71] - 支持完整网站开发流程 包括数据库集成、SEO优化、域名绑定和数据分析 传统工具如Framer需数十小时完成的任务仅需6美元成本 [12][59][60] - 突破非开发者使用门槛 通过自然语言交互完成复杂功能开发 如自动生成CSV数据导入后台页面 [40][41][56] 行业竞争格局影响 - 产品能力超越Framer和Webflow等可视化建站工具 预计将抢占其市场份额 [12][68] - 解决行业痛点:传统编码Agent存在上下文溢出、样式迭代困难、缺乏后端服务等限制 Trickle AI通过工程优化实现稳定输出 [13][18][67] - 开创"数字造物主操作系统"新品类 整合设计系统与AI能力形成网络效应 [71][72] 开发者能力要求转变 - 未来重点转向系统思维训练 如理解数据在Algolia索引、前端组件间的流动 而非记忆CSS属性 [72] - 建立人机协作新契约 建议采用"30%原则":AI完成70%实现 人类保留30%关键决策权 [72] - 认知外骨骼模式解放脑力 使开发者聚焦用户体验设计而非具体实现细节 [72]
一句话克隆 ChatGPT Agent?智谱GLM-4.5首测:零配置,全功能|内有福利
歸藏的AI工具箱· 2025-07-28 23:20
大家好我是歸藏(guizang),今天带来智谱 GLM-4.5 模型的首发测试。 智谱发布了他们最新发布的 GLM-4.5 ,总参数 335B,激活参数 32B。 GLM-4.5-Air : 总参数 106B,激活参数 12B 。 在推理、代码和智能体能力上测试成绩都非常强,支持混合推理,而且性价比很高,0.8 元/百万tokens、输出 2 元/百万tokens,高速版输出速度超过 100 Toke n 每秒。 我提前试了一下 GLM-4.5,发现虽然总参数没有其他几个高,但是在代码能力上一点不逊色甚至更好。 一个特点是由于混合推理的存在,即使你的提示词非常短,他也可以帮你补全页面所需信息给出非常好的结果,如果你的提示词很细,那他对于提示的遵循就会很 好,在编码路径的判断上非常聪明。 尤其是他们还在一个 API 里面兼容了各种 Agent 能力,比如知识库检索和搜索能力,在产品构建上非常省心, 你甚至能够用一个 API Key 和提示词搞定一个弱化 版的 ChatGPT Agent 模式,而且生成的 PPT 还比 GPT 好看。 当然他们也做了 Cluade Code 的兼容,也可以直接替换 Cluade ...
ShellAgent 2.0 体验:让前端消失,省掉 70% 开发资源
歸藏的AI工具箱· 2025-07-25 10:34
大家好我是歸藏(guizang),今天带来 Myshell ShellAgent 2.0 的测试和介绍。 发现 Myshell 上了一个 ShellAgent 2.0 的能力,只需要提示词就能生成一个 Agent 应用。 他们这个有意思的点是,没有复杂的前端页面都会在一个 Chatbot 里构建类似的交互,这就摆脱了构建前端 的复杂流程降低了错误率,Agent 只需要管理工具之间的交互就可以。 整个创建门槛很低,不需要关心界面样式和交互,只需要说出你的需求就行,而且还能发布给其他人用,来看 一下我尝试的案例。 我先是想让他整一个计算八字的 Agent,然后再给一张对应的图片。 比如我们这里选八字推算,之后他就会弹出一个弹窗让你输入自己的出生年月日和需要算的方向。 看过我之前的提示词的都知道我需要写一堆网页样式和交互逻辑的提示词,这个对于 C 端用户来说是很高的 门槛,但是现在完全不需要的,一句话就行。 帮我创建一个运势推算网站,主要包括输入日期推算出八字计算长期运势和点击一下生成随机的六爻推断短期运势功 在你输入提示词之后他会先进行需求分析,然后询问你一些需要补充的细节,在你确认之后就开始生成了。 右侧会展示 ...
别用语言描述,直接点!Lovart 正式版把 AI 交互卷到新变态级别
歸藏的AI工具箱· 2025-07-24 12:54
Lovart正式版核心功能升级 - 正式版推出ChatCanvas评论系统 实现用户与AI设计Agent的实时交互 通过画布标注直接修改设计元素 [1][2][3][4] - 交互模式突破传统UX 转向以Agent体验(AX)为核心 形成"边聊边改"的协同工作流 [29][30][33] - 新增Frame画板概念 支持多图联动调整 可完成复杂创意拼图设计 [17][22][25] ChatCanvas技术亮点 - 支持点击/框选定位修改 避免文字描述位置偏差 如去除波浪光效只需标注具体区域 [11][13][18] - 集成代码补全交互 AI自动推测用户需求 按Tab键即可快速确认修改建议 [13] - 批量执行多指令 通过Add to Queue收集需求 Run All一键完成所有修改 [15] - 修改历史可追溯 通过Comments查看记录 Reopen功能支持重复执行相同指令 [18] 实际应用案例 - 基础案例:制作16:9玻璃质感PPT封面 通过7次画布标注完成动态视频生成 包括调整元素排列/去除多余文字等 [8][9][12][20] - 复杂案例:组合乌萨奇/东方明珠/蜜雪冰城三元素 通过分图标注实现热梗合成 最终输出动态画面 [23][25][27] 行业影响 - 确立创意设计Agent新标准 交互效率显著高于传统设计工具 [32] - 实现"复利效应" Agent通过持续学习减少用户指令输入 提升协作效率 [31] - 完成从工具到伙伴的转化 代表软件设计从UX到AX的范式转移 [29][33]
从 Demo 到赚美元只需要一句话:MiniMax 带来 Vibe Coding 范式跃迁
歸藏的AI工具箱· 2025-07-22 16:57
MiniMax Agent产品能力 - 产品定位为当前唯一能实现Vibe Coding全流程的解决方案,可一键生成包含前端、后端及部署的完整产品[2] - 新增后端开发部署、定时任务和MCP服务开发能力,实现商业产品全链路覆盖[2] - 典型应用场景包括:支持登录/用户信息存储/支付系统的电商网站[3]、AI算命网站[4]、企业动态监控系统[20] 技术实现特点 - 采用Supabase实现数据库无缝对接,仅需点击授权即可完成配置[10] - 集成Stripe支付系统,仅需输入API Token即可完成对接[11] - 调用第三方API能力:使用Serper检索信息[22]、Gemini进行翻译[22],支持自动纠错机制[25] - 开发框架采用TailwindCSS 3.0+、HTML5及anime.js等现代技术栈[7][22] 产品设计优势 - 实现从需求定义到商业落地的全流程自动化,解决独立开发者技术瓶颈[26] - 具备自我学习能力:通过开源项目学习八字算法[8],自主编写六爻随机数逻辑[8] - 内置测试体系:自动进行代码测试和Browser use可视化测试[13] - 设计规范强调视觉层次感:Bento Grid风格[22]、Apple式动效[7][22]、专业图标库应用[7][22] 商业价值突破 - 将创造门槛降至"一句话指令"级别,核心价值转向认知能力竞争[27] - 完成AI算命案例中全部商业逻辑:试用机制、支付弹窗、真人预约系统[15][16] - 实现企业监控系统自动分类(模型/产品动态/公司动向)及多语言处理[21] - 开创"认知即商业"的新范式,重构技术赋能商业的路径[28][29]
国内首个免费提供的深度研究,反而有市面上最好的体验
歸藏的AI工具箱· 2025-07-16 16:50
秘塔深度研究产品分析 产品定位与创新 - 首个将深度研究作为基础功能免费提供的AI产品[2] - 通过算法优化和交互设计降低模型幻觉问题[3][4] - 采用分段强化学习技术降低资源消耗同时保持高准确性[3] 核心技术特点 - 动态展示"问题链"实现算法透明化[7] - 三部分交互界面:实时进度预览/文本日志/总览视图[11] - 颜色标记系统区分结论状态(绿色-确定/紫色-待完善/橙色-需补充)[12] 结果呈现创新 - 支持语音讲解功能实现多模态输出[16] - 引用来源可视化交互(悬停高亮/单来源语音)[17] - 特殊文件类型处理(粉色标记视频/红色PDF即时预览)[19] - 可生成含多媒体素材的互动研究报告[21] 应用案例测试 娃哈哈遗产纠纷研究 - 核心争议:29.4%股权(200亿RMB)+离岸信托(18亿美元)继承权[26] - 关键时间线:2024年2月创始人去世至2025年7月法律程序[33] - 法律进展:香港HCA1257/2025案与杭州(2025)浙01民初123号案并行[33] 稳定币专题研究 - 解析机制:锚定法币价值的加密货币类型[40] - 中国影响:内地严格管控与香港试点开放的双轨制[40] - 全球监管:各国差异化政策对Web3行业的影响[44] 游戏攻略时效性验证 - 准确识别《三角洲行动》7月版本更新内容[51] - 武器推荐体系:KC-17突击步枪等S级装备及改装方案[57] - 资源分布数据:典狱长收藏室12.7%概率刷新40万价值物品[59] - 收益模型:分阶段(初期/中期/攻坚)投入产出比计算[61] 行业意义 - 通过任务拆解技术创新实现高成本服务的免费化[64] - 验证AI深度研究在商业/金融/游戏等领域的实用价值[27][40][50] - 展示算法透明度与多模态输出对用户信任度的提升效果[14][21]
彻底压榨潜能!我用 Kimi K2 写了一套前端组件库
歸藏的AI工具箱· 2025-07-14 17:36
Kimi K2模型性能 - Kimi K2模型在复杂代码生成任务中表现优异,能够一次性完成所有测试任务,包括日历日程、分步引导弹窗、富文本编辑器等复杂B端组件开发[2][3] - 在可拖拽数据仪表盘组件开发测试中,K2模型成功处理了边界条件和交互逻辑,而Sonnet 4模型则出现无法拖动和组件错误等问题[4][5] - 模型支持通过ChatWise平台调用API生成组件,并已实现Artifacts预览功能[3][26] 组件库开发能力 - 已实现包含7类复杂组件的完整B端组件库:文件树组件支持子文件夹展示、图标分类和折叠功能[7],日历组件具备多视图模式和事件管理功能[9],分步引导组件可高亮界面元素指导用户操作[10] - 开发的富文本编辑器提供标准化HTML输出和格式化工具栏[11],数据表格组件集成排序、筛选、分页等高级功能[12] - 创新性开发键盘驱动的快速操作中心,类似VS Code的Omnibox功能[14] 技术生态进展 - 模型开源特性引发全球开发者关注,专业研究员开始分析其架构设计,创意写作和EQ表现获得广泛认可[22][23] - 国内AI产业因K2发布重获活力,打破6月以来产品同质化与技术停滞局面[24] - 提供商业化接入方案,通过特定链接可获得ChatWise平台八五折优惠[3][26] 开发者工具优化 - 修正Claude Code调用K2 API的配置错误,明确区分国内(cn)和国际(ai)接口地址[19][20] - 提供永久环境变量设置方案解决重复配置问题,通过修改bash_profile实现[17][18] - 提示用户注意API调用频次限制,需通过充值提升TPM配额[19]
Kimi K2 详测|超强代码和Agent 能力!内附Claude Code邪修教程
歸藏的AI工具箱· 2025-07-12 02:16
昨晚试了一下在 前端能力上非常强,基本上在一流梯队,我感觉接近 Claude Sonnet 3.7 和 4 之间 ,测试 的几个提示词效果都不错。 最重要的是有人hack了一个用法, 可以替换掉 Claude Code 的默认模型,用 K2 驱动 Claude Code ,再也 不用担心封号,搭配他输出百万 Token 16 元的超划算价格,我直接爽用! 咱们先看测试结果,后面我会附上如何在 Claude Code 中使用 K2 的保姆级教程。 K 2 前端能力测试 我们循序渐进,先来藏师傅的经典提示词,这次加上了 PPT 逻辑,让整个页面支持类似 PPT 的翻页,每一 页的高度固定带来了一些挑战。 大家好,我是歸藏(guizang),熬夜给大家带来 Kimi K2 模型和提升K2模型的CC+K2邪修教程。 今晚 Kimi 终于放出了自己憋了半年的大招,拥有 1T 参数量的 MoE 模型 K2。 基准测试中取得开源模型 SOTA成绩, 尤其在代码、Agent、数学推理任务上表现突出 。 而且模型居然还是开源的,预训练模型和指令微调模型全部开源,可以在 Kimi( kimi.com )快速尝试。 不是很多朋友想 ...
纳米AI一句话成片功能实测:从文字到视频只需等待
歸藏的AI工具箱· 2025-07-07 21:04
纳米AI视频生成功能 - 公司推出"一句话成片"功能,可直接通过文字提示生成完整视频,支持新闻介绍、科普视频、小说情节等场景,成功率极高[3] - 功能可自动生成详细分镜提示词,包括特效描述(如"手表在虚空中特效")和剧情钩子(如"诱导观看下一部分")[3] - 支持多模态工作流:先由Gemini分析爆款视频创意,再生成符合情景的新视频[4][5][6] 视频生成技术细节 - 生成流程分五步:图片提示词生成→口播音频合成→视频片段生成→字幕音乐添加→最终合成[11] - 关键技术突破包括输出结果自检修复机制、自动添加视频包装(字幕/文字贴图)[11][12] - 3D画风适配性强,尤其擅长戏谑诙谐风格,能直接在图片上生成中文文案如"以诚待人"[12] 产品应用场景 - 已实现职场讽刺类内容生成,如复刻《西游记》Vlog并融入现代职场吐槽[10] - 支持第一人称视角创作,如峨眉山猴子吐槽视频,生成详细分镜表(含景别/光线/角色神态描述)[9] - 当前语音限制为单音色,多角色语音匹配功能尚未上线[12] 行业趋势判断 - 2024年行业主线为代码生成和多模态生成,视频自动生成是最终阶段[14] - 技术加速源于LLM工具调用能力提升+视频/音频模型质量成本优化,国内Veo3类模型落地后将引发爆发增长[14] - 公司产品已实现完整视频生成Agent,通过PC端"深度搜索"或APP端"超级搜索"触发(关键词需含"宣传片/纪录片"等)[13]