Workflow
歸藏的AI工具箱
icon
搜索文档
可能是比Lovable还好的Vibe Coding产品-MiniMax Agent体验
歸藏的AI工具箱· 2025-06-16 15:41
这几天试了一下发现,妈的,这才是 Vibe Coding 产品应该有的能力。 会自主查找网页中需要的信息并重新进行整理,不只是文本,图片也会找,找不到的话可以让他生成,甚至声 音也能帮你生成, 完全不需要复杂的资料准备直接生成就能用 。 大家好我是歸藏(guizang),今天给大家带来 MiniMax Agent 的测试。 好几周前就知道了 MiniMax 出了一个通用 Agent 产品。 当时用我的提示词试了一下确实好。 这个 Claude 4 的发布博客转网页视觉效果丰富的同时,提供的文档内容也没有丢失。 在网页的细腻程度上不输 Lovable 了,但是一直没有进行详细的测试。 法国景点介绍网页生成 我发现他支持各种 MCP,就想先让他用 MiniMax 自己的音频生成能力和谷歌地图 MCP 搞一个旅游景点介 绍网站。 尤其是这个景点的图片找的质量都非常高,清晰图和构图都非常合适,而且还自己给文字的部分加了遮罩。 我返回去看了一下他图片搜索的步骤发现这部分显然是做过优化的,搜索的图片结果质量都非常高,而且 Ag ent 还会自己对图片进行挑选。 音频生成也调用 MiniMax 自家的 MCP 搞定了,而且 ...
近期必读!Devin VS Anthropic 的多智能体构建方法论
歸藏的AI工具箱· 2025-06-15 16:02
播客内容由 listenhub 生成,懒得看的话也可以听 昨天最热的的两篇文章是关于多智能体系统构建的讨论。 先是 Anthropic 发布了他们在深度搜索多智能体构建过程中的一些经验,具体:包括多智能体系统的优势、架构概览、提示工程与评估、智能体的有效评估等方 面。 另外一边 Devin 的开发商 Cognition 的一个负责人 Walden 发布文章告诫大家不要构建多智能体,指出一些常见但实际效果不佳的方法,特别是多智能体架构的弊 端。 这篇文章主要就是结合两篇文章看一下 Cognition 提到的多智能体架构弊端和 Anthropic 给出的解决方案 。同时后面也会有两篇文章非常详细的总结。 什么是多智能体 多智能体系统由多个智能体(大型语言模型 [LLM] 自主地循环使用工具)协同工作组成。 在这种系统中,一个主智能体(或协调器)会根据用户查询规划研究过程,然后使用工具创建并行操作的子智能体,这些子智能体同时搜索信息。这种架构允许主 智能体协调整个过程,同时将任务委托给专门的子智能体。 所以具体的步骤一般为: 1. 将工作分解为多个部分 首先是领域选择: 他们将多智能体系统应用于他们认为特别适合并行 ...
40秒生成1080P视频,3.6元一条,字节这次又要掀桌子了?藏师傅Seedance 1.0 Pro实测
歸藏的AI工具箱· 2025-06-11 16:42
字节跳动Seedance 1.0 Pro视频生成模型发布 - 字节跳动在火山引擎Force原动力大会上发布Seedance 1.0 Pro视频生成模型[1] - 该模型是即梦视频3.0 pro模型的升级版本[1] 模型性能表现 - 在Artificial Analysis评测中,Seedance 1.0在文生视频和图生视频两项指标均排名第一[2] - 文生视频ELO评分1299,显著高于Google Veo 3 Preview的1252分[3] - 图生视频ELO评分同样领先竞品[3] 核心技术特点 - 支持原生1080P分辨率视频生成[2] - 单次生成可输出最长10秒视频[8] - 支持多镜头无缝切换叙事,保持人物场景一致性[6][8] - 在多主体动作和复杂运镜提示词表现优异[8] - 画面动态效果自然,结构性好,崩坏率低[8] - 生成速度极快,5秒1080P视频仅需40秒[8] - API调用价格优势明显,5秒视频仅需3.67元[8] 多镜头生成能力 - 支持单次生成包含不同景别和运镜的分镜视频[6] - 人物装束和场景风格在多分镜中保持高度一致[9] - 示例1:战术撤离场景三镜头叙事[10] - 示例2:餐饮宣传片三镜头叙事[12] - 示例3:咖啡馆紧急回复场景三镜头叙事[14][15] 图生视频测试表现 - 怪兽场景测试中毛发质感和光照效果逼真[21] - 环绕镜头运动中保持人物运动模糊效果[22] - 水中人物转身动作流畅,头饰细节完美[23] - 高风格化场景下维持风格一致性[24] - 2D动漫风格大景别变化表现稳定[25] 文生视频测试表现 - 复杂POV运镜场景细节清晰无崩坏[27] - 北非古城猫咪探索场景叙事连贯[28] - FPV无人机运镜森林追逐场景动态流畅[29] - 中国书法场景运笔姿势和墨迹晕染准确[31] - 地铁急刹车多人物理碰撞效果自然[33][34] 商业化进展 - 6月11日通过火山引擎向企业用户开放[36] - 已上线豆包App"照片动起来"功能[36] - 模型在速度、稳定性和价格三方面具备竞争优势[35] 行业影响 - 显著降低普通用户视频创作门槛[18] - 在文化特色内容生成方面具有本土优势[16] - 预计将推动AI视频应用受众大幅拓展[35]
眼馋苹果刚发布的液态玻璃效果?藏师傅教你提示词一键实现
歸藏的AI工具箱· 2025-06-10 14:49
看了一些演示之后,发现还是有可取之处的,边缘的效果确实真实细腻,就是现在卡片中心的可读性实在是太 差了。 反正只要是苹果的一定会有很多人跟风,所以这个效果在接下来的一段时间你一定会频繁的看见,或者被要求 使用。 这里藏师傅也是一上午探索了一下 如何将液态玻璃效果融入到网页生成的提示词里面,没想到真让我搞了个 差不多的出来。 先来看看效果,这套提示词在 Gemini 和 Lovable 上效果最好,Cluade 4 opus 可以实现,但是质量有些问 题。 先来看 Lovable 的效果,整体的折射非常自然,就是描边有点生硬了。 然后是谷歌的效果边缘没有那么有厚度,但是整体可读性不错,看起来顺眼。 最后是 Claude Opus 4,他老是有加模糊的倾向,而且不太稳定,效果时好时坏,这个是几次里比较好的效 果。 昨晚又是一年的 WWDC 这次苹果所有的更新都压在了视觉和交互上,尤其是这个液态玻璃(Liquid Glass) 效果更是引起了很多讨论。 CSS样式:/* 容器 */.liquidGlass-wrapper { position: relative; display: flex; overflow: ...
Liblib AI上线Kontext,门槛大幅降低!藏师傅手把手教你用它解决图片问题
歸藏的AI工具箱· 2025-06-09 14:44
FLUX 的 Kontext 最近太猛,基本上除了不能写中文已经是全能的图像编辑应用了。 我前几天也写了非常详细的各种应用案例,比如简单的图片局部修改、去水印、去掉景区人员等。 后面大概写了一下如何使用, 但是还是很多人不会用。 然后我发现 liblib 居然上线了 FLUX Kontext,而且 Web UI 和 Comfyui 都支持,这下爽了。 不需要本地跑 Comfyui ,可以在线处理,而且还可以使用 Liblib 生态中的其他内容做图片的后续处理。 刚好 写一个保姆级教程,手把手教你如何在 Liblib 使用 FLUX Kontext 修改和融合图片。 主要内容: 在 Web UI 上简单体验 Kontext 这里先教一下如何用最基本的 WebUI 里的 Kontext 对图片进行修改,需要注意的是 Web UI 只支持单图。 首先我们需要在 liblib 首页( liblib.art/ )找到 F.1 Kontext,然后进到详情页里面点加模型库。 然后我们在侧边栏找到"在线生成"就可以进入到 web UI 的界面了,下面跟着我的操作设置就行: 想象它在厨房里忙碌的样子。一件白色的厨师小上衣,或 ...
从今天起,奶奶也能一句话做出爆款设计了|即梦AI图片3.0智能参考指南
歸藏的AI工具箱· 2025-06-06 18:53
即梦AI的图片3.0生图功能更新之后基本是国内图像模型的天花板了,尤其是在日常的设计任务上,基本上人 人都能做海报。 具体可以做的事情可以看我之前写的这篇《 即梦3.0生图指南:设计职业分水岭已至 | 全行业提示词合集 》 但之前图片的内容只能生成,实际上限制了非常多的使用场景。 比如虽然可以生成很好的商品海报和字体,但是他并不知道商品长什么样,可以生成非常好的排版但是没办法 结合现实内容。 这次我们终于可以说: 普通用户现在可以扔掉旧时代的所有设计工具,只需要一段提示词就可以完成你想要 的任何图片的设计包装。 不管是海报、电商封面、小红书封面还是视频封面,甚至你只是想给你的照片添加一些装饰,图片3.0的智能 参考都能搞定。 我会先对功能做一个基本的能力测试,然后我会告诉你我发现的一些图片3.0 智能参考针对各行业的神奇用 法。 另外我还写了套提示词帮你复刻任何你喜欢的电商或者小红书封面的排版样式。 基本能力测试 我们先来看看这个模型的上限在哪里,这类图像编辑模型基本就是两个层面: 首先是照片和人像的测试,我们分别从大面积到小细节分别对一个人像照片进行修改。 从更换背景到增加配饰再到更改姿势,都没啥问题,只改 ...
对普通人最有用的一次!藏师傅教你用FLUX Kontext解决一切图片问题
歸藏的AI工具箱· 2025-06-03 14:53
长时间没消息的黑森林工作室憋了个大的,发布了生成式流匹配模型 FLUX Kontext。 这套模型最强的地方就是可以对图片进行编辑,但是不会影响没有编辑的地方。 而且还支持多张图片参考生成新的图像,依然能保持需要参考内容的高度一致性。 直接替代了很多原来需要 PS (美图秀秀、醒图)才能做的需求 , 原来需要吭哧瘪肚 P 很久的图,现在说句 话就行。 给图片去水印,各种复杂水印都能解决 优化自己照片上身体的瑕疵,比如瘦脸、瘦腿、瘦肚子、让自己的肌肉变大 一键生成电商商品展示图,如果想要展示朋友送的礼物也可以用 去掉景区照片里面各种无关的其他游客,让你独享整个风景 将真实照片转换成各种动漫风格,或者反过来 修改海报或者图片上的文字 修改图片上的任何小的元素,比如让自己戴上墨镜或者更换餐桌上的甜点 给图片更换背景,让自己在快速时空旅行 将多张图片的元素整合到一张图片里面,比如让一张图片的模特拿上另一张图的产品 这种修改需要注意的是优势 Kontext 的分辨率是固定的,画全身照的时候面部有可能会变糊,因为像素区域 太小的原因。 我这几天也探索了很多这个模型的用法,这次不会以测试的形式展示了, 全是具体用法,让你告 ...
近期必读,Mary Meeker 340页PPT分析AI现状和未来
歸藏的AI工具箱· 2025-06-01 12:37
人工智能发展趋势概述 - Mary Meeker最新发布340页《人工智能趋势报告》,标志着其研究方向从互联网转向AI领域[1] - 报告显示AI技术演进速度和范围前所未有,变革速度远超历史任何时期[27] - ChatGPT达到1亿用户仅用24个月,速度是TikTok的375倍、Netflix的515倍[16][32] 技术发展加速特征 - 计算专利授权量在ChatGPT发布后两年激增6000份,增速超1995年互联网泡沫时期[4][5] - AI模型训练计算量(FLOP)年均增长超360%,15年累计增长100亿倍,远超摩尔定律[10] - 基础设施从CPU转向GPU,NVIDIA数据中心收入2024年占全球数据中心资本支出25%[7][45] 市场应用与商业化 - OpenAI年化收入92亿美元但估值达3000亿美元,收入倍数33倍;Perplexity估值倍数高达75倍[24][25] - 摩根大通预计AI/ML创造价值两年内增长65%,已在投行服务、运营优化等领域全面部署[19] - 全球AI公司融资总额达950亿美元,年收入仅110亿美元,呈现高增长高消耗特征[61] 技术性能与成本动态 - AI推理成本两年下降997%,每百万代币价格从数美元降至美分级[51] - 顶级模型性能差距缩小,中国DeepSeek R1在MATH测试达93%接近OpenAI的95%[55][76] - 训练成本八年增长2400倍,100亿美元级模型训练或于2025年启动[45][51] 行业竞争格局演变 - 中美竞争白热化,中国MAU前十AI应用均为本土开发,DeepSeek四个月获5400万用户[82] - 开源模型数量两年增长33倍,Meta Llama下载量八个月增长34倍[60][72] - 六大科技公司资本支出2024年占收入15%,较十年前提升7个百分点[45] 物理世界融合进展 - Waymo自动驾驶市场份额20个月从0%增至27%,特斯拉FSD里程33个月增长100倍[88] - 农业AI应用累计除草23万英亩,减少10万加仑农药使用[91] - 卫星互联网推动全球网络普及,Starlink用户32年实现202%年增长[97][103] 工作模式变革 - 72%美国职场人士认为AI显著提升工作质量和效率[38] - GitHubAI开发者仓库16个月增长175%,使用AI开发者比例从44%升至63%[55] - 美国AI职位发布量七年增长448%,非AIIT职位下降9%[108] 基础设施投资 - 全球数据中心支出2024年达4550亿美元,美国新建容量四年增长16倍[45] - 六大科技公司自由现金流十年增长263%至3890亿美元,现金储备4430亿美元[45] - AWS将49%收入投入AI基建,远超2013年云基建27%的投入比例[45]
四大顶尖模型对决!6000 字测评带你看Deepseek R1有多强
歸藏的AI工具箱· 2025-05-29 22:54
昨天 Deepseek-R1 0528 正式开源。 在 LiveCodeBench 上,它的表现几乎与 OpenAI 的 o3 (high) 相当;在 Aider 的多语言基准测试中,与 Cla ude Opus 不相上下。 在官网上线的时候藏师傅快速测试了一下前端能力,发现强的离谱,于是就想整个大活。 Deepseek-R1-0528 在前端能力上稍逊于 Opus4,彻底超过了 Sonnet 4 以及 Gemini 2.5 Pro。 基本上 Opus 可以完成的任务 R1 都能完成,,甚至 Opus 4 不能完成的 R1 也可以完成,只是完成度 和结果质量上稍微差一些。 考虑到 R1 跟这三者的价格差异,这个成绩已经非常邪门了,tmd 无法想象 R2 的质量。 这个测试真的是又费钱又费人, 直接把 POE 额度 Claude 额度还有API 都烧没了,希望各位可以给点个赞或 者喜欢,我们开始看案例。 测试 1:仓库管理系统 先来一个昨天跑的比较复杂的效果,我会让这四个模型分别生成一个完整的仓库管理系统,支持商品管理、商 品的出库、入库、还有对应的看板。 提示词:请帮我创建一个完整的网页版商品管理工具,具体要 ...
搜攻略到凌晨3点?飞猪AI“问一问”用1张表谋杀废话
歸藏的AI工具箱· 2025-05-29 14:10
之前测试各类Agent产品的时候老是会用一些旅游方案生成的提示词去测试,但是基本上都是输出一些废话。 关于景点的详细信息,打卡点,最重要的机票、酒店路程消耗时间等详细信息基本没有。 听说飞猪上了一个旅行 Agent "问一问",于是找朋友要了一个邀请码试了一下,确实厉害。 现在 Agent 产品最大的壁垒确实还是独家的上下文, 这是唯一一次 AI 给我生成的真正能用的旅行规划 。 刚好六月想跟朋友去一趟雨崩村,顺便去看看梅里雪山,但是我又不太想走比较困难的徒步游玩路线。 就让飞猪帮我规划一下丽江-梅里雪山-雨崩村的详细行程。 你可以在首页左上角找到问一问的入口,目前还需要邀请码,如果是飞猪 F5 和 F6 的会员可以直接使用。 提问之后模型会进行深度思考理解用户需求和进行任务拆分。 如果你的提问不是很细的话,比如只是规划行程,他会先生成几个简略的方案给你选择,列出每一天要去的地 方以及当前行程预计的花费。 在规划行程的时候也是有思考的,会根据难度、花销程度给出不同的选择。 当然不像其他的 Agent 只有文字, 飞猪还给出了对应的地图,你可以非常清晰直观的看到每个方案地点的距 离以及线路,还有对应景点的图片, ...