Workflow
歸藏的AI工具箱
icon
搜索文档
我用这个产品做了小米5.22发布会官网,同事:这不是官方做的?
歸藏的AI工具箱· 2025-05-22 17:24
天工超级智能体核心功能 - 专注于优化办公场景三大高频需求:文档、表格、PPT生成,覆盖内容全生命周期管理(意图判断→检索→生成→编辑)[1] - 五模态一键生成能力:支持文档、PPT、表格图表、网页和播客,独家提供Excel生成功能[4] - 深度研究引擎:GAIA评测榜首,搜索能力超竞品10倍,支持中英文混合检索[4][12] - 溯源透明机制:所有生成内容标注数据来源,消除AI幻觉[4][15] - 实时编辑与多格式导出:支持在线修改并一键导出至本地或Google云端[4][23] 网页生成能力 - 采用Bento Grid设计风格:纯黑底色搭配2657FD高亮色,动态效果模仿Apple官网[5][6] - 技术栈先进:集成HTML5、TailwindCSS 3.0+、Framer Motion及专业图标库[6] - 案例表现:成功生成小米发布会预热网页,包含矢量芯片图标及分页信息展示,信息密度与视觉层次优于人工设计[3][6] 播客与视频生成 - 播客模式:支持13分钟英文对谈生成,含字幕功能,分析深度与音频质量对标NotebookLM[7][8] - 视频生成:理解复杂提示词(如拟人化猫咪冒险Vlog),实现场景连贯性与风格化配乐[10] 文档生成优化 - 预设21种专业文档模板:涵盖学术论文、商业报告、营销文案等场景[11] - 交互式意图确认:通过卡片选择细化需求,降低用户操作成本[12] - 自动化任务管理:生成TODO列表并分阶段执行,支持中英文混合检索规避信息污染[13][14] - 结构化输出:自动插入数据图表、来源标注及章节总结,符合专业文档规范[15] PPT与表格创新 - PPT生成:基于前端技术实现26页高密度内容编排,支持HTML转PPT/PDF无失真导出[20][23] - 实时编辑功能:可直接修改PPT内容,突破传统AI生成后无法调整的限制[23] - 表格生成独家能力:输出真实Xlsx文件,自动补充估值、创始人等字段并生成分析图表(如融资轮次占比)[25][27] 产品定位与差异化 - 聚焦办公效率提升:避免通用智能体过度宣传,强化Office场景的可靠性与可复现性[27] - 技术实现差异化:网页转文档/PPT技术、Excel原生支持等均为行业独家功能[4][25]
CEO的智囊团,实习生的救命稻草:这个飞书功能如何让所有人都变高效
歸藏的AI工具箱· 2025-05-21 15:18
飞书知识问答功能概述 - 飞书知识问答是企业专属AI问答工具 可基于互联网知识和组织内部数据(消息/文档/知识库/文件)提供精准回答 [2] - 功能与组织数据深度协同 数据积累越多AI能力越强 对高管和一线员工均有显著效率提升 [1] - 支持内容创作辅助 帮助用户快速获取业务洞察 [3] 企业场景应用 - **项目筹备场景**: - 可快速查询跨部门项目进度 精确输出时间地点/核心进展/协作方等关键信息 节省90%文档查阅时间 [4] - 自动分类检索嘉宾演讲主题 解决原始文档未分类整理的痛点 [5] - 同步展示相关图片素材(如海报/场地照片) 提升跨团队协作效率 [7] - **管理决策场景**: - 生成结构化筹备建议 覆盖场地选择/推广策略/嘉宾管理等全流程 [9] - 10分钟内自动生成进度汇报文档 替代传统需半天的人工整理 [12] - 管理层可穿透式查询项目细节 突破传统逐级汇报的信息壁垒 [17] 个人知识管理 - 自动分析用户文档内容 如系统梳理网页生成提示词 提出写作结构/模型适配/产品化等优化建议 [19] - 深度检索飞书知识库内容 如生成Comfyui入门教程并附带教学视频 效率较传统检索提升80% [21] 技术差异化优势 - 核心突破在于上下文获取能力 飞书文档体系提供了企业场景最丰富的上下文数据 [22] - 相比通用AI产品 其企业数据整合度更高 在B端管理场景实现信息利用率300%提升 [22]
Veo3和FLOW一手实测:谷歌这次成了,这次视频创作可能彻底变天
歸藏的AI工具箱· 2025-05-21 15:18
谷歌视频模型Veo3和FLOW产品测评 核心观点 - 谷歌Veo3视频模型整合音效生成、语音同步及唇形同步技术,显著提升视频生成可用性,对剪辑软件、数字人产品形成降维打击[1][2][3] - FLOW作为配套AI视频创作工具,支持文生视频、图生视频及素材编排,填补谷歌在AI视频创作领域的空白[15][18][20] - 模型在复杂运动、多分镜一致性、长视频延长等场景表现优异,可生成游戏画面、ASMR内容及历史人物教学视频[5][6][7][8][9] Veo3技术特性 - **多模态生成**:同步生成环境音、语音并实现精准唇形同步,支持跨分镜人物一致性[2][7][11] - **复杂场景处理**:篮球运动音效(球鞋摩擦、篮筐碰撞声)准确率100%,游戏UI与人物动作符合提示词要求[5][6] - **长视频能力**:支持视频延长至16秒以上,保持内容连贯性,可生成完整ASMR视频[8][9][28] FLOW产品功能 - **创作模式**:支持文生视频(英文提示词)、图生视频(首尾帧控制)及三图素材风格迁移[18][20][21] - **剪辑编排**:Scenebuilder模块可调整分镜顺序,通过进度条定位插入点,导出1080P超清视频[23][25][26] - **延长技巧**:需切换至首尾帧模式并定位最后一帧,避免退回素材库中断生成[28] 行业应用场景 - **数字人领域**:实现多人唇形同步,播客对谈场景中语音与表情情绪100%匹配[11][12][13] - **教育内容**:生成牛顿讲解万有引力等历史人物教学视频,分镜切换时间可压缩至2秒内[7] - **UGC创作**:一键生成带环境音的ASMR视频,大幅降低专业级视频制作门槛[8][9][10]
这宣传图也太上流了!藏师傅教大家如何用4o搭配提示词生成
歸藏的AI工具箱· 2025-05-19 16:58
ListenHub新产品发布 - ListenHub推出新产品可将任何内容一分钟转换为播客[1] - 新产品采用AI技术实现快速内容转换[1] 拟物图标生成技术 - 模仿Airbnb新拟物风格图标生成技术[1] - 使用GPT分析文章内容并生成匹配图标[2] - 提供两种图标风格选择:多色彩风格和简洁统一风格[4] - 藏师傅风格强调真实材质与细腻光影[5][6] - 迪特拉姆斯风格采用3D等距视图和真实材质纹理[7][8][9][10][11] 网页生成技术 - 使用Markdown链接实现图片上传[16] - 生成类似苹果发布会PPT风格的Bento Grid网页[17] - 网页设计要求包括响应式布局和视觉元素对比[17] - 采用HTML5、TailwindCSS 3.0+和JavaScript技术[17] - 提供网页优化方法参考[18] 工具与资源 - 提供图片处理工具链接[16] - 推荐使用Gemini生成代码并通过Youware部署[18] - 提供进一步优化网页的教程参考[18]
不会剪辑?一句话生成完整可编辑的视频:Medeo 带你看视频生成的未来
歸藏的AI工具箱· 2025-05-16 16:11
Medeo产品核心功能 - 提供AI视频生成服务,可根据用户提供的素材或口播稿自动剪辑并生成完整视频[1][2] - 支持从零开始生成视频,仅需一个点子或提示词即可自动生成科普类视频内容[3][4] - 具备幼儿教育视频生成能力,可制作风格可爱的教学视频[6][7] - 支持小说视频化,能自动提取内容场景并生成连贯视频片段[8] - 适用于营销场景,可快速生成高质量产品广告视频[9][10] 产品技术特点 - 生成速度快,仅需几分钟即可完成视频制作[4] - 支持两种素材处理模式:Fall AI(全生成)和Smart Match(素材匹配)[11] - 可自动提取网页链接中的文字和素材进行视频转换[11] - 允许用户上传自定义图片、视频或文稿进行匹配[11] - 提供精准编辑功能,可单独修改口播内容或替换分镜素材[13][14] 应用场景优势 - 资讯类内容制作时可确保视频与主题高度相关[12] - 教育领域可快速生成专业教学视频[6] - 营销领域能大幅降低广告制作成本至几元级别[9] - 极大降低视频制作门槛,使非专业人士也能产出高质量内容[16] 用户体验设计 - 操作界面简单直观,仅需输入文字要求即可生成视频[11] - 支持高级设置如背景音乐、语音音色、视频时长等参数调整[11] - 提供"Only Use Provide media"选项确保素材准确性[12] - 导出便捷,会员可去除水印[15] 行业影响 - 突破传统视频制作技术门槛,释放个人创意潜力[16] - 可能改变内容创作和广告制作行业的成本结构[9] - 预示AI在内容分发和筛选领域的发展方向[16]
Speech-02语音模型登顶国际榜单:完美复刻声音,同事听后难辨真伪
歸藏的AI工具箱· 2025-05-15 17:14
行业技术发展 - MiniMax的Speech-02音频模型在Artificial Analysis的ELO评价榜单上表现优异,超越OpenAI和ElevenLabs等海外竞争对手 [2] - 该模型在Hugging Face平台上也取得第一名成绩 [2] - 在ELO评分中,MiniMax Speech-02-HD以1805分位居榜首,Win Rate达60% [3] - MiniMax Speech-02-Turbo以1766分排名第二,Win Rate为58% [3] 技术创新 - Speech-02引入可学习的说话人编码器,能从参考音频提取音色特征,无需音频转录 [4] - 仅需十几秒语音即可实现高质量声音参考 [4] - 具备音色跨语言迁移能力,对内容出海有帮助 [4] - 模型具有高度可扩展性,音色可用于情感控制、文本到音色等下游任务 [5] - 支持结合自然语言描述和结构化标签生成任意音色 [7] - 声音和语言解耦,可用参考声音生成其他语种音频 [16] 产品性能 - 延续01版本优势,提供丰富预设音色和情感选项 [9] - 能准确处理生僻字和多音字,测试中零错误 [10][11] - 支持30多种语言,多语言混合表现优异 [12][13] - 声音参考能力强大,可高度还原个人语音特征 [14][15] - 能学习说话停顿节奏、口癖和语气词 [14] 应用场景 - 小说听书场景可实现角色音色个性化,提升代入感 [7] - 视频创作中可用于字幕转语音,提升内容质量 [17][18] - B端客户已可通过API接口测试文生音色功能 [8] - 个人用户功能预计将后续开放 [8] 市场定位 - 公司在中文音频生成领域展现技术优势 [18] - 通过持续迭代超越ElevenLabs和OpenAI等国际平台 [18] - 深度本土化研发是技术发展关键优势 [18] - 音频内容生成是AI领域中被低估但重要的环节 [18]
不看这藏师傅篇深度拆解,你永远不知道Lovart AI有多可怕(有邀请码)
歸藏的AI工具箱· 2025-05-13 16:42
Lovart AI产品能力分析 - 产品定位为通用设计Agent 兼顾设计小白和专业用户 大幅降低设计门槛 [2][3] - 用户群体覆盖个体户老板 营销人员 设计师 电商从业者等 仅需文字描述即可获得高质量设计产出 [3] - 测试案例显示 仅用几十字提示词就能生成完整视频广告所需的分镜素材 完成度极高 [4] 工作流程深度解析 - 分析阶段远超预期 包括产品信息提取 视觉风格定义 视频脚本创作等专业流程 [6] - 设计前进行详细调研 包括广告主角设定 分镜场景描述等 专业度超过多数调研Agent [9] - 图片生成阶段自动选择合适模型和Lora 主动维持人像一致性 技术实现难度高 [13] - 创新性生成解释性网页 以长截图形式展示分镜设计 保持统一视觉风格 [19] 视频生成技术突破 - 在超长上下文环境下稳定运行 8个分镜生成耗时十几分钟 体现强大技术优化能力 [22] - 实现全流程自动化 包括分镜生成 背景音乐创作 口播语音合成等 完成度远超行业水平 [24] - 测试案例中成功将T恤图像移植到模特身上 并自动生成多分辨率广告图 展示强大图像处理能力 [28] 行业竞争壁垒分析 - 专业度构成核心壁垒 需深度理解垂直领域需求 图像视频模型工作流及Agent技术 [29] - 非依赖预训练模型 而是通过各环节专业优化建立竞争优势 形成难以追赶的技术积累 [29] - 产品响应速度快 能迅速实现用户反馈的功能改进 如4o图片去黄处理等 [28]
AI也需要"记笔记":Karpathy从Claude 1.6万字提示词中看到的未来
歸藏的AI工具箱· 2025-05-12 16:28
系统提示词对比分析 - Claude的系统提示词长达16,739个单词,远高于OpenAI的ChatGPT中o4-mini系统提示的2,218个单词(仅为Claude的13%)[2][3] - Claude的提示词包含大量非结构化修改痕迹,疑似针对热点事件或问题修复的临时补丁,维护复杂度高[5] - 提示词中工具定义占比最高,详细规定了14个MCP工具的使用规范(如谷歌Drive搜索说明超1700字),其次是用户偏好和风格指引[8] 大语言模型学习范式革新 - 当前LLM主要依赖预训练(获取广泛知识)和微调(优化行为习惯),均需调整模型参数[9] - Karpathy提出"系统提示学习"新范式:类比人类通过显式笔记总结经验,而非直接改写大脑参数[10] - 理想状态下模型应自动生成/优化提示词,但当前Claude提示词仍完全由人工编写,效率低下[10][18] 系统提示学习的潜在价值 - 优势包括:更高维的数据利用(通过显式复盘吸收反馈)、更强的任务泛化能力[19] - 可能解决LLM现存痛点:如《记忆碎片》式依赖参数记忆,缺乏外部备忘录机制[12] - 需攻克技术难点:自动编辑提示词算法、提示编辑系统的自学习机制、显式知识向参数习惯的转化[20] 提示工程实践启示 - 结构化指令效果更优:Claude提示词使用列表/格式/示例,明确工具调用规则和用户交互边界[8][15] - 精准指令胜于模糊表达,需具体说明需求与限制条件(如知识截止日期、诗歌创作规范)[8][14] - 提示工程本质是沟通技巧延伸,非高深技术,普通用户可通过学习Claude提示词提升效果[16][17] 行业资源链接 - Karpathy推文探讨系统提示学习[21] - 第三方网页解析Claude提示词内容与结构[21]
生成网页可以垫视频了?教你用 Gemini 2.5 最强大的能力
歸藏的AI工具箱· 2025-05-09 16:34
Gemini 2 5 Pro 0506版本核心能力 - 根据网页交互视频生成还原度极高的网页效果 显著提升前端开发效率[1][4] - 多模态能力与代码生成产生化学反应 实现复杂交互动画的自动还原[5][6] - 在AI Studio中选择Gemini 2 5 Pro 05-06版本可体验该功能 需注意视频压缩和长度控制[13] 技术特性 - 前端代码美观度显著提升 仅需设计稿无需优化提示词即可生成完美还原网页[4] - 视频多模态理解能力行业领先 可捕捉Hover动画、图标高亮等复杂交互细节[7][8] - 输出格式支持HTML/CSS/JS三合一文件 浏览器直接预览简化开发流程[12] 应用案例 - 邮箱地址交互案例: 成功还原图标高亮效果 但存在间距和变色细节缺失[7] - 翻译工具Hover案例: 完美捕捉动态翻译卡片效果 仅字体大小需微调[8] - YouTube科普视频转化案例: 实现从视频到互动网页的端到端生成[5] 使用优化建议 - 提示词需明确标注重点效果(如淡蓝色圆角背景)以弥补视觉细节识别不足[11][12] - 动画效果需增加缓动参数 图标库通过CDN引用提升还原度[11] - 适用场景包括但不限于动效生成 开发者可拓展更多创新应用[14]
设计师的 ChatGPT 时刻:Figma 这次把“设计即代码”玩成现实
歸藏的AI工具箱· 2025-05-08 16:55
AI编程产品分类 - AI编程产品分为两类:一类是Cursor和Windsurf等AI IDE,具备完整IDE功能并附加AI补全、chat、Agents能力,即使不用AI也能正常开发[1][2] - 另一类是V0和Lovable等Vibe Coding产品,主要依赖与AI编码Agents对话生成代码,用户覆盖范围更广但存在语言描述需求不精准、术语理解有限等问题[3][5] - Vibe Coding产品当前多模态能力不足,如Gemini 2.5 Pro仍难以从设计稿精准还原颜色、描边等细节[5] Figma Make产品特性 - Figma基于设计生态推出Vibe Coding产品Figma Make,支持左右分栏交互界面,左侧采用Claude 3.7模型处理图片/Figma画板/文字输入,右侧实时预览和修改[7][8] - 核心能力包括直接导入Figma设计稿生成网页,自动传递布局/变量/组件语义,完美还原设计稿中的插画和图片素材,显著提升生成网页表现力[10] - 提供设计稿编辑工具精准迭代,支持点击修改元素样式或通过AI指令局部调整,避免全局重写造成的Token浪费和错误扩散[11][12] Figma战略布局 - 公司同步推出可视化低代码工具Figma Site,结合Make的AI能力实现设计稿到网站的快速发布,并支持复杂逻辑功能补充[18] - 产品战略聚焦设计生态优势,明确"Design as Prompt"方向,相比Adobe更清晰界定技术边界[19] - 未来可能开放API和私有大模型接入,强化企业级定制能力,推动设计师角色向Prompt Engineer转型,前端工程师转向架构整合[19]