Workflow
数字生命卡兹克
icon
搜索文档
爆火的AI三宫格图片,比我们的生活更像电影。
数字生命卡兹克· 2025-10-24 09:32
社交媒体现象与用户参与度 - 三宫格AI图片在社交媒体平台(如抖音、小红书)上广泛传播,用户参与度极高,单条内容点赞量可达数千至数万次[3] - 该内容形式在各类社群中也极为流行,形成了广泛的用户互动和分享行为[5] - 内容创作主体多样化,包括各地文旅账号、宠物主题账号及普通用户,表明其具有广泛的适用性和吸引力[11][13] 技术实现与工具应用 - 所有三宫格图片均通过豆包平台上的Seedream 4.0 AI工具生成,凸显了该AI图像生成技术的强大能力[32] - 提供了标准化的提示词模板,用户可通过修改场景、人物、衣着、景别、动作、字幕等具体参数来定制生成内容,操作流程高度标准化且易于上手[33] - 生成图片的比例可调(如2:3、3:4、9:16),其中3:4比例因能增强电影感而受到推荐[34] 内容演变与创意表达 - 内容风格从初始的唯美电影感写真迅速演变为包含地方文旅特色、宠物恶搞、表情包等多种抽象和创意形式[10][11][13][17] - 创作素材来源广泛,涵盖游戏角色(如《宝可梦ZA》中的角色)、真人形象(如艺人陶喆)及影视角色(如斯内普教授)等,展示了强大的二次创作潜力[22][24][28] - 用户可根据固定框架自由发挥,创作出文艺、抽象或情感真挚等不同风格的内容,体现了该形式在创意表达上的灵活性[46] 现象背后的文化心理分析 - 该现象被视为十年前流行的“为照片添加黑边和字幕以模仿电影截图”风潮的技术升级版,核心用户心理未变,即执着于将个人生活“电影化”[47][49] - 用户行为本质上是为平淡或充满压力的日常生活“赋魅”,通过调用电影这一文化符号,为个人生活片段赋予故事性和意义[50][51][53] - “山的那边是什么”等经典台词成为一种精神寄托,AI技术工具使用户能够生成理想化的自我形象,以此向心中的彼岸致敬,这被认为是AI时代最迷人的特性之一[54][55][56][57]
只有0.9B的PaddleOCR-VL,却是现在最强的OCR模型。
数字生命卡兹克· 2025-10-23 09:33
行业趋势 - OCR赛道因DeepSeek-OCR等模型的发布而重新受到高度关注,呈现“文艺复兴”之势[1] - Hugging Face趋势榜前4名中有3个是OCR模型,Qwen3-VL-8B也具备OCR能力,形成“全员OCR”的行业现象[2] 公司产品定位 - PaddleOCR是百度长期投入的开源项目,发展历史可追溯至2020年,经过5年迭代成为OCR领域最火热的开源项目[6][7] - 该项目在Github上获得60K星标,在OCR项目中属于断档领先地位[7] - PaddleOCR-VL是百度近期开源的最新模型,首次将大模型应用于OCR文档解析的核心环节[9] 技术性能表现 - PaddleOCR-VL模型参数量仅为0.9B,但在OmniDocBench v1.5评测集的几乎所有子项都达到SOTA水平[11] - 在综合评分上达到92.56分,显著高于DeepSeek-OCR的86.46分,领先约6分[14][15] - 与参数量更大的模型相比表现优异:超越76B的InternVL3(80.33分)、241B的InternVL3.5(82.67分)和72B的Qwen2.5-VL(87.02分)[12] - 在 specialized VLMs 类别中排名第一,超越1.2B的MinerU2.5(90.67分)和3.7B的MonkeyOCR-pro-3B(88.85分)[12][15] 技术创新架构 - 采用两阶段架构:先由传统视觉模型PP-DocLayoutV2进行布局分析,将文档划分为不同功能区域并确定阅读顺序[18] - 核心的0.9B模型专门处理已被裁剪好的小图片,分别完成表格转Markdown、公式转LaTeX等具体任务[20] - 该架构避免了端到端大模型需要同时理解整页复杂布局的难题,实现了用小型模型达到最优效果的技术突破[16][20] 实际应用效果 - 在处理模糊扫描件时能够准确框选识别区域并按正确阅读顺序编号,文字识别准确率达到一字不差[22][24][27] - 对手写笔记识别表现良好,只要字迹不过于潦草均能保持较高准确率[27] - 对论文报纸等多栏密集排版文档处理稳定,阅读顺序正确,文字识别基本全对[28] - 支持端到端解析,能够还原图表内容[30][33] - 在处理发票收据等半结构化文档时表现可靠,能有效抓取关键信息[34] - 对大型复杂表格的识别能力突出,能准确还原行列关系,包括带合并单元格的表格[39][40] 商业化潜力 - 模型已在考虑替代现有财务系统中的视觉大模型,预计能显著提升财务工作效率[39] - 相比大型多模态模型,PaddleOCR-VL在价格和准确性方面具有明显优势,特别适合批量信息提取工作流[41][43] - 目前已开源并提供多个在线体验平台,包括飞桨、魔搭和Hugging Face[44][45]
Vidu Q2的参考生视频,是AI视频多参党的胜利。
数字生命卡兹克· 2025-10-22 09:33
核心观点 - Vidu Q2多图参考生视频功能代表了AI视频生成工作流的新范式,在多主体一致性、情绪表演能力和多风格表现力方面实现显著进化[1][2][9][10][11][84] - 该技术相比传统的文生视频-图生视频工作流更具效率优势,操作更便捷,有望成为行业未来发展方向[2][4][9][84] 技术能力与性能提升 - 一致性方面实现大幅进化,能够稳定处理超多主体同框的复杂场景,例如成功生成六位画家同框的视频,而Q1版本在该场景下会出现人物缺失或异常出现的问题[12][14][15] - 操作便捷性提升,通过@键可简单调用任何人物、物品或场景,比Sora2仅能@人物的功能更丝滑[17] - 支持创新玩法,如通过多主体实现主人公变身,或保持人物不变而场景变化,镜内外变化同步性表现完美[26][28][29] 情绪表演能力 - 真人表演细腻度显著提升,能够通过眼神等细节展现复杂情绪如脆弱感,而Q1版本仅能完成基础眼部转动且情绪表达不明确[37][38] - 在二次元领域表现尤为突出,能够生成富有故事感的片段,精准捕捉悲伤、无奈、克制、恨意等复杂情绪[44][45] - 擅长处理动漫特有情绪表现手法,如通过眉眼线条抽动、瞳孔缩小、眼白红血丝等细节展现极致恐惧,且能在简单提示词框架内自主完善细节[53][54] - 小表情生成自然逼真,如情侣吵架场景的表情和动作具有活人感[49][51] 多风格表现力 - 在动漫风格生成方面表现卓越,无愧于AI视频动漫之王的称号,能够生成泡面番、热血战斗番等多种动画风格[58][60][64] - 运镜和特效能力突出,特别适合生成中二动漫场面,如舞剑场景的镜头拉近拉远和狂风特效,打斗场景的刀光剑影和飞檐走壁[70][71][72][74][75] - 所有风格化视频均通过多参考生视频生成,同时保证了角色一致性和风格一致性[70] 产品定价与可及性 - 定价具有竞争力,标准版月度会员59元获得800积分,20积分可生成一条8秒视频,折合每条视频成本1.475元,每秒约0.184元,是当前最便宜的AI视频模型之一[79][80] - 已推出手机APP,提供类似Sora2的交互体验和合拍功能,基于多参技术实现[82]
全新开源的DeepSeek-OCR,可能是最近最惊喜的模型。
数字生命卡兹克· 2025-10-21 09:32
模型概述与核心创新 - DeepSeek发布名为DeepSeek-OCR的新模型,其核心创新在于通过“上下文光学压缩”技术解决大语言模型长文本处理难题[1][13][19] - 该模型将文字转换为图像进行处理,利用二维图像信息密度高于一维文字的特性,实现高达10倍的上下文压缩比[16][17][23] - 在保持96.5%识别准确率的前提下,压缩比达到10.5倍,最高压缩比可达20倍[23][25] 技术原理与架构 - 模型采用将文本渲染成图像再编码为视觉Token的架构,计算复杂度从文本长度的平方级大幅降低[7][8][15] - 使用DeepSeek-3B作为解码器,这是一个激活参数为570M的MOE模型,具备将视觉Token解码还原为原文的能力[21] - 技术实现路径为:将远期聊天记录渲染成长图,压缩为原Token数十分之一的视觉Token,与近期文本Token共同组成上下文[20] 功能应用场景 - 具备传统OCR功能,能将图片中的文字提取为可编辑文本,但对复杂排版文档能直接生成Markdown格式,包括可编辑的图表代码[3][5] - 主要解决AI长文本处理瓶颈,使模型能够有效处理几十万字的书籍内容,避免传统架构下内存和算力被撑爆的问题[6][20] - 应用场景包括长对话记忆保持,能回答用户关于早期对话内容的问题,解决现有AI聊着聊着就“失忆”的痛点[20] 性能数据表现 - 在600-700个文本Token场景下,压缩比为10.5倍时识别准确率为96.5%[23] - 在700-800个文本Token场景下,压缩比为11.8倍时识别准确率为93.8%[23] - 随着文本长度增加,压缩比持续提升,在1200-1300个文本Token时压缩比达到19.7倍,准确率为59.1%[23] 生物学启示与哲学思考 - 技术设计灵感来源于人类记忆衰减机制,通过控制图像渲染精细度实现类似生物遗忘曲线的信息保留模式[35][38] - 模型实现了记忆的渐进式压缩,最近信息高保真,遥远记忆自然淡忘,这与人类认知资源分配机制高度相似[39][40] - 技术范式挑战了AI应追求无限记忆的传统观念,认为遗忘和错误可能是智慧的重要组成部分[40][41]
有些时候真觉得,AI总结和“三分钟看电影”没啥区别。
数字生命卡兹克· 2025-10-20 09:51
AI总结工具的用户行为分析 - 用户普遍使用AI总结工具处理文章、播客和视频等内容[1] - 用户动机从"懒"转变为"怕",即害怕错过信息和时间投入白费[1] - 信息过载现象严重,个人无法消费所有应看内容[1] - AI工具帮助用户在有限时间内获取知识点,提升社交表现[1] AI总结对内容体验的影响 - AI总结类似3分钟电影解说,保留事实信息但丢失情感体验[5][8] - 内容中的语气、文笔、节奏、眼神和停顿等细节被清除[9][10] - 优质内容构建的"场"和心流体验被破坏[11][12][13][14] - 用户无法经历内容中的思考过程和情感波动[15][16] 深度内容消费的价值 - 拼装积木等耗时活动带来的创造喜悦无法被成品替代[19] - 真正的学习产生于看似无聊的线性时间和困难克服过程[20] - 深度阅读能带来宿命般震撼的体验,如《百年孤独》开篇[20] - 长内容和好内容在当今时代变得稀少但价值显著[20] 信息时代的社会现象 - 社会普遍追求快速获取答案,耐心度下降[20] - AI提供确定性答案,但现实世界充满混沌和灰色地带[20] - 鲍德里亚提出"内爆"概念,指信息过载导致意义消失[21][23] - 在追求效率的时代,"慢"和享受过程本身成为反抗方式[20]
你骂AI越狠,它反而越聪明?
数字生命卡兹克· 2025-10-17 09:32
论文核心发现 - 与大型语言模型互动时,使用粗鲁或带有威胁性的提示语比使用礼貌的提示语能获得更高的准确率 [3] - 宾夕法尼亚州立大学的研究表明,从“非常礼貌”到“非常粗鲁”的提示语,模型准确率从80.8%提升至84.8%,增加了4个百分点 [26][27] - 在智能效果较差的模型上,这种通过负面语气提升回复质量的效果更为显著 [28] 实验设计与数据 - 研究使用50个来自数学、科学和历史领域的选择题,并为每个问题设计了五个不同礼貌程度的提示语版本 [22] - 提示语礼貌程度分为五个等级:非常礼貌、礼貌、中性、粗鲁、非常粗鲁 [23] - 每个问题在GPT-4o模型上运行10次以获取统计上可靠的结果 [25] - 具体准确率数据为:非常礼貌80.8%、礼貌81.4%、中性82.2%、粗鲁82.8%、非常粗鲁84.8% [27] 现象背后的机制分析 - 礼貌用语在人类沟通中常伴随不确定性、模糊请求或需要揣摩的意图,模型从训练数据中学习到这种模式匹配,导致其回应也趋于保守和模糊 [33][34][40] - 强硬、粗鲁的指令传达了极致的确定性和清晰的目标,没有模糊空间,模型会匹配到要求绝对执行的任务模式,从而提升表现 [42][43][44] - 这种现象反映了模型从人类语言数据中学到的潜台词和权力法则,即更强硬、更确定的表达往往拥有定义现实的权力 [53][54] 行业应用与沟通启示 - 历史上已出现多种旨在提升模型表现的“咒语”式提示,如“深呼吸”、“一步步思考”、“失败则100位老奶奶会死”等,其共同特点是强势而非客气 [8][9][19] - 该现象提示行业,与AI沟通的关键在于指令的清晰度、直接性和明确的需求表达,而非表面的礼貌 [61][63] - 这面“镜子”反映出人类沟通中可能存在不必要的客套和能量浪费,理想状态是使用清晰语言表达真诚意图并捍卫边界 [56][65]
给大家看看,2025年用AI开会的新姿势。
数字生命卡兹克· 2025-10-15 09:33
飞书智能会议核心观点 - 飞书智能会议功能在可视化与生态化方面取得显著进步,代表了AI时代会议体验的新形态 [4][19] - 飞书在会议场景中被认为是当前最优秀的解决方案,其AI能力为用户带来了超绝的松弛感 [3][19] 功能演进 - 智能会议纪要功能从2024年8月非常原始的普通文档形态,演进至2025年10月具备可视化与作图能力的成熟形态 [3][4][7] - 早期AI开会方式原始,需通过通义听悟或飞书妙记录音后导出文字稿,再借助其他AI工具进行总结,流程繁琐 [3] 可视化能力 - 会议纪要首次拥有可视化能力,生成图文并茂的总结文档,阅读体验远超过去的纯文字纪要 [7][9][14] - 可视化内容按进度分类,结构清晰,例如将会议中讨论的多个活动方案总结成包含方案名称、核心玩法、问题建议和当前状态的表格 [9][13] - 智能会议纪要能够自动识别并嵌入会议过程中展示的重要图片或投屏内容,这是其他产品所忽略的关键点 [14] 生态化整合 - 飞书知识问答功能与智能会议纪要相结合,使会议留存信息成为企业知识库的重要组成部分 [15][17] - 用户可通过自然语言提问(如“上周五的选题会我们聊了哪些和AI小镇有关的内容”)直接检索历史会议中的相关信息,系统甚至能自动修正用户的时间记忆错误 [17][18] - 公司内部线下开会也习惯使用飞书妙记进行录音记录,确保信息被有效沉淀和检索 [18] 用户体验提升 - 图文并茂的多模态智能会议纪要提供了拉满的阅读感,是用户一旦试用后就难以离开的体验 [14][15] - 功能设计旨在为会议减负,促进更自由畅快的讨论,会议纪要中偶尔总结出的金句或暴论也增加了回顾的趣味性 [15][19]
用了3年飞书多维表格后,我终于为你们总结了一份保姆级教程。
数字生命卡兹克· 2025-10-14 09:33
文章核心观点 - 飞书多维表格被定位为一个面向非技术用户的强大数据库和工作流工具,其核心价值在于以极低的学习门槛实现数据的结构化管理和高效利用 [6][11][12] - 该工具通过集成AI能力显著提升了数据处理和内容生成的自动化水平,能够将人效比提高三到五倍 [32][33][102] - 文章旨在提供一个结合了公司3年实战经验的保姆级入门教程,展示飞书多维表格如何成为公司各部门的核心基建 [6][7][12] 飞书多维表格的产品定位与核心优势 - 飞书多维表格的底层逻辑是一个数据库而非简单表格,专为储存和分析工作生活中的海量数据而设计 [16][17] - 与Excel相比,飞书多维表格在容量上支持单表一千万行,并能容纳1000人同时在线编辑,权限管理可精确到字段级别,容量是Excel的十倍 [24][25] - 工具支持实时生成视图和仪表盘,数据变化可自动更新,避免了传统Excel制作图表费劲的问题 [27][28][32] 核心功能模块详解 - **字段类型**:分为录入信息类、组织协同类、数据打通类、自动化字段和数据变动追踪字段等多种类型,其中公式计算字段支持AI自动生成,极大降低了使用门槛 [40][43][44][47] - **字段捷径**:封装了复杂的AI功能,支持接入DeepSeek、豆包等多个大模型,可实现文字、图片、视频的批量生成以及OCR等实用功能 [51][52][55] - **视图与仪表盘**:提供表格、看板、日历、甘特图等六种视图,仪表盘可通过AI一键搭建或手动添加组件实现数据可视化 [60][63][65][67] - **自动化与工作流**:通过右上角的自动化机器人图标和左下角的工作流功能,可实现自动分类、内容添加和消息通知等,使表格动态化 [72][74][75] - **权限管理**:权限控制可精细到每一列,支持系统角色和自定义角色,保障了数据安全并避免了重复建设工作 [76][77][78] 实际应用场景案例 - **数据分析**:公司利用爬虫自动采集公众号数据(如阅读量、点赞、转发),并通过设置筛选条件(如阅读量≥30000、赞阅比≥2.5%)来识别高质量内容 [81][82][84][85] - **项目管理**:公司使用一个包含40多个字段的项目总表来管理客户、项目进度、财务状态等全部业务数据,并通过日历视图等功能进行排期和筛选 [90][91][94][95] - **工作流搭建**:展示了如何通过快捷指令、飞书应用机器人和字段捷径实现手机端内容一键录入并自动生成图片的创意工作流 [97][98][100][102] 使用门槛与未来展望 - 飞书多维表格现已与飞书主应用剥离,用户仅需注册账号即可在线使用,无需下载完整飞书客户端,降低了使用门槛 [36][37] - 文章强调该工具的未来潜力巨大,认为掌握该工具的组织将在人效上获得显著优势,但当前公司自身对其功能的开发利用率仍不足十分之一 [80][102]
今天,好像见证了属于SD时代的消亡。
数字生命卡兹克· 2025-10-13 09:33
公司战略转型 - liblib宣布升级至2.0版本,推出新品牌、新logo、新界面和新功能[3] - 公司从专注于Stable Diffusion的开源社区转型为一站式AI创作平台[59][65] - 平台集成了多种AI绘图模型,如Seedream、Midjourney、Qwen等,以及几乎所有的AI视频模型[60] - 新增特效模板功能,用户可一键复刻效果,类似于海外平台Higgsfield[62] - 此次商业转型旨在降低使用门槛,扩大用户群,预计用户规模将增长10倍[64][67] 行业生态演变 - Stable Diffusion在2023年初处于鼎盛时期,其开源、免费、可本地运行的特点让普通人首次体验到AI绘图[11][19] - 当时生态呈现爆炸式成长,涌现出WebUI、ComfyUI等工具以及ControlNet等关键插件[28][34][36] - 社区活跃度极高,用户需要学习Prompt编写、CFG scale、Seed值、采样步骤等复杂参数[22][23][50] - 行业标志性人物包括Dynamic Wang、Nenly同学、zho、海辛、阿文、青龙圣者等[33] - 伴随技术迭代,行业向简单易用方向发展,出现了GPT-4o、NanoBanana、Seedream等更易用的模型[53][54] - 商业演进导致以SD为代表的高门槛开源生态遇冷,用户因复杂性和学习成本高而流失[50][51][55]
Sora2之后,又来了个全新的影视级AI视频模型,它的名字,叫GAGA。
数字生命卡兹克· 2025-10-10 09:33
文章核心观点 - 公司推出的AI视频模型GAGA-1在人物表演领域表现出色,尤其在台词同步和情感表达上达到较高水准,为短剧、互动影游等内容创作提供了新的低成本工具 [3][19][20][59][60] - 该模型目前处于免费使用阶段,其定价策略预计将远低于Sora2和Veo3等竞争对手,具备市场普及潜力 [12][55][57] - 作为国产模型,GAGA-1的上线标志着AI视频领域的技术进步,尽管在复杂动作、多语言支持及工作流集成方面仍有优化空间 [52][53][61] 产品功能与性能 - 模型核心功能为“Gaga Actor”,专注于生成带台词的人物表演视频,支持5秒和10秒两种固定时长,建议台词字数不超过20个 [16][17][18][21] - 生成视频需结合输入图片和文本提示词,一次生成耗时约3至4分钟,支持最多5条并发生成 [22][28] - 在人物神情、头发细节、牙齿等细微之处表现优异,表演真实度被评价为接近影视级别,尤其在短剧和影游级应用上效果良好 [20][21][30] 技术优势与特点 - 模型能够准确识别并表现复杂的表演动作和情绪,如叹气、咬嘴唇、哭泣、歇斯底里等,并能展现不同的表演层次 [32][34][35][39] - 支持图片中多人物互动,能分别处理不同角色的神态和语音表现 [46] - 具备一定的唱歌功能,尽管音调表现尚不完善 [48][50] - 能够识别角色国籍并调整语言表现,例如识别外国角色并使用蹩脚普通话 [44] 当前局限性 - 对大幅度、复杂运动支持不佳,例如手部动作容易出现变形 [52] - 台词生成能力相较于表演层次稍弱,念白较为平淡,且长提示词可能导致吞字现象 [35][36][42] - 多语言支持不均衡,日文表现诡异,其他语言支持程度不明 [53] - 缺乏音色ID固定和自定义音频上传功能,导致每次生成的音色不一致,影响工作流集成 [53] 市场定位与定价策略 - 产品目前完全免费开放使用,无需邀请码或排队,旨在吸引用户体验和积累用户 [12][55] - 公司明确表示未来定价将远低于Sora2和Veo3,但具体收费时间和方案尚未确定 [56][57] - 模型定位为降低视频创作门槛,目标应用场景包括短剧、互动影游NPC对话、小说角色可视化等 [59]