数字生命卡兹克
搜索文档
蚂蚁深夜开源比肩Genie 3的世界模型,我也看到了具身智能的未来。
数字生命卡兹克· 2026-01-29 10:06
文章核心观点 - 蚂蚁集团旗下的灵波科技(RobbyAnt)开源了其世界模型LingBot-World,该模型在长时记忆稳定性、风格泛化性和动作代理能力方面表现卓越,被认为在质量上可对标Google的Genie 3,是AI领域一项重大且出人意料的进展 [3][8][34] - 该模型与Sora等传统视频生成模型有本质区别:它是一个可实时交互、按指令动态生成世界的“模拟器”,而非预先渲染好的“电影”,代表了“世界的起点” [25][28][31] - 世界模型是AI从虚拟走向现实、实现具身智能的关键技术,其成熟将推动井喷式的具身智能应用进入实体世界,而蚂蚁集团的开源行为加速了这一进程 [96][97][99][103][105] 模型发布与基本信息 - 发布方为蚂蚁集团旗下的具身智能公司灵波科技(RobbyAnt),模型在毫无预兆的情况下突然开源 [3] - 模型已在GitHub上开源第一个版本,并计划发布另外两个版本 [37] - 模型参数量约为28B,推理参数量约为14B [44] 技术特点与性能 - **长时记忆稳定**:模型能保持场景的长期一致性,避免“鬼打墙”现象,例如在10分钟的古建筑探索视频中场景未崩塌,且物体位置和遮挡关系随视角变化保持正确 [19][55][57][58] - **风格泛化性极强**:模型能同时处理超写实、游戏画风等多种风格,这得益于其训练数据混合了真实视频、游戏录像和UE合成场景 [64][66][68] - **优秀的动作代理能力**:模型支持通过方向键(WASD)或动作指令进行实时控制,并能结合AI代理实现角色在生成世界中的自主运动、规划和避障,超越了简单的“步行模拟器” [75][77][79][82][86][89] 模型版本与规格 - **LingBot-World-Base (Cam)**:已开源,支持通过相机位姿信号控制镜头运动(如推进、环绕),提供480P和720P推理配置 [39][40] - **LingBot-World-Base (Act)**:待开源,支持通过动作指令控制主体行为,将可控性从镜头扩展到行为层面 [41][42] - **LingBot-World-Fast**:待开源,专注于低延迟与实时交互,目标延迟低于1秒,帧率可达每秒16帧,但图像质量可能略低于Base系列 [43] 行业意义与定位 - 该模型与Google Genie 3技术路线一致,属于可实时生成的世界模型,填补了Genie 3发布后数月内该领域的空白 [32][34] - 世界模型对游戏、影视、娱乐行业有重要意义,其核心应用场景是为具身智能提供低成本、高保真的训练和试错环境 [96] - 蚂蚁集团此次开源世界模型,将相关技术进程向前推进了一大步,并选择开源以造福整个行业 [99][100]
保姆级Clawdbot教程来了,但我还是想劝大家悠着点。
数字生命卡兹克· 2026-01-28 09:30
产品概述与市场热度 - 一款名为Clawdbot(后更名为Moltbot)的本地AI助理产品近期爆火,其热度甚至导致Mac Mini被卖断货[1] - 该产品被官方定义为“你在自己设备上运行的个人AI助理”,拥有极高的系统权限和主动性,可帮助用户处理本地文件、炒股、处理邮件等任务[5] - 在GitHub上已获得63,000个Star,增长曲线极其离谱[12] 产品核心功能与特点 - 与Claude Code功能类似但更通用,因其名称没有“编程”的限定,避免了市场误解[6] - 核心特点包括:1) 可接入WhatsApp、Telegram、Discord及国内飞书等聊天软件作为控制入口;2) 拥有长期记忆,可将记忆作为文件存储在本地;3) 开源,支持用户自行部署并接入喜欢的模型[11] - 作为本地运行的Agent,其主动性强到离谱,但也因此带来了极高的安全隐患,例如可能误删文件或进行不希望的消费[6] 部署方式与硬件需求 - 部署方式主要有三种:在新电脑上运行、使用云服务/虚拟机部署、或购买新Mac Mini[9] - 购买全新的Mac Mini被视为最简单省心的做法,尽管需要花费数千元[10][11] - 如果用户不介意安全风险,该产品对硬件要求极低,多年前的二手老电脑也能运行[11] - 腾讯云等云服务商反应迅速,已提供一键部署Clawdbot的应用模板服务[9][10] 技术配置与资源消耗 - 部署命令简单,但需要预先安装Node.js(版本22以上)[14] - 支持接入多种大模型API,包括OpenAI Codex、国产的MiniMax、Qwen、智谱等[17] - 产品上下文工程较差,导致Token消耗速度极快,有测试案例显示,使用GLM-4模型两天就跑掉了近3000万Token[17] - 一个简单的X平台文章爬虫任务就可能消耗100万Token[18] - 警告用户不要使用Claude Max的API额度授权给Clawdbot,否则可能导致账号被封[17] 安全风险与使用建议 - 产品因权限极高且主动性强,存在巨大安全隐患,可能执行危险命令(如`rm -rf /`)导致数据丢失[14] - 强烈建议用户不要在主力机上安装,而应使用备用机或测试环境[14] - 用户需要想清楚赋予AI助理的权限边界,就像管理家里的管家或阿姨一样,对最私密的空间应保持控制[43] 生态集成与实用案例 - 国内用户可通过GitHub上的开源项目(`m1heng/Clawdbot-feishu`)将产品接入飞书,该项目已有171个Star[26][27] - 安装飞书插件的过程本身展示了产品的强大:用户可直接在Clawdbot的Web UI中输入安装命令,由其自行完成安装和后续配置[29][30][31][32] - 一个实际应用案例是自动处理公司报销发票:用户通过飞书发送指令,Clawdbot便在后台自动打开本地文件、读取发票内容并填充Excel表格[40] 行业意义与用户心理 - Clawdbot的爆火反映了市场对AI能真正“进场干活”的极度渴望[42] - 该产品代表了未来AI Agent的一种理想形态,尽管目前在准确性和容错率上仍有不足,但其通过日常聊天软件触发并完成本地任务的能力,提供了颠覆性的体验[43] - 其发展揭示了AI应用的一个关键矛盾:在追求高效自动化与保障安全可控之间需要取得平衡[43]
2026年,腾讯正式用元宝派杀入了AI社交。
数字生命卡兹克· 2026-01-27 09:34
腾讯AI社交产品“元宝派”发布 - 2026年开年,腾讯正式进军AI社交赛道,其AI产品“元宝”进行重大更新,开启名为“元宝派”的新功能内测 [1] 产品功能与核心玩法 - 用户可创建或加入“元宝派”,与朋友进行群聊,并可“@”AI助手“元宝”进行互动 [2] - 产品支持用户将头像和名称改为其他大模型,进行角色扮演式对话 [2][4] - 内测初期用户热情高涨,作者创建的四个“派”均在十几分钟内达到100人上限,群消息活跃度极高,迅速达到“99+” [4] - 加入方式包括产品更新后直接进入,或通过已获得内测资格的好友分享的邀请链接加入 [5][8] - 产品打通了微信与QQ生态,用户可通过分享链接将微信和QQ好友拉入同一个“元宝派”群聊 [10] - 聊天界面融合了微信与QQ的常用功能,如文字、语音、文件、图片、引用、撤回,并整合了腾讯会议的音视频通话和屏幕共享能力 [11] - 群成员头像显示在聊天框底部,点击头像可发起私聊 [11][13] AI深度集成与交互体验 - AI助手“元宝”在群聊中功能完整,具有鲜明的拟人化性格 [14][23] - 用户可与“元宝”私聊,使用其图像生成功能创建表情包,该功能基于腾讯混元图像3.0模型,支持“用嘴编辑”(图生图),效果显著提升 [15][17][19] - 用户可在群内直接“@元宝”,让其对游戏战绩进行点评并提供攻略,或进行日常斗嘴聊天 [21][22] - “元宝”可应要求总结群聊内容,包括整体讨论和特定用户的发言,并能将总结内容转化为图片 [24][25] - AI可根据群友的发言内容,生成该群友的虚拟形象图片 [26] - 产品具备日程管理功能,可设置单人或多人的事项提醒,并能协助制定计划、分解为具体日程 [27][28] - AI可被设置为定时推送信息,例如自动生成并发送每日AI早报 [29] - 据透露,未来将支持在“派”内实现“一起看视频”和“一起听歌”功能 [31] 战略意义与行业影响 - “元宝派”旨在整合并打通腾讯整个生态,包括微信、QQ、视频、音乐等,将公司生态优势压缩至单一AI产品中 [33] - 此举标志着AI首次被大规模嵌入人与人之间的社交关系中,腾讯作为拥有QQ(互联网时代)和微信(移动互联网时代)成功经验的巨头,正式入局AI社交时代 [35] - 产品形态是一个可被“@”的AI头像,其长期意义和演变方向尚不明确,但可能代表社交模式的又一次变革 [35] 当前版本反馈与未来展望 - 内测版本存在限制,如每个“派”的人数上限为100人,导致许多用户无法加入 [33] - 目前生成的图片无法直接收藏为表情包,影响了用户的“斗图”体验 [35] - 基于腾讯的研发底蕴,预计这些问题将很快得到优化 [35] - 产品内测引发了用户自发的、热烈的参与行为,体现了将人、社交关系、内容和AI工具融合于一体的初步形态 [35]
3D领域的NanoBanana也来了,万物皆可用嘴操控。
数字生命卡兹克· 2026-01-26 10:31
核心观点 - AI驱动的3D内容创作与编辑正经历范式转变,从传统的专业软件手动建模转向通过自然语言提示进行“局部、可控、可回滚的增量修改”,这极大降低了3D创作门槛并提升了专业工作流程的效率 [7][8][12][42] 产品功能与技术亮点 - **产品定位**:Hyper3D的Rodin Gen-2被认为是第一个也是唯一一个能够通过自然语言提示编辑任意3D模型的AI产品 [8] - **核心功能**: - 支持上传任意第三方3D模型文件(如obj, fbx)并进行AI编辑 [9][15] - 支持通过图片生成3D模型 [13] - 提供“局部编辑”功能,用户可通过框选模型特定区域,并使用“添加、移除、修改”等指令进行精准编辑 [4][29][31] - **操作流程**:用户上传模型后,通过悬浮操作触发修改界面,以“水波纹”视觉反馈确认选择区域,随后输入文本指令即可完成修改 [24][26][28][29] - **生成速度**:从图片生成3D模型仅需几十秒 [20] 行业应用与价值主张 - **解决行业痛点**:传统3D模型修改流程复杂,涉及拓扑、UV、材质、骨骼绑定等多重属性,局部修改需求(如调整鼻梁高度、更换Logo)若推倒重来将导致大量关联工作失效,成本极高 [17][38][40][44][45] - **核心价值**:AI 3D编辑的核心价值在于对现有3D资产进行“局部、可控、可回滚的增量修改”,而非重新生成,这确保了模型底层结构(如骨骼绑定、动画)的完整性,符合专业生产管线要求 [40][42][44] - **应用场景**: - **游戏与影视**:角色模型需反复迭代,导演要求局部修改(如铠甲厚度、肩甲外扩)时,AI编辑可仅调整局部网格与材质,保持骨骼与动画可用 [44] - **电商与产品设计**:精确修改产品模型的特定细节(如杯子Logo、鞋带颜色),要求其他属性(厚度、圆角、比例)严格保持不变 [45] - **创意与原型制作**:支持模型融合(Remix),例如将“戴珍珠耳环的少女”与“墨镜”模型结合,并可通过3D打印快速实现实体化 [54][55] 市场趋势与生态 - **多模态AI发展**:图片领域有Nano Banana,视频领域有可灵o1,3D领域则由Hyper3D等产品跟进,标志着“用语言驱动一切”成为明确的行业趋势 [7][57] - **创作民主化**:AI 3D工具与消费级3D打印(如拓竹H2C)结合,使得从数字创作到实体物件的链条更加便捷,激发了更广泛的创作与个性化制造需求 [50][52][54] - **技术挑战**:跨模态转换(如图片转3D)存在信息漏损问题,当前生成的模型可能存在缺陷(如部件缺失、部件悬空),但可通过后续的AI编辑进行修补 [22][41]
我们花了两天时间,终于造出了能自我进化的Skills管理器。
数字生命卡兹克· 2026-01-23 10:00
文章核心观点 - 作者针对AI技能(Skills)管理中的痛点,开发并开源了一套名为“Skills管理三件套”的工具,旨在实现Skills的自动化管理和自我进化 [15] - 这套工具解决了从GitHub项目创建Skills、批量管理检查更新、以及基于使用经验自主迭代优化三大核心问题,使Skills库能够动态更新并积累经验 [15][42][82] Skills管理三件套解决方案 - **github-to-skills**:一个专用的GitHub项目转Skills工具,它在生成的SKILL.md文件中强制注入`github_url`和`github_hash`元数据,为每个Skill创建唯一的身份ID,为后续自动化管理奠定基础 [16][44][52][56][62] - **skill-manager**:作为Skills的大管家,具备三大功能:1) 查询并列出所有本地Skills的类型、描述和版本;2) 监控基于GitHub的Skills版本状态,通过对比本地与远程哈希值来标识“最新”或“过期”;3) 提供一键删除Skills的管理功能 [17][64][66][67][69][71] - **skill-evolution-manager**:负责根据对话反馈和使用经验优化迭代Skills,它将经验数据独立存储于自定义的`evolution.json`文件中,当主SKILL.md文件被新版本覆盖后,能自动将存档经验重新注入,实现Skills的持续进化而不丢失历史调优成果 [16][35][36][38][75][79] 工具解决的问题与效果 - **解决Skills更新与维护难题**:手动管理GitHub项目打包的Skills更新繁琐,新工具能自动检查更新状态并执行升级,例如检查出`company-claude-skills`状态为“过期”,而`yt-dlp`状态为“最新” [11][20][21][22][23][26] - **解决经验迭代与版本更新的冲突**:通过分离主技能文件(SKILL.md)和经验存档文件(evolution.json),确保从GitHub拉取的新版本不会覆盖用户在使用中积累的Bug修复和优化经验,实现了“游戏存档”式的经验保留机制 [28][29][32][34][35][37] - **提升管理效率与体验**:用户只需通过自然语言指令(如“帮我检查一下所有的Skills状态”、“开始升级”)即可完成批量扫描、状态报告和升级操作,全程自动化,无需手动干预 [21][26][40][74] 项目现状与开源分享 - 作者已将这三个Skills工具开源,发布在GitHub仓库“Khazix-Skills”中,供社区自由下载和使用 [88][89][90] - 该仓库在文章发布时已包含`github-to-skills`、`skill-manager`和`skill-evolution-manager`三个核心技能,并获得了1个star,但尚无fork或已发布的版本 [90][100] - 作者承认该方案可能并非完美,但希望其思路能起到抛砖引玉的作用,推动社区共同探索更好的Skills管理实践 [13][43][86][89][92]
一个被忽视的Prompt技巧,居然是复制+粘贴。
数字生命卡兹克· 2026-01-22 11:09
文章核心观点 - 一种名为“提示词重复”的简单技巧能显著提升非推理类大语言模型的回答准确率 该方法仅需将用户问题原样复制粘贴一遍 无需添加任何额外指令或解释 根据谷歌论文的实验结果 在70个基准模型组合测试中 该方法在47个组合中胜出 其余23个打平 无一失败 部分任务准确率可从21%飙升至97% [1][5][7][25] - 该技巧主要适用于非推理模型 对已具备思维链能力的推理模型效果有限 其原理在于大模型是因果语言模型 重复问题为模型提供了“回头看”的机会 使其在第二次处理问题时能结合第一次的全部信息进行更准确的表征和判断 [14][28][30][31] - 这一发现挑战了人们对提示词工程复杂化、玄学化的普遍认知 表明对于许多纯粹的问答场景 最简单直接的重复操作可能是最有效的优化手段 其思想可类比人类社会的复述、强调等行为 并可能影响未来模型的训练与推理优化方向 [45][46][48][51][52] 实验设计与方法 - 谷歌的研究测试了七个主流非推理大模型 包括Gemini 2.0 Flash、Flash Lite、GPT-4o、GPT-4o-mini、Claude 3 Haiku、Claude 3.7 Sonnet以及DeepSeek V3 均通过官方API进行测试 [13] - 测试任务涵盖多个常见基准数据集 如ARC、OpenBookQA、GSM8K、MMLU-Pro、MATH等 并包含两个自定义任务:NameIndex和MiddleMatch 用于测试模型在列表索引和中间匹配场景下的表现 [18][19][20] - 实验方法极为简单 仅将原始查询模板从“<查询>”改为“<查询><查询>” 即在原问题后不加任何修饰地直接重复一遍问题本身 然后对比两种方式下模型的回答准确率 [22][23] 实验结果与数据 - 提示词重复方法在70个基准模型组合测试中赢得了47次 其余23次打平 没有一次失败 所有测试模型的性能均得到了改善 [7][25] - 性能提升显著且广泛 在某些任务上 模型的准确率从21.33%大幅提高至97.33% [1][7] - 衍生实验表明 将提示词重复三遍也能带来类似的性能提升效果 [27] 技术原理阐释 - 大语言模型通常采用因果语言模型架构 在生成下一个词时只能看到之前的文本 无法前瞻后续内容 [28][29] - 当问题被重复时 例如从“Q”变为“Q1Q2” 模型在处理第二个问题“Q2”的每个词时 其注意力机制可以“看到”第一个问题“Q1”的全部内容 这相当于为模型提供了一次回顾和重新思考整个问题的机会 [30][31] - 通过一个选择题的例子进行类比说明:第一次阅读选项时 模型缺乏后续的场景信息作为判断依据 而当问题重复后 模型在第二次处理选项时 已经携带了第一次获得的完整场景信息 从而能做出更准确的判断 [34][36][37] 适用性与影响 - 该技巧主要对非推理模型有效 例如DeepSeek V3 而对于像DeepSeek R1这类具备深度思考能力的推理模型效果不明显 因为推理模型在思考过程中已经自发地学会了复述问题这一技巧 [14][40][41] - 非推理模型与推理模型的核心区别在于速度与准确性的权衡 非推理模型响应速度快但准确性相对较低 推理模型准确性高但速度慢 提示词重复技巧可以在不牺牲非推理模型速度的前提下 大幅提升其准确性 因此在许多实际应用场景中具有重要价值 [15][17][18] - 这一发现促使人们重新思考提示词工程的价值 对于许多短问题问答场景 复杂的提示词结构可能并非必要 最简单的重复操作可能带来最显著的收益 [45][50][51] 未来展望与引申思考 - 论文提出了未来的研究方向 包括将提示词重复结构融入模型的预训练或微调流程 优化推理阶段的键值缓存以提升效率 尝试只重复提示词的关键部分 以及探索在多模态输入上的应用等 [52] - 文章将这一技术原理引申至人类行为与社会现象 指出重复是人类社会中普遍存在的强化认知和情感的手段 如复述、强调、朗诵、宣誓等 人工智能世界的规律在某种程度上是高度压缩后的人类世界规律的反映 [55][62][65] - 最终 文章建议在面对复杂问题或混乱情境时 无论是与AI交互还是处理个人事务 重复核心信息以聚焦重点可能是一种简单而有效的策略 [66][67][68]
Skills的最正确用法,是将整个Github压缩成你自己的超级技能库。
数字生命卡兹克· 2026-01-21 10:18
文章核心观点 - 利用先进的AI Agent平台(如Coze、OpenCode、Claude Code)及其Skills功能,可以将GitHub上成熟的开源项目快速封装成可调用的技能,从而让普通用户无需深厚技术背景也能便捷地使用这些强大工具,极大地扩展个人能力边界 [3][8][43] 方法论:将开源项目Skill化的具体流程 - 提出明确需求,使用具备强大搜索能力的AI模型(如GPT-5.2 Thinking)在GitHub上寻找对应的经典开源项目 [9] - 获取项目链接后,在支持Skills的AI开发环境中(如装有`skill-creator`的OpenCode),指示AI将该项目打包封装成一个Skill [11][12] - 建议在封装时先让AI进行规划(Plan模式),以提高成功率和后期稳定性 [12] - 首次运行封装好的Skill时,推荐使用GPT 5.2 Codex以获取更好体验,AI会指导解决运行中遇到的环境配置等问题 [22][24] - 将首次运行积累的经验和解决方案反馈给AI,让其更新Skill文件,从而实现后续使用的快速启动和固化 [29][30] 成功案例与应用场景 - **视频下载**:将拥有143k星标、支持上千个网站的`yt-dlp`项目封装成Skill,实现快速视频下载,首次运行后再次使用仅需十几秒 [10][18][28] - **网页转桌面应用**:将拥有45k星标的`Pake`项目Skill化,可一键将网页项目打包成轻量级桌面APP [33][35] - **格式转换**:将多个顶级格式转换开源项目(如FFmpeg、ImageMagick)封装成一个万能格式转换Skill,解决多种格式转化需求 [4][37] - **网页存档**:将`ArchiveBox`项目转为Skill,可以多种格式保存想要存档的网页 [37][38] - **密码破译**:将著名的`Ciphey`项目转为Skill,可在本地配合Agent进行密码破译 [39] 核心理念与价值主张 - 避免重复造轮子,直接利用开源世界数十年的积累,将经过时间考验、稳定高效的开源项目转化为个人可用的技能 [2][3] - AI和Skills技术降低了使用高级开源工具的门槛,使普通用户能够跨越复杂的环境部署和命令行操作障碍 [2][3] - 通过将开源项目Skill化,个人可以构建一个强大的、个性化的技能弹药库,背后是“全人类过去数十年的积累” [41][43] - 这种方法将曾经遥不可及的强大工具变得触手可及,显著扩展了个人的能力范围,创造了新的可能性 [42][44]
火爆全网的Skills,终于有了最简单的打开方式。
数字生命卡兹克· 2026-01-20 10:18
扣子2.0版本核心更新 - 产品更新至2.0版本,并更换了logo [1] - 本次更新引入了两个被作者认为非常实用且及时的核心功能:Skills(技能)和长期计划 [4] Skills(技能)功能详解 - Skills被视为继2024年Prompt工程、2025年上下文工程之后,2026年可能兴起的“Skills工程” [4] - 此前Skills功能主要集成在如OpenCode、CodeX、Antigravity等编程工具中,对普通用户门槛较高 [4] - 扣子作为一款Agent产品,集成Skills功能顺理成章,大幅降低了普通用户使用和创建Skills的门槛 [4] - 用户可通过在对话框输入“@”键来调用已拥有的技能 [4] - 官方内置了大量开箱即用的技能,涵盖写作、制作PPT、设计、视频处理等领域 [6] - 用户也可以使用他人创建并上架到技能商店的技能 [7] Skills的创建与抽象化价值 - 作者强调,未来个人的核心竞争力在于能否将重复性需求抽象成Skills并集成到主Agent中 [7] - 任何需要重复3次及以上的非沟通类任务,都应该被Skill化 [7] - 扣子平台的核心价值之一是帮助用户以极低成本将个人经验Skill化 [7] - 平台提供了两种创建技能的方式,分别面向普通用户和专业用户 [7] 面向普通用户的“口喷式”Skills开发 - 这是扣子上主流的技能构建方式,用户通过自然语言描述即可创建技能 [8] - 例如,用户可以将著名的开源多媒体处理工具FFmpeg的GitHub链接发给AI,要求其打包成一个用于视频格式转换、分辨率修改等功能的Skill [9][10][13] - 构建过程约需一两分钟,部署后即可在对话中调用 [14][15][19] - 实际测试中,调用该技能将一段视频转换为小于10MB的GIF,耗时仅几十秒,效果符合要求 [21][23] - 用户还可以将多个相关开源项目(如FFmpeg和ImageMagick)合并,创建一个能同时处理视频和图片的复合型Skill [24][25][27] - 此类复合技能可处理复杂连续任务,例如按要求将图片转为指定格式并调整视频分辨率,全程自动化处理仅需约2分钟 [29] - 创建好的技能可以上架到技能商店供所有用户使用 [30][32] 面向专业用户的Skills迁移 - 对于已通过Claude Code或OpenCode等工具创建了大量Skills的专业用户,扣子支持直接上传技能文件包(.zip或.skill格式)进行迁移 [33] - 系统会自动识别并创建技能,实现从其他平台到扣子的无缝平移 [33][37] - 目前部分迁移技能的运行成功率尚有优化空间 [38] Skills功能的当前局限与展望 - 目前扣子2.0上的技能只能单独使用,尚不支持多个Skill之间的互相结合与调用,这在一定程度上限制了其能力 [40] - 该更新对于降低Skills使用门槛、推动其普及具有重要作用 [39] - 补齐技能联动等关键短板后,AI助手的能力将得到质的飞跃 [58][60] 长期计划功能详解 - 长期计划功能允许用户为AI设定一个长期目标,AI会将其分解为可执行的步骤,用户只需按计划执行 [42][43] - 例如,用户可以创建一个“2026年全年健康执行路径规划”,AI会先了解用户当前身体状况,然后生成详细的阶段性规划书 [50][54] - 规划书内容系统,包含整体目标、阶段划分、关键里程碑和量化追踪指标体系等 [54] - AI会自动将计划任务添加到日程中,并在设定时间通过网页端弹窗提醒用户 [55] - 在计划执行过程中,用户可以通过与AI对话来不断调整和优化计划 [55] 长期计划功能的当前局限 - 目前计划提醒仅支持网页端,扣子的APP端尚未支持该功能的通知 [55] - 在移动端使用长期计划被认为是刚需,预计APP端支持会很快更新 [57]
飞书合作的第一款AI硬件来了,居然是个AI录音豆。
数字生命卡兹克· 2026-01-19 10:28
产品发布与核心定位 - 飞书与安克创新合作发布首款AI硬件产品,命名为“AI录音豆” [1] - 产品采用“硬件+软件+AI服务”的合作模式,安克创新负责硬件,飞书提供软件与AI服务 [3] 产品设计与形态 - 产品主体为小型圆形“录音豆”,具备磁吸功能,可夹在衣领或吸附于金属表面 [5][14] - 配套磁吸充电舱可为录音豆充电,产品形态区别于传统的“AI录音卡片” [6][13] - 产品尺寸小巧,约与旧版一元硬币相当,重量约为两枚一元硬币 [18][20] - 采用单按键机械结构设计,按键状态(自锁/弹出)清晰,便于盲操作交互 [20] 核心功能与使用场景 - 核心功能为录音,并通过飞书进行AI转写、总结,生成智能会议纪要 [27][30] - 支持实时翻译功能,适用于如英文发布会等场景 [40] - 产品定位为解决传统AI录音卡片与手机无线充电冲突的痛点 [11] - 适用于线下会议、访谈、电话等多种需要录音与内容整理的场景 [8][40] 性能与续航 - AI录音豆单次续航约为7至8小时 [25] - 配合充电舱(电量320毫安时)使用,总续航时间可达约32小时 [25] - 录音质量进行了底噪抑制和人声强化,在十人会议室各角落均可清晰拾音 [27][40] - 录音文件自动同步至云端,开启“快速传输”功能可将传输速度提升约10倍,数小时录音传输约需3分钟 [25][26] 飞书生态集成与优势 - 录音内容经飞书处理后可生成包含卡片总结、表格对比的可视化智能会议纪要 [28][30][33] - 通过“飞书妙记”功能生成区分说话人的高精度逐字稿 [35] - 所有录音及生成的文字内容可自动存入“飞书知识问答”库,形成企业知识沉淀并支持后续问答 [24][37][39] - 对于飞书企业用户,该硬件生成的数据能无缝进入现有工作流与知识体系,实现从录音到知识复用的闭环 [22][24][40] 用户体验与市场定位 - 产品解决了飞书用户需手动打开APP录音的繁琐操作,硬件一键操作更为便捷 [20] - 对于深度使用飞书的组织,该产品能显著提升信息记录、整理与知识管理的效率 [36][40][43] - 产品售价为899元,附赠6个月免费会员,后续可继承用户原有的飞书AI额度,对飞书企业会员具有吸引力 [41]
火爆全网的《卢浮宫小猫》AI视频万字创作心得分享,这可能是他们最毫无保留的一次。
数字生命卡兹克· 2026-01-16 09:25
文章核心观点 - 文章详细记录了数字艺术家海辛与阿文为浦东美术馆卢浮宫大展创作AI宣传片《卢浮宫小猫》的全流程,分享了从创意、选角、定调、音乐、分镜、美术到动画的完整方法论与实战经验,旨在展示AI工具在专业影视创作中的高效应用与艺术潜力 [8][9][24] - 创作者强调,尽管当前AI模型能力强大且便捷,但专业创作者更应借此追求更高的艺术标准,通过深入的手工构思与分次迭代来控制作品质量,而非依赖AI代理一键生成,模型越方便越要逼自己做得更好 [165][166] 选角与故事设定 - 项目最初主角设定为与浦东美术馆黑白主题色匹配的奶牛猫,故事围绕一幅油画展开,但因宣传周期长需两支短片,追车情节会导致调性偏离“美术馆官方宣传片”气质而被整体弃用 [27][28][30] - 最终确定主角为一白一橘两只猫,白猫代表法国,橘猫延续其作为“上海代言”的属性,此设定既保证了主角视觉明亮以吸引观众眼球,也呼应了之前的作品系列 [32] - 影片分为上下两支,上半支讲述法国小白猫来上海的故事,下半支讲述浦东代言橘猫去看展的故事,两支短片均围绕实际展品(孔雀纹样盘与“赛诗会诗版”)进行叙事设计 [19][20][22] 影片定调与音乐设计 - 创作早期即确定影片“调性”,包含核心画面影调与音乐两部分,音乐能直接引导观众感受并反向决定剪辑节奏 [36] - 受浦东美术馆“镜厅”启发,确立了“镜像”核心概念,用以结构卢浮宫与浦东美术馆、上海与巴黎、两只小猫之间的关系,早期探索了分屏动画形式 [39][41] - 主乐器选择钢琴,原因一是其干净的和弦与“水波纹”倒影质感联想契合,二是镜厅的格子结构让人联想到钢琴键盘的秩序感 [46] - 叙事类短片配乐需要“弧线”以匹配故事的起承转合,结构包括开篇引入、展开叙述、转折、高潮旋律和专门补写的收尾(outro) [47][49] - 使用Suno生成和编辑音乐,因其可对片段进行细致控制,如规定旋律长度和特定时间点的情绪,并通过调整“音频影响度”(Audio influence)在保留基础旋律上进行变奏,例如为上海篇加入萨克斯以营造老上海爵士感 [50][52] 分镜构思与叙事节奏 - 开篇分镜要求“信息量高”,力求在前三个镜头内讲清故事,例如第一个镜头暗示故事核心(如猫与海报),第二个特写介绍主角,第三个全景交代环境与镜像关系 [57][59][60] - 分镜节奏感来自景别的变化,避免全景接全景的单一感,通过全景与特写的切换形成收放感,并用简单动画引导观众视线 [62] - 在展示白猫喜爱孔雀纹样盘的奇幻段落中,通过镜头运动与构图设计引导注意力:用卢浮宫经典雕塑(如胜利女神像)作背景点缀,采用极端仰拍使前景白猫占据更大体积,强迫观众关注猫的同时识别地点 [67] - 为保持观众注意力始终跟随主角,会刻意拿掉容易“抢戏”的元素,如画框中的人像 [70] - 高潮后的“回转现实”处理简洁,通过切回猫的特写再切至客观镜头,让观众明白奇幻段落源自猫的幻想 [71] - 对于信息量大的段落(如展品运输),采用蒙太奇和分屏处理,并避免出现人脸以防止观众注意力被转移 [76] - 转场设计注重“意向连续”,例如前后镜头都出现飞机意向,即使风格从写实跳至马赛克艺术也不会让观众感到突兀 [83] 美术风格与AI工具应用 - 美术原则是“第一眼要好看(电影感),第二眼要耐看(丰富的细节)” [97] - 为契合卢浮宫伊斯兰艺术展主题,深入研究了该艺术风格,并总结出“伊兹尼克风格”(Iznik style)和“马赛克艺术”(Mosaic art)等高效关键词 [96] - 选对AI模型被类比为“选对乙方”,目前生图主力是Nano Banana Pro,也用于大部分修改,部分配合Photoshop手动细调 [100] - 展示了AI高效修改的能力,例如项目中途将主角从黑猫全部改为白猫,使用早期工具耗时一天半完成所有镜头修改,而使用Banana Pro后可通过一句话指令批量完成,效率更高 [102][105][107] - 提示词撰写趋向简化,依赖模型的多模态理解能力,例如直接上传图片让AI提取元素并转换风格,而非撰写长篇提示 [111] - 对于复杂创意(如“猫在水边跑,倒影是孔雀”),必须分步迭代:先构建透视草图,生成基础场景;再逐步添加细节(如铺地砖、加入展品);最后处理动画,而非一次性交给AI生成 [120][122][123][124][127][129] - 提升AI合成成功率的技巧包括:先裁剪素材再生成以使模型更聚焦;对于需要多次复用的主体(如猫、蝴蝶),先将其提取到纯色背景再更换背景,避免模型“吃掉”主体或改变其外观 [132][137] - Photoshop的“协调”功能在合成时用于自动匹配环境光影,提升效率,但整体使用频率在降低 [141][143] - 对于需要高度确定性的地标或展品镜头,常采用将AI生成的猫合成到真实场景照片上的方法 [131] 动画制作与视频工具 - 主力视频工具是Google的Flow,常用模型是Veo 3.1,因其画面更具电影感,辅助使用可灵、海螺、即梦、万相、Ruma等 [147] - Flow的涂鸦功能可有效指导角色动作,例如在首帧上画运动路径并附加提示词,能让猫按指定方向走出画外 [149][152] - 认为当前已进入可以“P视频”的时代,Flow的隐藏编辑功能允许在生成视频中添加、删除元素,甚至改变摄像机运镜 [150] - Luma的Ray3在测试中表现出强大的视频合成与质量提升能力,但生成速度较慢 [153] - 万相(Wan)2.6的“新建角色”功能对动物角色生成效果出色,能基于一段模糊视频创建高清、被“主人认可”的角色,并用于新场景表演 [154] - 制作落版(结尾)微动效时,有时会选用动态幅度较小的上一代模型,以避免新模型过度发挥导致动效夸张 [157] 创作流程与废稿反思 - 创作流程遵循“先定画面与音乐调性,再推进分镜”的顺序 [34][36] - 对于关键镜头,采用“先确定尾帧(高潮画面),再反推设计首帧和镜头运动”的方法,以收敛想象,使镜头可控 [70] - 在情节未完全确定时,会用Sora等工具跑样例以快速测试节奏和构图,但最终是否采用取决于其是否符合既定影调与叙事逻辑 [80] - 废稿量巨大,尤其在效率工具升级后探索更多,例如曾尝试制作上海特色的“蝴蝶酥”镜头、卢浮宫内的夸张动效以及利用光影构成蝴蝶的创意镜头,均因动态实现困难或风格不符“低调奇幻”的基调而放弃 [160][162][164][167]