歸藏的AI工具箱
搜索文档
我复刻了 Claude 刚发布的生成式 UI 交互!
歸藏的AI工具箱· 2026-03-15 17:24
Anthropic推出生成式UI交互功能 - Anthropic在Claude中上线了基于生成式UI的新交互方式,能够在聊天信息流中以可视化方式介绍概念和信息,比纯文本更易理解[1] 生成式UI的核心功能与体验 - 该功能允许AI直接在聊天中绘制交互式图表,并实现流式输出,边生成边渲染,用户可观看图表在画布上逐步绘制的动态过程[5] - 生成过程完成后,用户可直接与生成的图表进行交互,而非静态图片[6] - 该功能与模型结合紧密,用户可与生成的示意图交互并要求模型进行更深入的解释[17][19] 生成式UI的具体应用场景 - **数据分析可视化**:可将复杂数据(如“美国和伊朗冲突每天成本估算”)转化为图表,使数字关系一目了然,实现文字与图表混合输出[7] - **创建交互式小工具**:例如可生成一个复利计算器,用户可通过拖拽滑块修改初始金额、投资年限等参数,下方的图表和数字会实时变化[10] - **绘制技术架构图**:可帮助程序员可视化项目架构或实现方案(如API到JWT身份验证的完整流程),通过图形化呈现特性对比、流程图和层级结构,加快理解速度[12] - **分析线上项目数据**:例如,向AI发送GitHub仓库链接,AI可自动抓取数据并可视化分析星数、fork数、技术栈、架构设计、核心模块等信息[14] - **教育辅助**:可用于物理、数学等复杂公式的可视化,学生可通过滑块和输入框调整参数,动画会立即发生相应变化[21][22] 生成式UI的技术实现方案 - **Claude官方方案**:Claude.ai采用`tool_use`机制,模型调用专用工具输出结构化的小部件内容,前端解析工具调用的输入参数进行渲染[26] - **CodePilot的替代方案**:由于Claude Agent SDK在`preset: 'claude_code'`模式下无法注册自定义工具,且`tool_use`方案不支持流式体验下的HTML增量渲染,因此选择了不同的技术路径[26][27] - **触发机制**:模型通过输出特殊的Markdown代码围栏(`show-widget`)来触发前端渲染[32] - **渲染与隔离**:每个小部件在一个`sandbox="allow-scripts"`的`iframe`中渲染,实现了彻底的JavaScript执行环境隔离,并通过CSP策略精确控制资源加载,防止样式泄漏和脚本逃逸[30][31][32] - **主题同步**:通过CSS变量桥接层,将CodePilot基于OKLCH色彩空间的CSS变量值注入`iframe`,使小部件能自动适配应用的深色/浅色主题[33][34] - **流式渲染处理**:这是实现中最复杂的部分,需要处理模型逐token生成时可能不完整的JSON、HTML或`<script>`标签,并采用120ms防抖等技术优化体验[36] 多模型支持与性能表现 - CodePilot实现的生成式UI功能不仅支持Anthropic原生模型,也支持国产模型如Kimi K2.5和Minimax M2.5[24] - 在图形绘制方面,Kimi K2.5的表现被认为甚至优于Anthropic的Sonnet 4.6模型,其架构分析也很详细,因此被推荐为首选尝试模型[24] 实现过程中的体验优化挑战与解决方案 - **文字消失问题**:修复了因解析函数处理不当导致小部件围栏出现时其前的介绍文字突然消失的问题[42][43][44][45] - **高度跳变问题**:通过在小部件首次报告高度时临时禁用CSS过渡动画,解决了渲染瞬间聊天区域抖动的问题[46][47][48][49][50] - **最终渲染闪烁**:通过比较新旧可视化HTML内容,在内容相同时跳过DOM整体替换,仅追加执行脚本,实现了纯SVG小部件的零重绘最终渲染[51] - **滚动回跳问题**:通过引入模块级高度缓存,使新组件实例能读取缓存中的正确高度进行初始化,避免了因高度从0开始变化而触发的滚动调整[51] - **脚本代码泄露**:通过检测并处理流式传输中不完整的`<script>`标签,防止JavaScript代码被浏览器渲染为可见文本,并在处理期间展示加载状态提示[51] - **小部件渲染失败**:通过为`iframe`元素添加`onLoad`回调作为兜底机制,确保能可靠检测到小部件就绪信号,解决了因事件监听时序问题导致的渲染失败[52] - **组件树稳定性**:通过为流式部分的小部件计算稳定的React key,并将加载指示器移至组件内部控制,避免了因key值或组件结构变化导致的重渲染闪烁[52]
小米做了个能在手机上跑的"小龙虾 (Openclaw)":Agent 终于能接触现实世界
歸藏的AI工具箱· 2026-03-09 17:52
公司产品发布与定位 - 小米发布了Xiaomi miclaw,这是国内首个手机端类“OpenClaw”智能体[2][6] - 该产品将原本主要在电脑上运行、技术门槛高的智能体(Agent)能力带到了手机上,使其随时随地可用,并通过自然语言交互[5][7] - Xiaomi miclaw深度整合了小米的10亿级设备生态,使其能够感知和干预现实世界[7][8][9] 产品核心功能与能力 - 产品具备类似OpenClaw的Skills、MCP(模型上下文协议)、定时任务和人格设定功能[6] - 支持通过自然语言创建和编辑定时任务与自动化场景(Skills),无需复杂配置或编写代码[24][31][41] - 能够获取并控制用户家中所有的米家设备状态,实现智能联动[17][18][22] - 支持获取手机位置、搜索信息(如天气、新闻)并整合,同时能控制系统级应用如笔记、日历[20][43] 应用场景案例 - **智能早安管家**:通过一句话设置,让小爱音箱在早上播报天气、新闻、家中温湿度,并自动调节加湿器或空调,播放情景音乐,实现自然唤醒[14][15][18][26] - **智能离家模式**:用户用自然语言描述需求(如“离家”),AI自动创建Skills,检查并关闭开启的电器(如灯、空调、加湿器),并启动安防监控[30][31][35][36] - **智能会议助手**:通过语音指令控制录音,后续可生成包含概览、详细转录文本的会议纪要,并自动提取待办事项、添加日历日程[44][45][46] 技术实现与生态优势 - 小米自研了MiMo模型,结合其硬件和系统,掌握了从模型、芯片到系统、硬件的完整技术栈[52][53] - 公司的10亿级设备生态正转变为AI接触物理世界的触手,设备越多,AI能获取的数据和可执行的操作越多,形成“设备越多,AI越聪明;AI越聪明,设备越有价值”的正向循环[28][42][49] - 产品采用本地和文档优先的系统设计,Skills存储在本地Memory文件夹中,便于管理和更新[33][37] 行业竞争与战略意义 - 在AI需通过硬件接触物理世界的趋势下,同时拥有模型、硬件和系统才能建立完整护城河,而仅有硬件或仅有模型都存在短板[54][56][57] - 小米的转型逻辑从销售硬件转变为搭建AI基础设施,其线下硬件优势是OpenAI、Anthropic等纯软件AI公司所不具备的[49][50] - 未来小米汽车可能成为AI进入物理世界的重要移动载体,进一步扩展其生态和控制场景[27][28][49]
让你的 ClaudeCode 秒变 Openclaw(龙虾),连接飞书、Discord 远程控制
歸藏的AI工具箱· 2026-03-05 22:14
Codepilot项目开发进展与功能 - 项目在16天内发布了40个版本,完成了220次提交,开发效率极高[1] - 项目定位已从最初的Claude Code桌面端扩展为支持一系列Agent功能的综合性工具[2] - 项目集成了Claude Code桌面端、Cowork以及OpenClaw的功能,并声称比OpenClaw更安全且更适合小白用户[2] Codepilot项目核心功能特性 - 支持飞书等即时通讯工具的远程连接[3] - 提供可视化配置界面,用于管理所有Code plan套餐[3] - 集成了由“藏师傅”编写的设计Agent和素材库[3] - 支持多个Agent并发运行,并提供分屏显示功能[3] - 内置Token使用检测看板,用于监控资源消耗[3] - 提供一键安装Claude Code的功能[3] - 支持MacOS和Windows全平台[3] 衍生开源项目:Claude-to-IM-skill - 该项目旨在将Claude Code对话远程连接到飞书、Discord等即时通讯工具,实现外部交互[4] - 核心功能包括无需编写代码,通过运行`/claude-to-im setup`命令即可完成安装与配置[6][7] - 支持三大IM平台:Telegram、Discord和飞书,用户可以任意组合启用[8] - 提供交互式配置向导,Claude会通过详细指引引导用户完成token获取等设置,降低使用门槛[8][9] - 具备权限控制功能,工具调用需在聊天中通过内联按钮明确批准[8] - 支持流式预览,可在Telegram和Discord上实时查看Claude的输出[8] - 支持会话持久化,对话在守护进程重启后得以保留[8] - 注重安全,token以`chmod 600`权限存储,并在日志中自动脱敏[8] - 可通过命令`npx skills add op7418/Claude-to-IM-skill`进行安装[11] 衍生开源项目:Claude-to-IM(面向开发者) - 该项目主要面向基于Agent SDK进行产品开发的开发者,帮助他们快速接入多个IM平台以实现远程控制[11] - 支持多平台适配器,包括Telegram(长轮询)、Discord(Gateway WebSocket)和飞书(WSClient)[15] - 实现流式预览,通过消息编辑呈现实时响应草稿,并支持按平台定制的节流策略[15] - 权限管理通过交互式内联按钮实现,可对Claude Code工具调用进行审批(允许/拒绝/本次会话允许)[15] - 采用会话绑定机制,每个IM聊天会话映射到一个持久化的Claude Code会话,并支持工作目录和模型配置[15] - 支持Markdown渲染,并针对不同平台采用原生格式化方案:Telegram用HTML、Discord用其风格Markdown、飞书用富文本卡片[15] - 具备可靠的消息投递机制,包括按平台限制自动分块、指数退避重试、HTML降级和消息去重[15] - 内置多重安全机制,包括输入验证、令牌桶速率限制(每个聊天每分钟20条)、用户授权白名单以及完整的审计日志[15] - 设计为宿主无关,通过4个依赖注入接口抽象了所有宿主依赖,不绑定特定的数据库驱动、LLM客户端或框架[15]
光年之外居然做了能用Skills的AI浏览器:超实用实用案例+现成脚本
歸藏的AI工具箱· 2026-03-03 17:43
文章核心观点 - 光年之外团队推出的Tabbit浏览器是国内首款从底层重新设计的原生AI浏览器,旨在填补国内市场空白,将AI深度融入浏览器使用场景,通过五大核心功能显著提升用户的信息收集与内容生产效率 [1][3][4] - 该产品通过对话、妙招、智能代理、语义化收藏夹和智能标签管理等核心功能,将浏览器从被动工具转变为能理解用户意图、自动执行复杂任务的主动助手,代表了浏览器与AI融合的新趋势 [4][76] - Tabbit浏览器针对国内市场进行了深度适配,解决了海外同类产品对国内网站支持差、访问受限等问题,并支持多模型切换和数据本地存储,满足了企业及个人用户的特定需求 [76] Tabbit浏览器核心功能总结 - **对话(Chat)**:用户可在新标签页或侧边栏与AI对话,支持引用网页、标签组、收藏夹及本地文件作为上下文,并可自由切换国内主流AI模型 [4][16] - **妙招(Skills)**:包含提示词、智能代理和脚本三类,用户可将重复性任务(如旅行规划、数据收集)转化为带变量的可复用模板,实现“一次设置,永久复用” [4][32][33][40] - **智能代理(Agent)**:AI可自动操作网页(如筛选信息、填写表单),操作过程可视化,用户可并行处理其他任务,适用于航班酒店预订、信息搜集等复杂流程 [4][23][24][27] - **收藏夹(Favorite)**:支持收藏网页和图片,并利用AI对内容进行语义标注,用户可通过自然语言聊天快速检索已收藏内容,有效解决“收藏即吃灰”问题 [4][41][44][46] - **标签管理(Tab Group)**:能基于网页内容(而非仅网址)智能地对数十个标签页进行自动分组和云同步,为后续信息整理提供结构化基础 [4][8][10][12] 产品应用案例与效率提升 - **信息整理与内容生成**:用户打开十几个相关网页后,AI可一键智能分组,并基于分组内容快速整理事件时间线、各方观点,最终生成社交媒体稿件,将原本可能需要半小时的手动整理过程缩短至约3分钟完成 [5][6][7][8][17][20][22] - **自动化任务规划**:通过智能代理,用户可用语音或文字输入复杂需求(如特定机型、时间、地点的航班酒店搜索),AI自动操作携程等网站完成筛选比价,用户无需干预操作过程 [23][24][27][29] - **设计素材管理**:设计师可收藏图片,AI自动生成画面描述,用户通过自然语言(如“找现代简约客厅参考图”)可快速检索图片素材,甚至一次性获取多层面参考图,极大提升素材查找效率 [41][44][46][49] - **网页个性化改造**:通过“脚本”类妙招,用户可用自然语言描述需求,AI生成代码脚本,从而为任意网页添加功能(如阅读模式、视频网站增强),实现深色主题、广告屏蔽、表单自动填充等个性化改造 [59][60][62][64][70][71] 产品竞争优势与市场定位 - **深度本土化适配**:与海外AI浏览器相比,Tabbit对微信公众号、B站等国内网站有良好支持,能读取复杂内容,且在国内可直接访问使用 [1][76] - **技术架构优势**:产品是从底层重新设计的原生AI浏览器,而非基于Chrome的插件或简单封装,保证了性能与基础浏览体验 [1] - **灵活性与可控性**:支持切换多种国内主流AI模型,数据可本地存储,满足了企业用户对数据安全与模型选择的需求 [16][76] - **商业模式**:目前产品完全免费向用户开放 [1]
过了个年,AI 圈变天了?但没人告诉你为什么
歸藏的AI工具箱· 2026-02-25 12:28
AI Agent技术栈的演进与核心变化 - 2026年初AI领域的关键变化在于AI从一个问答工具转变为能自主执行任务的劳动力,其工作模式从“用户提问-AI回答-用户执行”转变为“用户描述意图-Agent自主拆解任务、调度子Agent、连接工具、并行探索、判断质量并交付成品”[17] 第一层:大脑(模型能力)的质变 - 2026年2月5日,Anthropic和OpenAI同日发布Claude Opus 4.6和GPT-5.3 Codex新模型,编程能力显著提升,GPT-5.3 Codex在多个权威编程测试刷新纪录且资源消耗更少[19][20] - 新模型开始具备“判断力”和“品味”,能自主判断并组合使用工具,而非机械地按指令调用[21][22][23] - 模型持续工作能力大幅增强,METR机构测试显示AI独立完成专家级任务的时长从一年前的约10分钟,增长至2025年11月的近5小时,且该数字约每4到7个月翻一倍[25][26][27] - 上下文窗口显著扩大,Claude Opus 4.6和DeepSeek等模型已支持100万token的上下文窗口,足以容纳整个大型项目的代码和文档[29][30] - AI开始参与自身创建过程,GPT-5.3 Codex是首个参与自身创建过程的模型,OpenAI用其早期版本调试训练、管理部署和诊断测试,Anthropic CEO表示AI在写公司“大部分的代码”,且反馈循环在“逐月加速”[31][32][33] 第二层:手脚(执行与连接能力)的扩展 - Agent从云端对话框转向本地运行,以Claude Code为代表的新一代编程Agent运行在用户本地电脑终端,可直接读取本地所有文件和数据,使用户数据与模型解绑,上下文归属用户而非厂商[38][39][40][41][42][43][44] - MCP(Model Context Protocol)协议成为连接外部服务的关键基础设施,该开源协议由Anthropic推出,并得到Anthropic、OpenAI、Google三家在2025年底联合推动,实现了外部服务(如GitHub、Slack、数据库)的即插即用连接[47] - Skills(技能包)机制改变了Agent能力获取方式,社区可将专业知识打包成可共享的Skill(如前端开发、数据分析),Agent按需加载,其能力上限由社区而非开发公司决定[49][50][53][54][55][56] - Agent开始具备个性化记忆,Claude Code通过项目级CLAUDE.md文件记忆项目规范,而OpenClaw工具则通过SOUL.md、USER.md、MEMORY.md等本地纯文本文件管理Agent人格和用户长期记忆,实现了“主权AI”[59][60][61][62][63][64][65] - Agent能够调用本地命令行工具,如ffmpeg、ImageMagick、git等,抹平了使用这些强大专业工具的技术门槛,用户只需描述需求[67][68][69][70][71][72] - Agent获得操作图形界面的能力,OpenClaw可以让Agent像人一样操作手机和电脑上的图形界面应用,并具备心跳机制(HEARTBEAT.md)以实现定时任务和主动提醒[75][77][78][79][80][81] - 电动汽车被视为Agent进入物理世界的首个大规模载体,其具备的电池、传感器和自动驾驶基础,结合Agent后可执行取餐、取快递等任务[84][85][86][87][88][89] - 多模态能力成熟,如Google的Nano Banana Pro能理解复杂描述并生成图表,字节的Seedance 2.0能根据分镜脚本和参考图“拍”出视频,这些能力可通过API或Skills接入Agent体系[91][92] 第三层:组织(多智能体协作)的形成 - Multi-Agent(多智能体)体系突破单Agent对话瓶颈,实现“一群人协作”[96][97][98] - SubAgent(子智能体)机制允许主Agent创建临时子Agent处理专门子任务,子任务完成后提交摘要即消失,有助于保持主Agent上下文清洁并节省成本(探索任务可分配至更便宜的小模型)[100][101][102][103][104][105][106] - Agent Teams功能实现多Agent持续协作,一个主Agent作为Team Lead可创建并管理多个具备专长和独立上下文的Teammate,并行工作并相互协调[109] - Anthropic安全团队的压力测试显示,16个Claude Opus 4.6实例组成的Agent Team,在无人类干预下,花费约2万美元、近2000个会话周期,从零开始用Rust编写了一个能编译Linux内核的C语言编译器,产出10万行代码,它们通过Git文件锁机制协调工作以防冲突[110][111] - 行业正建立协作标准,Google联合50多家企业推出A2A(Agent-to-Agent)协议,旨在让不同厂商的Agent能够相互通信协作[114] - Git Worktree技术被用于并行探索,允许从同一代码起点创建多个独立工作空间,由不同Agent Team同时尝试不同解决方案,大幅缩短决策时间[116][117] - Agent具备主动工作机制,可设置为“值班模式”自动检查问题、尝试修复并生成报告,实现全年无休工作[120][122] 第四层:进化(经验传承与自我强化) - GEP(基因组进化协议)等开放协议旨在解决Agent经验无法保存和传递的问题,成功的任务解决方案可被打包成“基因胶囊”,供其他Agent直接继承,避免重复探索[127][128] - 案例显示,来自游戏策划领域的“命名隔离策略”基因胶囊,被后端工程师的Agent继承后,成功解决了一次变量命名冲突的编译问题,体现了跨领域经验复用的潜力[129] - 经验传承大幅降低整体成本,一个Agent解决问题的经验可供其他Agent以极低成本(几美分)继承,使得整个Agent网络越用越强[132][133] 技术叠加产生的乘数效应与生产力变革 - 四层技术(更强的大脑、更灵活的手脚、可协作的组织、可进化的经验)叠加产生乘数效应,使个人生产力发生质变,案例显示个人借助该体系一周完成的产品,在过去需要大厂一个小组工作一个月[6][134][136][137] - 个人加Agent体系可覆盖程序员、设计师、运维、数据分析、视频制作等多个职能[95] - 使用Agent与仅使用AI聊天是两回事,前者是让AI替用户干活[167] 行业生态与竞争格局变化 - 公司规模可能变小,一个人加Agent团队可完成过去需六七个角色协作的任务,成本更低、速度更快,OpenClaw项目(一个人的周末项目,3个月获20万GitHub Star后被OpenAI收购)即是例证[150][151][152][153][154] - 管理大量协作Agent的工具(如GitHub前CEO创办的Entire公司所做)本身成为一个重要的产品方向[143][144] - 行业竞争基础变化,知识经济时代的人口素质优势可能被Agent时代的能源与算力效率优势所取代[164] 对工作角色与能力要求的冲击 - 大厂年薪几十万至百万的白领角色(如写报告、做PPT、整理数据、协调沟通)因其工作本质是信息格式转换,而面临被Agent替代的风险[11][12][13][14] - 教育体系面临挑战,当前教育侧重培养的“执行能力”可能迅速过时,未来更需要培养“判断能力”(如定义问题、评估方案),而AI能力约每4到7个月翻一倍,加剧了这一错配[155][156] - 中间层知识工作者(大厂白领、中层管理)处境最危险,因其工作易被替代且转型困难,而AI在所有认知领域同步进步,使得转行学习新技能的缓冲空间变小[157][158] - 内容行业将重新洗牌,Agent降低内容生产成本后,“能做”不再值钱,值钱的是“品味、判断力、独特视角”等定义内容价值的能力[159][160][161][162][163] 尚未解决的关键问题 - Agent管理复杂,同时运行多个Agent导致验收工作量大、需跨领域判断,且Token消耗易失控[138][139][140][141] - 安全与信任机制未完善,Agent操作权限(读文件、发消息、部署代码)与人类确认边界尚未厘清[145][146] - Agent的经济身份与责任归属缺失,涉及消费Token、调用付费API、赚取收益等行为时,缺乏结算、认证与责任划分的基础设施[147]
手撕Sora,脚踢Veo!13个行业实战案例,Seedance 2.0玩法大全
歸藏的AI工具箱· 2026-02-14 10:06
文章核心观点 - 视频生成模型Seedance 2.0代表了视频领域的“ChatGPT时刻”,其核心突破在于不仅提升了画质和运动表现,更具备了**知识、智能和导演思维**,能够理解意图并自主编排分镜、镜头语言和叙事节奏[4][5][6] - 该模型通过支持**全模态参考**(文本、图片、视频、音频),并结合其内置的世界知识和智能,能够为多个行业提供高效的内容生成解决方案,显著降低专业视频制作门槛并提升生产效率[2][3][6] - 模型的核心应用逻辑是 **“写意图,不写细节”** ,用户只需提供核心创意或素材,模型即可自动完成高质量的复杂视频制作[19] - 模型的终极价值在于其**API和程序化调用能力**,可嵌入自动化工作流和Agent管线,这将彻底变革内容生产模式,实现规模化、自动化的视频内容生成[79][84] 行业与品类解决方案总结 一、营销与品牌广告行业 - 仅用一句话提示(如“生成一个精美高级的兰州拉面广告,注意分镜编排”),模型即可自动生成包含完整分镜、慢动作等专业镜头语言的高质量广告片[3] - 模型具备**品牌知识**,仅输入品牌名(如“无印良品”),即可自动生成符合该品牌极简哲学和调性的宣传片,包括画面、口播词和配乐[12][13][14] - 营销人员无需担心复杂的提示词撰写,可快速生成演示视频(Demo)以满足客户或上级需求[16] 二、知识付费与教育行业 - 模型拥有**专业知识**,一句话提示(如“生成一个高位下拉健身动作的讲解视频”)即可生成准确的教学视频,包括识别目标肌群、示范正确姿势、提示常见错误,并自动安排多角度镜头切换[17][18] - 在模型有知识储备的领域,可实现一句话批量生成教学内容[18] 三、互联网产品与设计行业 - 可将简单的**UI设计稿截图**转化为具有高级质感的3D产品宣传片,模仿微软Fluent Design或苹果风格[20][22] - 工作流程涉及先用图像模型处理UI截图,添加“数字材质感”,再使用Seedance 2.0生成包含丝滑动效和多角度运镜的视频[23][24][28][29] - 此功能可用于快速制作产品发布、App Store预览视频,无需等待动效设计排期[32] 四、服装电商行业 - 利用模型的**参考和一致性保持能力**,可将一张人物照片与多张服装照片结合,自动生成**模特换装展示视频**,包含不同景别的流畅运镜、转场切换及符合服装调性的音乐[36][37][38] - 模型能较好地还原服装的版型、材质等细节[44] 五、房产与家装行业 - 仅用一张**户型图**,结合生成的分镜图,即可生成**沉浸式样板间参观视频**,视频能遵循合理的参观顺序,体现空间布局、材质质感和光线变化[46][47][52] - 该方法大幅缩短了从设计到呈现演示视频的时间,适用于设计师草图展示或为客户提供远程看房体验[45][52] 六、自媒体与内容创作 - 通过参考现有Vlog的视频风格,可将**静态照片**自动转换为具有类似运镜、剪辑节奏、调色和特效的完整Vlog视频[53][54] - 结合一张人物形象图和一段克隆音频,可生成带字幕、有情感表现和镜头变化的**视频播客**,实现“不出镜、不剪辑”的日更内容生产[56][58][59][63] - 仅提供一段音乐,模型可自主创作符合音乐氛围的**故事情节视频**,并实现画面与音乐节奏卡点[64][65][66] 七、影视与动画行业 - 支持**真人动作迁移**,用户用手机拍摄一段动作视频作为参考,模型可将该动作一致性地迁移到新的特效场景中(如魔法城堡、外星战场)[68][69][72] - 可直接将**小说原文粘贴**作为提示词,生成对应的动画视频,并可指定参考视频的画风(如《雾山五行》水墨风格)[73][74][75][76] - 支持**视频延长功能**,通过持续输入后续文本,理论上可生成长片或实现小说与视频的同步更新[76] 八、自动化与Agent集成 - 模型的所有能力均可通过**API程序化调用**,为自动化生产奠定基础[3][84] - 文章描绘了多个自动化Agent场景,如:产品发布后自动生成宣传视频;热点信息自动整理并生成口播视频;电商、家装、小说自动转视频等[80][81][82] - API上线后,将赋能开发者、创业者和内容团队构建视频自动化管线,大幅提升内容生产的规模与效率[83][84]
Agent 原生通讯协议:从传递代码,到传递认知
歸藏的AI工具箱· 2026-02-11 18:53
文章核心观点 - 文章通过一个开源项目维护者的观察,揭示了AI Agent正在自然地将GitHub(基于Git)用作彼此沟通和协作的协议,这预示着一个为Agent时代设计的、高带宽协作基础设施的必然出现 [1][2][3] - GitHub前CEO创立的新公司Entire及其首个产品Checkpoint,旨在解决现有Git体系在Agent时代的关键缺陷——即记录“代码如何变”但丢失了“代码为何这么变”的推理过程,从而推动软件开发范式从“人写代码”向“人监督Agent思维”转变 [5][8][9][20] - Entire的愿景是构建一个分层的、开源的基础设施(协议),以支持Agent间高效、结构化、可追溯的协作,这不仅是工具创新,更是为未来以Agent为主要客户(2A)的软件生态奠定关键基础 [22][23][25][32] 一、现象观察:GitHub成为Agent的隐式通讯协议 - 开发者在维护开源项目时发现,处理GitHub Issues和PR的不仅有真人,还有许多AI Agent,这些Agent之间正在自然地通过Issue、PR、Comment等标准格式进行需求交换、代码提交和方案讨论 [1][2] - 这一现象之所以发生,是因为GitHub平台本身具备Agent通讯所需的关键特性:可读且安全的纯文本、命令式的任务指令(Issue)与执行结果(PR)、结构化的标签与状态流转、以及有版本控制的完整交互记录 [4][6] 二、行业验证:Entire公司的出现与愿景 - GitHub前CEO Thomas Dohmke创立的公司Entire获得了6000万美元种子轮融资,目标是在Git之上构建面向Agent时代的开发者平台,这印证了Agent协作趋势已获得行业顶尖人士的认可和投资 [5] - Entire的创始人指出,当前基于Git/GitHub的软件开发生命周期是为“人与人协作”设计的,Agent只能“将就着用”,存在根本性不足,需要新的基础设施 [7] 三、现有问题与Entire的解决方案 3.1 Git体系在Agent时代的核心缺陷 - Git作为版本控制系统,忠实记录了代码变更的What(哪些文件变了)、Who(谁提交的)、When(何时提交的)、Where(在哪个分支上),但致命地遗漏了“Why”——即代码为何如此变更的意图和推理过程 [8][12] - 在Agent生成代码的场景下,这一缺失被急剧放大:开发者只能看到代码差异(diff),却无法知晓Agent生成500行代码背后的推理链、架构决策的权衡过程,以及初始的Prompt和约束条件,这些关键上下文在会话结束后即消失 [8] 3.2 Entire Checkpoint:补充语义元数据 - Entire发布的第一个产品Checkpoint,其核心思路是不修改Git本身,而是在Git之上增加一层结构化的语义元数据,并与特定的commit SHA绑定 [10] - 一个绑定了Checkpoint的Commit不仅包含代码变更(diff),还自动捕获并关联以下信息:原始Prompt、Agent的推理链、工具调用记录、约束条件、Token消耗以及完整的对话记录 [11][13] - 这些元数据以仅追加(append-only)的方式存储在一个独立的Git分支上,确保完全兼容现有的Git工作流,并将Agent的“想法”从黑箱变为可追溯、可审查、可共享的白箱 [13][14] 3.3 Checkpoint带来的范式变革 - **代码审查范式变化**:审查重点从逐行检查“代码对不对”转变为审查“Agent的思维过程是否合理”,通过查看Checkpoint来理解意图、方案权衡和决策依据 [15] - **实现Agent间的共享记忆**:Agent B可以读取Agent A的Checkpoint,继承其技术决策和约束,无需从头推理,解决了会话上下文丢失的问题 [15] - **建立可追溯的决策历史**:项目历史中的技术选型原因(例如为何选择SQLite而非PostgreSQL)可通过查询相关commit的Checkpoint获得完整、准确的记录,而非依赖人的记忆 [15] 四、新范式:从代码工人到思维监督者 - **旧范式**:以代码为核心,开发者编写代码后提交,同事审查代码差异(diff)并讨论,人的注意力集中在“代码写得对不对” [17] - **新范式**发生质变:1) **表达意图**:开发者的起点变为用自然语言描述需求,意图本身成为工程产物;2) **Agent生成**:Agent基于意图进行复杂推理并生成代码;3) **Checkpoint记录推理**:上述推理过程被自动捕获保存;4) **审查意图与结果**:开发者审查的是Agent的认知过程、决策合理性与约束满足情况,而非代码细节;5) **验证正确性**:可通过Agent生成测试、检查推理链自洽性或验证业务指标等方式进行 [19] - 范式转变的总结是:人的角色从“写代码的工人”转变为“审查Agent思维过程的监督者” [20] 五、对Agent时代的基础设施意义 - Agent需要自己的“互联网”和协作协议,而Entire的目标是将当前Agent通过GitHub进行的隐式、低带宽通讯(仅传递代码和评论),升级为显式、高带宽的通讯,传递包括推理过程、上下文图谱和决策依据在内的结构化数据 [22] - 未来软件服务的最大客户可能是Agent(2A),因此Agent间如何高效协作成为最关键的基础设施问题之一,Entire正是在解决让Agent协作“用得爽”的问题 [23][24] - 驱动多个Agent协同工作需要“指挥体系”,Entire规划的三层架构(Git兼容数据库、语义推理层、AI原生开发生命周期)正是为了提供统一的信息存储、共享的态势感知和清晰的协作流程,以管理大量Agent,避免混乱 [25] 六、已解决与待解决的问题 6.1 已解决的问题 - **告别“人肉Checkpoint”**:解决了开发者需手动通过规则文件记录Agent技术决策的痛点,现在所有对话、决策和推理链都自动绑定到commit,成为项目永久历史的一部分 [26] - **改善多Agent协作**:使开发者能通过对比不同Agent产出的方案的推理摘要和决策依据,快速做出判断,无需逐行对比数千行代码差异 [27] 6.2 尚未解决的问题 - **上下文爆炸与检索问题**:长期项目积累的海量Checkpoint数据(例如10M tokens)远超当前大模型的上下文窗口(例如200k),如何让Agent精准检索到当前任务所需的那几个Checkpoint,并将海量历史信息有效压缩至有限上下文内,是待解决的挑战 [28][29] - **从事后记录到实时协调**:Checkpoint是“事后记录”,而多Agent并行协作需要工作过程中的实时通讯,例如一个Agent做出的技术决策需实时同步给其他并行工作的Agent,这已超出Checkpoint范畴,进入Agent间实时通讯协议领域 [29][30] 6.3 Entire的解决路径 - Entire规划的三层架构对应了不同问题的解决方案:1) **Checkpoint(存储层)**:已发布,解决信息丢失问题;2) **Context Graph(语义推理层)**:待发布,旨在解决从海量Checkpoint中智能检索和压缩信息的问题,根据任务语义提供不同粒度的上下文;3) **AI原生开发生命周期**:待发布,旨在解决Agent间的实时协调与工作流问题 [31] 七、未来展望与角色转变 - Entire的工作是将自然发生的、隐式的Agent通讯,系统化地升级为显式的、高带宽的、为Agent时代专门设计的基础设施 [32] - 最深刻的变化在于开发者角色的根本性转变:未来开发者不再需要理解每一行代码的写法,但必须具备审查Agent推理合理性、决策正确性和约束完备性的判断力,从“用键盘写代码”转变为“用判断力指挥Agent” [33]
只用一天Opus4.6+Agent Teams做了个ClaudeCode桌面端:已开源
歸藏的AI工具箱· 2026-02-07 13:14
CodePilot客户端产品分析 - 产品定位为功能齐全、颜值在线的Claude Code桌面客户端,核心功能与命令行版完全一致但用户体验显著提升[1][3] - 支持选择文件夹、切换模型、斜杠命令、Skills调用、MCP服务器等全部核心功能[3] - 目前仅支持M芯片的macOS系统,Windows版本尚在测试中[17] 核心功能价值 - **聊天记录管理**:解决Claude Code用户难以查找历史记录的核心痛点,所有记录保存在侧边栏并与文件夹绑定,每条消息显示花费金额以提升透明度[5][6] - **可视化配置管理**:将命令行配置(配置文件、Skills、MCP、插件)转化为可视化界面,实现类似普通应用的直观修改和保存体验[8] - **文件夹内容预览**:右侧边栏可预览当前文件夹内所有文件,文本文件支持直接预览,极大提升操作便利性[9] 技术兼容性与用户体验 - 支持官方授权登录/环境变量配置,同时兼容第三方Claude API(如国内转发服务),提供访问灵活性[11] - 状态栏清晰显示Claude Code连接状态,连接失败时提供安装和启动指导,降低新手使用门槛[13][14] - 采用重新设计的体素风格放射性图标,在保留原图标特征的同时实现立体化创新,视觉上可与知名工具并列[15] Agent Teams多智能体协作模式 - 采用主智能体委派任务给多个子智能体的真正协作模式,支持并行工作与实时通信,区别于传统的单一AI角色切换[19][20] - 启用方式简单:更新至最新版Claude Code并使用Opus 4.6,通过修改参数即可开启[21] Agent Teams应用技巧 - **自动化规划**:将官方文档和需求提交给Claude,由其自动构建Agent Teams的规划提示词(包括角色、任务、能力要求),无需人工复杂设计[23][24] - **重视前期调研**:专设调研角色进行技术选型、架构设计和组件库选择,调研质量直接决定后续开发效率,即使UI优化也需先调研最新图标库和设计系统[25][26] - **动态角色设计**:突破传统软件工程固定角色思路,针对不同任务阶段定制智能体角色(如QA角色可从代码审查转为体验走查),实现人类团队难以达到的灵活性[27][28] AI开发效率与成本洞察 - 使用Opus 4.6模型配合Agent Teams,可在一天内完成功能齐全、无bug的iOS/macOS客户端开发,这在以往难以想象[30] - 尽管Opus模型单价较高,但其强大的理解能力减少了反复纠正需求,整体上反而比使用小模型更节省时间和成本[30] - Agent Teams多智能体并行工作虽看似增加开销,但由于效率显著提升且错误率降低,总体开发成本反而更低[31]
Clawdbot 教程 02:如何集成飞书,完全国产化!
歸藏的AI工具箱· 2026-02-05 12:36
文章核心观点 - 文章详细阐述了将Clawdbot人工智能助手与飞书平台集成的完整技术配置流程 该流程展示了利用国产人工智能模型和国产办公软件构建完全国产化人工智能应用解决方案的可行性[2][3][35] 飞书机器人创建与基础配置 - 配置流程始于在飞书开发者后台创建新的机器人应用 创建后需记录应用凭证中的App ID和App Secret以备后续使用[5][6][7] - 需在权限管理页面通过导入特定JSON配置为机器人授予包括读取/写入文件、发送/接收消息等在内的多项必要权限[8][9][10] - 必须在机器人配置页面开启机器人能力 例如设置欢迎语 否则机器人将无法接收消息[11] Clawdbot端飞书通道配置 - 在Clawdbot本地通过运行`openclaw channels add`命令启动交互式向导 选择飞书选项以安装相应插件[13][14] - 配置过程中可能遇到因插件文件夹已存在或zod依赖缺失导致的安装失败问题 解决方案包括手动删除旧插件文件夹并全局安装zod依赖(`npm install -g zod`)[16][18][19] - 安装成功后需填写配置信息 包括为机器人命名(Feishu account id)、选择飞书版本(中国版或海外版Lark)以及填入从飞书后台获取的App ID和App Secret 填写后必须选择「Finished」以完成添加[20][21] - 建议配置私信访问策略为「Pairing」模式 即需要配对码才能使用 以控制访问权限[23][24] - 所有通道配置完成后 必须运行`openclaw gateway restart`命令重启网关以使新配置生效[26] 飞书平台最终设置与发布 - 在飞书开发者后台的「事件与回调」页面 需将事件订阅方式配置为「使用长连接接收事件」 保存时若提示未建立连接可稍等片刻[27][28] - 必须在同一页面添加「im.message.receive_v1」事件 否则机器人无法接收用户私信消息[29] - 最后 必须在「版本管理与发布」页面创建并发布应用版本 只有发布后所有配置才会真正生效[31][32] 机器人配对与使用 - 配置发布后 在飞书中向机器人发送消息 它会回复一个配对码(格式如`pair:XXXXXX`)[34] - 用户需在Clawdbot的Web UI界面中输入此配对码以完成最终绑定 此后飞书机器人即可正常工作[34][35] - 若Clawdbot后端接入的是如minimax、kimi、GLM等国产模型API 则整套应用方案可实现完全国产化[35] 配置流程中的关键注意事项 - 需全局安装zod依赖以解决插件安装问题[19][39] - 在Clawdbot通道配置向导中填写信息后 务必点击「Finished」选项[20][39] - 在飞书后台配置长连接后 建议等待一两分钟再点击保存[27][39] - 必须在飞书后台发布机器人版本 否则配置不会生效[31][32][39]
Clawdbot 教程 01:模型的配置和切换
歸藏的AI工具箱· 2026-02-01 01:19
文章核心观点 - 文章是一篇关于在Macmini上为Clawdbot配置国产AI模型的技术指南,旨在解决用户在配置过程中遇到的常见问题,特别是针对Minimax和Kimi等模型[1][2][3] 模型配置方法 - 配置模型时优先使用 `openclaw configure` 命令,这是最省事的方法,能解决大部分配置问题[6] - 执行命令后,需依次选择本地部署、配置模型,并输入相应的API Key[9] 模型选择与版本区分 - 配置Minimax M2.1时,在模型选择中应选“Minimax”[11] - 配置Kimi K2.5时,在模型选择中应选“moonshot AI”[12] - Minimax存在国内版与海外版区别:国内coding plan会员应选带“cn”的选项,海外用户则选不带“cn”的选项[16] - Kimi有专门的coding plan选项,可以直接选择,而Minimax即使购买了coding plan会员,在配置时也直接选择Minimax[14] 手动配置文件修正 - 若自动配置失败或选错版本,需手动修改配置文件,位置在 `/Users/你的用户名/.openclaw/openclaw.json`[17][18] - 修正核心是修改`baseURL`参数:Minimax国内版为 `api.minimaxi.com`,海外版为 `api.minimax.io`[19][22][23] - 需注意配置文件中`agents`部分的`fallbacks`参数,确保切换的模型已在此列出,否则可能不生效[25] 模型切换与使用 - 配置完成后,在TUI界面中输入 `/model` 命令可切换模型,TUI启动命令为 `openclaw tui`[27] - 切换模型前,建议先用 `/new` 命令开新窗口,以降低出错风险[29] - 切换模型后若输入指令返回“no output”,并不一定代表配置失败,可能是输出到了其他已配置的环境(如Web环境或Telegram bot),需前往其他环境查看[30][31][32][33] 支持的模型总结 - 作者成功配置了三个主流国产模型,均能正常工作:Kimi使用国内版,Minimax使用海外版,GLM使用海外版[34] 核心步骤总结 - 配置Clawdbot国产模型的核心三步为:1) 优先使用 `openclaw configure` 命令配置;2) 若不行,手动修改配置文件里的 `baseURL`;3) 切换模型使用 `/model` 命令[37]