Workflow
数字生命卡兹克
icon
搜索文档
一个全新的世界模型,终于让AI视频进入了“无限流”时代。
数字生命卡兹克· 2026-01-14 08:23
PixVerse R1实时世界生成模型的技术定位与特点 - 公司推出下一代实时世界生成模型PixVerse R1 能够根据用户输入的Prompt连续、实时地生成并改变视频流剧情 用户可在过程中随时用Prompt修改视频进程 每次输入后约2秒延迟 世界剧情即随之变化 若用户不进行干预 模型可自行无限、连续地生成视觉流 公司将其称为“实时世界生成模型” [2][3] 当前“世界模型”的主流定义与分类 - 行业对“世界模型”的定义较为宽泛 指能够用可持续的内部状态预测世界变化 并可被交互和验证的模型 该术语目前常被用于指代三类方向:视频生成模型、可交互的生成世界、面向机器人和自动驾驶的物理仿真基础模型 [4] - 行业现有的世界模型代表主要分为三个方向:以Google Genie 3为代表的 一次生成后可实时导航的动态视频世界模型 可维持24fps、720p及分钟级一致性 [7][8] 以李飞飞World Labs Marble为代表的 侧重于三维空间重建、生成与模拟的3D类世界模型 其核心在于3D表示和空间一致性 [12][14] 以英伟达Cosmos为代表的 专注于为自动驾驶、机器人等提供高保真物理仿真与合成数据的基础模型平台 [19] PixVerse R1的创新方向与产品体验 - PixVerse R1为世界模型领域补上了第四个方向:实时视频生成 并提供了可实测的Demo版本 [22][23] - 产品体验需邀请码进入 每个实时生成会话限时5分钟 主要原因是实时生成对算力消耗极大 [26][35] - 用户体验反馈极为积极 产品提供了预设模板(如卡通、1944、赛博朋克等)和自定义模式 用户可通过文本或语音输入Prompt实时引导剧情发展 创造了高度互动、充满惊喜和未知乐趣的体验 被形容为一种全新的娱乐形态 [31][40][42][44][45][48][54] 实时世界生成模型预示的行业未来 - 该技术可能重塑未来娱乐内容形态 电影、综艺、游戏等可能不再是固定时长的文件 而是由世界模型驱动的、永远流动的世界时间线 [56] - 未来的内容创作模式可能是:创作者提供一个起点和世界观设定 由世界模型自主演进剧情 观众则通过一句话、一个表情或一次选择来轻微影响剧情走向 最终实现同一宇宙下的不同时间支线体验 [57][58] - 该技术的出现被认为是AI模型发展历史上具有重要意义的一步 代表了新颖且极具未来感的发展方向 [62][64]
一文带你看懂,火爆全网的Skills到底是个啥。
数字生命卡兹克· 2026-01-13 09:05
Skills的概念与热度 - Skills是AI领域当前的热点概念,其热度在AI圈内已不亚于当年的Prompts [4] - 各种Skills相关的GitHub仓库受到广泛关注,例如一个包含50多个Claude技能的仓库已获得18K星标,另一个名为superpowers的基于Skills的开发工作流程项目也获得18K星标 [2][3] Skills的定义与核心特征 - Skills翻译为“技能”,是给AI Agent(智能体)使用的技能 [4] - 在形式上,Skills是一个文件夹,而不仅仅是文本,其中可以包含Prompt、参考文档、脚本等多种资源,供Agent在需要时加载 [23] - Skills的核心作用是**将流程性知识封装成可复用的能力包**,使Agent能够随需调用并稳定执行任务 [29] - Skills的设计采用了“渐进式披露”原则,即先加载元信息目录,再按需加载详细内容,以优化Token使用并降低认知负荷 [25][28] Skills与Prompt、MCP的区别 - **Prompt**:相当于对Agent(比喻为实习生)的**口头临时指令**,适合一次性、临场、可变的场景,其作用范围仅限于当前对话轮次 [25] - **Skills**:相当于给Agent的**内部SOP手册或知识库**,包含规范、脚本、模板等,可供Agent在需要时自行查阅并复用 [25] - **MCP**:相当于给Agent的**门禁卡**,其功能是让AI应用能够安全地连接和调用外部系统或API,不涉及具体任务执行方法的教导 [29][30] Skills的应用案例与价值 - **AI选题系统**:通过1个主控Agent和3个Skills(热点采集、选题生成、选题审核)实现自动化,将原本需要2-3小时的人工选题流程大幅简化 [4][5][6][7] - **整合包生成器**:通过Skill将复杂的GitHub开源项目(如Manim动画引擎)打包成带有前端界面的一键启动整合包,解决了非技术用户的痛点 [9][13][16][18] - Skills的价值在于**复用**,无论是专业人士封装工作流,还是普通用户固化常用需求,都能显著提升效率,其潜力被市场认为仍被大大低估 [18] Skills的技术规范与创建 - Skills由Anthropic公司于2025年10月在Claude Code上首次推出,并于2025年12月18日作为开放标准发布,从而引爆了生态 [19][21] - 一个标准的Skill文件夹**名称必须使用小写字母和连字符**(例如 `hotspot-collector`) [36] - 每个Skill文件夹中,**`SKILL.md` 是唯一必需的核心文件**,其结构固定为两部分 [37] 1. **YAML头部**:包含 `name` 和 `description` 字段,用于Skill识别 [37] 2. **Markdown主体**:详细的工作流程、输出格式要求和示例 [38] - `description` 字段至关重要,需使用**第三人称**清晰描述Skill的功能和调用时机,并包含触发关键词,同时建议将整个 `SKILL.md` 文件控制在500行以内以保证最佳效果 [38][39] Skills的生态与获取 - 除了Claude Code,OpenCode、Codex、Cursor、Codebuddy等主流编程工具均已兼容Skills标准 [23] - Anthropic官方开源了一个Skills仓库(`https://github.com/anthropics/skills`),提供了大量实用Skills,该仓库已获得**38.3k星标**和**3.5k分叉** [44][45] - 官方仓库中包含了16个示例Skills,涵盖文档处理、前端设计、PDF/Excel操作、Skill创建等多个领域,其中 `skill-creator` 这个Skill本身就可以指导用户创建新的Skills [45][46][47] Skills的安装与使用 - **安装方法一(命令安装)**:在Claude Code或OpenCode中,直接向AI发送包含Skill项目地址的Prompt指令即可完成安装 [49][51][52] - **安装方法二(手动放置)**:将Skill文件夹拖放到指定本地目录 [54] - Claude Code路径:`~/.claude/skills` [55] - OpenCode路径:`~/.config/opencode/skill` (macOS/Linux) 或 `C:\Users\[用户名]\config\opencode\skill` (Windows) [55][56] - 建议将Skills安装在全局目录,以便在所有项目中共用 [56] - 使用Skills时,用户只需通过自然语言对话提出需求,Agent便会自动判断并调用相应的Skill来执行任务 [57]
手把手教你用上开源版Claude Code,人人都可以体验编程Agent的魅力了。
数字生命卡兹克· 2026-01-12 09:05
文章核心观点 - 开源产品组合OpenCode与oh-my-opencode插件能够替代并超越Claude Code,为普通用户开启了轻松使用编程Agent进行Vibe Coding的时代 [2][37][53] - 该组合通过集成多款顶级AI模型并简化安装配置流程,显著降低了编程Agent的使用门槛 [2][40][52] 产品介绍与优势 - OpenCode是一款提供专用客户端的开源编程Agent,支持macOS、Windows和Linux系统,无需使用复杂IDE或命令行即可通过对话界面操作 [3][4] - 社区插件oh-my-opencode极大地增强了OpenCode的功能,内置了分工明确的专家角色Agent,并能并行处理任务,大幅提升生产力和易用性 [35][40][41] - 该产品组合兼容Claude Code的功能,并支持完整的LSP和精选的MCP,功能全面 [42][43] 模型集成与配置 - OpenCode支持调用包括GPT、Gemini、Claude以及GLM Coding Plan在内的几乎所有主流AI模型 [13][14] - 用户可通过订阅ChatGPT Pro/Plus(200美元)和Gemini Ultra(250美元)会员,在OpenCode中授权使用其开发额度,从而调用包括GPT‑5.2‑Codex、Gemini 3 Pro和Claude Opus 4.5在内的顶级模型 [2][16][24][28] - 通过安装opencode-antigravity-auth插件,用户可以使用Google Antigravity IDE的额度来访问Gemini 3 Pro和Claude Opus 4.5模型 [28][29] - 对于无付费订阅的用户,可以使用免费的GLM-4.7或MiniMax 2.1模型来完成大多数普通任务 [16][33][34] 市场动态与竞争 - Anthropic公司(Claude)近期采取了封闭策略,封杀了OpenCode等第三方调用其Claude Code订阅套餐的通道,并封禁了一批用户账号 [16][18] - 作为竞争回应,OpenAI的Codex几乎在几小时后便宣布支持OpenCode,允许ChatGPT订阅套餐直接授权 [19][20] 安装与使用教程 - 安装OpenCode只需从其官网下载对应操作系统的客户端并完成安装 [3][4][6] - 在OpenCode中添加模型时,点击界面左下角的“+”号,选择相应供应商并完成授权即可 [12][21][27] - 安装oh-my-opencode插件只需在OpenCode中新建对话并发送指定的安装Prompt指令,然后根据引导完成配置 [45][46][47][51]
唐杰、杨植麟、姚顺雨、林俊旸罕见同台分享,这3个小时的信息密度实在太高了。
数字生命卡兹克· 2026-01-10 20:37
文章核心观点 - 多位中国AI行业领军人物在AGI-NEXT会议上探讨了行业发展趋势,核心观点认为Chat聊天范式竞争已结束,下一阶段竞争焦点转向Action(执行任务)和Agent(智能体)[6] - 行业将出现明显分化,包括To C与To B市场的分化,以及垂直整合与模型应用分层路径的分化[12] - 对下一代技术范式(如自主学习)持乐观态度,并认为2025-2026年可能出现关键信号[21][23][28] - 智能体(Agent)在2026年有望创造显著经济价值,能够处理更长时间跨度的任务[32] - 中国AI公司在未来3-5年有成为全球领先者的机会,但需克服算力、市场环境和文化等挑战[39][40][41][45][46] 行业分化趋势 - **To C与To B市场分化明显**:To C产品(如ChatGPT)对大部分用户而言是搜索引擎的加强版,用户感受变化不大;而To B市场对智能水平高度敏感,智能越高代表生产力越高,用户愿意为最强模型支付溢价(例如200美元/月 vs 50或20美元/月的次优模型)[13][14] - **To B市场呈现“赢家通吃”趋势**:最强的模型与稍弱模型之间的分化会越来越明显,因为用户无法预知次优模型在哪些任务上会出错,需要额外精力监控[15] - **技术路径出现分化**:垂直整合路线(模型与产品强耦合)在To C领域(如ChatGPT、豆包)依然成立;但在To B领域,趋势似乎是模型层与应用层分离,强大的模型被不同的应用用于各种生产力环节[15] 下一代技术范式展望 - **自主学习是热门方向但定义多样**:硅谷已形成共识,但具体指代的任务场景各异,例如聊天个性化、代码环境适应、探索新科学领域等[21] - **自主学习已在发生**:例如ChatGPT利用用户数据优化聊天风格,Claude Code项目95%的代码由Claude自身编写以帮助其变得更好[22] - **范式突破可能发生在2025-2026年**:例如Cursor等公司已开始每几小时用最新用户数据训练模型,被视为早期信号[23] - **学术界与工业界将协同创新**:随着学校算力资源增加(尽管与工业界仍有10倍差距),学术界具备创新基因,将研究工业界未及解决的问题,如智能上界、资源分配、幻觉与资源的平衡(类似经济学中的风险收益平衡)等[18][19][28] - **效率瓶颈驱动创新**:大模型投入巨大但效率不高,继续Scaling的收益递减。未来需要定义“智能效率”,即用更少投入获得同等智能增量,这将成为范式创新的驱动力[29][30] 智能体(Agent)发展战略 - **To B Agent价值明确且处于上升曲线**:其价值与模型智能水平直接正相关,模型越智能,解决任务越多,带来的收益越大[32][33] - **当前瓶颈在于部署与教育**:即使模型停止进步,将现有模型更好部署到各公司也能带来10倍或100倍的收益,对GDP产生5%-10%的影响(目前影响不足1%)。同时,教育用户使用工具至关重要[34] - **Agent进化方向是更长的任务时长与主动性**:期待2026年Agent能处理人类1-2周工作量的任务流。更高级的Agent应具备自主进化和主动思考能力,但这引发了安全问题[25][32][35] - **通用Agent的机会存在于长尾需求**:解决广泛、分散的长尾问题是AI的魅力所在,也是挑战。模型公司凭借算力和数据可能快速解决部分问题,但套壳应用若做得更好也有机会[36][37] - **Agent发展有四个阶段**:从目标与规划皆由人定义,最终发展到目标与规划皆由大模型内生定义[37] 中国AI公司的机遇与挑战 - **成为全球领先者的概率与条件**:有嘉宾认为概率很高,也有嘉宾给出20%的乐观估计[39][47]。关键条件包括:突破算力瓶颈(如光刻机)、发展更成熟的To B市场或参与国际竞争、以及培养更多具有冒险精神和前沿探索意愿的人才[40][41][46] - **中美研究文化差异**:中国团队更倾向于做已被证明可行的、确定性高的事情(如预训练),对刷榜和数字指标看得较重。需要积累文化底蕴,并敢于坚持自己认为正确的方向,而非仅受榜单束缚[43][44] - **算力分配制约创新**:美国公司将大量计算资源投入下一代研究,而中国公司的大量算力被交付任务占据,用于前沿探索的资源相对捉襟见肘[45] - **软硬结合与冒险精神**:存在通过模型与芯片协同设计实现创新的机会。年轻一代(90后、00后)冒险精神增强,营商环境的改善有助于创新[46][49] - **历史借鉴与未来信心**:回顾互联网发展,中国在应用层面实现了赶超。在AI领域,To C应用可能百花齐放,To B解决方案也将跟进,关键在于创造让聪明人敢于冒险的环境并坚持到底[48][49][50]
围观AI对赌直播之后,我见证了一场人类画师对AI的突围。
数字生命卡兹克· 2026-01-09 09:05
文章核心观点 - AI绘画技术的兴起对传统绘画行业及创作者社区(绘圈)产生了巨大冲击,引发了关于作品真实性、创作伦理和行业信任的危机 [1][31][38] - 作为应对,行业内自发形成了“AI对赌”机制,通过直播绘画自证、专业鉴定和公众投票等方式,试图在AI时代维护真人创作的纯洁性和市场信任 [11][39][61] - 该机制的核心在于建立规则、专业鉴别和社区监督,旨在保护画师权益、为稿主(客户)维权,并警示创作者避免过度依赖AI而丧失进步动力 [54][58][71] - 尽管面临挑战,但部分创作者坚信通过持续精进技艺、追求超越AI的创造力和情感连接,人类创作者能够实现“生死突围” [79][83][86] AI对赌机制的兴起与运作 - AI对赌是一种由社区发起的画师自证直播,通常涉及画师、鉴方(质疑者)和中间人三方 [19] - 对赌流程为:鉴方提出AI使用质疑并列出证据,双方约定对赌,画师在直播中按命题现场作画并露出手部,观众投票判定,赌注通常为1000元人民币 [4][10][11] - 中间人角色至关重要,负责保管赌注、保持中立、审核鉴方资质并保护画师免受不公对待,是机制得以运行的信任基础 [19][58][61] - 该机制大约于2023年9-10月开始流行,旨在为遭受争议的画师提供维护声誉的渠道,也为感觉受骗的稿主提供维权手段 [39][65][66] AI技术对绘画行业的冲击 - AI绘画工具(如Midjourney, GPT-4o)的模仿能力和细节逼真度飞速进化,其进步速度远超以“年月为单位”进步的人类画师 [31] - AI在行业内形成了“斩杀线”,即其能力水平对中等及以下水平的画师构成直接的替代威胁,迫使画师必须向更高水平精进以寻求安全区 [32][33] - 使用AI辅助或完全生成作品后进行修改,已成为部分画师“心照不宣的秘密”,这加剧了圈内对作品真实性的普遍猜疑 [35][37][38] - AI的“捷径”诱惑可能导致画师画技和审美停滞,甚至无法分辨自身与AI的差距,长远来看将损害其职业发展 [67][68][70] 行业规则完善与专业鉴别的必要性 - 早期AI对赌因规则不完善出现过问题,例如有画师被揭露通过临摹AI图而非原创来通过直播测试,凸显了鉴别需要极高的专业能力 [40][45][47] - 为提升鉴别专业性,有中间人创建了“AI鉴定能力问卷”,在收到超过40000份回答后发现,画师和稿主群体的正确率显著高于普通路人 [52][53] - 基于数据,对赌规则得以优化,例如赋予画师和稿主比围观路人更高的投票权重,以确保判定结果更专业可靠 [54] - 规则也致力于防止对赌演变为对画师的霸凌,中间人需审核鉴方心智与沟通能力,并在直播中维护画师,减轻其压力 [56][58][59][61] 人类创作者的回应与价值主张 - 面对AI,部分顶尖人类画师通过展示其不可替代的创造力、细节把控和情感深度来建立信心,例如画师阮佳的作品曾引发“人类士气大振” [73][76][78] - 真人绘画的价值被部分从业者定位为“人与人之间的交流和信任”,以及将稿主脑海中的世界个性化呈现的能力,这是AI“抽卡跑图”无法企及的 [24][26][29] - 真正的创作者追求的是超越AI工具上限的“100分甚至120分的作品”,其核心动力在于“无限进步”和自我表达 [82][83][84] - AI对赌不仅是一种约束机制,更是一种警醒,提醒创作者不能将未来交由AI决定,而应坚持打磨技艺,在世界上留下属于自己的独特创造 [71][81][86]
智谱AI今日正式上市,一文讲透你想知道的6件事。
数字生命卡兹克· 2026-01-08 08:24
公司背景与市场地位 - 公司全称为北京智谱华章科技股份有限公司,成立于2019年6月11日,出身清华系,技术根基源于清华大学计算机系知识工程实验室(KEG Lab)[6][7][8] - 公司是典型的独立基座大模型公司,以GLM大模型为核心,衍生多模态及Agent模型,并向上构建MaaS平台及AI原生应用[17] - 根据沙利文报告,2024年按大模型相关收入计,公司在中国大模型厂商中排名第二,市占率为6.6%,是前五名中唯一的独立大模型公司[17] - 2024年公司大模型相关收入中,机构客户贡献47亿元,个人客户贡献6亿元[17] - 截至2025年上半年,公司服务了超过8000家机构客户,开源模型在全球开发者社区的累计下载量超过4500万[18] 模型发展历程与产品矩阵 - 公司于2020年11月确定GLM技术路线,2021年发布首个百亿参数模型GLM-10B[20] - 2022年发布代码模型CodeGeeX及千亿参数、双语训练的开源模型GLM-130B,后者被视为中国大模型开源生态的重要推动者[23] - 2023年3月开源ChatGLM-6B模型,成为当时少数可在消费级显卡上本地部署的大语言模型,对开发者生态影响深远[23] - 2024年1月发布GLM-4,性能比上一代提升约60%,多模态、长上下文、智能体能力整体逼近GPT-4[24] - 2024年10月发布AutoGLM,成为首个发布手机Agent的公司,并于后续开源,在GitHub上已获得2万Star[24] - 2025年密集迭代发布GLM-4.5、4.6、4.7等模型,其中GLM-4.7成为国内开发者的首选开发模型之一[24] - 2025年最后一周,GLM-4.7在OpenRouter上的单周token处理量约为1220亿,全球排名第12,中国厂商中排名第三[24] - 公司产品矩阵覆盖多模态,包括图像生成模型CogView、视觉理解模型GLM-4.5V、视频生成模型CogVideoX、实时音视频模型GLM-Realtime及端到端语音模型GLM-4-Voice[25] 融资历程与上市情况 - 2021年完成A轮融资,金额过亿,估值约8亿元人民币[30] - 2022年9月完成B轮融资3.63亿元人民币,估值达28亿元[31] - 2023年7月至9月完成多轮融资(B+至B+++++),当年累计融资超25亿元人民币,引入美团、蚂蚁、阿里、腾讯、小米、红杉、高瓴等一线机构[32] - 2024年完成至少两轮大额融资,包括中关村科学城领投(投前估值200亿元)及30亿元人民币注入,年底市场估值约200亿元[32] - 2025年全年完成5轮融资,估值被推至400亿元人民币档位[33] - 2025年4月在北京证监局办理A股辅导备案,后转向港股,于2025年12月19日通过港交所聆讯,2026年1月8日正式挂牌[34][35] - 本次IPO全球发售3741.95万股H股,发行价116.2港元,发行市值约518亿港元,融资金额约43.5亿港元,11家基石投资者认购约29.8亿港元[35] 财务表现与业务构成 - 公司收入快速增长,2022年至2024年收入分别为0.57409亿元、1.245亿元、3.124亿元,三年复合增速约130%[36] - 2025年上半年收入达1.91亿元,同比增长325%,已达2024年全年收入的61%[36] - 收入主要分为本地化部署解决方案和云端部署(MaaS)两部分[38] - 2024年,本地化部署收入2.639亿元,占总收入84.5%;云端部署收入0.4848亿元,占比15.5%[38] - 2025年上半年,本地化部署收入1.6178亿元,占比84.8%;云端部署收入0.291亿元,占比15.2%[39] - 整体毛利率从2022年的54.6%升至2023年的64.6%,2024年回落至56.3%,2025年上半年稳定在50%[42] - 本地化部署毛利率较高,在59%至68%之间波动;云端部署毛利率从2022年的76.1%大幅下滑至2024年的3.4%,2025年上半年为-0.4%[45][46] - 净亏损持续扩大,2022年至2024年净亏损分别为1.44亿元、7.88亿元、29.58亿元,2025年上半年净亏损23.58亿元[52] - 经调整净亏损2022年为0.9872亿元,2024年为25.38亿元,2025年上半年为18.99亿元[53] - 研发费用高企,2022年研发费用0.84亿元,费用率147%;2024年研发费用21.95亿元,费用率703%;2025年上半年研发费用15.94亿元,费用率835%[54] 商业模式与客户生态 - 公司商业模式是以GLM系列为底座,构建MaaS平台,并在此基础上提供B端解决方案和AI原生应用[58] - 当前阶段战略目标是扩大模型调用规模、客户数量和生态渗透率,而非追求短期利润[60] - 客户主要集中在IT服务、云计算、电信运营商、政府和教育等行业,多分布于北上深杭等数字经济集中城市[61] - 互联网客户占比达50%,且复购率超过70%[62] - 具体客户案例包括:某全球领先消费电子厂商(用于移动端AI Agent集成)、金山办公(用于WPS智能化升级)、智联招聘(用于AI招聘助手)、高端智能电动车厂商(用于智能座舱交互)等[63][64][65] - 作为独立厂商,其中立性是其吸引客户的优势之一[66] 行业前景与公司展望 - 沙利文报告预测,以2024年收入计,中国大语言模型市场规模约为53亿元,其中机构客户贡献47亿元,个人客户6亿元[70] - 预计到2030年,该市场规模将增长至1011亿元,复合年增速63.5%,其中企业级市场规模约904亿元[71] - 公司未来战略聚焦于技术、产品、人才三个关键词[74] - 技术上将持续迭代GLM系列至5.x,并优化推理、多模态、Agent能力;产品上将加厚MaaS平台,推动行业解决方案标准化;人才上致力于保留和吸引顶尖人才[75][77][79] - 公司收入目前主要来自中国内地,2025年上半年东南亚收入已占本地化部署收入的11.1%,海外拓展被视为未来增长曲线[84] - 文章作者提供了公司财务预测:预计2025年收入5.79亿元,2026年12.19亿元,2027年21.86亿元[82] - 中信证券研报预测更为积极:预计2025年收入7.38亿元,2026年16亿元,2027年26.8亿元[83]
分享6个平时我最常用的Prompt心法。
数字生命卡兹克· 2026-01-07 09:20
文章核心观点 - 文章认为与AI进行有效对话的关键在于掌握特定的沟通“心法”或技巧,而非依赖复杂的固定提示词格式 这些心法的核心是将对话转变为与AI的协作,将提问设计为对AI的引导,从而激发AI的潜力以获得更佳答案 [1][65][66][67] 一. 让AI选定角色后再回答 - 为AI设定具体且真实的角色能有效提升回答质量,例如设定为“乔布斯”可能比“10年产品经理”效果更佳 [2][3][4] - 当用户不确定应设定何种角色时,可直接让AI自行选择最适合的领域顶尖专家 文章提供了一个可用的提示词模板,其核心是让AI先选择专家并说明理由,再让用户描述详细问题 [5][6][7][8] - 实践案例:在策划年会活动时,使用此方法让AI选择了活动策划专家Priya Parker,从而使得到的答案更为丰满 [9][10][13][15][16] 二. 给答案前先让AI追问 - 此方法被称为“苏格拉底式追问”,旨在解决用户因提供背景信息不足而导致AI回答质量不佳的问题 通过让AI在回答前主动提问,以获取更多上下文信息 [17][18][19] - 文章分享了一个优化后的提示词模板,要求AI在拥有95%的信心理解用户真实需求后再给出方案 95%的置信门槛被证明能有效平衡质量与效率,避免无尽循环 [20] - 实践案例:在解决业务扩张导致的招聘瓶颈问题时,AI通过追问十几个详细问题后,给出了被认为非常有用的回答 [20][22][23] 三. 与AI辩论 - 此心法旨在对抗AI的“谄媚效应”,即AI倾向于顺应用户观点,从而帮助用户进行更客观的自我判断和观点补全 [24][25][26] - 用户可以通过设定攻击性较强的提示词,要求AI扮演挑战者角色,用尽一切论据来反驳用户的观点,以使理论更完善 [27][28][29] - 实践案例:作者为准备一场分享,与AI(Gemini)就某个观点进行了长达3小时的辩论,并从中学习到很多 [28][32][33] 四. 让AI提前预演失败 - 此方法用于避免人与AI在制定计划时均过于乐观,导致方案难以落地 其核心是在项目开始前,让AI模拟项目失败的情景并分析原因 [34][35][36][37] - 文章提供了一个简单的提示词模板,要求AI回答项目出现衰退信号的时间点、最致命的决策错误、被忽视的核心风险以及若能重来第一个应修改之处 [38] - 实践案例:在策划一个万人规模的AI大会前,作者将方案PDF交给AI进行“预演失败” AI生成了一篇数千字的分析,指出了包括“人流与踩踏风险”、“现金流风险”、“信任风险”等具体风险点,其中对“排队、盒饭、厕所、安检、动线”等细节风险的提示,被认为是作者的认知盲区 [39][40][42][43] 五. 反向提示 - 当用户明确想要的结果但不知如何提问时,可将成品(如文案、图片)提供给AI,让其反向推导出能生成类似风格的提示词 [44][45][46][47][48] - 文章推荐使用一句简单的提示:“这是我想要的成品范例。请你倒推一个提示词,让我用它能稳定生成同风格的内容。并说明这个提示词里每一句的作用。” [49][50][51] - 此方法主要用于学习目的,帮助用户拆解优秀作品的结构与节奏,而非简单复刻 目前适用于文本和图片,但音乐领域尚难实现 [52][53][54][55] 六. 双层解释法 - 此方法用于学习陌生领域或概念 它要求AI提供两个版本的解释:一个极度通俗的初学者版本和一个深度专业的版本,通过对照学习以加深理解 [57][58][59][60][61] - 文章提供了一个简单模板,并特别指出在初学者版本中将对象设定为“洗脚城的大爷”,能获得更生活化、通俗但不幼稚的解释,优于“六年级小学生”的设定 [62] - 通过这种方法,AI能提供相当到位的双重解释,有助于用户从不同层次理解问题 [63]
“不是...而是...”刷屏的一年,我读内容的快乐被AI偷走了。
数字生命卡兹克· 2026-01-06 09:21
AI生成内容对内容行业的冲击与用户反应 - 用户对AI生成内容产生普遍厌恶 具体表现为对“不是...而是...”等模板化句式的反感 这种句式因被AI滥用而迅速从有效的写作工具转变为令人反感的陈词滥调[4][6] - AI内容生产本质是从海量语料中总结最稳妥的写作组合 导致输出内容高度同质化 缺乏新意[6] - 当前内容工厂每天可能生产上亿的AI生成文本 其中大量是未经人类修改的粗糙内容 加剧了模板句式的泛滥[8] AI内容泛滥导致的信任危机 - 纽约时报2025年4月的一项针对2000名美国人的调查显示 大多数人认为其消费的网络内容中只有41%是完全准确、基于事实并由真实人类创建的[25][26] - 全球范围内对互联网内容的不信任已达到历史巅峰 且预计未来会继续升高 AI生成内容过多导致真假混杂是主要原因[25][27][28] - 用户反感的核心在于内容“预制”却未被告知 类比于宣称“现炒现做”的餐厅使用预制菜 当用户点开看似用心的真人账号内容却发现是AI模板生成时 会产生被欺骗感[22][23][24] 用户对真实连接的深层需求 - 用户消费内容的本质是为了与另一个意识产生连接 渴望通过信息触摸到屏幕背后活生生的人及其经历、感受与思考[30][31] - AI生成内容被比喻为自动行驶的集装箱 外壳光滑、航线稳定但甲板空无一人 无法提供真实的人际连接感 导致用户产生“关我屁事”的疏离感[35] - 在信息爆炸的时代 用户比以往任何时候都更渴望寻找同类和确认感 AI内容的泛滥正在侵蚀人与人之间的真实连接[36] 历史类比与行业反思 - AI生成的模板化内容被类比为新时代的“八股文” 其特点是格式固定、缺乏创新 与明清时期框死结构、韵律和用词的八股文类似[10][11][12] - 缺乏自身观点、纯靠AI自动化生成的内容 与八股文一样空洞无用 历史上顾炎武曾批评“八股之害等于焚书”[16] - 应对之道在于“逃离一致性” 保持对工业化内容的敏感和厌恶是珍贵的 这体现了人类对“真实”的追求和对被“磨平”的抗拒[39]
详细解读DeepSeek新年的第一篇论文,他们就是这个时代的真神。
数字生命卡兹克· 2026-01-04 09:20
文章核心观点 - DeepSeek发布了一篇关于mHC(流形约束超连接)的硬核论文,该技术通过引入“双重随机矩阵约束”机制,在保留超连接(HC)高信息通量优势的同时,解决了其存在的信息爆炸和信号消失等不稳定问题,从而实现了模型训练稳定性、高效性和性能提升的“三者兼得”,为下一代大模型(如传闻中的DeepSeek-V4)奠定了重要技术基础 [1][8][11][14][19][20] 技术演进背景 - **早期神经网络瓶颈**:在深度神经网络中,信息逐层传递时会出现严重失真,即“梯度消失”问题,导致模型无法有效加深 [3] - **残差连接的突破**:何恺明在2015年提出的残差连接(Residual Connection)如同在神经网络大厦中增设了一部“VIP直达电梯”,允许原始信息无损地直达深层,解决了梯度消失问题,是深度学习发展的关键里程碑 [5][6] - **超连接(HC)的兴起与缺陷**:为了处理多模态等海量信息,行业提出了超连接技术,将信息流从单条通道扩展为多条并行通道(如8条),大幅提升了信息通量,但引入了新的不稳定问题:信息在多通道间被反复共振放大导致“信号爆炸”,或责任扩散导致“信号消失”,使得模型训练极易在后期崩溃 [8][10][11] mHC(流形约束超连接)技术原理 - **核心思想**:mHC并未废除HC的多通道架构,而是为其引入了一套严格的数学约束纪律,即“双重随机矩阵约束”,在保证信息自由流动的同时,将其约束在一个能量守恒的“流形”之内 [11][14] - **约束一:信息能量守恒定律**:要求每个信使(信息通道节点)传递出去的信息能量总和必须等于其接收到的信息能量总和,从数学上禁止了信息的无中生有和夸大,根除了“信号爆炸”问题 [11] - **约束二:团队责任绑定定律**:要求一个信息从起点到终点,其总能量必须守恒。这迫使所有信使必须共同确保信息送达,杜绝了因责任扩散导致的“信号消失”问题 [11][12] mHC带来的性能与效益 - **训练稳定性实现质的飞跃**:在HC架构下,信息传递失真最高可达初始值的3000倍,极易导致训练崩溃;而mHC将失真最高值压制到仅1.6倍,稳定性提升了近3个数量级 [16][18][19] - **性能仍有提升**:在27B参数规模的模型测试中,mHC相比基础HC在多项基准测试(如BBH、DROP、MMLU等)上仍有额外提升,部分指标提升约2个百分点 [14][15] - **成本效益分析**:mHC引入了约6.7%的额外训练开销,但这笔开销可被视为一笔高效的“保险”。它几乎消除了因训练崩溃而导致的全额成本(可能高达数千万美元)和数周时间损失的风险,用微小的额外成本换取了极高的训练确定性和成功率 [14][19][20] - **突破“不可能三角”**:mHC通过精巧的数学设计和工程优化,同时实现了训练稳定性、高效性(高信息通量)和更强性能,这在以往被认为是难以兼得的 [20] 对行业与公司的潜在影响 - **技术路径示范**:DeepSeek的mHC论文为行业解决大模型训练,尤其是多模态大模型训练中的稳定性难题,提供了一个创新且有效的技术方案 [1][20] - **奠定下一代模型基础**:该技术被认为是即将到来的DeepSeek-V4模型的技术铺垫,传闻V4将具备多模态输入能力 [1] - **彰显工程与研发实力**:DeepSeek通过此类扎实的研究,持续展示其在AI基础架构层面的强大创新能力和工程优化能力,巩固了其行业技术领导者的形象 [1][20]
我的2025年度AI大盘点 - 前路已明。
数字生命卡兹克· 2025-12-31 09:21
年度大模型 - **年度写作大模型为GPT-5.2 Thinking**,该模型在指令遵循、风格迁移和世界知识方面表现极佳,超越了Gemini 2.5 Pro和GPT-4.5 [2] - **年度Coding大模型为Gemini 3.0 Pro**,其超强的前端能力和审美,能够帮助用户快速实现创意灵感 [4][7][8] - **年度绘图大模型为Nano Banana**,该模型掀起了远超GPT-4o的潮流和热度,成为AI绘图领域分水岭级别的模型,并体现了原生多模态的优势 [10][14][15] - **年度音乐大模型为Suno V5**,该模型是2025年AI音乐领域的绝对王者,将领域天花板拉高了数个级别,并在B站等平台引发了大量二创视频的井喷 [16][18] - **年度声音大模型为MiniMax Speech 2.0**,该模型在2025年5月15日发布,首次在多项指标上超越11Labs,实现了逼近真人级别的情感表达 [19][22][23] - **年度视频大模型为Sora2**,该模型以其高度真实和趣味性的生成效果,成为2025年最令人印象深刻和破圈的AI视频模型 [24][26] - **年度大模型为DeepSeek R1**,该模型于2025年1月20日发布并开源,其推理效果媲美当时顶级的闭源模型OpenAI o1,而API价格仅为后者的3.7%,奠定了中国在开源模型领域的领军地位 [27][29][30][31] 年度AI产品与功能 - **年度AI编程产品为Claude Code**,该产品能探索本地代码库上下文、修改文件、运行CLI工具,并支持将工作流封装为自定义Skill [43][45] - **年度AI设计产品为Lovart**,该产品是首个设计类垂直Agent,专为设计场景优化,集成了文字编辑、Touch Edit、Mockup等功能,并经常首发最新的绘图和视频模型 [46][47][48] - **年度AI功能为ChatGPT DeepResearch**,该功能可将查找资料的效率提升百倍千倍,能在10到30分钟内搜索全网数据并生成一篇深度研究报告,质量不亚于研究员工作10小时到1周的成果 [49][50][51] - **年度AI应用为Manus**,该应用作为第一个通用Agent,开启了Agent时代,将Agent概念向前推进了一大步,并于2025年被Meta以数十亿美金的价格收购 [55][60][61][62] - **年度AI硬件为Plaude Note Pro**,该硬件开创了能贴在手机背后的AI硬件新品类,具备录音、实时转录、自动总结会议要点等功能,并以百万销量证明了市场需求的真实性 [65][66][68][72]