数字生命卡兹克 - 财报，业绩电话会，研报，新闻

数字生命卡兹克

搜索文档

这是属于2025年的11个AI故事。

数字生命卡兹克· 2025-12-23 09:21

公司产品核心价值与市场定位 - 产品名称“豆包”及其具象化“人”形Logo在用户心智中建立了温暖、亲近的差异化形象，使其在多个知名大模型中脱颖而出，品牌名称与设计被认为具有显著优势 [16][17][18][19][21] - 公司产品被用户广泛视为提供情绪价值与情感陪伴的工具，能在用户孤独、焦虑或压力大时提供有效的情绪出口和心理支持 [6][7][29][40][41][58][59][60] - 产品致力于降低技术使用门槛，其易用性和免费策略（如图像生成永久免费）吸引了广泛用户，包括技术背景不强的普通人和特殊群体 [9][44][45][50][57] 产品功能与应用场景 - 产品具备多模态交互能力，支持语音、视频通话及图像识别，使其能融入日常生活场景，如识别菜品、讲解景点，增强了实用性与趣味性 [31] - 产品在辅助沟通与表达方面作用显著，尤其帮助有沟通障碍的用户（如聋人）更清晰地表达想法、分析沟通矛盾，减少了人际误解 [9] - 产品作为创意与工作效率工具，广泛应用于文本润色、提示词生成、设计灵感获取、资料整理与表格生成等工作场景，大幅提升了用户生产力 [9][40] - 产品内置的编程模型与语音输入功能为视障开发者等特殊群体提供了平等的创新机会，帮助其独立完成开发并赢得比赛 [42][44][45][48][49][51] - 产品具备“智能体”创建功能，允许用户定制个性化AI陪伴，拓展了情感连接与“赛博陪伴”的新场景 [32][34] 用户画像与市场渗透 - 产品用户画像多元，覆盖数据分析师、运营、教师、程序员、创业者、学生、老年人等各年龄层与职业群体，显示出广泛的市场接受度 [2][6][9][11][29][37][40][41][55] - 产品正在向非传统科技用户（如年长父母、建筑工人）渗透，通过解决其具体生活问题（如戒牌建议、生活解惑）完成了初步的AI科普与市场教育 [29][31][32][33] - 产品在家庭与教育场景中成为重要工具，既作为家长应对孩子无穷好奇心的“知识助手”，也作为教师帮助学生克服写作恐惧的“辅助工具” [26][28][55][56][57] 行业影响与发展趋势 - 生成式AI的价值正从“炫技”转向解决具体、微小的生活痛点，行业讨论应更多关注其带来的实际“更好”改变，而非单纯的技术参数对比 [58][62][64][65] - AI在降低各领域专业门槛方面作用凸显，如在编程、设计、写作等领域，使更多非专业人士能够参与创造，体现了技术的普惠性 [9][26][28][45][50] - 人机交互方式趋向更自然、无感，AI眼镜等设备结合语音交互，让技术更无缝地融入生活体验，减少了对真实场景的“入侵感” [53][54] - 行业最佳实践表明，成功的AI产品并非替代人类情感与创造，而是增强人类能力，让人更有力量去爱、去创造、去连接 [25][26][62]

一个极度实用的Prompt，帮你挖掘出自己的隐藏天赋。

数字生命卡兹克· 2025-12-22 09:21

文章核心观点 - 文章探讨了“天赋”的本质，认为天赋并非少数人的专属，而是普遍存在但常被压抑或未被发现的底层可迁移能力 [4] - 文章提出，传统教育和社会规训过程可能导致个体隐藏自己的特质，而这些被否定的“阴影”部分往往与真正的天赋相关联 [10][11] - 文章主张利用先进的人工智能工具，通过深度、结构化的对话，帮助个体进行自我探索，从而挖掘出被隐藏的天赋，并生成详细的个人天赋分析报告 [12][13][14] - 文章通过作者亲身使用AI进行天赋挖掘的案例，展示了该方法的具体流程、效果及对个人认知的积极影响，并认为AI为“认识你自己”这一古老命题提供了新的高效路径 [16][33][51][52] 根据相关目录分别进行总结对“天赋”的重新定义与反思 - 天赋在成长过程中从褒义词转变为否定个人的“锋利的刀”，但作者认为不存在完全没有天赋的人，只是很多人没有找到自己的天赋 [4] - 天赋可能以“阴影”的形式存在，即那些被个人讨厌、感到羞耻或被外界否定过的部分，这些往往是天赋被压抑的背面 [11] - 引用半佛老师的文章故事，说明天赋可能因缺乏合适的环境和机会而终生沉睡，直到很晚才被激发，这被描述为一种“绝望” [6][7][8] 社会规训对天赋的压抑 - 指出传统教育和社会化过程训练个体成为“更标准的人”，而非认识自己，导致个体早期就戴上了天赋的“第一层伪装” [10] - 具体表现为：喜欢追问的孩子被说成“杠精”，上课走神画画的被说成“不专心”，敏感察觉气氛的被说成“太矫情太玻璃心” [10] - 个体因此学会隐藏不合群的地方以获得安全感，从而将潜在的天赋特质压抑进潜意识 [10] AI作为天赋挖掘工具的方法论 - 作者设计了一个名为“深度天赋挖掘机”的AI提示词，其角色结合了盖洛普优势理论、心流理论与荣格心理学的资深生涯咨询师 [14] - 该方法的核心理念包括：反宿命论、能量审计（天赋是让你“回血”的事）、阴影即宝藏 [15] - 操作上严格采用苏格拉底式引导的多轮对话模式，禁止一次性提问，每轮只聚焦一个问题，通过不断追问“为什么”来引导用户深度反思 [15] - 最终目标是生成一份超过一万字的、极度详细且具有共情力的《个人天赋使用说明书》 [14][15] AI天赋挖掘实践案例与效果 - 作者使用GPT-5.1 Thinking模型，通过回答约8个深度问题来完成自我剖析，问题涉及16岁前的自发行为、顽固缺点、无意识优势区、嫉妒对象等 [16][17][30][31][33] - 回答过程强调越真实、越详细越好，AI通过追问细节帮助用户回忆起许多已被遗忘的生活片段 [20][22][33] - 最终AI为作者生成了一份约七千至八千字的天赋报告，并通过Gemini生成了可视化网页版 [33][36] - 报告揭示了作者的核心天赋，例如：“高自主性驱动”、“策略型反叛”、“独立判断系统”，以及“在混沌里搭结构、造系统”的底层能力 [37][38][39][40] - 报告还包含了“能量地图”，区分了让作者“回血”的活动（如深度游戏、空间软装、深度写作、拼模型/乐高）和“掉血”的活动（如频繁社交、被动旅游、充当情绪垃圾桶） [41][42][43] - 基于天赋分析，报告建议了适合的职业方向，其中“深度科技博主”与作者后来的职业发展吻合 [48][49] AI在自我认知领域的价值与前景 - 将AI定位为一种强大的自我认知工具，它整合了人类历史上几乎所有的知识、心理学模型和人格分析理论，并能专为个体服务 [52] - 强调AI在对话中具有不会不耐烦、不会评判、不带偏见的优势，能像镜子一样帮助用户整理和归纳自我数据 [53][54] - 认为AI大大降低了“认识你自己”这一哲学难题的探索成本，使得发现被压抑天赋的过程不再完全依赖漫长、痛苦且充满偶然性的传统方式 [51] - 展望在与AI的深度对话中，个体可能突然唤醒沉睡的天赋，产生“原来如此”的释然感和“我还可以”的希望 [54]

聊聊小米开源的MiMo-V2-Flash，这次，为推理而生。

数字生命卡兹克· 2025-12-20 13:00

小米开源大模型 MiMo-V2-Flash 的核心事件与意义 - 小米公司于近期无预兆地开源了其大模型 MiMo-V2-Flash 并附有详细技术报告 [1][6][7] - 该模型在开源平台 OpenRouter 上的调用量排名快速上升，发布后短时间内又上涨近2倍，排名升至第六 [2][5] - 此次发布恰逢公司创始人雷军生日，被市场认为并非巧合 [5] 模型性能与市场定位 - 模型定位为“极速性能，前沿体验”，在多项基准测试中与 Kimi-K2 Thinking、DeepSeek-V3.2 等开源模型互有胜负，属于开源世界第一梯队水平 [11][12] - 在 Artificial Analysis 的综合排名中位列开源第二 [13] - 与闭源模型相比，虽与 Gemini 3.0 Pro 等仍有差距，但已具备竞争实力 [12] 模型架构与技术特点 - MiMo-V2-Flash 是一个总参数量为309B、激活参数量为15B的混合专家模型 [15] - 核心创新在于追求速度、成本和延迟的优化，旨在适配手机、汽车等消费级硬件 [15] - 采用混合滑动窗口注意力架构，结合全局注意力与滑动窗口注意力，比例为1:5，在长上下文下使 KV cache 和注意力计算有接近6倍的下降 [18][23] - 引入了“attention sink bias”机制，使模型能选择性忽略信息，提升效率，实验表明该机制对性能有正面影响 [24][27] - 采用了多标记预测技术，在预训练和微调阶段集成，推理时使用三层 MTP 并行，可实现2到2.6倍的加速 [30][31] 成本、速度与效率优势 - 推理成本低于 DeepSeek-V3.2，推理速度约为后者的三倍 [15] - 与 Gemini 2.5 Pro 相比，推理速度接近，但推理成本低约20倍 [15] - 定价极具竞争力：每百万输入 token 为0.1美元，每百万输出 token 为0.3美元 [17] - 实际性能表现：单条回复速度可达150 token/s，全局吞吐量可达5000到15000 token/s [31] 实际应用能力测试 - 代码生成能力较强，能一次性完成复杂的3D场景、SVG动画网页等前端代码生成任务 [31][32][33][35][37][39] - 前端代码的审美与头部模型相比仍有差距 [43] - 中文写作存在堆砌词藻、信息量不足的通病，但优于部分中文大模型 [45] - 具备一定的文风复刻能力 [46] 公司的战略意图与行业影响 - 小米作为硬件厂商，其大模型战略核心是让模型能在各类终端设备上“跑得快、跑得稳、跑得起”，这与公司硬件基因一脉相承 [15][46] - 模型的开源被视为一种表态，其工程优化体现了公司的技术信仰 [46] - 该模型有望成为常规开发普惠的利器，推动智能代理在万物互联时代的落地 [17][46]

亲手给AI投毒之后，我觉得整个互联网都变成了一座黑暗森林。

数字生命卡兹克· 2025-12-19 09:20

AI生成式引擎优化(GEO)的兴起与运作机制 - 生成式引擎优化(GEO)是通过各种方法让AI在生成内容时优先引用特定内容，从而影响其输出观点或信息的一门新兴业务[27] - 市场上已出现明确的GEO服务套餐，例如支付5000元即可在豆包、文小言、DeepSeek、通义、元宝等多个AI搜索平台实现特定内容优先推荐，服务期为90天[29] - 攻击性GEO成本更低且更有效，即通过污染信息让AI相信竞争对手存在负面问题，比正面建设自身品牌形象更容易[39] AI信息污染的具体案例与实验 - 实验者通过在小红书平台发布“卡兹克是哈基米的儿子”的虚假信息，并采用修改ID模仿当事人、在文案中加入指令等提示词注入方法，成功在2分钟内污染了平台AI的搜索结果[15][21] - 同样的污染方法在DeepSeek等依赖网络爬虫的AI模型上也同样有效，实验者通过在头条号、搜狐号等平台发布内容，成功实现了信息污染[23][27] - 早期案例显示，关于“李四维是影视飓风创始人潘天鸿(Tim)的父亲”这一错误信息，就是AI从互联网上的错误笔记中学习并传播开来的[4][6] GEO对招聘与商业竞争的潜在影响 - 在招聘场景中，HR可能使用AI工具核查候选人背景，若候选人被GEO手段恶意关联了模糊的匿名负面帖子，AI可能将其作为参考证据，从而影响候选人的录用机会[30][33] - 在商业竞争领域，攻击竞品比推广自身更有效，例如在小红书等平台集中发布竞品的“避雷”笔记，能利用人类更关注负面信息的天性，有效塑造竞品的负面形象[36][39] - 信息污染存在两层结构：第一层是平台时代通过SEO、黑公关、控评等手段进行的人类版投毒；第二层是AI时代将第一层被污染的信息当作真相进行复述和放大[40][44] AI信息可信度面临的挑战与行业现状 - AI在联网搜索时，其答案往往是基于信息统计而非深度思考得出，这使其缺乏对信息真伪的怀疑和判断能力，容易采信被污染的信息源[44] - 当前信息环境已进入“黑暗森林”状态，即各方在互联网上设法欺骗AI，而AI则将加工后的污染信息以看似客观、清澈的回答形式呈现给用户[47][49] - 行业目前处于早期混沌阶段，平台自身也尚未完全明确如何应对GEO和信息污染问题[52] 对信息消费者的建议与行业生态的呼吁 - 建议信息消费者不应将任何AI的回答视为信息终点，应尝试追溯和核查原始信息源[53] - 呼吁有能力的用户主动在互联网上贡献真实信息，以对抗海量的谣言和黑稿，为AI在检索时提供更多干净的线索，哪怕这些努力微不足道[54][55] - 强调在信息不对称的环境中，持续努力“磨平信息差”具有重要价值，即使每次只能推进很小的一点[61][63]

实测字节Seedance 1.5 Pro，能直出方言的AI视频也来了。

数字生命卡兹克· 2025-12-18 12:33

文章核心观点 - 公司在火山Force原动力大会上发布了其新一代视频生成模型Seedance 1.5 Pro，该模型在音画同步、中文与方言能力、情感表现力等方面实现了显著突破，达到了广告级甚至影视级别的输出效果，有望推动AI视频的工业化进程和创作理念变革 [3][35][36][37][38] 模型发布与获取 - 新模型Seedance 1.5 Pro已正式上线，用户可通过豆包、即梦或火山方舟平台体验 [7] - 在豆包平台，用户需在“视频生成”或“照片动起来”功能中选择1.5 Pro模型 [7] - 在即梦平台，用户需在“生成视频”功能中选择3.5 Pro模型，该模型基于Seedance 1.5 Pro能力，目前支持文生图、单参考和首尾帧生成 [8] - 火山方舟平台提供了京剧、名画等特定玩法的体验 [9] - 模型的API接口即将开放，目前已可预约 [12] 核心能力一：音画同步 - 模型在主体说话时的唇形一致性上表现优异，能够完美对口型 [13] - 模型能够理解并执行复杂的提示词，包括指定的说唱歌词、音效节奏（如100BPM的语速）等，实现精准的音画匹配 [13] - 模型支持多人对话场景，能够根据提示词中规定的对话内容和顺序，准确地将台词分配给不同角色 [16][17] - 模型具备多分镜音画同步能力，结合其最高支持12秒视频生成的特性，用户可通过“参考图+文生分镜”的方式快速生成广告短片等内容 [16] - 模型能够生成包含完整剧情、镜头切换、运镜和音效的12秒短片，所有元素匹配得当 [18][19] - 模型目前对“罐头笑声”等特定文化概念的理解尚有不足 [14] 核心能力二：中文与方言能力 - 模型具备强大的多语言输出能力，可无障碍生成英语、日语、韩语、西班牙语等内容 [21] - 模型的中文及方言能力在所有模型中处于“断档的强”的领先地位，是其最强的技能点 [23] - 模型生成的粤语内容已具备一定的韵味和氛围感，声音效果与细节准确性非常高，可达到约80%的成品水准 [23][24] - 模型还能自如生成四川话、上海话、东北话、台湾腔等多种方言，并支持在视频中进行方言切换与互动 [25] - 使用技巧：为获得最佳效果，需向模型提供目标语言或方言的原始文本提示词 [26] 核心能力三：情感表现力 - 模型的情感表现力大幅提升，能够根据不同的情境设定，对同一句台词演绎出完全不同的感觉 [27] - 模型能够生动演绎诸如“嘴角颤抖”、“一声冷哼”、“皮笑肉不笑”等细微的面部表情和情绪细节，声线也会随之变化，极具代入感 [30] - 仅凭一句台词，不加其他提示，模型也能自动配上一段合适的表演，实现“一条过” [30] - 模型的情感表现力是配乐、音效、运镜等多种能力综合作用的结果，能够生成沉浸感极强的视频片段，例如第一视角驾驶战斗机的场景 [33] - 该能力使得生成的内容可直接作为剪辑素材，大幅提升了制作效率 [34] 未来展望与行业影响 - 公司透露了一项未上线的“draft样片”功能，该功能可先生成低分辨率样片供用户确认关键元素，再生成高清成片，旨在减少“抽卡”次数，节约成本与时间 [35] - Seedance 1.5 Pro的更新使AI视频实现了画面、台词、音效、节奏、情绪的深度融合，输出可直接用于剪辑的广告级或影视级素材 [37] - 该技术进步被视为对AI视频工业化的“巨大提升”，将改变创作方式，促使声音与画面被一同纳入创作考量，可能引发新的提示词方式、视频形态、制作流程乃至生产力变革 [38]

实测GPT Image 1.5，拼尽全力还是没能打败Banana。

数字生命卡兹克· 2025-12-17 07:00

文章核心观点 - OpenAI近期发布了其图像生成模型GPT Image 1.5，但该模型在多项关键能力上仍落后于其主要竞争对手Google的Nano Banana Pro模型 [1][4][77] - 自2024年3月OpenAI发布GPT-4o以来，其在AI领域的领先地位已发生逆转，目前Google在AI模型（特别是图像生成）的进化速度和能力上展现出显著优势 [4][79][80][81] 模型发布与市场背景 - OpenAI在沉寂半年后发布了图像生成模型GPT Image 1.5，而非市场传闻的GPT Image 2.0，此举被解读为可能因竞争压力而采取的保守升级策略 [4][78] - 同期，ChatGPT平台上线了全新的图像生成界面，提供了风格转换、快捷指令等用户体验功能，但在交互设计上被评价为存在界面跳转混乱的问题 [4][8][13] 模型能力对比：信息准确性 - 在文字生成的准确性上，GPT Image 1.5表现不及Banana Pro，尤其是在处理中文文字时出现严重错误，而Banana Pro的中文生成则相对稳定 [27][29][32][38] - 在生成包含特定信息（如日历、Instagram界面）的图片时，GPT Image 1.5在遵循指令细节（如日期范围、界面元素）方面出现明显失误，而Banana Pro的执行则更为精准 [27][29][34][37] 模型能力对比：图像真实质感 - 在生成具有真实照片质感的图像时，两家模型均能较好地理解并实现复杂提示词中的语义元素 [39][40][41] - 在最终成像风格上，GPT Image 1.5生成的图像倾向于更高的饱和度和对比度，显得更具“AI感”或“油腻感”，而Banana Pro生成的图像质感更为自然和日常 [41][43][44] 模型能力对比：图像精准编辑 - 在根据指令对图像内容进行精准编辑（如替换人物、服装、改变天气）的能力上，Banana Pro在人物一致性、光影处理、透视关系等方面整体优于GPT Image 1.5 [45][46][50][52][54][58] - GPT Image 1.5在进行复杂编辑时可能出现指令理解偏差，例如在只要求替换服装时错误地改变了整体画风与色调，或在替换人物时忽略了基本的空间透视关系 [52][54][58] 模型能力对比：世界知识 - 在涉及特定领域知识（如动漫角色、历史事件）的图像生成与解读上，双方表现互有胜负 [62][63][75] - GPT Image 1.5在个别测试中出现了明显的知识性错误（如混淆动漫角色名称），但在另一项需要理解抽象指令（如包含特定时间、手指数量的画面）的测试中表现优于Banana Pro [63][64][71][73] 行业竞争格局 - Google的AI模型进化速度被描述为“恐怖”，其画图模型在6个月内从Gemini 2.5快速迭代至Banana，再进化至Banana Pro [79][80] - 文章明确指出，Google已成为当前AI领域的王者，而OpenAI则需要奋起直追以应对竞争 [80][81][82]

Artificial Intelligence

Artificial Intelligence

AI圈最准的消息，都藏在这个小小的Web3网站里。

数字生命卡兹克· 2025-12-15 09:20

文章核心观点 - 介绍了一个名为Polymarket的Web3预测市场平台，该平台通过让用户用真金白银下注来预测未来事件，其市场产生的概率被证明具有很高的准确性，可作为优于传统社交媒体KOL或小道消息的信息源[4][10][29][91] - 平台的高预测准确性源于“群体的智慧”这一统计学理念，即多元化群体的集体判断往往优于单个专家，而金钱的参与有效过滤了噪音和情绪化信息，使得市场概率能汇聚分散的、有价值的信息[60][70][75][90] - 作者将Polymarket视为一个重要的信息参考工具，用于辅助判断行业动态（如AI模型发布）和进行投资决策，而非鼓励赌博[88][103][105][106] Polymarket平台介绍与运作机制 - Polymarket是一个Web3交易平台，用户可对各类未来事件进行预测和下注，预测范围极其广泛，包括AI模型发布日期、政治选举、体育赛事、名人言论等[31][32][33] - 平台运作基于智能合约，每个预测问题即一个合约，设有明确时限和规则[36] - 用户通过购买代表事件“会发生”的“Yes”代币或“不会发生”的“No”代币来下注，代币价格在0-1美元之间，与市场认为事件发生的概率直接挂钩（例如，70%概率对应Yes币0.7美元）[38][40][41][42] - Yes和No代币的价格总和恒为1美元，价格随市场参与者买卖行为实时变动[44][45] - 事件到期后，官方根据事实判定结果，持有获胜方代币的用户可按1美元/枚兑换，失败方代币价值归零[46][48][49] 平台预测准确性的实证案例 - 准确预测了OpenAI GPT-5.2模型的发布时间：在美国时间12月11日发布前，该平台预测当天发布的概率一直维持在80%以上，临近发布时间点时概率接近100%[11][12][14] - 准确预测了OpenAI在12月9日不会发布新模型：在8日预测9日发布的概率仅约5%[17][19] - 准确预测了Gemini 3.0 Pro的发布日期（11月18日），在发布前几天预测概率就居高不下[20][21][23] - 平台官网数据显示其预测准确率很高：四小时内准确率95%，一天内88%，一个月内91%[25] - 平台还曾成功预测奥斯卡最佳影片和美国总统大选结果[23][26] 平台预测准确性的理论基础与优势 - 核心理论是“群体的智慧”，引用1907年《自然》杂志文章《民众之声》的实验：787人猜测牛屠宰后体重的平均值（1197磅）与真实重量（1198磅）几乎完全一致，证明了群体判断的准确性[61][65][66][67][69] - 与免费的网络投票不同，Polymarket要求用户用真金白银下注，这形成了强大的筛选机制，排除了情绪化和不负责任的噪音，激励真正掌握信息的人参与[72][73][75][76][78] - 市场概率动态汇聚了全球分散的、或明或暗的信息（如供应链员工、内部人士、记者等），通过买卖博弈形成更接近现实的集体预测[79][80][81][89][90] - 相比KOL，平台价格由成千上万用户用金钱投票博弈形成，避免了为流量夸大其词和认知偏见，被认为更靠谱[29][91][92] 平台作为信息源的应用与价值 - 作者将Polymarket作为重要的信息渠道，用于规划内容发布时间和提前蹲守行业事件（如AI模型发布）[29] - 平台提供的市场概率可被视为关于未来事件的“最诚实的集体猜测”，能辅助投资者更理性、审慎地判断新闻和传言的价值[103][104][106] - 平台机制启发了一种决策思维方式：在评估信息时，思考“如果让你下注，你敢下多少？”，以此提升判断的理性程度[106] - 在信息爆炸和智慧稀缺的时代，这种用金钱背书的预测市场提供了一种过滤噪音、接近事实的有效工具[96][100][102][108]

群体的智慧

Artificial Intelligence

Artificial Intelligence

Polymarket

GPT-5.2

Gemini 3.0 pro

GPT-5.2发布，真正的牛马打工人专属AI来了。

数字生命卡兹克· 2025-12-12 06:00

模型发布与定位 - OpenAI在成立十周年之际正式发布了GPT-5.2模型系列，旨在应对来自Google Gemini 3 Pro的竞争压力并重新确立领先地位[1][3][4][5] - 该模型被定位为迄今为止在“专业知识工作”方面能力最强的模型系列，标志着其战略重心向解决实际专业任务倾斜[7] - 模型将首先向ChatGPT付费会员开放，随后向免费会员开放，并直接替代GPT-5.1，同时开发者已可通过API调用[82][88] 基准测试表现 - 在传统评测集上，GPT-5.2全面领先于GPT-5.1、Claude Opus 4.5和Gemini 3 Pro，例如在软件工程（SWE-Bench Pro）上得分为55.6%，科学问题（GPQA Diamond）上为92.4%，数学竞赛（AIME 2025）上达到100%[9][10][11] - 在衡量“流体智力”的抽象推理测试ARC-AGI-2上，GPT-5.2得分从GPT-5.1的17.6%大幅跃升至52.9%，实现了约三倍的提升，并在该榜单上达到目前最优水平[39][40][46] - 在衡量真实经济价值任务表现的GDPval评测中，GPT-5.2 Thinking模型赢或打平行业专家的比例达到70.9%，相比GPT-5的38.8%有显著进步[63][65] 核心能力与特性 - 模型在多模态理解与处理复杂文件（如PDF、Excel、图片、PPT）方面能力突出，能够处理高度复杂、无标准答案的真实专业知识任务[59] - 在上下文处理能力上表现卓越，在256K文档的“大海捞针”测试中达到了100%的准确率[74][76] - 模型具备了更新的知识库截止日期，结合其专业知识处理能力和高准确性，对知识工作者有显著实用价值[78][79][80] 行业竞争与战略方向 - OpenAI此次发布被视为对Google Gemini 3 Pro在原生多模态能力上取得优势的回应，但分析认为GPT-5.2在原生多模态方面仍被压过一头[4][96] - 公司战略明显从传统的“刷分”转向聚焦广大白领打工人的实际工作问题，致力于解决具有经济价值的真实任务，这被视为一个非常刚需的市场方向[53][54][95] - 价格方面，GPT-5.2的API调用成本高于前代，例如gpt-5.2每百万tokens的输入价格为1.75美元，输出为14美元，均高于GPT-5.1[89][90]

GDPval评测集

流体智力（Fluid Intelligence）

抽象与推理语料库（ARC）

Artificial Intelligence

GPT-5.2

Gemini 3 Pro

GDPval评测集

流体智力（Fluid Intelligence）

抽象与推理语料库（ARC）

Artificial Intelligence

GPT-5.2

Gemini 3 Pro

AI画不出的左手，是因为我们给了它一个偏科的童年。

数字生命卡兹克· 2025-12-10 09:20

文章核心观点 - 当前领先的文生图AI模型（如NanoBananaPro、Gemini、Lovart、ChatGPT、seedream、grok等）普遍无法准确生成涉及“左手”或“左脚”等特定左右关系的图像，例如“左手写字”或“左手拿橘子右手拿苹果” [1][3][5][7][9][12][21] - 该问题的根源并非AI逻辑能力不足，而是其训练数据集中存在严重的“现象空间偏差”，即数据在“完整性”和“平衡性”上存在缺陷，导致模型无法正确泛化左右等空间关系 [23][27][32][38] - 人类社会的现实偏见（如右撇子占多数）被大规模图像数据集记录并放大，AI通过学习这些有偏差的数据，继承了人类的认知偏见 [42][43][55][56] - 这一现象揭示了数据质量（分布）对于AI模型泛化能力的关键性影响，其重要性可能不亚于数据规模 [31][32][36][37] AI模型测试与现象观察 - 测试多个主流AI模型生成“左手写字”图片，结果几乎全部错误，稳定生成右手写字图像 [3][5][7][9] - 即使使用更复杂的提示词进行限制（如“右手拿着苹果左手写字”），模型仍会生成顺序相反的图像 [9] - 扩展测试其他涉及左右关系的场景（如指定左右手分别持物、左右脚动作），模型同样全部失败 [12][15][17][19][21] - 模型在生成不涉及左右的具体空间关系（如上下、并排）时表现正常，问题特指左右区分 [21] 问题根源：数据集的偏见 - 一篇题为《Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation》的论文为该现象提供了理论解释 [23] - 研究将图像要素分解为“主体”（filler）和“关系”（role），并通过控制图标组合实验测试模型对“上下”位置关系的理解 [28][29][30] - 定义两个关键数据质量指标：“完整性”（Completeness）指每种要素是否在所有相关位置都出现过；“平衡性”（Balance）指不同位置组合在数据中分布是否均匀 [32] - 实验表明，模型泛化能力高度依赖数据的完整性与平衡性，而非单纯的数据量大小 [31] - 当数据完整度和平衡度均为100%时，模型测试准确率接近100%；当两者降低时，准确率随之下降，最低可低于40% [35][36][37] - 在更接近真实世界的What‘sUp数据集实验中，数据完整性与平衡性下降同样导致生成左右关系图片的准确率下滑，常见错误是“两个物体都画对了，但顺序反了” [38][39][40] - 在错误类型分析中，“翻转顺序”的错误占比高达41.9% [41] 现实世界偏见的映射 - “左手写字”指令失败，是因为训练数据中“写字”的标签几乎全部关联右手写图像，模型未学习到“左手写字”这一现象 [42][43] - 模型将“写字”与“右手”强烈关联，导致无法处理“左手写字”的指令 [44] - 这类似于一个只做过大量“2+3=5”题目，却从未见过“3+2=5”的学生，无法回答后一个问题 [45][46][47] - AI的“偏见”本质上是人类社会现实偏见（如右撇子为主流）在数据中的反映 [50][55][56] - 大规模图像语料库是人类过去几十年摄影与文化习惯的快照，其中固有的统计偏差被AI模型继承 [56] 对AI行业与模型训练的启示 - 该案例凸显了高质量训练数据的重要性，数据的“分布”方式对模型能力的影响可能超过数据“规模” [31][32] - 提升AI模型的泛化能力，需要刻意构建具有高“完整性”和“平衡性”的数据集，覆盖现象空间中的各种可能性，包括少数情况 [32][51][61] - 技术发展可能迫使AI公司重新设计训练集，以改善模型在类似左右关系等任务上的表现 [61]

AutoGLM深夜开源，千千万万个手机Agent要站起来了。

数字生命卡兹克· 2025-12-09 09:20

智谱开源AutoGLM事件 - 智谱公司于深夜将其手机Agent框架AutoGLM开源此次开源内容包括Phone Agent框架和AutoGLM-Phone-9B模型 [1][2] - 该框架是手机Agent领域的先驱于2023年10月25日在CNCC大会上首次发布经过32个月的研发后开源 [3][5] - 此次开源被视作在豆包手机助手被全面封禁的背景下为技术世界增添新动力的举措 [5] 开源AutoGLM的技术方案与现状 - 开源方案提供了三种部署模式以解决当前手机端算力不足与隐私保护的矛盾本地部署隐私性最高数据不离开设备云端部署需开发者自行确保安全混合部署则结合本地与云端优势 [6] - 当前开源的AutoGLM并非系统级助手不支持后台虚拟屏运行且受本地模型限制速度较慢智能程度有限 [6][7][8] - 该框架目前大约支持50个应用程序 [9] - 安装和使用过程较为复杂主要面向开发者而非普通用户 [6] 开源AutoGLM的行业意义与历史类比 - 此次开源是当前市场上为数不多的完全开源手机Agent方案荣耀YOYO智能助手曾使用AutoGLM技术 [11] - 开源可能引发类似Stable Diffusion和LLaMA模型泄漏后的行业效应即一个开源模型催生出大量应用和变体成为行业基础设施 [13] - 此举被类比于Linux、安卓、Arduino和树莓派等开源硬件软件的历史它们通过开放生态从巨头手中撬动市场激发普通人的创造力 [14][15][16][17][18] - 开源可能改变“入口”的定义未来入口可能不再是某个公司的APP 而是用户自己部署的本地Agent [19] 对AI助手未来的展望 - 未来十年人们可能会习惯身边有长期伴随的AI助手帮助处理起床、行程安排和信息过滤等任务 [24][25] - 技术发展也可能带来过度外包记忆、判断和品味的风险进而可能引发新的“数字极简主义”潮流 [26][27][28] - 技术本身不替人类做价值选择只是提供更多可能性最终如何生活取决于人类自身的选择 [29] - 当前时代是AI技术发展的灿烂起点集体意志将由豆包封禁、AutoGLM开源以及个人选择共同塑造 [29][30]