Seedream - 财报，业绩电话会，研报，新闻

Seedream

搜索文档

CVPR 2026 | 还在为AI「鬼画符」发愁？TextPecker即插即用破解文字渲染难题

机器之心· 2026-03-11 17:39

文章核心观点 - 视觉文本渲染是生成式AI领域尚未攻克的核心难题，现有最先进模型也难以稳定生成结构忠实的文本[1][2] - 华中科技大学团队提出的TextPecker方法，通过构建结构感知的评估模块和复合奖励函数，以即插即用的方式显著提升了主流文生图模型的视觉文本渲染质量[2][37] - TextPecker方法的核心洞察是，制约质量的关键瓶颈在于评估模型缺乏对文字结构异常的细粒度感知能力，而非生成模型本身的能力上限[5] - 该方法在多个主流生成模型和基准测试中均带来一致且显著的性能提升，将高保真视觉文本渲染推向了新的技术水平[22][37] 技术瓶颈与核心洞察 - 当前主流优化范式依赖OCR或多模态大模型作为奖励信号来源，但这些评估模型存在两类典型失效模式：语言先验驱动的“幻觉”和低置信区域的“失明”[5] - 这些失效导致强化学习的奖励信号中混入大量噪声，模型无法获得细粒度的结构级反馈，构成了当前视觉文本渲染评估与优化的双重瓶颈[5][7] - 无论是专业OCR模型还是顶尖多模态大模型，在文本结构异常感知任务上的F1值均不超过0.23，部分模型甚至完全无法检出异常字符，表明现有模型在此任务上近乎失灵[20] TextPecker方法详解：结构感知的复合奖励 - 方法核心是重新定义奖励函数，引入一个具备细粒度结构异常感知能力的评估模块，从结构质量与语义对齐两个维度同时评估生成文字的质量[7] - **结构质量分数**：直接度量生成文字中结构异常的严重程度，通过“坏字率”计算，并引入强化因子ω以加大对结构缺陷的惩罚力度[8][9] - **语义对齐分数**：采用词级匹配替代传统的字符串级编辑距离比对，通过匈牙利算法为每个目标词找到生成文本中最佳的对应词，并显式处理多余文字和缺失文字的错误[10] - **复合奖励**：将结构质量与语义对齐两个维度的分数通过加权融合构成最终奖励，使得优化过程同时追求“文字内容对不对”和“文字结构好不好”[10][11] 数据构建：字符级结构异常数据集 - 为训练结构感知评估模块，研究团队系统化地构建了大规模、带有字符级结构异常标注的高质量数据集，总规模达1.4M样本[19] - **阶段一：大规模多样化富文本图像生成**：采用多模型、多来源的交叉生成策略，针对中英文场景分别调用多种主流生成模型合成图像，确保错误类型与生成风格的广泛覆盖[14][15] - **阶段二：高成本人工精标注**：投入大量人工对图像进行字符级结构异常检查，将监督粒度细化至单字符的结构完整性层面[14] - **阶段三：基于笔画编辑的合成数据增强**：针对中文的复杂性，设计了一套基于笔画删除、交换、插入的程序化合成流程，模拟复杂且贴近真实错误的结构异常，以增强模型泛化能力[17][18] 实验结果：评估与生成优化 - **结构异常感知能力**：TextPecker在英文和中文的文本结构异常感知任务上分别取得0.87和0.93的F1值，大幅领先于现有模型[20][21] - **视觉文本渲染生成优化**： - 在Flux.1 [dev]模型上，搭载TextPecker后，语义对齐度与结构保真度分别提升了+38.3%和+31.6%[2][22] - 在已高度优化的Qwen-Image模型上进行中文渲染，仍取得了语义对齐+8.7%和结构质量+4.0%的显著增益[2][22] - 在所有测试的主流生成模型和多个基准上均带来一致提升[22][23] - **定性效果**：TextPecker驱动的优化在结构保真与语义准确两个维度实现了同步提升，有效消除了文字笔画模糊、扭曲与错位等问题[24][26] 方法的有效性与泛化能力 - **消融实验验证**： - 数据有效性：仅用人工标注数据即可大幅超越基线，加入基于笔画编辑的合成数据后，中文性能全面恢复并进一步提升[27][28] - 奖励设计：词级匹配与结构质量分数每个组件均带来增量收益，完整的TextPecker奖励设计达到最优综合性能[27][28] - **跨模型泛化能力**：TextPecker评估器在训练过程中从未接触过的Nano Banana生成模型上，依然保持强劲的结构感知能力，表明其具有良好的泛化性[30][31] - **多奖励协同优化**：将TextPecker与PickScore、Aesthetic Score组合为多目标奖励进行优化，在中英文场景下均取得了大幅度的质量与语义双重增益，验证了其奖励信号与其他优化目标的兼容性及产品级落地潜力[32][33][34] 行业意义与应用前景 - 可靠的文字渲染能力是多模态AI走向真实应用的关键基础设施，是AI Agent自主生成海报文档、多模态大模型输出含文字视觉内容的前提[37] - 该技术直接针对海报设计、广告创意、图文排版及电商场景等高价值商业领域的规模化落地短板[2] - TextPecker为高保真视觉文本渲染方向提供了基础性的评估工具与优化范式[37]

Visual Text Rendering

AIGC

Artificial Intelligence

TextPecker

Nano Banana

Seedream

Visual Text Rendering

AIGC

Artificial Intelligence

TextPecker

Nano Banana

Seedream

春晚张杰《驭风歌》背后的马，是Seedance 2.0做的！

量子位· 2026-02-17 11:58

豆包大模型及火山引擎技术在春晚的应用与展示 - 豆包大模型家族的多项技术（包括豆包Seedance 2.0、Seedream、豆包语音识别模型、豆包TTS 2.0、字节Seed 3D模型、DA3模型等）在2025年央视春晚的多个节目中成功落地应用，从舞台视觉特效、机器人表演到直播互动与无障碍字幕，实现了全面覆盖 [6][38][43] - 火山引擎的视频云团队与方舟平台为春晚提供了关键的画质增强、高并发支持与空间视频技术，确保了8K高清、50FPS高帧率等超高规格节目的稳定呈现与流畅互动 [15][29][31] 视频生成与动态控制技术（Seedance 2.0） - **核心能力突破**：豆包Seedance 2.0视频生成模型实现了从“能生成”到“能控制”的进化，具备精细的微观控制能力、超强的指令遵循能力和多模态素材参考能力 [8][10][11] - **国风美学理解**：该模型成功处理了极具挑战的“中国水墨风”，在张杰《驭风歌》节目中生成了气势磅礴、奔腾的骏马动态水墨画卷，通过了春晚超级严格的审核 [4] - **复杂场景应用**：在《贺花神》节目中，为十几位明星定制了“一人一景”的中式视觉奇观，精准控制了植物缓慢绽放及纹理、层次、光影的细微变化 [7] - **视频动作迁移**：在《快乐小马》节目中，利用该技术将真人舞蹈动作一键迁移至卡通小马形象上，解决了不同拓扑结构间的适配难题，并保持了原图在剧烈运动时的稳定性 [13][14] 画质增强与空间视频技术（火山引擎） - **智能画质增强框架（MIPP）**：针对AIGC内容，火山引擎利用超分算法将720P视频提升至8K，并通过插帧技术将24帧补至50帧，同时结合视频理解技术进行针对性去噪、锐化等处理，抹平微小瑕疵 [16][17] - **空间视频技术（4D高斯泼溅/4DGS）**：在《梦底》节目中，通过70台工业级相机阵列采集演员数据，重建为4D数字资产，实现了与现场灯光实时互动的多个高精度虚拟分身同台表演，创造了虚实难辨的沉浸感 [18][20][21][23] - **性能与细节优化**：技术团队利用字节Seed 3D模型预制“影子几何”提升渲染效率，并引入DA3模型从单图推断高精度深度信息，确保了近景皮肤质感等细节的逼真度 [25] 机器人赋能与具身智能 - **多模态模型赋能**：豆包大模型全家桶为宇树机器人等春晚登台机器人提供了“眼”（视觉理解模型用于环境识别与避障）、“脑”（大语言模型用于理解自然语言指令）、“嘴”（TTS 2.0用于富有情感的语音合成）的能力，使机器人能看懂环境、听懂人话并带感情说话 [24][27][30] - **行业应用广泛**：豆包大模型在具身智能圈已服务宇树、银河通用、智元机器人等40多家公司 [40] 高并发AI互动与平台支撑（火山引擎方舟平台） - **首次AI互动**：今年春晚首次实现由大模型驱动的AI互动（如生成新春头像、定制祝福语），其本质是计算密集型的Agent过程，相比以往事务型互动算力消耗巨大 [28] - **抗洪峰解决方案**：火山引擎方舟平台通过跨机房联邦集群弹性伸缩、推理层硬件极限优化（如算子手写优化、Prefill/Decode分离）以及秒级权重复制加载等技术，成功顶住了亿万流量瞬间涌入的挑战 [29][31] 语音识别与无障碍字幕 - **复杂场景识别**：豆包语音识别模型在春晚直播的复杂噪声环境（含快语速、多梗、方言、掌声、背景音乐）下，展现了多方言鲁棒性、上下文感知（召回率提升15%以上）和低时延流式识别的能力，为抖音直播间提供了AI无障碍直播字幕 [36][37][39] 行业生态与合作伙伴 - **广泛的朋友圈**：豆包大模型通过火山引擎已渗透至多个行业，在车圈服务了超9成主流车企（包括奔驰、特斯拉、比亚迪、蔚小理等），在手机/PC圈与全球Top10手机厂商中的9家（如小米、OPPO、vivo、荣耀、三星）及联想等公司合作 [40] - **技术整合价值**：春晚作为一次大型“买家秀”，证明了豆包大模型及相关技术能够扛住顶级压力、真正落地并创造价值，其对中国文化的深刻理解与强大的工程化能力是关键 [41][42][45]

大模型

AI互动

元宇宙

Artificial Intelligence

Artificial Intelligence

Seedance 2.0

火山引擎方舟平台

这个春节，字节跳动杀疯了！Seedance2.0、豆包2.0接连问世，一文全看懂

搜狐财经· 2026-02-14 22:21

豆包2.0大模型系列发布概览 - 字节跳动发布豆包大模型2.0系列，包括Pro、Lite、Mini三款多模态通用模型及面向开发者的Code模型，以满足不同场景对延迟和成本的需求[4] - 该系列模型是支撑此前现象级产品Seedance2.0和Seedream模型的底层基座模型，完成了字节豆包大模型家族的布局[4][5] - 豆包2.0的价格仅为Gemini 3 Pro的四分之一，同时具备顶级的多模态理解和推理能力[3] 模型核心特点与能力 - 豆包2.0采用大一统的多模态原生框架，所有模态从训练初期就整合在一起，并原生支持多模态推理和Agent能力[10] - 模型视觉与多模态理解能力提升，针对易产生幻觉的场景进行优化，并增强了复杂指令执行、记忆、搜索及知识能力[9] - 模型展现出在复杂计算领域进行严格问题求解的能力，在处理真实复杂代码生成任务时，其解决方案策略不同于评测基准的官方参考实现[10] - 在基于视觉的推理能力上，豆包2.0展示出对GUI操作界面的强理解和推理能力，以及增强的实时反思能力，例如能完成高噪音的freeCAD环境中的语义GUI理解任务[10] 产品策略与市场反响 - 豆包模型系列的核心策略是解决真实世界问题，通过火山引擎、豆包App等与模型彻底连通，让真实用户需求直接影响基础模型的训练方向和标准[7][8] - 与以往模型发布不同，豆包系列未过度强调榜单排名，而是以被广泛、高频使用的形式流行，用户更关注其解决实际需求的产品体验而非技术指标[6] - Seedance2.0的成功部分源于豆包2.0基座模型提供的“参考”能力，该能力已进入风格层面，这是单纯视频模态模型无法具备的[12] - 豆包App作为国民级产品，其模型更新意味着为数亿活跃用户提供服务，这使得豆包系列成为少数直接面对海量真实用户进行训练和优化的模型[14][15] 技术基础设施与研发路径 - 字节跳动选择关键技术全自研、模型闭源、产品与研发全面打通的路线，与Google的路径相似[17] - 火山引擎作为模型对外的统一出口，其模型策略团队负责收集和抽象市场需求，并直接反馈至模型研发方向，确保以真实业务价值衡量模型能力[17] - 近期Seedance2.0等模型需求暴增，给火山引擎的算力基础设施带来巨大压力和更高要求，同时这一过程积累的真实经验也反向提升了模型训练的token利用率和算力效率[17] - 公司内部评估体系基于真实世界任务构建，并为此类工作分配了充足的算力资源，这是实现端到端任务的关键[9] 行业定位与战略意义 - 豆包2.0的发布被视为字节跳动的“Gemini 3时刻”，意味着其坚持的闭源、与规模化真实应用结合的路线正迎来证明时刻[19][20] - 与Google类似，字节将AI核心技术长在以AI为核心的机器学习平台和云服务上，再将“豆包同款”能力细化为产品提供给外界[18] - 豆包系列模型没有专注于“屠榜”顶尖任务，而是致力于在多模态智能维度扩展与处理广泛基础需求的能力之间寻找平衡[14] - 公司非常重视模型在基础科学任务中的表现，如数学猜想、广义相对论、量子编译器调试和计算化学等，以训练其理解抽象概念和发现并修复真实漏洞的能力[13][14]

“准多齐美真”，阿里发布图像模型Qwen-Image-2.0

新京报· 2026-02-10 15:16

阿里巴巴发布新一代图像生成模型 - 阿里巴巴于2月10日正式发布新一代图像生成及编辑模型Qwen-Image-2.0 [1] - 该模型被其视觉生成负责人以“准多齐美真”五字概括其能力，具体指“渲染准、指令多、排版美、文字真、排布齐” [1] - 模型支持高达1K tokens的文字输出，并在汉字渲染方面展现优势，例如能生成包含数百字王羲之小楷字体古文的《兰亭集序》图片 [1] 模型性能与行业竞争 - Qwen-Image-2.0集生图和编辑于一体，在AI Arena文生图评测中斩获1029分，得分超过Seedream4.5、Flux2-Max等模型，仅次于谷歌Nano Banana Pro和GPT Image1.5 [3] - 在阿里巴巴发布同日，字节跳动旗下的图像生成模型Seedream已升级至5.0版本 [3] - 这预示着阿里巴巴与字节跳动在图像生成模型领域将迎来“正面对决” [3]

Artificial Intelligence

Qwen-Image-2.0

Seedream

Artificial Intelligence

Qwen-Image-2.0

Seedream

晚点独家丨吴永辉接管字节 Seed 这一年

晚点LatePost· 2026-02-09 16:01

Seed部门新任领导吴永辉的背景与使命 - 吴永辉于2025年初接管字节跳动大模型研究部门Seed，当时部门情况是：上千人团队投入上百亿元追赶两年，研发出的基础模型虽进入中国第一梯队，但迅速被规模更小（仅上百人）、资源更少的团队超越，部门负责人承认失误，公司CEO在全员会点名批评[2] - 吴永辉背负明确使命：将模型能力做到国内第一，并与国际领先模型公司竞争[2] - 吴永辉拥有深厚技术背景：2008年博士毕业后加入Google，前7年从事核心搜索排名工程，后转至Google Brain从事AI应用研究，2023年成为Google DeepMind研究副总裁，参与Gemini大模型研发[5] - 其管理风格被描述为“沉稳”，上任后密集与100多位核心研究员进行一对一沟通，并提拔了数位模型架构方向的研究员[3] 吴永辉接管Seed后的核心工作与组织调整 - 吴永辉聚焦两件核心事务：一是提升基础模型能力与研究效率以保证交付；二是营造研究导向的氛围，目标是“做第一流的研究，打造第一流的AI研究团队”[3] - 2025年1月，组建名为“Seed Edge”的虚拟团队，设置3年考核期，鼓励骨干研究更基础、更长期的AGI（通用人工智能）课题[6] - 随后抽调人员组建“Focus”团队，打破部门边界，负责基础模型的攻坚，研发下一代模型需要提升的部分；剩余基础模型团队划为“Base”团队，负责工程、数据、测评及当前一代模型研发[6] - 调整后，可以同时推进三代模型研发，人员与课题可相互轮换，实现资源盘活：Edge团队的成果可下放，Focus团队发现的长期课题可转入Edge，其成果可用于改进当前模型[6] - 推动内部数据与代码库透明化以提高效率，但对外保密[6] - Seed部门整体规模维持在约1500人，扩张速度较前两年放缓，几乎不再从外部招聘中高层技术管理者，更重视招聘应届毕业生和提拔年轻人[9] Seed部门的主要研发成果与进展 - 吴永辉接管一年来最核心的产出是即将发布的豆包2.0模型，这是一款类似Gemini的多模态模型，参数规模达10000亿（1万亿），是Seed成立以来训练的最大模型[17] - 在基础语言模型方向，Seed迭代了4版模型（包括豆包2.0），能力有较大提升，持续追赶海外领先模型，但承认仍需补课，填补过去几年留下的“技术债”[5] - 在多模态生成方向，Seed的文生图（Seedream）、文生视频（Seedance）模型在一些基准测试榜单上排在全球前列，豆包手机助手模型成为行业关注焦点[5][8] - 吴永辉加入后的三个月内，Seed团队发布的论文数量就超过了2024年全年，激发了研究者的自驱力[21] 研发过程中面临的挑战与应对 - 训练豆包2.0期间遇到基础设施（Infra）层面的重大挑战，由于过去两年持续追赶相对忽视了基础能力建设，扩大参数规模时系统不稳定，一度难以推进[18] - Seed的Infra团队有数百人，同时支撑内部数十款模型的研发，高层认为其水平国内第一，但重整难度大，需要投入大量人力物力并承担信任成本，最终采取“边开车边修轮子”的方式[19] - 为解决豆包2.0训练问题，多个团队配合，花费3个月时间，主要从模型架构、训练数据等方面入手，确保模型赶在春节前上线[19] - 公司内部存在资源分配矛盾：一方面鼓励创新和长期研究（可能只有20%的资源用于短期有用课题），另一方面又需要为应对竞争（如腾讯、阿里）提供短期“弹药”，资源不可避免向短期有成果的团队倾斜[21][22] Seed部门的文化与管理难题 - 吴永辉的目标是将Seed打造成一流的研究品牌，融合初创企业的专注活力与学术界的自由思维[20] - 公司为Seed提供了宽松环境：设置更宽松的考核机制（大部分取消OKR），2025年中发放独立于公司期权之外的“豆包虚拟股”激励员工，并多次提高薪酬[20] - 营造了宽松的工作与研究氛围，实习生能与最高层直接交流，甚至允许研究员自发研究方向，在得到上级认可后从上到下推进[20][21] - 但面临核心管理难题：创新需要适当的灰度和混乱，而应对竞争需要秩序和纪律，如何平衡长期一流研究目标与短期产出压力是持续挑战[1][22][23] - 从2023年三季度开始，公司管理层对Seed团队发论文提出了“高质量”、“内容与正迭代的核心技术无关”等新要求，之后每月发布的论文数量有所减少[22]

大模型

人工智能

AGI

Artificial Intelligence

Artificial Intelligence

豆包 2.0

豆包手机助手模型

中信建投：自主Agent发展迅速，多模态催化内容市场迭代

新浪财经· 2026-02-09 14:24

行业核心观点 - 人工智能行业在模型能力、多模态应用及垂直场景渗透方面取得显著进展，多家公司发布重要产品更新，推动技术向更复杂、更自动化的方向发展 [1] Anthropic (Claude Opus 4.6) - 发布Claude Opus 4.6，凭借Agent Teams机制与自适应思考能力，深度打通Office生态并实现复杂工程任务托管 [1] - 该产品推动AI在金融、法律等垂直场景的深度渗透 [1] OpenAI (GPT-5.3-Codex) - 推出GPT-5.3-Codex，刷新编程与终端操作的SOTA（State-Of-The-Art）水平 [1] - 产品通过端侧环境接管与自我构建能力，验证了AI自动化研发的内生循环 [1] 字节跳动 (多模态领域) - 字节跳动Seedance 2.0开启内测，通过全方位多模态参考与精细化镜头控制解决视频生成的一致性痛点 [1] - 该产品有望协同Doubao、Seedream构成全模态矩阵，大幅降低内容制作成本并加速商业化落地 [1]

模力工场 027 周 AI 应用榜：从“一键生成”到“自动交付”，最会帮你干活的 AI 榜单来袭

AI前线· 2026-01-08 09:50

模力工场第027周AI应用榜核心趋势 - AI应用正从提供辅助性建议（如写文案、画图）的阶段，迈入接管用户最耗时、最易卡住的关键执行环节，追求“替你把事做完”的自动交付能力[4][5][10] - 自动交付能力建立在三个关键基础之上：深度理解任务目标而非浅层响应、多代理系统协作而非单一工具、以及立足真实行业数据与流程而非单纯算法堆叠[10] - 在AI时代，一切应用都值得重做一遍，其本质是对“工作”理解的重新定义，AI正从辅助工具升级为能承担关键执行的“执行者”[11] 本周上榜应用亮点 - **且听**：罗永浩旗下细红线科技推出的AI讲书应用，对5000+书籍进行深度解析，生成1-2小时结构化语音讲解，年费不到40元[7] - **Seedream**：字节跳动Seed团队推出的下一代AI图像生成与编辑模型，实现文生图、图生图、多图融合的一体化多模态创作，能保持系列创作中角色与风格的高度一致[8][10] - **遨虾**：1688推出的跨境电商智能体，基于真实产业数据，打通从选品、匹配工厂到上架执行的全流程[5][9] - **秒哒**：百度推出的对话式无代码AI应用开发平台，能将“一句话想法”变成可运行、可上线的完整应用[5][9][10] - **Manus**：能自主执行复杂任务并交付成果的全自动AI智能体，可完成调研、分析、报告交付的一站式工作[5][9] - **Genspark**：AI多代理搜索与自动化执行平台，通过多代理协作将零散信息整理成可直接使用的报告[9][10] AI应用发展趋势 - **深度理解与一致性**：领先的AI应用致力于理解系列任务的整体目标，确保输出结果（如图像风格、角色）在多次交互中保持稳定，以满足商用和批量生产需求[8][10] - **系统化与协作化**：复杂任务的交付依赖于模拟完整团队协作的多代理系统，将策划、开发、设计、信息处理等环节并行完成，实现从想法到成品的直接转化[10] - **数据与行业Know-How驱动**：能真正落地的AI应用高度依赖真实世界的数据与流程积累，例如供应链数据、真实路测数据等，这是实现“自动交付”的根基[10] 行业动态与事件 - 模力工场启动2026年“产品体验官”计划，邀请用户参与产品共建，并提供总价值逾千元的权益礼包[2] - “吴晓波·AI闪耀中国”大会及罗永浩年度分享会推荐了一批能“上手干活”的AI应用，推动了相关趋势的显现[10] - InfoQ启动《2025年度盘点与趋势洞察》策划，将覆盖大模型、Agent、AI Native开发范式、AI+传统行业等多个方向进行趋势盘点[13] - 行业新闻提及梁文锋署名DeepSeek论文提出mHC架构、多款高端AI芯片实现量产、壁仞科技作为港股“GPU第一股”市值破千亿、以及谷歌Gemini 3预训练负责人强调模型竞争焦点转向工程化与合成数据等热点[15]

AI自动交付

Artificial Intelligence

Artificial Intelligence

火山引擎总裁谭待：大模型市场不是零和博弈，明年市场可能还要再涨十倍

新浪财经· 2025-12-18 15:30

豆包大模型年度表现评估 - 火山引擎总裁谭待表示豆包大模型整体成绩肯定还可以在国内肯定还是很明显 [2][4] - 但对比全球领先模型如OpenAI和Gemini 公司认为仍需更加努力 [2][4] - 公司旗下Seedance和Seedream模型在全球的表现也不错 [2][4] 对大模型市场竞争格局的看法 - 公司认为2026年大模型市场最重要的不是竞争而是把市场做大 [2][4] - 公司预期明年市场可能还要再涨十倍届时关注的将是增量而非存量市场的零和博弈 [2][4]

大模型市场

Artificial Intelligence

Artificial Intelligence

豆包大模型

Seedance

Seedream

AI画不出的左手，是因为我们给了它一个偏科的童年。

数字生命卡兹克· 2025-12-10 09:20

文章核心观点 - 当前领先的文生图AI模型（如NanoBananaPro、Gemini、Lovart、ChatGPT、seedream、grok等）普遍无法准确生成涉及“左手”或“左脚”等特定左右关系的图像，例如“左手写字”或“左手拿橘子右手拿苹果” [1][3][5][7][9][12][21] - 该问题的根源并非AI逻辑能力不足，而是其训练数据集中存在严重的“现象空间偏差”，即数据在“完整性”和“平衡性”上存在缺陷，导致模型无法正确泛化左右等空间关系 [23][27][32][38] - 人类社会的现实偏见（如右撇子占多数）被大规模图像数据集记录并放大，AI通过学习这些有偏差的数据，继承了人类的认知偏见 [42][43][55][56] - 这一现象揭示了数据质量（分布）对于AI模型泛化能力的关键性影响，其重要性可能不亚于数据规模 [31][32][36][37] AI模型测试与现象观察 - 测试多个主流AI模型生成“左手写字”图片，结果几乎全部错误，稳定生成右手写字图像 [3][5][7][9] - 即使使用更复杂的提示词进行限制（如“右手拿着苹果左手写字”），模型仍会生成顺序相反的图像 [9] - 扩展测试其他涉及左右关系的场景（如指定左右手分别持物、左右脚动作），模型同样全部失败 [12][15][17][19][21] - 模型在生成不涉及左右的具体空间关系（如上下、并排）时表现正常，问题特指左右区分 [21] 问题根源：数据集的偏见 - 一篇题为《Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation》的论文为该现象提供了理论解释 [23] - 研究将图像要素分解为“主体”（filler）和“关系”（role），并通过控制图标组合实验测试模型对“上下”位置关系的理解 [28][29][30] - 定义两个关键数据质量指标：“完整性”（Completeness）指每种要素是否在所有相关位置都出现过；“平衡性”（Balance）指不同位置组合在数据中分布是否均匀 [32] - 实验表明，模型泛化能力高度依赖数据的完整性与平衡性，而非单纯的数据量大小 [31] - 当数据完整度和平衡度均为100%时，模型测试准确率接近100%；当两者降低时，准确率随之下降，最低可低于40% [35][36][37] - 在更接近真实世界的What‘sUp数据集实验中，数据完整性与平衡性下降同样导致生成左右关系图片的准确率下滑，常见错误是“两个物体都画对了，但顺序反了” [38][39][40] - 在错误类型分析中，“翻转顺序”的错误占比高达41.9% [41] 现实世界偏见的映射 - “左手写字”指令失败，是因为训练数据中“写字”的标签几乎全部关联右手写图像，模型未学习到“左手写字”这一现象 [42][43] - 模型将“写字”与“右手”强烈关联，导致无法处理“左手写字”的指令 [44] - 这类似于一个只做过大量“2+3=5”题目，却从未见过“3+2=5”的学生，无法回答后一个问题 [45][46][47] - AI的“偏见”本质上是人类社会现实偏见（如右撇子为主流）在数据中的反映 [50][55][56] - 大规模图像语料库是人类过去几十年摄影与文化习惯的快照，其中固有的统计偏差被AI模型继承 [56] 对AI行业与模型训练的启示 - 该案例凸显了高质量训练数据的重要性，数据的“分布”方式对模型能力的影响可能超过数据“规模” [31][32] - 提升AI模型的泛化能力，需要刻意构建具有高“完整性”和“平衡性”的数据集，覆盖现象空间中的各种可能性，包括少数情况 [32][51][61] - 技术发展可能迫使AI公司重新设计训练集，以改善模型在类似左右关系等任务上的表现 [61]

新浪财经· 2025-10-12 13:20

行业趋势：AI技术重塑影视创作生态 - 电影行业生态正加速从单一票房经济向多元消费生态转变 [1] - AI技术正从科幻场景应用拓宽至有感染力的故事演绎，成为创意伙伴而非单纯工具 [8] - AI技术为行业带来低成本试错可能，降低内容创作门槛，让非科班创作者站上国际舞台 [6][14] 技术应用：AI工具实现工业级突破 - 火山引擎Seedance视频生成模型支持丰富镜头语言和运镜指令，达到电影级叙事效果 [10] - Seedream 4.0图像创作模型首次支持4K多模态生图，实现多图融合、参考生图等核心能力 [11] - 即梦AI数字人1.5功能基于OmniHuman 1.5模型，可实现单图输入生成说话、唱歌的数字人 [14] 公司动态：上影与即梦AI战略合作布局AI影视 - 上海电影自2023年2月起系统性布局AI视频生成，主办全球AI马拉松等赛事构建创作者生态 [17] - 上海电影与字节跳动旗下即梦AI于今年3月签署战略合作，共同推进AI与影视产业深度融合 [19] - 合作将依托字节跳动在算力、数据与用户端优势，重点聚焦产业共建、人才培养与生态构建 [19] 项目案例：AI原生内容开发取得进展 - 博纳影业引入AI技术至剧本创意、前期筹备等环节，打造国内首部AI原生动画电影《三星堆：未来启示录》 [10] - 釜山电影节展映5支AI短片，包括中国创作者《小怪物》《一目五先生》等作品，由即梦AI等工具完成 [3][4] - 《九霄》全AI生成为角色、服饰设计带来前所未有的创作自由，几乎每个镜头都使用丰富镜头语言 [7][10]