多模态输入 - 财报，业绩电话会，研报，新闻

多模态输入

搜索文档

环球网· 2026-02-12 16:45

产品发布与接入 - 字节跳动于2月12日发布最新视频生成模型Seedance2.0，并宣布其AI产品豆包和即梦接入该模型 [1] - 用户可通过豆包APP、电脑端、网页版以及即梦APP、即梦网页版体验Seedance2.0 [1] - 在豆包APP和即梦APP中，用户可通过录音录像完成真人校验，生成本人形象的数字人分身并用于生成AI视频 [1] - 豆包电脑端、网页版及即梦网页版目前暂不支持上传真人人脸素材 [1] 技术能力与特性 - Seedance 2.0支持图像、视频、音频、文本四种模态输入，使表达方式更丰富，生成更可控 [1] - 用户可用图片定义画面风格，用视频指定角色动作和镜头变化，用音频表达节奏氛围，突破了文字提示词的局限 [1] - 模型采用极致的稀疏架构提升训练和推理效率，并基于统一的多模态视频生成架构，具备强大的泛化能力 [5] - 模型能生成音画同步的高质量音视频，并支持组合的多模态参考、视频编辑、视频延长等复杂功能 [5] - 在多模态参考生成、复杂音视频指令遵循、复杂运动稳定性、专业镜头语言、音视频表现力及视听一体化协同等多维度测评中，表现均处于业内领先水平 [5] - 其在运动稳定性、指令遵循及画面美感维度有显著提升，生成的复杂动作流畅细腻，并支持专业级组合运镜与叙事节奏控制 [5] 市场反响与评价 - 此前Seedance 2.0已进行小范围内测，凭借多模态参考、精准可控性等亮点在全球范围内引发关注 [2] - 海外创作者使用该模型制作的短片，与数月前海外模型效果对比，画面更真实丰富，埃隆·马斯克对此感慨“这发生的也太快了” [2] - 海外社交平台上，有国外用户为使用Seedance 2.0而研究如何申请中国手机号 [2] - 游戏科学CEO、《黑神话：悟空》制作人冯骥评价其为“当前地表最强的视频生成模型”，认为其在多模态信息理解与整合能力上实现了飞跃 [5]

计算机：字节Seedance2.0发布，“杀死比赛”级产品惊艳亮相

国盛证券· 2026-02-10 16:24

报告行业投资评级 - 增持（维持）[4] 报告的核心观点 - 字节跳动发布的Seedance 2.0视频生成模型在基础能力和可控性上取得显著进步，其多模态输入与精准复刻能力有望降低AI漫剧行业的“抽卡”成本，推动视频生成产业工业化进程[1][2][21] - 通过敏感度测算，即使保守估计（抽卡频率降至75%），采用Seedance 2.0相比同业模型也能降低总生成成本约5%；中性假设下（抽卡频率降至50%），每秒生成成本相比同业可降低37%[2][29][31] 根据相关目录分别进行总结 1. 字节 Seedance 2.0 发布，“杀死比赛”级产品惊艳亮相 - **行业背景**：2026年以来视频模型密集迭代，行业走向多模态输入与全能参考时代，多家公司如爱诗科技、谷歌、生数科技、快手等相继发布新品[9][10] - **多模态能力**：Seedance 2.0全面升级，支持文本、图片、视频、音频四种模态输入，用户可自由组合素材进行参考，为生成带来优越的可控性[1][11] - **模型基础能力**：指令理解准确性、物理规律合理性、元素一致性水平有所提升，能生成现实感强、动作自然的画面，并解决人物、服装、字体等细节的一致性问题[1][12][14] - **模型可控性**：通过上传参考视频，可精准复刻高难度的运镜、动作及创意模板，实现更强的镜头连贯性（如一镜到底），并能精准复刻创意转场和剪辑[1][17][19] - **综合影响**：模型在生成质量和可控性上双重进步，显著提升了视频模型的实用性和使用效率，有望加速AIGC产业化落地[21] 2. 可控性显著提升有望带来视频生成产业工业化的飞跃 - **行业痛点**：AI漫剧行业存在“抽卡”痛点，由于生成画面的随机性，用户常需多次生成才能获得满意结果，单个镜头抽卡次数可高达7次，这带来了额外的成本负担[2][22] - **成本节约机制**：Seedance 2.0更高的可控性有助于减少“抽卡”次数，从而降低漫剧行业的制作成本与周期[2][22] - **成本对比测算**： - **基础定价**：字节即梦单积分成本约0.1元，可灵O1单积分成本约0.07元[23] - **每秒生成成本**：Seedance 2.0生成每秒视频需8积分，成本约0.8元；可灵O1生成每秒720P视频（有视频输入时）需9积分，成本约0.63元[27][28][29] - **成本节约敏感度**：在抽卡频率降低至原本75%、50%、25%的保守、中性、乐观假设下，采用Seedance 2.0的实际每秒总生成成本分别为4.20元、2.80元、1.40元，相比同业模型（4.41元）的成本降低幅度分别为5%、37%、68%[29][31] 3. 投资建议 - **AI漫剧**：建议关注万兴科技、快手、阜博集团、新国都等[3][30] - **多模态**：建议关注当虹科技、虹软科技等[3][30] - **字节链**：建议关注寒武纪、润泽科技等[3][30]

视频进入可编辑时代：藏师傅教你视频版 Banana 可灵 O1

歸藏的AI工具箱· 2025-12-02 13:18

可灵O1模型的核心能力与产品定位 - 公司发布“可灵O1”，这是一个大一统的视频、图像生成和编辑工具，支持在一个界面和流程中完成全部视频图片编辑和生成工作 [2] - 该模型是一个统一的多模态视频大模型，融合了参考生视频、文生视频、首尾帧、内容增删与风格重绘等任务，实现从生成到修改的一站式完成 [2] - 模型支持生成约3至10秒的自由叙事镜头，并能灵活控制节奏与镜头长度 [2] 多模态输入与自然语言编辑 - 模型支持图片、视频、主体与文字的多模态输入，用户可直接用自然语言进行精细编辑，无需依赖遮罩或关键帧 [2] - 在视频编辑中，用户只需上传视频并在提示词输入框中通过“@”指代素材，即可通过文本指令修改视频内容，例如改变人物服饰 [4][6] - 对于图片参考编辑，用户可上传单图或多图作为参考，并需在提示词中详细描述背景的运动方式或前景，以增强画面真实感 [7] 主体功能与一致性保持 - 模型新增“主体”功能，允许用户创建并保存常用角色、道具或场景，该功能通过上传多张不同角度的图片来创建主体，大幅提高了在视频生成中角色、道具、场景的特征稳定性与镜头间一致性 [10][13] - 用户可以将多个主体叠加使用，例如将人物主体与道具主体结合，即使在复杂环境下，模型也能保持高度的融合度与真实感 [15] - 该功能对电商展示尤其利好，通过创建商品主体，可在任意运镜下保持产品展示的稳定，甚至能保留细微的划痕和使用痕迹 [17] 视频生成与编辑的具体应用 - 模型支持自由选择10秒内的单条视频生成时长，并按时长扣除灵感值，这为视频Agent产品及轻度展示场景提供了成本优势 [18] - 模型能直接转变视频风格，如转换为毛毡风格、动漫风格或8-bit像素风格，用户仅需一句提示词即可完成以前成本很高的复杂风格转换 [19] - 模型支持首尾帧生成视频，结合视频编辑功能可创造出大场景转换等炫酷特效，过渡效果自然 [20][21] 图像生成与编辑能力 - 在图片模式下，模型支持上传多张图片并加入对应主体进行编辑，例如实现与动画角色的合影，并能保持场景与人物的一致性 [22] - 图片编辑同样支持与主体混合修改，以增强一致性，例如将人物换上特定服饰主体并更换场景主体 [25] 行业发展趋势与模型意义 - 视频领域正在复刻图片领域的发展路径，模型展现出更好的推理能力、世界知识和更强大的编辑能力 [29] - 回顾今年三四月的图像编辑模型质量，再看最近短短半年的发展成果，表明该领域一旦起步，进展将非常迅速 [29]

智谱GLM-4.1V-Thinking登顶HuggingFace Trending全球第一：同尺寸效果最好

IPO早知道· 2025-07-09 18:01

模型性能与突破 - GLM-4.1V-9B-Thinking凭借9B模型尺寸登顶HuggingFace Trending第一 [2] - 该模型在28项权威评测中23项达成10B级模型最佳成绩，其中18项持平或超越72B的Qwen-2.5-VL [4] - 采用"思维链推理机制"和"课程采样强化学习策略"，系统性提升跨模态因果推理能力与稳定性 [3] 多模态能力 - 支持视频理解，可解析最长两小时内容并分析时间、人物、事件和逻辑关系 [4] - 具备图像问答能力，能深入分析图像内容并解答，逻辑能力和世界知识较强 [4] - 支持学科解题，包括数学、物理、生物、化学等学科的看图解题并给出详细思考过程 [4] 应用场景 - 文字识别：准确抽取图片和视频中的文字及图表内容并结构化输出 [5] - 文档解读：对金融、政务、教育等领域文档进行原生理解、抽取、提炼和问答 [5] - GUI Agent：识别网页、电脑和手机屏幕的交互界面元素，支持点击、滑动等指令执行 [5] 技术特点 - 轻量版模型参数控制在10B级别，兼顾部署效率与性能突破 [4] - 融合丰富多模态能力，包括代码生成（基于图片文字内容自动编写前端代码） [5] - 支持Grounding功能，识别图片特定区域并抽取坐标位置 [5]