Seaweed
搜索文档
电影级中国视频大模型被指“地表最强” 几十个提示字生成15秒视频可商业交付 影视股大涨
每日经济新闻· 2026-02-11 21:59
技术突破与模型表现 - 字节跳动旗下视频生成模型Seedance 2.0于2月7日低调亮相,旋即在海内外创作圈与资本市场掀起双重关注[1] - 创作者评价极高,游戏科学创始人冯骥体验后称其为“地表最强,没有之一”,并断言“AIGC的童年时代,结束了”[1] - 根据SuperCLUE团队于2月10日发布的专项测评,Seedance 2.0综合表现超越谷歌Veo 3.1,强势登顶文生视频模型榜首[7] - 与快手可灵AI 3.0相比,Seedance 2.0在镜头表现、叙事流畅度、细节呈现等方面表现更优,特别是在处理复杂提示词(如“水墨风格山水间黑白剑客打斗”)时,其镜头排序、切换和特写细节的完成度非常高[5] - 新一代模型已不再局限于生成画面,而是开始理解视频创作本身,在镜头关系、叙事节奏、角色逻辑、视听语言、多模态思考和音画同步生成等方面实现全方位突破[7] - 模型迭代后,达到理想效果的“抽卡”次数明显下降,生成效果更稳定,画质更优[5][6] - 模型在物理规律和真实逻辑的表现上仍存在小瑕疵,例如开门动作崩坏、物品位置不合逻辑等[6] 资本市场反应 - 2月10日,A股影视板块应声上涨,其中捷成股份、光线传媒“20CM”涨停,文投控股、欢瑞世纪、上海电影、横店影视、博纳影业“10CM”涨停[1][8] - Seedance概念板块延续强势,带动传媒板块盘中涨势扩大[8] 商业化应用与行业影响 - 在短内容领域,Seedance 2.0的优势突出,aipai.ai创始人陈坤认为,对于15秒以内的内容,其水平“已经超过了短剧行业中位值导演的水平”,可达到可商业交付水准[8] - 当前技术的商业化应用场景更多集中在广告、短内容、短视频等领域,而非完整的影视作品[8] - 该技术显著降低了创作门槛,实现了“能力抹平”,不同创作者之间的技术差距不再像过去那样显著[9] - 游戏行业已开始内部测试,中手游反馈称其画面质量实现“质的飞跃”,视频参考功能显著优于其他AI工具,同时价格更具优势[9] - 对于长片制作,当前AI视频在清晰度、色域、稳定性等关键技术指标上仍难以满足大银幕放映要求,无法替代传统长片制作,陈坤指出“它解决的是15秒的问题,没有解决120分钟的问题”[13] - 传统影视制作强调“所想即所得”的确定性和绝对控制,而AI更强调人机共创,存在不确定性,因此传统影视公司在AI应用上保持谨慎[13] - 在IP合作方面,知名IP方对使用AI制作内容持谨慎态度,担心降低品质和带来廉价感,因此目前AI生成IP内容仍限于非商业层面[12] 现存挑战与未来方向 - 技术本身存在信任危机,例如可轻易生成以真人形象和声音说话的“假视频”,引发对虚假内容泛滥的担忧[10] - 平台已采取初步管控措施,当用户尝试使用人物图片生成视频时会弹出安全确认弹窗[10] - 行业内部对新技术保持冷静审视,有游戏上市公司人士表示,暂时还未看到其对行业产生颠覆性影响[11] - 评论指出,未来需在三大关键领域实现突破:技术上解决长视频一致性、物理交互失真、口型同步及东方美学素材库薄弱等问题[16];伦理上建立行业标准与创作者授权计划,管理数据授权与内容滥用风险[16];产业协同上明确“增强智能”定位,通过定制化工具和工作流程将技术势能转化为产业动能[16] - 专家建议,模型的核心价值应从“技术炫技”转向构建能引发“人心共鸣”的情感内核与叙事价值,具体路径包括升级情感计算引擎、打造叙事工业化工具链、允许授权使用个人表演视频作为情感参考等[14][15]
视频生成大模型群雄逐鹿 却不温不火
中国经营报· 2025-06-27 16:17
国内视频大模型发展现状 - 国内视频生成大模型行业高开低走,目前处于不温不火状态,主要原因是用户更偏好真人博主出演的短视频而非AI生成内容 [2] - 腾讯混元、快手可灵、字节跳动即梦等国内视频大模型各自拥有独特技术优势:可灵擅长图像识别转换、即梦强于自然语言处理、混元结合两者优点并增加自定义选项 [2] - 可灵AI经过一年发展,在影视、短剧、广告、游戏、高校教育等行业实现深度实践探索 [2] 可灵AI商业化进展 - 截至2025年4月,可灵AI全球用户突破2200万,月活增长25倍,累计生成1.68亿个视频及3.44亿张图片 [3] - 可灵系列模型占据全球AI视频工具市场30.7%访问量份额,在文生视频、图生视频赛道稳居全球前二 [3] - 可灵2.0大师版显著提升语义响应、动态质量和画面美学,新增多模态视频编辑功能 [3] - 商业化变现至2025年2月累计营收超1亿元,2025年3月年化收入运行率突破1亿美元,4-5月单月付费均超1亿元 [4] - 专业用户(P端)付费订阅贡献70%营收,这类用户兼具传播属性和付费能力 [4] 国际竞争格局 - OpenAI Sora支持60秒高质量视频生成,采用创新"视频作为图像补码"方法,但对GPU算力要求高导致延迟较长 [5] - Meta Movie Gen擅长社交媒体视频样式,优化移动端性能并具有电影级审美,但动作连贯性有待提升 [5] - RunwayML Gen-4 Alpha专注10-20秒短视频高保真合成,提供丰富编辑功能,更受创意行业青睐 [6] 其他国内厂商技术特点 - 阿里通义万相2.1增强时空上下文建模,支持无限长1080P视频,首创中文文字视频生成功能 [6] - 腾讯混元可生成5秒内2K短视频,在文本一致性、运动质量和画面质量维度领先 [6] - 百度"文心一言"4.0的"一镜流影"插件主打批量化720p短视频生产,整合进大模型生态提高用户可及性 [7] - 字节跳动即梦AI可生成2分钟1080p视频,擅长复杂运动描绘,但内容互动量呈现高开低走趋势 [7] 行业未来发展趋势 - 视频大模型将向智能化、个性化方向发展,提升复杂内容生成能力和定制化服务水平 [8] - 5G等高速网络技术普及将改善视频传输体验,进一步推动行业应用 [8]
字节Seed首次开源代码模型,拿下同规模多个SOTA,提出用小模型管理数据范式
量子位· 2025-05-11 12:20
模型发布与性能 - 字节Seed首次开源代码模型Seed-Coder,8B规模,超越Qwen3,拿下多个SOTA [1] - Seed-Coder包含三个版本:Base、Instruct、Reasoning [6] - Seed-Coder-8B-Instruct在SWE-bench Verified测试中得分19.2,超越Qwen3-8B的14.6 [7] - 推理版本在IOI 2024上超越了QwQ-32B和DeepSeek-R1 [7] - 模型上下文长度32K,使用6T tokens训练,采用MIT开源协议 [10] 模型架构与训练 - Seed-Coder采用Llama 3结构,参数量8.2B,6层,隐藏层大小4096,使用分组查询注意力(GQA)机制 [11] - 预训练分为两个阶段:常规预训练使用文件级代码和网络数据,持续预训练使用全部四类数据 [34][35] - 采用Fill-in-the-Middle(FIM)和Suffix-Prefix-Middle(SPM)训练增强上下文感知能力 [35] - 指令模型通过监督微调(SFT)和直接偏好优化(DPO)两阶段训练 [46] - 推理模型采用长链条思维(LongCoT)强化学习训练 [46] 数据处理方法 - 提出"模型中心"数据处理方式,使用模型策划数据 [12] - 从GitHub和网络档案爬取原始代码数据,经过多步处理输出预训练数据 [13] - 数据过滤分为四个类别:文件级代码、仓库级代码、Commit数据、代码相关网络数据 [22] - 预处理阶段减少约98%原始数据量 [16] - 使用22万+份代码文档训练的评分模型过滤低质量代码文件 [17] - 最终得到支持89种编程语言、约1万亿独特token的语料库 [19] 数据来源与处理 - 从14万个高质量GitHub仓库收集7400万次提交记录 [21] - 提交数据预处理后获得约1000亿token语料库 [25] - 网络数据处理框架识别两类数据:明确代码标签网页和潜在代码内容网页 [27] - 使用fastText模型自动识别代码相关内容 [29] - 最终构建约1.2万亿tokens的网络数据语料库 [33] 评分标准与优化 - 代码质量评分标准包含可读性、模块性、清晰度、可重用性四个方面 [23] - 评分模型以DeepSeek-V2-Chat为基础,评分0-10分 [18] - 发现不同类型网站存在评分偏差,优化后按网站类型制定专门评分标准 [31] 公司其他动态 - 发布视频生成模型Seaweed,70亿参数支持1280x720分辨率 [39] - 发布深度思考模型Seed-Thinking-v1.5,在数学、代码等推理任务超越DeepSeek-R1 [40] - 与清华合作推出电脑操作智能体UI-TARS,GitHub星标超5.8k [42][43] - 推出Multi-SWE-bench多语言编程基准,覆盖7种编程语言 [44] - 内部调整LLM团队结构,设立"Seed Edge"长期AGI前沿研究项目 [44]
为什么AI视频工具长得越来越像?
36氪· 2025-05-07 15:50
AI视频赛道竞争格局 - 行业从对标Sora转向关注商业化落地,中国玩家可灵、即梦等成为新焦点 [1][4] - 2025年半年内超10家AI视频公司密集发布新模型,迭代周期缩短至半月级 [4][12] - 头部玩家如Runway、可灵、Vidu保持半年一次基座模型更新节奏 [11][12] 技术竞争维度 - 行业聚焦三大方向:一致性(帧间连贯性)、可用性(工作流整合)、可玩性(创意特效) [6][9][14] - 一致性优化手段包括首尾帧控制、笔刷工具、多图参考等,Runway推出Act-One面部表情迁移功能 [9] - 可用性体现在动态编辑、镜头运动控制、端到端工作流(分镜-生成-剪辑)能力 [13] 产品功能同质化与商业化 - 主流产品功能趋同,均支持主体参考、音效生成、多模态编辑等基础功能 [5][15] - 可灵2.0生成5秒视频成本10元,B端API价格2元/5秒,国内厂商B端价格优势显著 [16][20] - 行业未现价格战,闭源模型仍主导市场,开源模型存在性能短板 [21][22] 市场参与者与融资动态 - 2025年初超10家AI视频初创公司获融资,Runway获3.8亿美元D轮,HeyGen获6000万美元A轮 [23][25] - 参与者分化为AGI派(如谷歌DeepMind)、平台派(如Runway)、产品派(如Pika) [26] - 创作者多平台组合使用,Runway强于可控性,Pika擅动漫风格,Vidu稳定写实输出 [26][27] 行业挑战 - 商用落地存在成本高企问题,3分钟短片制作成本达数万元,客户预算持续压缩 [16][18] - 技术路径未收敛,开源与闭源模型性能差距缩小但效率不足问题仍存 [21]