Workflow
Seaweed
icon
搜索文档
视频生成大模型群雄逐鹿 却不温不火
中国经营报· 2025-06-27 16:17
国内视频大模型发展现状 - 国内视频生成大模型行业高开低走,目前处于不温不火状态,主要原因是用户更偏好真人博主出演的短视频而非AI生成内容 [2] - 腾讯混元、快手可灵、字节跳动即梦等国内视频大模型各自拥有独特技术优势:可灵擅长图像识别转换、即梦强于自然语言处理、混元结合两者优点并增加自定义选项 [2] - 可灵AI经过一年发展,在影视、短剧、广告、游戏、高校教育等行业实现深度实践探索 [2] 可灵AI商业化进展 - 截至2025年4月,可灵AI全球用户突破2200万,月活增长25倍,累计生成1.68亿个视频及3.44亿张图片 [3] - 可灵系列模型占据全球AI视频工具市场30.7%访问量份额,在文生视频、图生视频赛道稳居全球前二 [3] - 可灵2.0大师版显著提升语义响应、动态质量和画面美学,新增多模态视频编辑功能 [3] - 商业化变现至2025年2月累计营收超1亿元,2025年3月年化收入运行率突破1亿美元,4-5月单月付费均超1亿元 [4] - 专业用户(P端)付费订阅贡献70%营收,这类用户兼具传播属性和付费能力 [4] 国际竞争格局 - OpenAI Sora支持60秒高质量视频生成,采用创新"视频作为图像补码"方法,但对GPU算力要求高导致延迟较长 [5] - Meta Movie Gen擅长社交媒体视频样式,优化移动端性能并具有电影级审美,但动作连贯性有待提升 [5] - RunwayML Gen-4 Alpha专注10-20秒短视频高保真合成,提供丰富编辑功能,更受创意行业青睐 [6] 其他国内厂商技术特点 - 阿里通义万相2.1增强时空上下文建模,支持无限长1080P视频,首创中文文字视频生成功能 [6] - 腾讯混元可生成5秒内2K短视频,在文本一致性、运动质量和画面质量维度领先 [6] - 百度"文心一言"4.0的"一镜流影"插件主打批量化720p短视频生产,整合进大模型生态提高用户可及性 [7] - 字节跳动即梦AI可生成2分钟1080p视频,擅长复杂运动描绘,但内容互动量呈现高开低走趋势 [7] 行业未来发展趋势 - 视频大模型将向智能化、个性化方向发展,提升复杂内容生成能力和定制化服务水平 [8] - 5G等高速网络技术普及将改善视频传输体验,进一步推动行业应用 [8]
字节Seed首次开源代码模型,拿下同规模多个SOTA,提出用小模型管理数据范式
量子位· 2025-05-11 12:20
模型发布与性能 - 字节Seed首次开源代码模型Seed-Coder,8B规模,超越Qwen3,拿下多个SOTA [1] - Seed-Coder包含三个版本:Base、Instruct、Reasoning [6] - Seed-Coder-8B-Instruct在SWE-bench Verified测试中得分19.2,超越Qwen3-8B的14.6 [7] - 推理版本在IOI 2024上超越了QwQ-32B和DeepSeek-R1 [7] - 模型上下文长度32K,使用6T tokens训练,采用MIT开源协议 [10] 模型架构与训练 - Seed-Coder采用Llama 3结构,参数量8.2B,6层,隐藏层大小4096,使用分组查询注意力(GQA)机制 [11] - 预训练分为两个阶段:常规预训练使用文件级代码和网络数据,持续预训练使用全部四类数据 [34][35] - 采用Fill-in-the-Middle(FIM)和Suffix-Prefix-Middle(SPM)训练增强上下文感知能力 [35] - 指令模型通过监督微调(SFT)和直接偏好优化(DPO)两阶段训练 [46] - 推理模型采用长链条思维(LongCoT)强化学习训练 [46] 数据处理方法 - 提出"模型中心"数据处理方式,使用模型策划数据 [12] - 从GitHub和网络档案爬取原始代码数据,经过多步处理输出预训练数据 [13] - 数据过滤分为四个类别:文件级代码、仓库级代码、Commit数据、代码相关网络数据 [22] - 预处理阶段减少约98%原始数据量 [16] - 使用22万+份代码文档训练的评分模型过滤低质量代码文件 [17] - 最终得到支持89种编程语言、约1万亿独特token的语料库 [19] 数据来源与处理 - 从14万个高质量GitHub仓库收集7400万次提交记录 [21] - 提交数据预处理后获得约1000亿token语料库 [25] - 网络数据处理框架识别两类数据:明确代码标签网页和潜在代码内容网页 [27] - 使用fastText模型自动识别代码相关内容 [29] - 最终构建约1.2万亿tokens的网络数据语料库 [33] 评分标准与优化 - 代码质量评分标准包含可读性、模块性、清晰度、可重用性四个方面 [23] - 评分模型以DeepSeek-V2-Chat为基础,评分0-10分 [18] - 发现不同类型网站存在评分偏差,优化后按网站类型制定专门评分标准 [31] 公司其他动态 - 发布视频生成模型Seaweed,70亿参数支持1280x720分辨率 [39] - 发布深度思考模型Seed-Thinking-v1.5,在数学、代码等推理任务超越DeepSeek-R1 [40] - 与清华合作推出电脑操作智能体UI-TARS,GitHub星标超5.8k [42][43] - 推出Multi-SWE-bench多语言编程基准,覆盖7种编程语言 [44] - 内部调整LLM团队结构,设立"Seed Edge"长期AGI前沿研究项目 [44]
为什么AI视频工具长得越来越像?
36氪· 2025-05-07 15:50
AI视频赛道竞争格局 - 行业从对标Sora转向关注商业化落地,中国玩家可灵、即梦等成为新焦点 [1][4] - 2025年半年内超10家AI视频公司密集发布新模型,迭代周期缩短至半月级 [4][12] - 头部玩家如Runway、可灵、Vidu保持半年一次基座模型更新节奏 [11][12] 技术竞争维度 - 行业聚焦三大方向:一致性(帧间连贯性)、可用性(工作流整合)、可玩性(创意特效) [6][9][14] - 一致性优化手段包括首尾帧控制、笔刷工具、多图参考等,Runway推出Act-One面部表情迁移功能 [9] - 可用性体现在动态编辑、镜头运动控制、端到端工作流(分镜-生成-剪辑)能力 [13] 产品功能同质化与商业化 - 主流产品功能趋同,均支持主体参考、音效生成、多模态编辑等基础功能 [5][15] - 可灵2.0生成5秒视频成本10元,B端API价格2元/5秒,国内厂商B端价格优势显著 [16][20] - 行业未现价格战,闭源模型仍主导市场,开源模型存在性能短板 [21][22] 市场参与者与融资动态 - 2025年初超10家AI视频初创公司获融资,Runway获3.8亿美元D轮,HeyGen获6000万美元A轮 [23][25] - 参与者分化为AGI派(如谷歌DeepMind)、平台派(如Runway)、产品派(如Pika) [26] - 创作者多平台组合使用,Runway强于可控性,Pika擅动漫风格,Vidu稳定写实输出 [26][27] 行业挑战 - 商用落地存在成本高企问题,3分钟短片制作成本达数万元,客户预算持续压缩 [16][18] - 技术路径未收敛,开源与闭源模型性能差距缩小但效率不足问题仍存 [21]