Workflow
Vidu Q3
icon
搜索文档
腾讯研究院AI速递 20260316
腾讯研究院· 2026-03-16 00:01
Claude模型更新与定价策略 - Opus 4.6和Sonnet 4.6模型正式全面开放100万上下文,并取消长文本溢价,所有长度统一标准计费,Opus每百万Token收费25美元,Sonnet每百万Token收费5美元 [1] - 多模态处理能力提升6倍,单次请求支持的图像或PDF页面上限从100页大幅增加至600页,API长请求可自动处理无需Beta请求头 [1] - 在MRCR v2评测中,Opus 4.6以78.3%的得分位列同级模型第一,Claude Code用户可默认开启百万上下文,大幅减少强制压缩次数 [1] OpenClaw平台迭代与安全升级 - OpenClaw 2026.3.12版本发布,控制台UI重构为模块化视图,模型“快速模式”统一抽象跨平台调用参数,并将Ollama/vLLM/SGLang迁入provider-plugin架构为生态扩展奠定基础 [2] - 新增Kubernetes部署starter方案和sessions_yield多智能体调度机制,推动平台从“能跑”向适合长期部署和生产使用转型 [2] - 修复两项高危安全漏洞:设备配对改用短时bootstrap token防止凭证泄露,工作区插件禁用隐式自动加载防止恶意代码执行 [2] Google Maps AI与3D导航升级 - Google Maps引入沉浸式3D导航,借助Street View数据和Gemini AI进行空间理解,实时高亮车道和红绿灯,并新增“透视建筑”功能以帮助复杂路口决策 [3] - 推出Ask Maps自然语言对话搜索功能,基于超过3亿个地点和超过5亿条用户评价,可处理多条件模糊需求并支持多日旅行规划和个性化推荐 [3] - 对比显示,谷歌的优势在于全球数据规模与AI语义理解,而高德则在本土场景密度和城市级数据协同上更为深入 [3] Perplexity放弃MCP协议转向CLI - Perplexity CTO宣布内部放弃MCP协议,转而使用API和CLI,Duetchat v2也删除了MCP集成,YC总裁直言“MCP sucks”,该协议正走向边缘化 [4] - MCP协议的核心问题在于线性上下文成本高,每个工具的Schema和描述会挤占Agent的上下文窗口,且存在初始化不稳定、反复认证和权限管理粗糙等实用缺陷 [4] - CLI经过数十年迭代,具备可组合、可调试、人机通用的优势,LLM本身擅长使用命令行工具,无需额外抽象层即可高效完成任务 [4] 生数科技发布AI漫剧解决方案 - 生数科技Vidu Q3发布全球首个专门针对AI漫剧的解决方案,从底层算法专为漫剧量身定制,旨在解决“角色变脸、画风跳跃、分镜不连贯”等行业痛点,实现30个分镜不穿帮、非人型角色跨镜头稳定复用 [5] - 推出主体库2.0建立标准化角色资产库、提示词优化Bot可一句话生成分镜、口型分层处理实现音画同步,配合解说漫API可实现剧本直出成片 [6] - 即将上线“参考生”功能,可从参考视频学习动作运镜风格以生成原创内容,并与万兴科技联合发布“万兴剧厂”平台以推进AI漫剧工业化 [6] xAI人事动荡与战略调整 - xAI本周又有两位华人联创Zihang Dai和Guodong Zhang离职,11位联合创始人仅剩2人,2026年初的密集离职潮涉及Greg Yang、Tony Wu、Jimmy Ba等核心研究负责人 [7] - 前员工爆料xAI名为扁平实则官僚化严重,员工主动征集Grok改进建议反被冻结账号,与宣传文化严重脱节 [7] - 马斯克承认Grok编程落后竞争对手,表示“第一次没建对要从头再来”,SpaceX收购xAI后计划于2026年6月启动IPO,目标估值超过1.75万亿美元 [7] 谷歌AlphaEvolve在数学领域突破 - 谷歌AlphaEvolve一次性改进了R(3,13)、R(3,18)、R(4,13)、R(4,14)、R(4,15)五个经典拉姆齐数下界,刷新了纪录,部分纪录已尘封20年 [8] - 其核心思路是在算法空间而非图空间进行搜索,利用LLM进化代码,自动发现四大类搜索策略,其中包含人类文献中不存在的新方法 [8] - Hassabis称其为AI数学领域又一里程碑,AlphaEvolve已形成“算法优化算法”的飞轮效应,但目前仅能处理构造性下界,无法证明上界 [8] LabClaw开源AI科研技能库 - 斯坦福与普林斯顿联合开源LabClaw,这是一个面向生物医学的开源科研技能库,内含211个生产级SKILL.md文件,覆盖文献检索、数据分析、实验记录等全流程,一条指令即可在OpenClaw中调用 [9] - 可部署为Always-On Lab Agent持续读取仪器数据和实验记录,自动触发分析流程并生成报告,配套LabOS系统实现XR眼镜与实验机器人的人机协同实验 [9] - 该项目由斯坦福丛乐教授和普林斯顿王梦迪教授团队联合推出,获英伟达支持,将AI辅助科研门槛降至“一条指令”级别 [9] 人形机器人高动态运动突破 - 银河通用人形机器人联合清华大学提出LATENT方法,使机器人仅从碎片化不完美动作数据中自主学习网球技能,无需预编程即可完成多回合连续对打 [10] - 核心创新包括“运动技能空间”将零散动作整合为可组合技能、“隐空间动作屏障”确保高动态击球同时保持自然流畅动作,在成功率和精准度上全面超越基线算法 [10] - 银河通用已形成硬件-模型-生态完整闭环,产业落地覆盖工业、零售、仓储物流、医疗康养等领域 [10] AI对职业替代风险的评估 - Karpathy抓取美国劳工统计局全部342个职业数据,用LLM逐一评估AI暴露分数(0-10分),制作交互式热力图,整体加权平均风险为4.9分 [11] - Anthropic真实使用数据显示,AI暴露最高的全是白领知识型工作,高暴露群体平均时薪比低暴露群体高47%,核心规律是“工作离屏幕越近离失业越近” [11] - AI暴露高不等于立即失业,例如软件开发者虽评分8-9分但就业仍预计增长17.9%,真正危险的是需求固定且AI替代效果好的岗位如数据录入和医疗转录 [11]
从创作者视角分享AI视频能力
2026-03-04 22:17
行业与公司分析:AI视频生成行业电话会议纪要 一、 行业概况与核心趋势 * **行业定位**:AI视频生成行业,主要应用于短剧、商业广告、普通短视频制作 [1] * **发展阶段**:2026年被视作AI视频爆发元年,行业处于加速期,尚未看到增速边际放缓的迹象 [1][33] * **核心驱动**:模型能力从“创作者迁就模型”转向“模型迁就创作者”,显著降低使用门槛,释放非专业用户生产力 [1][34][35] * **技术平权效应**:技术门槛降低导致参与者增多,加剧行业竞争,压低市场价格 [29][31] * **海内外对比**:海内外模型能力差异不大,国内模型在体验层面(以即梦2.0为代表)甚至略有领先 [37] 二、 市场渗透与商业应用 * **渗透率水平**:AI在短剧制作中渗透率最高,达**60%-70%**;广告行业次之,约**30%-40%**;普通短视频领域渗透率约**30%到40%** [1][28][39] * **商业场景**: * **短剧**:AI短剧热度高,吸引大量传统影视从业者进入 [28] * **商业广告**:行业对AI接受度相对较低,仍存在“必须实拍”的认知惯性 [28] * **普通短视频**:覆盖范围广(虚拟数字人、信息流广告等),AI提升空间大,尚未出现绝对头部企业 [39][40] * **盈利能力**:在影视精品化路线下,通过承接广告、宣传片、定制项目等订单,可以实现盈利 [26] * **商业模式**:对外报价较高,例如接近TVC级别的广告项目报价为**300–800元/秒** [27] 三、 主要AI模型竞争格局与性能对比 * **图像生成模型**:使用频率最高、质量稳定的主要是**nano banana pro**、**即梦**、**Midjourney** [3] * **视频生成模型**:常用模型包括**奇梦**、**可灵**、**海螺**、**微度**、**V3**、**Sora 2**等 [3] * **模型性能对比**: * **即梦2.0 (CDA2.0)**:性价比最高(约**4元/5秒**),易用性最强,“全能参考”能力实现质变,支持主体一致性与运镜领先 [1][5][17] * **可灵**:在商业级稳定性(逐帧不形变)上领先,画质表现好,在商业广告场景综合表现定义为100分,其他模型约为其**70%到80%** [1][9][10] * **V3.1等海外模型**:生成效果较强,但因高溢价(价格贵**50%**)导致渗透受限 [1][6][7] * **Sora 2**:价格低,但稳定性不足,多用于“视频预跑”作为参考工具,不直接用于最终成片 [8] * **海螺**:在人物动作表演力(如打斗)方面更强,但自带风格可能影响画面一致性,价格约**6元多/5秒** [17][25] * **关键能力进展**: * **音画同步**:可灵2.6(2025年12月底上线)、微度Q3(2026年1月中下旬)、即梦2.0相继上线该功能,极大提升效率 [1][4][20] * **“全能参考”**:即梦2.0在参考能力上突出,对输入条件保留更完整,丢失程度更低 [5] * **易用性**:即梦2.0提示词响应能力显著增强,上手难度明显下降,是其破圈关键 [34][35][36] 四、 应用场景与模型选择策略 * **商业广告**: * 对画质、细节稳定性要求极高,需逐帧审查(如每**0.5秒**截取一帧) [10] * 图像生成首选**Banana**生图至**4K+**;视频生成首选**可灵**,核心考虑其高帧数与画质 [3] * **短剧**: * 对人物表现力、音画同步要求高 [4] * 人物对话等关键环节首选**可灵2.6**或**微度Q3**,因其能节省人效并提升成片率 [4] * 非关键片段使用**微度**、**奇梦**、**拍我**等模型 [4] * **普通短视频**: * 更关注画面丰富度、镜头语言与性价比 [3] * 图像生成常用**奇梦**;视频生成组合使用**奇梦**、**微度**、**拍我**、**海螺** [4] 五、 生产流程、成本与效率 * **核心工作流**: * 长视频通过拼接大量**5秒**片段实现,依赖“图生视频”及“首尾帧控制”保障连续性 [19] * 跨模型片段衔接通过AI智能补帧、色彩校正、**Runway**进行4K提升、**Topaz**超分等后期处理实现 [21] * **效率提升**: * 音画同步功能将人力投入压缩至原来的**1/4**,整体效率提升约**70%** [1][20] * 短剧场景因音画同步功能,人力成本压缩**75%**,整体效率提升约**70%** [1] * **成本结构**: * **算力成本**:短剧制作中,预估一分钟算力成本约**1,000元** [29] * **报价变化**:短剧制作报价较2025年已“腰斩”至**5,000-10,000元/分钟** [29] * **成本波动**:客户反复修改是成本波动主因,频繁返工会显著增加算力消耗 [30] * **成功率**:团队视频成功率约**50%**,较早期大幅提升,关键在熟悉模型特性与提示词技巧 [23] 六、 当前技术瓶颈与挑战 * **视频时长**:长视频(**>10秒**)可用性低,一次性生成1-2分钟会出现“鬼畜”,**10秒以内最稳定** [2][19][22] * **输出画质**:当前模型输出画质上限不足,多为**720P**,难以满足商业广告**1080P**以上高清要求,需依赖后期超分 [2][16][22] * **一致性控制**:直接上传真人素材生成视频,可用率低,缺乏画面延续性,仍需回归“图生视频”工作流进行稳定控制 [16] * **“AI感/油腻感”**:部分模型生成的画面带有“油腻感”,影响审美,这与训练素材来源及图像生成质量有关 [12][13][15] * **平台限制**:部分平台(如C站2.0)对人物素材(尤其是接近明星形象)上传有限制,影响人物一致性能力落地 [16] 七、 行业生态与团队发展 * **代表团队**: * 精品内容方向:**严川导演工作室**、“**兴安岭鬼市**”团队 [32] * 产业化量产模式:**“酱油酱油”公司**(团队**1,000多人**)、“**雪宝工作室**”(代表作“后宫萌宝团”) [32] * **核心壁垒**: * **内容能力**:导演、审美、编剧、IP策划等创作端综合素质 [33] * **产业化能力**:低成本、高效率、成熟流程的规模化生产能力 [33] * **团队规模与策略**:典型团队约**20人**,计划扩张但控制在**50人**以内,更多采用与外包团队合作的方式 [39] * **平台政策**:部分平台(如红果、抖音)对优质AI创作者有流量扶持或框架合作倾向,2026年起对AI视频的流量限制有所放开 [41] 八、 其他重要观察 * **价格下行主因**:主要源于参与者增多导致的商业竞争加剧,以及“白嫖”路径对市场的冲击,而非单纯算力成本下降 [31] * **审美评估维度**:核心指标是“AI感/油腻感”,其次是光影、构图等拍摄参数的可控性,不同模型因训练素材差异呈现不同质感 [12][13] * **Token与成本趋势**:随着即梦2.0等模型可用性提升,生成同样时长视频的Token占用量倾向于下降,整体成本有下降趋势 [38]
从Seedance 2.0到AI天团!海淀何以“生成”全球爆款
新浪财经· 2026-02-15 17:14
核心观点 - 以北京海淀区为创新策源地的中国AI产业,特别是“AI+视听”领域,在2026年初迎来一轮密集的产品发布和技术突破,展现出强大的全球竞争力,并正在重塑内容创作与影视制作行业[3][4][5] - 海淀区已形成从芯片、框架、大模型到应用的全产业链生态,产业基础雄厚,政策支持明确,正致力于打造全球人工智能创新高地和产业标杆集聚区[11][23] 行业动态与产品发布 - **字节跳动**发布视频生成模型Seedance 2.0,支持图像、视频、音频、文本四种模态输入,可在60秒内生成带原生音轨的多镜头视频,其多模态参考生成、音视频指令遵循等能力处于业内领先水平[3][4] - **月之暗面**发布新一代开源模型Kimi K2.5,能根据任务需求自主调度多达100个专业背景不同的分身,并行处理高达1500个步骤[5][17] - **生数科技**推出视频大模型Vidu Q3,具备“生成即成片”的声画一体能力,一次生成可输出16秒完整叙事段落,并支持多角色、多语种对话[5][17] - **快手**旗下可灵AI正式全球上线3.0系列模型,旨在将传统多轮协作的影像制作流程整合进单一创作界面,并推出首部AI贺岁动画短片集《马上有戏》[5][17] - **智谱**发布新模型GLM-5,擅长复杂系统工程与长程智能体任务,在真实编程场景体验逼近Claude Opus 4.5,并在全球权威榜单中位居开源第一[6][18] - 截至2月14日,海淀区已累计完成128款生成式人工智能服务备案,占全市59.5%,覆盖政务、科研、教育、文化、旅游、创意、电商、生活服务等多个领域[6][18] 市场影响与用户数据 - Seedance 2.0在海外社交平台持续霸榜,马斯克评论“模型发展速度太快”,美国影视从业者使用后感慨其对好莱坞的潜在冲击[3][4] - 2025年**抖音**日活跃用户已突破6亿,**快手**是拥有4亿日活用户的内容社区[7][19] - 截至2025年12月,**快手可灵AI**已拥有超过6000万创作者,生成超过6亿个视频[7][19] - **生数科技**旗下Vidu用户已覆盖全球200多个国家和地区,超过3000万[7][19] - **字节跳动**的汽水音乐月活跃用户达到1.4亿,日活位居行业第三[4][16] 产业基础与生态优势 - 海淀区聚集了1.23万名人工智能学者,超过2000家AI企业,人工智能核心产业规模近3600亿元[11][23] - 海淀是视听产业核心集聚区,汇聚了央视、中影等国家级影视机构,以及抖音、快手、爱奇艺、百度等视频平台和游戏企业[7][19] - 平台积累的海量用户数据为大模型持续迭代提供了养分[8][20] - 2025年10月,海淀区发布支持“人工智能+文化”、游戏电竞、精品微短剧产业高质量发展的若干措施,为产业发展提供政策支持[8][20] 硬件与基础设施进展 - 2月13日,人工智能芯片公司**寒武纪**市值达到4726亿元[11][23] - **龙芯中科**表示正在全力发展自研中高端显卡9A2000[11][23] - **摩尔线程**曝光旗舰级AI训推一体GPU MTT S5000,据业内人士消息,其实测性能对标英伟达H100,在多模态大模型微调任务中部分性能甚至超越H100[11][23]
中国AI视频双雄并起:Seedance 2.0与Vidu Q3组团席卷全球
36氪· 2026-02-13 21:34
AI视频生成模型技术突破与市场格局 - 中国AI视频生成模型在技术能力和市场影响力上实现集体突破,以生数科技的Vidu和Seedance 2.0为代表,在多个核心维度上接近或超越海外同类产品,正携手站上全球第一梯队 [27][31][32] - Vidu Q3 Pro模型在全球权威AI评测平台Artificial Analysis的视频生成模型全球排行榜中位列第一,ELO评分为1,244分 [6][28][29] - Vidu的生成速度相比国际领先模型具有显著优势,比OpenAI的Sora 2 Pro快10倍,相较Google Veo 3 Fast和XAI的grok-imagine-video也有2倍优势 [28] 核心模型性能与特点对比 - **Seedance 2.0**:其爆火源于具备“导演思维”,强调剧本驱动、分镜清晰和节奏精准,擅长理解故事结构与镜头语言,在快节奏场景中镜头切换自然、动作衔接流畅,具备很强的“剪辑感”和“丝滑节奏” [4][13][25] - **Vidu Q3**:强调“为剧而生”,将画面、声音与长时长(16秒)合为一体,支持多角色、多语种对话,具备强烈的“导演感”与“表演张力”,代表可控的内容表达、扎实的技术底盘和高完成度的成片落地 [6][7][30] - 两款模型在“表演感”上表现突出,人物表情细节稳定,能呈现接近真人演员的情绪变化,情绪表达具备起伏与节奏感,能够与剧情节点同步推进 [12][13] 商业化应用潜力与优势 - 两款模型在视听协同方面表现出极高完成度,环境音、动作声与画面节奏高度贴合,生成结果具备很强沉浸感,无明显音画错位,生成后无需额外“补声”处理即可作为可用片段,特别适用于短剧、广告、剧情视频等创作场景 [15][16][17] - 在短内容创作中,模型在视频开头和结尾的关键画面节点表现出色,具备强烈的视觉冲击力和情绪收束能力,其“自带爆点”的生成方式极大提升了在短视频平台生态中的内容生产效率 [18][23] - 相比海外模型,Vidu和Seedance更面向成片落地,强化结构控制与多角色协同,在短剧、广告、剧情类内容中更具适用性 [30] 技术路径与创作可控性演进 - 两款模型代表了创作路径的不同侧重:Seedance 2.0侧重于节奏调度,提供高上手效率;Vidu Q3侧重于风格控制,支持特效参数设定与多参考素材输入,创作者可细致调节光效、镜头节奏等维度 [25][26] - 两种路径围绕“可控性”这一核心能力演进,共同推动AI视频从生成工具进化为创作工具,为不同阶段、不同类型的创作者提供了适配方案 [26] - 生数科技在2025年12月开源的TurboDiffusion框架,将生成效率提升至单张RTX 5090显卡1.9秒生成5秒视频,效率相比传统扩散路径提升100-200倍 [29]
【招银研究|行业点评】Seedance2.0:生成式视频的技术奇点与产业重构
招商银行研究· 2026-02-13 16:52
文章核心观点 - 字节跳动于2026年2月发布的旗舰AI视频生成模型Seedance 2.0,不仅是公司技术积累的集中爆发,更被视为全球生成式AI从单点工具迈向工业化深水区的标志性事件[1] - 该模型凭借独特的双分支架构、卓越的多镜头叙事能力及原生音频融合,在导演级视频生成领域确立了领先地位,被评价为“当前地表最强的视频生成模型”[1] - Seedance 2.0的发布将重塑内容生产方式,推动短剧、营销、电商等行业的成本结构重构与生产范式变革[18] Seedance 2.0 技术架构深度剖析 - **核心架构**:采用双分支扩散变换器,视觉流与音频流分支并行运转、实时联动,通过共享的跨模态注意力桥接模块实现帧级音画同步与自然口型匹配[4] - **推理效率**:采用离散扩散路线,通过两阶段训练和强化的高效并行解码机制,其2K视频生成速度相对竞品可实现约30%的提升[5] - **创作能力与控制系统**:引入全局角色锚定机制,通过参考图/视频锁定角色ID特征,确保跨镜头时空连续性;提供细粒度的导演级运镜控制,能理解并执行推进、摇镜、变焦等指令[5] 格局演变:中美两极领跑、多强并存 - **国际领跑阵营**:OpenAI的Sora 2定位物理世界模拟器,强项在于高逼真的物理因果关系还原;Google的Veo 3.1定位影视工业级工具,强调4K、24fps电影级画质并支持原生音频生成[7] - **中国市场格局**:呈现群雄逐鹿、路径分化的竞争态势,快手Kling 3.0主打低成本与强互动,生数科技Vidu Q3追求极致速度,MiniMax Hailuo 2.3擅长动漫风格,阿里巴巴Wan 2.6聚焦电商,腾讯Hunyuan Video面向游戏资产生产[8] - **核心指标对比**:根据表格数据,Seedance 2.0支持60秒、1080p/2K视频生成,核心优势为多镜头叙事与原生音画同步;Sora 2支持20-60秒、1080p视频;Veo 3.1支持8秒、4K视频;Kling 3.0支持10秒、1080p视频;Vidu Q3支持约8秒、1080p视频;Hailuo 2.3支持10秒、1080p视频[9] 生态协同:字节跳动从模型到平台的全链路闭环壁垒 - **模型层协同**:以豆包大模型为底座,Doubao-Seed-1.8负责剧本拆解与分镜调度,Seedream负责高质量关键帧,Seedance 2.0负责视频生成与动态效果补全,形成组合能力[11] - **B端整合**:通过火山引擎将Seedance 2.0封装为模型即服务,并与云服务深度集成,提供从脚本到成片的自动化流水线,同时以高性能计算集群确保企业调用的低延迟与高并发体验[12] - **C端应用与反馈闭环**:在即梦、剪映等亿级应用中嵌入能力,实现低门槛创作、功能增强与会员变现,未来在TikTok/抖音上,生成式滤镜、个性化广告、虚拟数字人等应用有较大扩展空间,形成“数据—模型—应用—反馈”的闭环壁垒[12] 趋势前瞻:视频生成加速走向世界模型 - **世界模型化**:视频生成模型正从生成画面走向建模世界,未来可能成为具身智能的低成本训练模拟器,并外溢至科学可视化等高价值场景[13] - **3D自动化**:模型在空间几何一致性与跨镜头稳定性上的提升,将反向带动3D建模与资产生产的自动化,形成“内容—资产—场景”一体化管线,压缩元宇宙与3A游戏开发成本[14] - **交互内容化**:推理速度提升将推动实时视频生成走向可用,催生可玩视频新媒介,观众能通过交互改变故事走向,并推动个性化短剧的规模化落地[15][16] - **创作个人化**:工具链降低全流程门槛,使“一人剧组”成为可复制的生产模式,推动影视行业人才结构向复合能力通才转变,同时内容机构可能走向运营自动化,批量管理AI网红账号[17] 商业落地:短剧、营销、电商的生产范式重定价 - **短剧行业成本重构**:引入Seedance 2.0后,一部90分钟标准短剧的总制作成本可从10万元以上降至约2000元;特效镜头成本可从约3000元/月/人或按镜头计费压缩至约3元/2分钟视频;同时,15秒视频可用率从传统AI生成的约20%提升至90%以上,显著降低时间与试错成本[18] - **广告营销与电商变革**:推动视频内容生产即时化,使千人千面的视频广告规模化落地成为可能,商家可上传商品图片生成虚拟模特试衣视频,并针对不同人群快速定制;广告主能批量产出创意变体进行A/B测试,以极低试错成本迭代出高转化率创意,提升投放效率[19]
中国AI视频双雄并起:Seedance 2.0与Vidu Q3组团席卷全球
36氪· 2026-02-12 20:39
行业趋势:AI视频生成模型的核心竞争力演进 - AI视频生成模型的核心竞争力正从基础的真实感,向具备“导演思维”的高级创意调度能力演进,这包括对故事结构、镜头语言、节奏的精准控制 [1] - 模型的“表演张力”与情绪表达的自然度成为评判AI视频质感的新重要标准,这要求模型在人物神情、情绪递进等细节上实现接近真人演员的稳定控制 [5][7] - 音画一体化的高完成度成为关键,领先模型能够实现环境音、动作声与画面节奏的高度协同,生成内容无需额外“补声”即可作为可用成片,特别适用于短剧、广告等商业场景 [8][9] - 模型对内容“起承转合”的掌控能力,尤其是在视频开头几秒制造视觉冲击力、在结尾进行情绪收束的能力,正变得至关重要,这直接关系到在短视频生态中的传播效率与用户留存 [10][13] - 创作的可控性成为AI视频工具进化的核心,具体体现在对镜头节奏、风格统一性、特效参数等方面的精细控制能力,这推动AI视频从生成工具向真正的创作工具转变 [14][15] 公司表现:Seedance 2.0 的核心特点 - Seedance 2.0 因具备“导演思维”而成功破圈,其特点在于剧本驱动、分镜清晰、节奏精准 [1] - 在情绪表达上,该模型能够使情绪的起伏与节奏感与剧情节点同步推进,增强画面张力与“表演感” [7] - 在镜头语言与节奏控制上表现稳定,例如在“毒液变身”等高强度特效场景中,能实现动作衔接流畅、闪光爆点处理得当,展现出极强的大片质感 [13] - 在快节奏场景(如李小龙风格动作片)中,其镜头切换自然、动作衔接流畅,具备很强的“剪辑感”,适合强调动感、爽感的内容创作 [14] - 该模型代表了AI视频创作中侧重“丝滑节奏与高上手效率”的路径,与Vidu Q3形成差异化竞争 [15] 公司表现:生数科技 Vidu Q3 的核心特点与市场地位 - Vidu Q3 登顶全球权威AI评测平台Artificial Analysis的视频生成模型排行榜,成为全球排名第一的视频生成模型 [2] - 该模型强调“为剧而生”,能够一次性生成16秒的完整叙事段落,并支持多角色、多语种对话,具备强烈的“导演感”与“表演张力” [3] - 在“表演感”上表现突出,生成的人物表情细节(如眼神、嘴角、眉弓)稳定性高,在情绪转折时能呈现接近真人的自然变化 [5][7] - 在风格控制能力上表现突出,支持特效参数设定与多参考素材输入,创作者可细致调节光效、镜头节奏、角色稳定性等维度 [15] - 该模型代表了“可控的内容表达、扎实的技术底盘以及高完成度的成片落地”的崛起路径,与Seedance 2.0的创意调度形成互补 [4][15] - 据Artificial Analysis数据,Vidu Q3 Pro的ELO评分为1,244分,领先于众多国际竞品 [3] - 在生成速度上,Vidu比OpenAI的Sora 2快10倍,相较Google Veo 3 Fast和Grok-imagine-video也有2倍优势 [16] - 公司开源的TurboDiffusion框架,将生成效率提升至单张RTX 5090显卡1.9秒生成5秒视频,效率相比传统扩散路径提升100-200倍 [18] 市场竞争格局 - 根据Artificial Analysis全球排行榜,当前领先的视频生成模型包括:排名第一的Vidu Q3 Pro(生数科技)、排名第二的grok-imagine-video(XAI)、排名第三的Runway Gen-4.5(Runway)等 [3] - 中国模型正在实现技术追赶与能力破圈,Seedance 2.0和Vidu Q3分别代表了创意调度与高水准输出的两个高点,正携手走上全球第一梯队 [16][18] - 相比海外模型,Vidu和Seedance更加强化结构控制与多角色协同,在短剧、广告、剧情类内容的成片落地方面更具适用性 [18] - 国产AI视频模型在生成速度、结构控制、情绪表现、风格自由度等多个核心维度上持续接近甚至超越海外同类产品 [19]
Seedance 2.0,凭什么刷屏?
搜狐财经· 2026-02-12 10:38
文章核心观点 - 字节跳动发布的AI视频生成大模型Seedance 2.0在技术能力上取得显著突破,特别是在自动分镜、跨镜头一致性及音画同步方面,大幅提升了视频素材的可用率,正推动AI视频生成从“玩具”向“生产力工具”演进,并引发资本市场和内容创作行业的广泛关注与重估 [2][4][20] - 全球及中国AI视频生成赛道竞争激烈,已形成以字节跳动、快手、MiniMax、生数科技旗下产品为代表的第一梯队,各厂商在技术路径、产品定位和定价策略上存在差异,但共同面临提升可用率与可控性的核心挑战 [9][15] - AI视频生成技术的进步,尤其是二代模型的进化,预计将对视频自媒体、真人短剧及传统影视等行业产生结构性冲击,引发内容生产模式的效率革命与行业洗牌 [15][16][18] 行业市场与竞争格局 - 据行业分析预测,到2026年,全球AI生成视频市场规模有望突破300亿美元,年复合增长率保持在40%的高位 [2] - 国内AI视频生成模型第一梯队主要包括:字节跳动的即梦Seedance 2.0、快手的可灵3.0、MiniMax的海螺2.3,以及生数科技的Vidu Q3 [9] - 各厂商产品定位与定价策略差异显著:Seedance 2.0定价79元/月起,试图覆盖大众到专业用户;可灵3.0定价66元/月至1314元/月,主攻专业创作者与B端市场;海螺2.3基础会员价68元/月,聚焦个人兴趣用户;Vidu Q3基础价69元/月,企业版9999元/月起 [10][11][12][13][14] - 生数科技于2026年2月完成超6亿元A+轮融资,创下国内视频生成领域单笔融资纪录 [15] 技术突破与产品能力 - Seedance 2.0的核心突破在于将AI视频素材可用率从行业平均约20%的水平显著提升,解决了需要反复“抽卡”的低效问题 [4] - 技术突破主要体现在四个方面:1) 实现从“听指令”到“懂创作”的自动分镜与运镜规划;2) 通过增强的身份持久性机制保持跨镜头角色一致性;3) 支持最多9张图片、3段视频和3段音频的精细化多模态控制;4) 采用双分支扩散变换器架构实现原生音画同步生成,从根本上解决声画同步难题 [4][5] - 实测显示,Seedance 2.0在理解复杂指令、进行情节设计及物理世界模拟方面表现优于其他模型 [6] - 与竞争对手相比,Seedance 2.0在切镜效果和动态稳定性上表现最佳;可灵3.0在画面质感、音画同步上表现最好;海螺2.3强项在于3D风格及舞蹈场景;Vidu Q3强调物理世界理解与大动态效果 [5][11][12][14] 商业化应用与行业影响 - Seedance 2.0已集成于即梦平台,应用场景覆盖电商广告、短剧制作、漫剧生成等领域 [8] - AI视频生成技术将对内容创作行业产生冲击,影响顺序预计为:视频自媒体、真人短剧、影视行业 [15] - 在自媒体和营销领域,AI工具降低使用门槛,可能导致内容供给过剩,使依赖简单剪辑的账号面临危机 [16] - 对真人实拍短剧行业构成直接成本压力:一部精品真人短剧制作成本可能高达每分钟数万元,而使用Seedance 2.0的算力成本可能低至每分钟数百元,AI目前已能达到真人实拍80%的效果,“真人+AI”混合模式可能成为过渡主流 [16] - 传统影视行业的分工体系将被打破,对从业者的综合创意能力要求更高,仅掌握单一技能者可能被淘汰 [18] - 二代模型将冲击体验差、效率低的UGC类动画工具,并挤压仅能满足初级需求的B端AI视频工具的生存空间 [18] 未来发展趋势与挑战 - 行业未来竞争将围绕几个关键点展开:从追求画面逼真转向追求生成过程的“可控”与结果稳定;从被动“工具”进化为能理解创作意图、主动提供建议的“AI智能体”;生态与商业化模式的成熟 [21] - 所有玩家仍面临共同挑战:即便如Seedance 2.0也无法保证每次生成都满足专业需求,“抽卡”问题依然存在,进一步提升可用率和可控性是下一阶段竞争的核心 [15] - 2026年可能成为AI视频内容爆发的“临界点” [22]
“导演级AI”出道:一场Seedance 2.0引发的产业冲击波
搜狐财经· 2026-02-10 21:59
Seedance 2.0模型发布与市场反应 - 字节跳动于2026年2月7日开始小范围内测新一代AI视频生成模型Seedance 2.0,其“文本生成多镜头电影级视频”的能力被业界称为“导演级AI” [3][5] - 该模型支持同时上传最多12个多模态参考文件(图片、视频、音频),能自动学习并复刻画面构图、角色特征、动作风格和镜头语言,支持分镜图直接生成视频,并在多个镜头中保持角色一致性、灯光连贯性和风格统一 [5] - 模型核心突破在于将AI生成与后期编辑融合,用户可直接修改不满意部分,并支持自动生成适配的背景音乐与音效,以及多种语言和指定歌曲歌词输入 [5] 资本市场对AI视频热潮的反应 - 2026年2月9日,A股文化传媒板块当天上涨4.79%,领涨所有行业板块,个股如荣信文化、中文在线、海看股份、捷成股份股价收获涨停板 [7] - 2月10日,中文在线股价收于42.34元,较前一日收盘价上涨20%并继续涨停,阅文集团收盘价43.58港元,较前一日收盘价上涨15.4% [3][9] - 市场分析认为,传媒板块上涨有春节档预期等多重因素,但Seedance 2.0的火爆为市场注入了新的增长逻辑 [8] 全球AI视频模型竞争格局 - 海外市场有OpenAI的Sora、Runway的Gen-3持续迭代,xAI的Grok Imagin 1.0版本全面上线,支持文生视频、图生视频,单次生成时长10秒,分辨率为720P [3][11] - 国内市场除Seedance 2.0外,快手“可灵”3.0系列模型支持最长15秒连续生成,截至2025年12月已拥有超过6000万创作者,生成超过6亿个视频,服务超过3万家企业用户,年化收入运行率2.4亿美元 [12] - 生数科技“Vidu Q3”在国际权威AI基准测试机构Artificial Analysis榜单中排名中国第一、全球第二,支持16秒音视频、音画同出、多人对话 [12] - 行业观点认为,中国视频模型与海外同行几乎同时起步,在Sora之后,中国各个视频模型的各种能力比海外同行有过之而无不及,评价标准高度场景化,很难简单比较强弱 [13] AI视频模型的技术进步与成本 - 体验者指出,Seedance 2.0在转场、人物一致性及对物理规则的遵循方面表现惊艳,解决了以往视频生成中的细节问题 [6] - 从成本角度看,视频模型用量大,一个3秒480P的视频生成成本约0.3元,720P的3秒视频成本接近1元,而字节跳动上一代模型Seedance1.0 pro每生成一条5秒的1080P视频成本为3.67元 [7] - Runway为证明其Gen 4.5模型生成视频的逼真度,进行了一项1000人参与的调查,只有约一半的人能分辨出模型生成视频与真实视频的区别 [13] 行业发展的潜在问题与应对 - 有创作者测试发现,模型仅凭一张人脸照片就能生成高度相似的声音,并“脑补”出从未展示过的场景视角,引发数据合规与版权边界担忧 [3][10] - 针对用户反馈,字节跳动于2月9日在其创作者社群中宣布,Seedance 2.0目前暂不支持输入真人图片或视频作为主体参考,正在进行紧急优化 [10] - 专家指出,AI的进步不会因争议停下,但当前阶段,由于声音和视频具有更强的个人与场景特定性,数据使用的责任与边界问题更加凸显 [11] AI视频模型的长期愿景与应用拓展 - 行业参与者布局思路各异,例如美团发布LongCat-Video模型,其整体思路是从视频内容生产逐步迈向世界模型,期望通过视频生成任务压缩物理世界知识,为未来内容创作、新型娱乐交互、自动驾驶机器人等场景提供技术底座,并将长视频生成作为核心方向 [13] - 未来,视频生成不仅服务于内容创作,更将成为模拟物理世界的重要载体,赛道竞争将不再局限于“谁能生成更逼真的画面” [13] - 中国独立电影制作人已开始大量使用Seedance 2.0制作电影,AI视频模型在创作者端掀起的热情与资本市场活跃形成情绪共振 [7]
氪星晚报|OpenAI将ChatGPT集成至美国防部生成式AI平台;智利国家铜业公司今年投资预算达39亿美元
36氪· 2026-02-10 19:15
法国葡萄酒与烈酒行业 - 法国2025年葡萄酒和烈酒出口额下降8%至143亿欧元,为连续第三年下降 [1] - 自2022年以来,该行业出口额已累计下降17%,从法国第二大出口部门滑落至第三位,排在航空航天和化妆品之后 [1] 开云集团与古驰业绩 - 开云集团第四季度销售额为39亿欧元,经汇率调整后同比下降3%,降幅小于分析师普遍预期的5% [1] - 旗下古驰品牌第四季度可比销售额下降10%,略好于分析师预期的12%降幅,这是该品牌连续第10个季度销售额下滑 [1] 人工智能与科技合作 - OpenAI将ChatGPT集成至美国国防部生成式AI平台GenAI.mil,供300万人员便捷使用 [1] - 国际AI基准测试机构Artificial Analysis发布榜单,Vidu Q3位列全球第一,综合表现超越xAI Grok、Runway Gen-4.5、Google Veo 3.1以及OpenAI Sora 2 [2] - 百度搜索推出“全球搜”,已无缝嵌入百度文心助手,同日百度百科宣布推出国际版BaiduWiki,首批支持五大语种 [7] 航空与物流数据 - 深圳机场2026年1月旅客吞吐量为587.95万人次,同比增长2.84% [1] - 同期货邮吞吐量为16.86万吨,同比增长1.98%,航班起降架次为39121架次,同比增长0.52% [1] 金融机构动态 - 荷兰国际集团(ING)正寻求出售其西班牙子公司约2.3亿欧元的坏账,预计将在4月完成出售 [2] - 渣打集团首席财务官Diego De Giorgi因接受外部工作机会而卸任,即时生效,其已加入阿波罗全球管理公司 [10] 消费与零售趋势 - 淘宝闪购平台年货销量同比增长超347%,三四线城市订单同比增长超580% [3] - 平台推出“春节不打烊”服务,营业商户数同比增长32.9%,全国重点城市合作门店春节期间线上门店营业率超过九成 [3] 半导体与科技制造 - 中芯国际预计2026年第一季度销售收入环比持平,毛利率在18%至20%之间 [4] - 公司给出的2026年全年指引为销售收入增幅高于可比同业的平均值,资本开支与2025年相比大致持平 [4] - 索尼宣布本月起将陆续结束蓝光光盘录像机出货,已于2025年2月停止用于录制的BD光盘生产 [5][6] 能源与汽车行业 - bp公布第四季度调整后净利润15.4亿美元,同比增加32% [6] - bp将集团结构性成本削减目标提高至2027年底的55亿至65亿美元,并宣布暂停股票回购以加速强化资产负债表 [6] - 美国加州清洁卡车激励项目为特斯拉Semi预留了约1.65亿美元资金,尽管该卡车尚未进入量产阶段 [6] 企业融资与债券 - 谷歌母公司Alphabet启动首次瑞士法郎债券发行 [7] - Alphabet还启动了首期英镑债券发行,交易包含3年期、6年期、15年期、32年期和100年期债券 [11] 机器人技术与AI应用 - 北京人形机器人创新中心发布新一代通用机器人平台具身天工3.0,是行业内首个实现触物交互式全身高动态运动控制的全尺寸人形机器人 [8] - 腾讯云推出一站式AI漫剧解决方案,深度融合AIGC生成能力与媒体处理技术,助力企业全链路提质增效 [8] 其他公司新闻 - 阿里千问宣布推出新一代图像生成基础模型Qwen-Image-2.0,已在阿里云百炼开通API邀测 [9] - 智利国家铜业公司已批准2026年度39.14亿美元的投资预算 [10] - 中国高端服饰品牌之禾(ICICLE)对考虑将母公司在香港或巴黎IPO的市场传闻回应称“没有评论” [6]
视频生成进入精准控制时代,创作平权带动B/C两端加速渗透
东方证券· 2026-02-08 22:19
行业投资评级 - 行业评级为“看好”(维持)[4] 报告核心观点 - 核心观点:年初至今,多模态视频生成赛道国产模型加速迭代,推动行业技术整体上行,与海外差距显著收窄[1] - 最大的边际变化在于,智能分镜降低用户进入门槛,多模态统一架构支持创作意图表达更高效灵活且可控性提升[1] - 判断2026年B端和C端拓展均会有较大进展,模型厂商在卷技术的同时,重点观测景气内容赛道的AI渗透[1] 行业动态与技术演进 - 视频生成赛道迭代提速,推动行业技术跃升,海内外技术差距持续收窄[7] - 国内视频生成厂商进一步加速模型研发节奏,例如快手可灵从2.0版本(2025年4月)迭代至3.0版本(2026年2月),即梦Seedance从1.0版本(2025年6月)迭代至2.0版本(2026年2月)[7] - 随着最新模型发布,国内供给侧技术天花板提升,物理规律合理性、运动流畅性、指令遵循能力等基础属性均显著增强[7] - 分镜能力、音画同出功能缺位补齐且效果更好更可控[7] - 与海外差异化在于支持图片、音频、视频等多模态输入的参考生成,和视频二次编辑能力[7] - 视频生成赛道进入类似2025年大语言模型(LLM)的竞争状态,各家基础能力均达到较高水准,后续差异化或在于具体落地场景[7] 技术边际变化与影响 - 视频生成进入精准可控“仪表盘时代”,门槛降低带动B端和C端用户扩容[7] - 近期迭代的最新模型(如Vidu Q3/可灵 3.0/Seendance2.0)基本支持多模态输入架构,即可上传图片、视频、音频进行参考生成,相较去年的随机生成,可控性更强,抽卡成品率也显著提升[7] - 单次生成时长更友好(增至15秒左右),进一步降低了B端和C端用户的创作门槛[7] - 国产模型基本补齐多镜头叙事功能,对于泛C端小白用户,只要具备好想法就能借助工具创作;对于B端创作者,模型自主设计每个分镜头,降低了对创作者分镜功底的要求[7] - 模型支持对生成内容进行精细化的增、删、改操作,快速完成二次调整[7] - 判断2026年模型的技术迭代更往生产流程落地,帮助创作者高效表达意图、实现可控创作[7] 投资建议与相关标的 - 投资建议:应重视垂类多模态AI应用机会,看好技术突破、成本优化带来产业趋势加速发展,带动用户增长、付费渗透和商业化再上台阶[2] - 尤其关注有多模态AI应用出海布局的公司,起量速率或更快[2] - 相关标的包括:谷歌(ALPHABET)-A(GOOGL.O,未评级)、快手-W(01024,买入)、MINIMAX-WP(00100,未评级)、美图公司(01357,买入)[2]