Workflow
Sora 2
icon
搜索文档
中金:Seedance2.0对互联网有何影响?
中金点睛· 2026-03-23 07:35
Seedance 2.0模型发布与市场热度 - 2026年2月,字节跳动正式发布新一代AI视频生成模型Seedance 2.0,引发全球广泛关注[1][3] - 该模型在全模态输入/输出、镜头与叙事一致性等维度展现了系统性领先能力,短期内成为全球现象级产品[3] - 作为首发入口的即梦AI,其国内日活跃用户从2月2日的328万人持续提升至2月23日的572万人[3][6] - 发布后全球搜索热度登顶,高峰时段排队人数平均约9万人,排队等待时间长达数小时[6] Seedance 2.0的技术创新与领先性 - 模型采用双分支并行扩散Transformer架构,实现了视觉与听觉信息流的并行处理,从技术路径上解决了音画错位及口型匹配等长期工程难题[10] - 支持图像、视频、音频、文本四种模态的复合输入,系统最多可同步解析12个参考文件,允许用户进行更精确的控制[11] - 引入了全局角色锚定机制与角色-环境感知编码技术,能够在镜头切换过程中维持角色特征、服饰纹理及环境光影的一致性[11] - 与Seedance 1.0和1.5 Pro相比,2.0版本在生成速度、多镜头一致性、口型同步精度、角色持久性等方面均有显著提升[12] - 相较于其他领先模型,Seedance 2.0在中文理解能力、多模态文件输入功能以及对视频叙事连贯性的深度优化方面形成独特优势[12] 视频生成模型的演进方向:“世界模型” - 相比于人类智能,当下大模型仍欠缺“世界模型”这一关键的基础能力,而多模态生成模型有成为世界模型的潜力[3] - 具备高度一致性、且能精准遵循物理规律的多模态生成模型,其本质是对世界的仿真,本身或许就是世界模型[22] - 视频生成需要保证帧间空间关系、运动关系的一致性和合理性,因此准确的视频生成难度相对图像生产更高[23] - 当前主流的DiT架构模型本质上仍然是概率匹配,并未真正理解物理规律,存在“智能”短板[27] - 借鉴Nano Banana的发展路径,通过结合DiT模型和具有更强智能的多模态大模型,可以提升视频生成模型的“智商”[28] - Seedance 2.0在音视频同步、物理规律遵循、复杂运镜等多维度实现了明显提升,加速了视频生成向“世界模型”的演进[29] 视频生成赛道的市场空间与竞争格局 - 当前视频生成模型仍处于发展初期,根据机构估算,2025年AI视频模型行业赛道空间仅处于10-20亿美元区间[3][32] - 随着模型能力持续进步,基础创意工具情形下的市场空间有望达数百亿美元级别[3][33] - 若AI视频模型能力持续提升,可直接生成具备高消费价值的AIGC视频,潜在市场规模则可能超过千亿美元[33] - 模型能力短期难以成为壁垒,现有用户往往同时使用多个模型,市场难以一家独大[3] - 单个企业平均使用14个生成式AI模型,用户会基于自身不同需求选择对应优势的模型[37] - 市场定位有望成为不同参与者的差异化关键,ToC和ToB用户的需求导致模型优化优先级存在差异[3][38] 综合巨头与垂直厂商的竞争优劣势 - 拥有通用大模型的综合参与者在进军垂类模型时拥有协同优势,能够赋能垂类模型进步,提升了专业应用的入局门槛[35] - 算力基础设施的重要性凸显,模型训练、推理环节的算力储备将直接决定模型能力、用户体验和产品成本等重要竞争要素[36] - 从ToC角度看,综合型公司除在AI模型有系统性布局外,往往拥有渠道与流量优势,在把握AIGC ToC平台型机遇时具备体系性优势[39] - 对于ToB赛道,垂直参与者仍有机会通过深耕特定需求、聚焦细分赛道构建差异化壁垒,企业用户对工具的效果阈值、可靠性、安全性与工作流集成度要求更高[39] AIGC工具对互联网内容生态的影响 - Agent的使用场景更贴近“主动搜索”,而内容消费主要是娱乐场景,更偏“被动推荐”,两者在使用场景上存在本质差异,因此Agent对主流内容平台影响有限[42] - 若Agent等效率工具能够显著提升人类工作效率,人类花在娱乐消遣上的时间可能会增加,这将有利于线上内容平台拓展空间[44] - AIGC工具进一步降低内容生产门槛,或将推高源自DNA遗传的内容消费需求占比,短剧、漫剧、网文等体裁是当下最受益于AIGC工具趋势的赛道[45][46] - 在短视频领域,行业整体呈现需求已处于高位、内容供过于求的状态,AIGC更多带来效率提升与成本优化,对增量需求拉动有限,很难改变现有平台格局[48] - 在长视频、音乐等内容供给不足的赛道,AIGC工具持续降低内容生产门槛,有望通过新体裁满足增量需求,进而催生新平台崛起的机遇[48] Seedance 2.0的产品化落地与商业化 - Seedance 2.0已全面接入字节系核心产品矩阵,包括即梦AI、小云雀和豆包,形成覆盖专业创作、泛C端体验、企业级服务的多层次落地体系[15] - 即梦AI定位为核心变现渠道,推出79元至649元的多档位订阅套餐;小云雀结合免费体验与轻度付费;豆包作为免费的流量入口承担用户教育及引流职能[16] - 对于企业用户,火山引擎提供Seedance 2.0的企业级工作台试用和API服务[16] - 根据公布的定价,Seedance 2.0的整体调用价格低于Sora 2和Veo 3.1,也略低于国内快手Kling 3.0模型调用价格,形成了具备竞争力的“高质中价”优势[17] - Seedance 2.0完整版调用均价为人民币0.346-0.585元每秒,Fast版平均每秒视频消耗5积分[17]
300万抢博士,95后已“老”:AI招聘正在“活埋”中间层
创业邦· 2026-03-16 08:14
文章核心观点 - 当前AI人才市场呈现“流动性幻觉”,表面繁荣(岗位数量飙升、求职人数暴增、顶尖人才天价薪资),但实际机会高度集中于塔尖极少数人,而处于职场中段的从业者正面临被掏空和架空的困境,整个行业的人才漏斗开口极窄且不会变宽 [5][9][15][22] AI人才市场的结构性矛盾 - 市场呈现“一将难求,万卒厮杀”的两极分化格局,塔尖的稀缺人才(如顶级AI博士生)被天价争抢,一个互联网大厂为AI背景应届博士生提供了60个年薪300万人民币以上的岗位,而塔底大量求职者涌入(脉脉数据显示AI岗位数量飙升29倍,智联招聘称求职人数暴增200%)却面临激烈竞争 [5][7][9] - 近半数(47%)的AI职位要求硕博学历,且近半数企业只认可985/211高校背景,招聘门槛极高 [7] - 传统基于学历和履历的招聘方式(如LinkedIn)在AI领域逐渐失效,顶尖人才可能年轻、非名校出身,招聘方转向通过GitHub代码贡献、顶会论文引用、技术社区活动等“实绩”来挖掘“水下”人才 [7][8] 薪资定价逻辑与资源流向 - 薪资定价遵循“杠杆”原则:离AI模型内核(核心技术)越近,能撬动的价值越大,薪资越高。大厂P7级别,AI技术岗薪资可达150万至200万人民币,跳槽涨幅普遍达50%甚至翻倍,而非技术岗天花板约100万人民币,跳槽涨幅仅为10%-30% [11] - 在应用层,技术岗与非技术岗的薪资差距可达两到三倍以上 [11] - 宏观上,拥有稀缺技能(如做过十万张卡以上训练)的顶尖技术人才薪资是天价;微观上,具体公司的创始团队基因决定了是技术人才还是商业化人才更值钱 [11] - 整个行业的薪资叙事由几十个顶尖人才的稀缺性定义,导致市场普遍存在薪资预期与现实的落差 [11] 职场经验与年龄面临的挑战 - AI行业表现出对“年轻”的偏好和对“经验”的重新评估,存在“拒绝老登”的现象,认为在旧技术浪潮(如旷视、商汤时代)积累的经验可能成为适应新时代的包袱 [13] - 部分投资机构开始寻找00后创业者,甚至出现“95后已经老了”的论调,资源有限时招聘市场明显向年轻人倾斜 [13] - 行业需要快速执行和落地,组织趋向于组建“特种部队”而非“大方阵”,导致对纯管理岗位的需求下降 [13][15] - 矛盾在于,将AI技术转化为商业价值往往依赖行业经验、隐性知识和踩坑教训,这些多存在于较成熟的从业者身上,但资金的流向并未充分体现这部分价值 [13] 组织变革与中层危机 - AI正在推动组织架构变得极度扁平化,依赖层层汇报的金字塔结构被能直接打仗的小团队取代,管理岗位被压缩 [15] - 各职能(如产品经理、运营、工程师)之间的边界因AI工具的应用而变得模糊,一个人利用AI就可能完成一个产品的最小可行版本(MVP) [15] - 职场中段(拥有五到十五年经验)的从业者正面临被“架空”的风险,例如管理者头衔被降级、团队被拆散,职业阶梯的中间层级被抽掉,职业生涯从“坐电梯”变为“跳伞”模式 [15][16] 市场幻觉的制造与受益者 - 招聘平台通过“AI岗位暴增29倍”、“2030年中国AI人才缺口达400万”(麦肯锡预测)等数据吸引流量和加剧求职者焦虑 [19] - 部分企业将AI作为裁员的“遮羞布”,Resume.org调查显示59%的企业承认把裁员包装成“AI驱动”,Forrester Research发现55%的雇主后悔因AI裁员,因为被替代的AI能力并未准备好 [19] - 一些案例(如Klarna裁员700名客服后因服务质量暴跌又悄悄招回)显示,部分“AI替代”并非有效,Forrester预测半数AI裁员最终会以更低薪资或外包形式重新招聘 [20] - 企业普遍缺乏对员工的AI技能培训,员工主要靠自学,导致整体AI就绪度低(仅16%员工具备高就绪度),而最容易受AI冲击的入门级岗位员工(如Z世代,就绪度22%)却最先面临失业风险 [20] 行业本质与个人应对 - AI技术快速迭代(约每半年一次),导致技术方向和人才需求持续变化,加剧了职业发展的不稳定性 [22] - 衡量资历的标准从“时间长度”转向与“AI交互的密度和深度”,深度投入的新人可能比浅尝辄止的“老人”更具竞争力 [22] - 应对之道在于主动创造价值,如通过“build in public”(公开构建项目)展示能力,或像案例中的陈蕾一样,自发利用Agent框架开发工具,为自己“凿洞”寻找出路,但这需要极强的能力和意愿 [8][23] - 行业人才漏斗的开口不会变宽,绝大多数处于中段的从业者既无法获得塔尖的天价,也难有决心和能力彻底重构职业生涯 [22][23]
Token出海专题报告:国产模型抢占市场,IDC需求迅速扩张
国信证券· 2026-03-14 21:09
报告行业投资评级 - 行业投资评级:优于大市(维持评级)[1] 报告的核心观点 - 全球大模型技术快速迭代,推动应用能力提升,行业进入以季度甚至月度为单位的高速竞速时代[2] - 国产大模型凭借显著的性价比优势,在全球AI应用热潮中快速抢占市场,API调用量占比已超50%[2] - AI应用商业化推动云市场增长,进而刺激对数据中心(IDC)的物理资源建设需求,国内数据中心市场空间快速增长[2] 根据相关目录分别进行总结 01 大模型快速迭代,推动应用能力提升 - 大模型在知识问答、数学、编程等多种任务上表现已超过人类水平,可用性及准确度快速提升[2][7] - 模型技术持续进步,主流架构转向MoE以提升能力并降低成本,多模态能力显著增强,思维链技术(如OpenAI o1、DeepSeek-R1)推动模型进入推理时代[7] - 全球大模型行业迭代速率加快,2025年以来告别以年为单位的代际演进,进入以季度甚至月度为周期的竞速时代[2][11] - 头部厂商模型更新频率大幅压缩,以Anthropic为例,2025年更新速度较2024年快了近50%,从季度更新向月度更新演进[11] - 中美前沿模型性能代差快速缩小,据斯坦福大学数据,在LMSYS聊天机器人竞技场中,中美最佳模型的差距从2024年1月的9.26%缩小至2025年2月的1.70%[18] - 中国在开源AI模型方面已领先全球,GLM-5成为开源SOTA模型,整体表现仅次于GPT-5.2、Claude Sonnet 4.6等世界顶尖模型[18] - 多模态大模型能力飞跃,OpenAI Sora 2可实现电影级视频生成与复杂物理效果模拟,字节跳动Seedance 2.0在视频生成可控性、音画同步及多镜头一致性上达到导演级控制精度[23][28] - 基础大模型性能持续突破,谷歌Gemini 3.1 Pro在12项测试中超越Gemini 3 Pro、Claude Opus 4.6、GPT-5.2等,成为全球模型第一[37] - Anthropic Claude Opus 4.6在多项企业基准测试中超越竞争对手,并首次拥有100万token上下文窗口[41] - OpenAI GPT-5.4是其首款原生支持计算机使用能力的通用模型,在OSWorld-Verified测试中达到75.0%的成功率,超越人类72.4%的平均表现[43] - 国产大模型能力迅速提升,月之暗面Kimi K2.5在Agent、代码、图像等任务上取得开源SOTA表现,并实现从单一Agent到Agent集群的进化[48] - MiniMax M2.5在编程、工具调用等生产力场景达到或刷新行业SOTA,其运行成本远低于海外头部模型,在每秒输出50个token的情况下,连续工作一小时仅需0.3美金[55] - 智谱GLM-5在Coding与Agent能力上取得开源SOTA表现,性能与Claude Opus 4.5和Gemini 3 Pro相当,并全面拥抱国产算力生态[62][68] 02 Token用量上涨,国内模型排名上升 - OpenClaw等智能体项目病毒式传播,拉动全球大模型token消耗量创新高,且增长斜率陡峭[2][77] - 国产模型凭借性价比优势快速抢占市场,截至2026年3月9日,OpenRouter平台调用量前十的模型中,Minimax M2.5、DeepSeek V3.2、KimiK2.5等国产模型API调用量占比已超50%,而在2025年12月7日,前十均为海外模型[2][94] - 2025年12月7日至2026年3月9日,OpenRouter周调用量从5.78T增长至14.8T,同比增长156%[94] - 国内模型运营实际成本远低于海外模型,以运行一轮Artificial Analysis测试为例,Minimax M2.5成本为125美元,而Claude Opus 4.6需4970美元,GPT5.2-Codex需3244美元[83] - 成本优势源于两方面:1)国内模型token价格便宜,Minimax M2.5输入/输出价格仅为Claude Opus的6%/5%;2)单次测试消耗token量少,Minimax M2.5为58M,是Claude Opus 4.6(160M)的36%[83] - 国产模型编程能力已接近海外头部模型,在Artificial Analysis和LMArena的评分中,GLM-5、KimiK2.5和MiniMax M2.5的编码能力与GPT-5.1(high)、Claude 4.5 Sonnet持平,排名紧随Claude4.6、GPT-5.4和Gemini 3.1 Pro系列之后[89] - AI应用从辅助工具向独立员工(Agent)演进,Anthropic发布的Claude Cowork及其职能插件能接管鼠标、键盘和文件系统,自主完成复杂工作流,对传统SaaS软件形成冲击[73] 03 AI应用推动云市场增长,IDC需求扩张 - 国产模型海外调用量激增,更多提升了对国产数据中心的需求,而非直接迁移至海外云[2][101] - 若将推理算力迁移至海外公有云,将面临更高成本,以A100为例,海外谷歌云租赁价格为39.01元/小时,高于国内阿里云的31.27元/小时,且北美GPU租金有望持续上行[101] - 全球智算中心电力需求快速增长,据头豹研究院数据,核心IT负载电力需求2023–2028年CAGR将超20%,中国预计在2026年以285TWh的用电量超越欧美,成为全球电力消耗增长主引擎[101] - 海外科技巨头资本开支大幅扩张,2025年甲骨文、微软、谷歌、Meta、亚马逊资本支出分别为500、1154、930、720、1250亿美元,同比分别增长136%、31%、77%、93%、51%[106] - 国内厂商资本开支亦快速增长,2025年Q1-Q3,百度、阿里、腾讯资本开支分别为101、948、596亿人民币,同比分别增长74%、133%、48%,其中阿里宣布三年内投入4800亿资本开支[106] - 当前国内主要互联网与云厂商在AI基础设施上的资本开支投入进度整体仍明显落后于海外,但海外真实调用量正持续转化为推理算力需求,模型商业化能力逐步被验证,有望推动国内资本开支持续提升[2][106] - AI工作负载正从训练转向推理,推理市场准入门槛较低,部署方式更灵活,随着AI应用商业化进入高速增长阶段,云服务成为主要承载平台,带来明显的IaaS需求增加[2][112] - 中国云计算市场受AI应用爆发推动保持高增长,2024年市场规模达8288亿元,同比增长34.4%,预计到2030年有望突破3万亿元[118] - 云计算规模增长直接刺激数据中心建设,预计2025年中国数据中心市场规模达3180亿元,同比增长15%,2026年有望达到3621亿元[118] - 报告梳理了AI产业链相关公司,涵盖IDC、算力租赁、AI芯片、服务器、液冷、光模块、交换机等多个环节[120]
3亿美元巨额融资,AI视频新独角兽爱诗科技,正在抢跑「实时世界模型」
机器之心· 2026-03-13 12:00
行业竞争格局与技术趋势 - AI视频生成赛道竞争已从初级的长视频、高保真度比拼,迈向实时交互与模拟真实物理规律的技术分水岭[1] - 2026年初行业技术迭代加速,OpenAI Sora 2、快手可灵 3.0、字节Seedance 2.0等模型能力升级,视频生成前沿技术距离实际落地仅一步之遥[3] - 行业技术演进路径从依赖GAN与扩散模型,到DiT架构全面引入迎来“GPT时刻”,当前趋势聚焦高度一致性的视频内容、实时生成能力及世界模型探索[14][15] 公司融资里程碑与市场地位 - 公司完成3亿美元C轮融资,约合20.6亿元人民币,是截至目前AI视频生成领域最大的融资之一,仅次于Runway上个月E轮的3.15亿美元[2][3] - 本轮融资由鼎晖旗下基金领投,中国儒意、三七互娱等产业资本,以及多家全球知名投资机构参投,标志着融资逻辑从“买GPU”升级为“产业深度绑定”[2][11] - 公司成立不到三年,累计融资额已接近30亿元人民币,跻身独角兽阵营,稳居AI视频生成第一梯队[8][11] - 自2024年11月商业化起,不到一年时间收入增长超过10倍,年度经常性收入超过4000万美元,是全球收入和用户增长最快的AI平台之一[31][32] 核心技术实力与产品迭代 - 公司自研PixVerse系列模型多次大版本迭代,PixVerse V5在Artificial Analysis等权威图生视频榜单中一度排名第二[16][17] - 最新版本PixVerse V5.6在图生视频与文本生视频领域继续名列前两位,是表现最突出的中国模型之一[20] - 公司于2026年1月发布PixVerse R1,是全球首个支持1080P分辨率的通用实时世界模型,标志着技术从“预录制”跨入“实时动态生成”时代[21] - PixVerse R1基于原生多模态基础模型Omni,实现了多模态统一、自回归流式传输与记忆增强注意力机制三大突破,旨在模拟物理世界运转规律[22][23] - 公司研发同级别模型的训练成本约为同行的10%[12] 产品商业化与用户生态 - 公司产品PixVerse/拍我AI向C端用户倾斜,主打“速度快、易上手、创意可控”,旨在降低视频创作门槛,将观看者转化为创作者[25][26] - 产品用户规模超过一亿,月活跃用户超过1600万,已形成高粘性数字内容创作社区,而非用完即走的SaaS工具[32] - 产品功能包括文生视频、图生视频、视频生视频,并推出人物一致性模型,确保角色在不同镜头下保持高度一致[30] - 除了C端订阅,公司为企业和开发者提供标准化API,单月API调用量达千万级别,高级功能正被影视、广告、游戏等专业创作者采用[32]
CVPR 2026 | AI寒武纪时刻?字节世界模型新作,仅靠视觉学习真实世界知识
机器之心· 2026-03-07 19:20
模型概述与核心突破 - 豆包大模型团队与北京交通大学联合提出通用视觉世界模型VideoWorld 2,其核心观点是首次在业界实现无需依赖语言模型,仅通过浏览视频数据即可认知和掌握真实世界中的复杂知识[2][4] - 该模型旨在解决现有AI(如Sora 2、Veo 3、Wan 2.2)难以从真实世界视频中学习知识的挑战,特别是难以捕捉复杂的动态变化、空间关系及物理规律等非语言化知识[2][7] - VideoWorld 2仅通过“视觉信息”学习,使机器掌握推理、规划和决策等复杂能力,其论文已入选顶级会议CVPR 2026[2][4][6] 技术原理与架构创新 - 模型成功的关键在于提出了一种动态增强型潜动态模型(dLDM),其核心创新是将真实世界视频中的复杂外观与任务核心动作进行解耦,防止模型过拟合到相机抖动、光影变化等无关视觉细节[4][13][16] - dLDM架构包含一个MAGVITv2风格的编码器-解码器结构以及一个预训练的视频扩散模型(VDM),编码器将视频动态变化压缩为紧凑的潜在编码,VDM则负责将潜在编码渲染为视频[16][17] - 通过引入VDM作为外观渲染器,潜在编码得以专注于紧凑、可泛化的动作信息,同时利用解码器进行辅助重建并阻断梯度回传,从而稳定训练并提升模型对长时序复杂动态的捕捉能力[16][18] 性能表现与实验结果 - 在长达1分钟的复杂手工制作任务(如折纸、搭积木)测试中,VideoWorld 2的成功率远高于Sora 2、Veo 3和Wan 2.2等最先进技术,成功率提升超过70%,而后几种模型几乎无法完成此类任务[4][10] - 模型具备强大的技能泛化能力,能够将学习到的技能迁移至多种未见场景,并实现跨环境的多任务机器人操控[4][21] - 在潜在空间分析中,VideoWorld 2提取的编码对于跨环境(如仿真环境CALVIN与真实环境BRIDGE)的相似机械臂运动表现出更显著的聚类趋势,证明其能更好地提取跨场景共性,学习泛化性策略[23][25] 应用场景与数据基础 - 研究构建了两个实验环境进行评估:视频手工制作和视频机器人操控[8][9] - 手工制作视频环境包含多种场景下的精细动作与环境变化(如纸张不规则形变、视角切换与遮挡),视频时长达分钟级别并包含多个连续操作步骤,是评估模型复杂知识学习能力的理想测试场[8] - 机器人任务环境用于考察模型在理解控制规则和长程规划方面的能力[9] 发展前景与行业意义 - 该研究探索了AI直接从真实视频中学习复杂任务知识的边界,揭示了视觉能力是推动智能飞跃式发展的重要途径,对于构建能够自主感知、推理与行动的通用智能体具有指向性意义[4][26] - 尽管面向真实世界的视频知识学习与技能泛化仍存在很大挑战,但VideoWorld 2展示了从视频数据中学习更多样、更复杂任务技能的潜力[5][26] - 目前,该项目的代码与模型已开源[6]
对话 Elys 创始人 Tristan:人的灵魂是所有 context 的总和,我们从未被真正连接过
Founder Park· 2026-03-06 17:44
公司及产品背景 - 公司“自然选择”是一家专注于AI陪伴与社交产品的公司,其创始人Tristan(张筱帆)曾成功推出首月流水超3000万人民币的男性向恋爱手游《奇点时代》[2] - 公司已推出AI陪伴产品EVE,并在此基础上开发了新型AI社交产品Elys,后者在春节期间出现“一码难求”的现象[3] - 公司于1月份完成了3000万美金融资,投资方包括阿里、蚂蚁等机构[3] 产品核心理念与第一性原理 - 公司所有产品的第一性原理是“围绕context(上下文/语境)来构建一切”[4][6] - 创始人认为,之前的互联网人类从未真正被连接,只是在使用工具,而公司的目标是“创造一个人与人之间的低熵世界”[4] - 在AI时代,拥有context就能驱动无穷多的事情,而比赋能单个节点(1V1交互)更重要的是节点之间的互动与流动[7] Elys产品的核心系统 - **基于context的记忆系统和记忆飞轮**:这是最基础的系统,源于EVE产品中处理长时记忆的需求,用户对话可达两万轮以上[12] - **基于LLM的推荐系统**:这是一个超级关键的中间系统,负责让context在不同节点间流动[9] - **赛博分身构建系统**:让用户能够快速打造出自己的“赛博分身”[9] - 这三个系统共同支撑了Elys这一新的产品形态[9] 记忆系统的技术实现与洞察 - 记忆系统的本质是一个推荐系统,公司将其分为主动式记忆和被动式记忆[16] - 公司设计了“记忆槽位”(slots)来实现主动式记忆,例如设置了128个槽位,通过训练一个小模型根据query选择相关的32个槽位带入生成过程,这与当前的query检索可能无关,但对生成高维、类人的回答至关重要[17][18] - 记忆系统遵循“最小充分原则”,即用尽可能少但充分的信息来代表一个人的灵魂[19][20] - 在EVE产品中,基于深度context开发的功能(如“专属情歌”)能产生高度个性化、打动人的价值,证明了长程、多轮复杂记忆是交付个性化用户价值和建立羁绊的关键[13][14] 对竞品与行业趋势的看法 - 公司认为Moltbook这类强调“AI与AI社交”的产品毫无意义,因为没有新的人类信息输入会导致无限幻觉和循环,且缺乏Elys所具备的核心系统(记忆系统、context飞轮、基于LLM的推荐)[21][22][24] - 判断一个产品是否有延展性的标准包括:是否带来范式变化(如“主动性”交互),以及关键系统(如Context Engineering能力)的执行情况[23] - 创始人认为,真正有网络效应的AI社交产品,其交互的两端中必须有一端是人类,纯粹AI与AI的互动只会产生垃圾信息[31] 产品愿景与社交目标 - Elys的终极目标是构建一个“真正连接效率足够高的互联网”,即“人与人之间的低熵世界”[25] - 理念是:人与人之间的摩擦(沟通障碍、心灵壁垒)是最大的熵增来源,AI可以通过消耗计算能量来消除这些摩擦,为人类创造一个低熵环境[25][26] - 社交网络应由“context节点”组成,一个人的灵魂是其所有context的总和,当这些Token化的灵魂能够高效匹配时,就能实现真正的连接[26][35] - 产品已观察到用户间产生高维连接的案例,例如基于共同兴趣的共鸣、通过分身发现抄袭者、以及分身互动帮助化解现实人际关系心结等[27][28] 产品设计原则与用户引导 - 产品坚持“任何交互发生的两端的其中一端必须有人类”,不允许AI自行发帖或进行无人类参与的互动,以保持社区的置信度[31] - 通过基于LLM的推荐系统,在后台进行高维匹配(如“100万Token对撞”),并以不显化私密记忆的方式向用户推荐可能匹配的人,通过安排评论区互动等方式自然引导连接[32][33][34] - 用户导入(“灵魂塑造”)流程设计为较长的开放式对话形式,旨在通过对话激发用户深层表达,获取结构化问题难以抽取的高维context,以保障用户进入产品后的“aha moment”[37][38][39] - 设计了“认可”功能,通过一键点击加特效反馈的方式,将人类输入信息的门槛降到最低,用户对分身行为的认可会直接形成新的记忆,丰富其灵魂context[40][42] 获取用户Context的挑战与策略 - 未来C端产品的竞争核心在于谁能更高效、系统性地获取用户相关context的带宽、同步速率和权限[47] - 发现微信朋友圈的context价值有限,因其已成为“虚伪的”营业场所;Notion等笔记中的信息也可能因用户并未真正消化而意义不大;最有价值的可能是个人日记,但普及度低[45][46][47] - 公司的核心产品设计命题是:如何让用户愿意交出大量context。EVE的成功在于它以一种舒适的方式(如记日记)撬动了用户数万轮的对话输入[48][49] 团队现状与未来发展 - 当前团队规模在10人以内,同时推进EVE和Elys两个重要产品,工作强度很高[50] - 下一步关键是在规模化(scale up)之前跑通商业化模型,因为Elys是公司内部单用户消耗Token最多的产品,需要让收入打平高昂的算力成本[50] - 尽管面临专注度的质疑,但创始人认为面对可能改变世界的机会,必须打破“专注”原则去尝试,且当前时代试错成本更低[51] - 预计产品会被模仿,但创始人认为Elys定义了一个结构优雅的AI native社交网络范式,最在意的潜在竞争对手是像ChatGPT这样的巨头可能在几个月内推出类似社交网络[51]
从创作者视角分享AI视频能力
2026-03-04 22:17
行业与公司分析:AI视频生成行业电话会议纪要 一、 行业概况与核心趋势 * **行业定位**:AI视频生成行业,主要应用于短剧、商业广告、普通短视频制作 [1] * **发展阶段**:2026年被视作AI视频爆发元年,行业处于加速期,尚未看到增速边际放缓的迹象 [1][33] * **核心驱动**:模型能力从“创作者迁就模型”转向“模型迁就创作者”,显著降低使用门槛,释放非专业用户生产力 [1][34][35] * **技术平权效应**:技术门槛降低导致参与者增多,加剧行业竞争,压低市场价格 [29][31] * **海内外对比**:海内外模型能力差异不大,国内模型在体验层面(以即梦2.0为代表)甚至略有领先 [37] 二、 市场渗透与商业应用 * **渗透率水平**:AI在短剧制作中渗透率最高,达**60%-70%**;广告行业次之,约**30%-40%**;普通短视频领域渗透率约**30%到40%** [1][28][39] * **商业场景**: * **短剧**:AI短剧热度高,吸引大量传统影视从业者进入 [28] * **商业广告**:行业对AI接受度相对较低,仍存在“必须实拍”的认知惯性 [28] * **普通短视频**:覆盖范围广(虚拟数字人、信息流广告等),AI提升空间大,尚未出现绝对头部企业 [39][40] * **盈利能力**:在影视精品化路线下,通过承接广告、宣传片、定制项目等订单,可以实现盈利 [26] * **商业模式**:对外报价较高,例如接近TVC级别的广告项目报价为**300–800元/秒** [27] 三、 主要AI模型竞争格局与性能对比 * **图像生成模型**:使用频率最高、质量稳定的主要是**nano banana pro**、**即梦**、**Midjourney** [3] * **视频生成模型**:常用模型包括**奇梦**、**可灵**、**海螺**、**微度**、**V3**、**Sora 2**等 [3] * **模型性能对比**: * **即梦2.0 (CDA2.0)**:性价比最高(约**4元/5秒**),易用性最强,“全能参考”能力实现质变,支持主体一致性与运镜领先 [1][5][17] * **可灵**:在商业级稳定性(逐帧不形变)上领先,画质表现好,在商业广告场景综合表现定义为100分,其他模型约为其**70%到80%** [1][9][10] * **V3.1等海外模型**:生成效果较强,但因高溢价(价格贵**50%**)导致渗透受限 [1][6][7] * **Sora 2**:价格低,但稳定性不足,多用于“视频预跑”作为参考工具,不直接用于最终成片 [8] * **海螺**:在人物动作表演力(如打斗)方面更强,但自带风格可能影响画面一致性,价格约**6元多/5秒** [17][25] * **关键能力进展**: * **音画同步**:可灵2.6(2025年12月底上线)、微度Q3(2026年1月中下旬)、即梦2.0相继上线该功能,极大提升效率 [1][4][20] * **“全能参考”**:即梦2.0在参考能力上突出,对输入条件保留更完整,丢失程度更低 [5] * **易用性**:即梦2.0提示词响应能力显著增强,上手难度明显下降,是其破圈关键 [34][35][36] 四、 应用场景与模型选择策略 * **商业广告**: * 对画质、细节稳定性要求极高,需逐帧审查(如每**0.5秒**截取一帧) [10] * 图像生成首选**Banana**生图至**4K+**;视频生成首选**可灵**,核心考虑其高帧数与画质 [3] * **短剧**: * 对人物表现力、音画同步要求高 [4] * 人物对话等关键环节首选**可灵2.6**或**微度Q3**,因其能节省人效并提升成片率 [4] * 非关键片段使用**微度**、**奇梦**、**拍我**等模型 [4] * **普通短视频**: * 更关注画面丰富度、镜头语言与性价比 [3] * 图像生成常用**奇梦**;视频生成组合使用**奇梦**、**微度**、**拍我**、**海螺** [4] 五、 生产流程、成本与效率 * **核心工作流**: * 长视频通过拼接大量**5秒**片段实现,依赖“图生视频”及“首尾帧控制”保障连续性 [19] * 跨模型片段衔接通过AI智能补帧、色彩校正、**Runway**进行4K提升、**Topaz**超分等后期处理实现 [21] * **效率提升**: * 音画同步功能将人力投入压缩至原来的**1/4**,整体效率提升约**70%** [1][20] * 短剧场景因音画同步功能,人力成本压缩**75%**,整体效率提升约**70%** [1] * **成本结构**: * **算力成本**:短剧制作中,预估一分钟算力成本约**1,000元** [29] * **报价变化**:短剧制作报价较2025年已“腰斩”至**5,000-10,000元/分钟** [29] * **成本波动**:客户反复修改是成本波动主因,频繁返工会显著增加算力消耗 [30] * **成功率**:团队视频成功率约**50%**,较早期大幅提升,关键在熟悉模型特性与提示词技巧 [23] 六、 当前技术瓶颈与挑战 * **视频时长**:长视频(**>10秒**)可用性低,一次性生成1-2分钟会出现“鬼畜”,**10秒以内最稳定** [2][19][22] * **输出画质**:当前模型输出画质上限不足,多为**720P**,难以满足商业广告**1080P**以上高清要求,需依赖后期超分 [2][16][22] * **一致性控制**:直接上传真人素材生成视频,可用率低,缺乏画面延续性,仍需回归“图生视频”工作流进行稳定控制 [16] * **“AI感/油腻感”**:部分模型生成的画面带有“油腻感”,影响审美,这与训练素材来源及图像生成质量有关 [12][13][15] * **平台限制**:部分平台(如C站2.0)对人物素材(尤其是接近明星形象)上传有限制,影响人物一致性能力落地 [16] 七、 行业生态与团队发展 * **代表团队**: * 精品内容方向:**严川导演工作室**、“**兴安岭鬼市**”团队 [32] * 产业化量产模式:**“酱油酱油”公司**(团队**1,000多人**)、“**雪宝工作室**”(代表作“后宫萌宝团”) [32] * **核心壁垒**: * **内容能力**:导演、审美、编剧、IP策划等创作端综合素质 [33] * **产业化能力**:低成本、高效率、成熟流程的规模化生产能力 [33] * **团队规模与策略**:典型团队约**20人**,计划扩张但控制在**50人**以内,更多采用与外包团队合作的方式 [39] * **平台政策**:部分平台(如红果、抖音)对优质AI创作者有流量扶持或框架合作倾向,2026年起对AI视频的流量限制有所放开 [41] 八、 其他重要观察 * **价格下行主因**:主要源于参与者增多导致的商业竞争加剧,以及“白嫖”路径对市场的冲击,而非单纯算力成本下降 [31] * **审美评估维度**:核心指标是“AI感/油腻感”,其次是光影、构图等拍摄参数的可控性,不同模型因训练素材差异呈现不同质感 [12][13] * **Token与成本趋势**:随着即梦2.0等模型可用性提升,生成同样时长视频的Token占用量倾向于下降,整体成本有下降趋势 [38]
【招银研究|行业点评】Seedance2.0:生成式视频的技术奇点与产业重构
招商银行研究· 2026-02-13 16:52
文章核心观点 - 字节跳动于2026年2月发布的旗舰AI视频生成模型Seedance 2.0,不仅是公司技术积累的集中爆发,更被视为全球生成式AI从单点工具迈向工业化深水区的标志性事件[1] - 该模型凭借独特的双分支架构、卓越的多镜头叙事能力及原生音频融合,在导演级视频生成领域确立了领先地位,被评价为“当前地表最强的视频生成模型”[1] - Seedance 2.0的发布将重塑内容生产方式,推动短剧、营销、电商等行业的成本结构重构与生产范式变革[18] Seedance 2.0 技术架构深度剖析 - **核心架构**:采用双分支扩散变换器,视觉流与音频流分支并行运转、实时联动,通过共享的跨模态注意力桥接模块实现帧级音画同步与自然口型匹配[4] - **推理效率**:采用离散扩散路线,通过两阶段训练和强化的高效并行解码机制,其2K视频生成速度相对竞品可实现约30%的提升[5] - **创作能力与控制系统**:引入全局角色锚定机制,通过参考图/视频锁定角色ID特征,确保跨镜头时空连续性;提供细粒度的导演级运镜控制,能理解并执行推进、摇镜、变焦等指令[5] 格局演变:中美两极领跑、多强并存 - **国际领跑阵营**:OpenAI的Sora 2定位物理世界模拟器,强项在于高逼真的物理因果关系还原;Google的Veo 3.1定位影视工业级工具,强调4K、24fps电影级画质并支持原生音频生成[7] - **中国市场格局**:呈现群雄逐鹿、路径分化的竞争态势,快手Kling 3.0主打低成本与强互动,生数科技Vidu Q3追求极致速度,MiniMax Hailuo 2.3擅长动漫风格,阿里巴巴Wan 2.6聚焦电商,腾讯Hunyuan Video面向游戏资产生产[8] - **核心指标对比**:根据表格数据,Seedance 2.0支持60秒、1080p/2K视频生成,核心优势为多镜头叙事与原生音画同步;Sora 2支持20-60秒、1080p视频;Veo 3.1支持8秒、4K视频;Kling 3.0支持10秒、1080p视频;Vidu Q3支持约8秒、1080p视频;Hailuo 2.3支持10秒、1080p视频[9] 生态协同:字节跳动从模型到平台的全链路闭环壁垒 - **模型层协同**:以豆包大模型为底座,Doubao-Seed-1.8负责剧本拆解与分镜调度,Seedream负责高质量关键帧,Seedance 2.0负责视频生成与动态效果补全,形成组合能力[11] - **B端整合**:通过火山引擎将Seedance 2.0封装为模型即服务,并与云服务深度集成,提供从脚本到成片的自动化流水线,同时以高性能计算集群确保企业调用的低延迟与高并发体验[12] - **C端应用与反馈闭环**:在即梦、剪映等亿级应用中嵌入能力,实现低门槛创作、功能增强与会员变现,未来在TikTok/抖音上,生成式滤镜、个性化广告、虚拟数字人等应用有较大扩展空间,形成“数据—模型—应用—反馈”的闭环壁垒[12] 趋势前瞻:视频生成加速走向世界模型 - **世界模型化**:视频生成模型正从生成画面走向建模世界,未来可能成为具身智能的低成本训练模拟器,并外溢至科学可视化等高价值场景[13] - **3D自动化**:模型在空间几何一致性与跨镜头稳定性上的提升,将反向带动3D建模与资产生产的自动化,形成“内容—资产—场景”一体化管线,压缩元宇宙与3A游戏开发成本[14] - **交互内容化**:推理速度提升将推动实时视频生成走向可用,催生可玩视频新媒介,观众能通过交互改变故事走向,并推动个性化短剧的规模化落地[15][16] - **创作个人化**:工具链降低全流程门槛,使“一人剧组”成为可复制的生产模式,推动影视行业人才结构向复合能力通才转变,同时内容机构可能走向运营自动化,批量管理AI网红账号[17] 商业落地:短剧、营销、电商的生产范式重定价 - **短剧行业成本重构**:引入Seedance 2.0后,一部90分钟标准短剧的总制作成本可从10万元以上降至约2000元;特效镜头成本可从约3000元/月/人或按镜头计费压缩至约3元/2分钟视频;同时,15秒视频可用率从传统AI生成的约20%提升至90%以上,显著降低时间与试错成本[18] - **广告营销与电商变革**:推动视频内容生产即时化,使千人千面的视频广告规模化落地成为可能,商家可上传商品图片生成虚拟模特试衣视频,并针对不同人群快速定制;广告主能批量产出创意变体进行A/B测试,以极低试错成本迭代出高转化率创意,提升投放效率[19]
Seedance2.0式惊吓之后,谁被抛弃?谁能上船?
36氪· 2026-02-13 09:41
Seedance 2.0大模型的技术突破与性能表现 - Seedance 2.0大模型上线引发行业震动,被用户称为“视频界的Nano Banana Pro”,甚至被认为已超越Sora 2 [1] - 新模型能仅凭输入图片,完美演绎正确的舞蹈风格、乐器指法,并自动配以合适的音效和背景音乐 [3] - 模型具备自动捕捉人物、匹配音色、切换特写镜头并完成镜头组合的能力,显示出对“视听语言”的理解 [3] - 输入原创小说可直接生成影视级分镜成片,人物设计统一、场景连贯,具备剪辑节奏感 [5] - 相比国外模型,Seedance 2.0对中国文化符号理解更友好,使用门槛和费用更具优势 [7] - 素材可用率从过去的40%跃升至80%,直出内容可达特定平台的C级和B级标准 [8] - 模型能智能调节机位,分镜设计具备连贯“戏感”,并能处理复杂的武打动作及自动完成15秒内的镜头组接 [8] - 模型具备四种模态的交叉补足能力,能根据部分信息自动生成其他匹配的合理内容,展现出导演与分镜思维 [8] 对影视行业生产流程与成本的影响 - AI视频生成从“盲盒抽卡式尝试”进入工业级批量生产阶段 [8] - 对于要求不高的项目,可省去粗略分镜、抽卡试错和粗剪流程,直出影片可直接使用 [9] - 传统影视美术部门的线性工序(概念图、施工图、场景搭建等)在AI时代不再适用,人员大幅缩减 [11] - 传统影视动辄上百人的庞杂体系可能被颠覆,未来可能是“线上剧组”或“一个人的剧组” [16] - 制作成本结构发生颠覆性变化:拍一部45分钟×40集的电视剧传统耗费可能达数亿,而AI电视剧纯制作成本可能仅需几万块 [16] - AI可用于项目预演,将真人实拍剧本可视化,提前检验内容好坏 [16] 对行业岗位与人才需求的重塑 - AI浪潮下,所有传统影视行业岗位都存在被整合和重组的风险 [11] - 依赖信息差与人情链的岗位最先受到冲击,单一技能正在贬值 [13] - 不懂剧本、不会写和讲故事的导演面临巨大挑战,尤其是强剧情、大特效的“男频”题材可能被AI直接冲击 [14] - 未来创作者形态趋向“编导一体”,需要具备美术思维和独特美学风格 [11] - 未来稀缺人才分为两类:懂故事创作的小说作者、编剧,以及拥有绝佳视听审美的导演、画手 [16] - 新兴团队结构可能是:拥有创作能力的编剧 + 具备审美和优化文本能力的AI导演 + 负责SOP工作流的执行技术人员 + AI算力 [16] - 技术降低了准入门槛,拼的是故事更动人、脑洞更大,核心竞争转向卷内容、卷审美 [16][18] 技术应用的边界与当前局限性 - 对于要求高的项目,精细资产设计与人工精修剪辑仍是必需 [9] - 现阶段模型难以无缝融入传统院线电影和电视剧制作流程,主要障碍是输出视频精度未达标及限制了真人素材使用功能 [9] - 最大的应用门槛并非软件操作,而是创作内容、写故事、写剧本以及理解剧本的能力 [9] - 当前AI工具处于“杂糅”阶段,技术底层是海量数据的积累和根据提示词的排列拼接组合,其输出是“大概率”内容 [22] - AI的底层逻辑被认为是模仿,很难实现真正的创新和创造,而艺术的底层逻辑是“意外” [22] 行业未来格局与市场预测 - AI视频生成技术对影视行业的影响,可能类似网上经济对实体经济的冲击 [25] - 影视城、器材租赁、群演配套等传统产业链要素重要性下降,用工需求大幅减少,资金与人才将向新领域流动 [25] - 传统影视若不向“极致的情感体验和顶级实境美学”转型,市场份额估计会被挤压到只剩30% [25] 1. 技术将行业旧边界(如资本、设备、人脉、资历)模糊化,同时竖立了审美、判断力、叙事能力等更高门槛 [18] 伴随的伦理、版权与创意挑战 - AI视频生成处于“孩童阶段”,需要为其设立边界,有选择地接触复杂真实世界 [19] - AI模型“学习参考”与“掠夺个人资产”的界限微妙,版权界定和数据使用的确权必须跟上技术发展 [19] - 存在“AI侵权”风险,未经确权的数据喂养可能引发问题 [19] - 当创意可以被AI高速复制,稀缺性将不复存在,创意可能变得廉价 [23] - 工具越强大,“人的独特创意”将成为唯一的护城河,作者性可能被无限放大 [22]
字节跳动最新AI视频生成模型走红
搜狐财经· 2026-02-12 16:50
公司动态 - 字节跳动最新推出名为Seedance 2.0的人工智能视频生成模型 目前在中国进行小范围测试 [3] - 该模型制作的电影级视频在网络上走红 各种超逼真的合成视频在全球各大社交平台刷屏 [3] - 瑞士咨询公司希图科技称赞该模型是“目前最先进的AI视频生成模型” 在实际测试中超越了OpenAI的Sora 2和谷歌的Veo 3.1 [3] - 公司表示 该模型标志着视频生成能力的根本性变革 不仅是画质进步 更在于实现了过去只有专业人员才具备的视频编辑判断能力的自动化 [4] 市场反应 - 受Seedance 2.0模型爆火影响 中国文娱和游戏企业的股价在2月9日普遍上涨 [4] - 美国LifeX风险投资公司的伊尼亚基·贝伦格尔评论称 这一领域发展速度惊人 而中国看起来走在了前面 [4] 技术表现 - 用户发布的生成视频中 包含大片风格的奇幻打斗场面和展现精细画面质感的俯冲式特写 [4] - 仅靠提示词(如场景、多镜头、音效、配音等)就能创作出高质量内容 被评价为“简直不可思议” [4]