Workflow
StableDiffusion
icon
搜索文档
字节一款AI产品爆火,黑神话之父冯骥:地表最强没有之一
21世纪经济报道· 2026-02-09 22:06
文章核心观点 - 字节跳动旗下AI视频生成模型Seedance 2.0凭借其突破性的“文本/图片生成电影级视频”能力引发行业震动,被评价为当前最强视频生成模型,并带动了A股传媒板块的上涨 [1] - Seedance 2.0在关键技术指标上实现突破,采用双分支扩散变换器架构,可在60秒内生成带原生音频的多镜头序列视频,其四大关键能力(自运镜和分运镜、全方位多模态思考、音画同步生成、多镜头叙事)的突破被认为可能成为AI影视发展的重要节点 [3] - 该模型的上线加剧了国内视频生成领域的竞争,行业进入类似2025年大语言模型的竞争状态,其有望在AI漫剧、AI短剧等短内容领域率先广泛应用,通过大幅降低成本和缩短周期来推动行业产能释放 [5][6] - Seedance 2.0在实测中展现出卓越性能,如自动生成多镜头叙事并保持一致性,但其训练数据来源与授权问题也引发争议,特别是涉及公众人物素材的使用,这反映了AI技术发展速度与法律规则完善进度不匹配的行业共性问题 [7][9][10] - 面对合规争议,公司在模型内测阶段已采取风险防控措施,如限制部分功能以防止滥用,行业专家认为在创新与数据合规、版权保护之间找到平衡是全球AI产业共同面临的课题 [12] 技术突破与性能 - 模型采用双分支扩散变换器架构,可同时生成视频和音频,用户通过详细提示或一张图片即可在60秒内生成带有原生音频的多镜头序列视频 [3] - 在自运镜和分运镜、全方位多模态思考、音画同步生成、多镜头叙事能力等四大关键能力上实现行业突破,可提供导演级的控制精度 [3] - 实测显示,模型的分镜设计具备“明显的角度切换”能力,能够“像真人导演一样不断改变摄影机的位置”,其多镜头叙事功能可根据单个提示自动生成关联场景,并保持角色、视觉风格的一致性,无需手动编辑 [7] - 在测试中,仅上传人脸照片,未提供声音文件,模型便自动生成了与本人高度相似且语气匹配的声音;仅上传楼栋正面照片,生成的运镜能转到楼栋背面,仿佛知晓未展示的场景细节 [9] 市场影响与行业格局 - Seedance 2.0上线后,带动A股传媒板块活跃,中文在线、掌阅科技等多只股票涨停,影视股也跟风上涨 [1] - 随着各家最新AI视频模型发布,国内视频生成领域的技术边界拓宽,赛道进入类似2025年大语言模型的竞争状态,后续差异化发展将体现在具体落地场景方面 [5] - 行业普遍认为,AI视频技术的成熟将重构内容生产产业链,从创意策划、制作拍摄到分发传播,AI将深度参与各个环节,掌握核心技术与流量入口的企业将在新产业格局中占据主导地位 [6] - Seedance 2.0有望在AI漫剧、AI短剧等短内容领域率先实现广泛应用,通过大幅降低制作成本、缩短生产周期,解决传统模式成本高、周期长、产能有限的问题,推动行业产能供给释放和产业链规模扩张 [6] 数据来源与合规争议 - 实测发现,模型可能将影视飓风团队过往发布的大量高清视频素材纳入训练数据集,从而能生成与创始人Tim高度相似的声音和场景 [9] - 行业专家指出,当前国内外AI大模型普遍使用公开数据进行训练,例如谷歌的Gemini多模态模型和Veo3视频生成模型使用了超过200亿个YouTube视频片段,OpenAI的Sora模型、StabilityAI的StableDiffusion也依赖于海量公开及许可视频数据 [10][11] - 与文字内容相比,声音和视频具有更强的个人与场景特定性,这使得数据使用的责任与边界问题更加凸显 [10] - 技术发展往往领先于行业规则的建立,训练过程中涉及的内容借鉴、版权关联等议题是技术突破必须面对的共性挑战,如何保护公众个人隐私、确保生成内容安全可靠是亟待解决的重要课题 [11] - 面对合规争议,公司在Seedance 2.0小范围内测阶段采取了风险防控措施,例如限制只有在进行活体认证的情况下可以生成真人视频,不支持输入真人图片/视频做主体参考,以防止AI技术被滥用 [12]
字节一款AI产品爆火 黑神话之父冯骥:地表最强没有之一
21世纪经济报道· 2026-02-09 22:03
文章核心观点 - 字节跳动旗下AI视频生成模型Seedance 2.0凭借其突破性技术能力引发行业震动,并带动了A股传媒板块的上涨,但其在训练数据来源与授权方面的合规问题也引发了广泛关注 [1][4][5][11] 技术突破与行业影响 - Seedance 2.0采用双分支扩散变换器架构,可同时生成视频和音频,用户通过文本或图片能在60秒内生成带原生音频的多镜头序列视频 [5] - 该模型在自运镜和分运镜、全方位多模态思考、音画同步生成、多镜头叙事能力等四大关键能力上实现行业突破,提供导演级控制精度 [6] - Seedance 2.0的发布被视为AI影视发展的重要节点,国内视频生成领域技术边界拓宽,赛道进入类似2025年大语言模型的激烈竞争状态 [6] - 行业普遍认为AI视频技术将重构内容生产产业链,掌握核心技术及流量入口的企业将在新产业格局中占据主导地位 [7] 市场反应与潜在应用 - Seedance 2.0话题于2月9日冲上微博热搜,并带动A股传媒板块多只股票如中文在线、掌阅科技等冲上涨停 [2][4] - 该模型有望在AI漫剧、AI短剧等短内容领域率先广泛应用,通过大幅降低制作成本、缩短生产周期来推动行业产能释放和规模扩张 [7] - 影视飓风创始人Tim发布的实测视频加速了模型“出圈”,其评测肯定了模型在视频精细度、摄像机运动流畅度、分镜连续性及音画匹配度上的突破性进展 [1][7][8] 数据合规与行业挑战 - 实测中发现,仅上传人脸照片,模型便能自动生成高度相似且语气匹配的声音;上传楼栋正面照片,模型能生成展示背面的运镜,引发对训练数据来源的质疑 [9][10] - 专家指出,当前国内外AI大模型普遍使用公开数据进行训练,例如谷歌的Gemini和Veo3使用了超过200亿个YouTube视频片段,OpenAI的Sora等也依赖海量公开及许可数据 [11][12] - 与文字内容相比,声音和视频数据具有更强的个人与场景特定性,使得数据使用的责任与边界问题在当前阶段更为凸显 [11] - 技术发展速度领先于法律规则完善,如何在创新与数据合规、版权保护间找到平衡是全球AI产业共同面临的挑战 [11][13] 公司的风险防控措施 - 针对合规争议,字节跳动在Seedance 2.0小范围内测阶段采取了风险防控措施,例如限制部分功能:仅在进行活体认证时可生成真人视频,不支持输入真人图片/视频作为主体参考,以防止技术滥用 [12]
字节一款AI产品爆火,黑神话之父冯骥:地表最强没有之一
21世纪经济报道· 2026-02-09 21:48
Seedance 2.0的技术突破与行业影响 - 字节跳动旗下AI视频生成模型Seedance 2.0在小范围内测阶段便引发海内外广泛关注,凭借“文本/图片生成电影级视频”的突破性能力成为焦点,并被《黑神话:悟空》之父冯骥评价为当前地表最强视频生成模型[1] - 该模型采用双分支扩散变换器架构,可同时生成视频和音频,用户只需编写详细提示或上传一张图片,即可在60秒内生成带有原生音频的多镜头序列视频[6] - 开源证券研报认为其在四大关键能力上实现行业突破:自运镜和分运镜、全方位多模态思考、音画同步生成、多镜头叙事能力,可为用户提供导演级的控制精度[6] - 影视飓风创始人Tim的实测视频进一步推动了模型“出圈”,他称赞其在视频精细度、摄像机运动流畅度、分镜连续性及音画匹配度上实现了行业突破性进展,并称其为“改变视频行业的AI”[7][8] - 实测显示,模型的分镜设计具备“明显的角度切换”能力,能够“像真人导演一样不断改变摄影机的位置”,其多镜头叙事功能可根据单个提示自动生成关联场景,并保持角色、视觉风格的一致性[8] 市场反应与竞争格局 - 在Seedance 2.0的带动下,2月9日A股传媒板块表现活跃,中文在线、掌阅科技等多只股票涨停,影视股也跟风上涨[3] - 东方证券研报指出,随着各家最新AI视频模型发布,国内视频生成领域的技术边界进一步拓宽,赛道进入类似2025年大语言模型的竞争状态,后续各家的差异化发展或体现在具体落地场景方面[6] - Seedance 2.0的上线为已在AI赛道布局的字节跳动再添筹码,行业认为随着AI视频技术成熟,内容生产产业链将重构,掌握核心技术与流量入口的企业将在新产业格局中占据主导地位[7] - 机构观点认为,Seedance 2.0有望在AI漫剧、AI短剧等短内容领域率先实现广泛应用,将大幅降低制作成本、缩短生产周期,推动行业产能供给释放[7] 技术发展引发的数据与合规挑战 - 在实测中,Tim发现仅上传个人人脸照片,模型便自动生成了与他本人高度相似的声音;上传仅含楼栋正面的照片后,模型生成的运镜能转到楼栋背面,仿佛“知晓未被展示的场景细节”[10] - Tim据此推断,其团队过往发布的大量高清视频素材已被纳入模型的训练数据集,这引发了关于大模型训练数据来源与授权问题的讨论[11] - 北京航空航天大学教授沙磊表示,目前国内外AI大模型都在使用公开数据进行训练,这是一个普遍的技术路径[11] - 例如,谷歌的Gemini多模态模型和Veo3视频生成模型使用了超过200亿个YouTube视频片段;OpenAI的Sora模型、StabilityAI的Stable Diffusion等也依赖于海量的公开及许可视频数据[11][12] - 中国科学院软件研究所研究员张立波指出,与文字内容相比,声音和视频具有更强的个人与场景特定性,这使得当前阶段数据使用的责任与边界问题更加凸显[12] - 面对合规争议,字节跳动在Seedance 2.0小范围内测阶段已采取风险防控措施,例如限制部分模型功能,只有在进行活体认证的情况下可以生成真人视频,不支持输入真人图片/视频做主体参考等,以防止技术被滥用[13] - 沙磊认为,这种功能限制是企业在技术发展时要守住的责任底线,并强调如何在创新与数据合规、版权保护之间找到平衡是全球AI产业共同的命题[13]
2026年中国人工智能生成内容(AIGC)产业链、用户规模及竞争现状,行业加速向垂直行业深度渗透[图]
产业信息网· 2026-02-03 09:35
文章核心观点 - 人工智能生成内容(AIGC)是一种新型内容生产方式和技术集合,受益于政策支持与技术进步,市场正经历爆发式增长,中国有望成为全球最大市场 [1][9] - 全球AIGC市场收入从2020年的约23亿美元增长至2024年的约195亿美元,年复合增长率达70.6%,预计2032年将达到2380亿美元 [9] - 中国AIGC行业收入从2020年的约4.4亿元人民币,预计将增长至2032年的5445.5亿元人民币,增长潜力巨大 [1][9][10] - 截至2025年6月,中国AIGC用户规模已达5.15亿人,主要由年轻和中青年群体驱动,未来增长空间广阔 [11][12] 人工智能生成内容(AIGC)产业概述 - AIGC被定义为继专业生成内容(PGC)和用户生成内容(UGC)之后,利用人工智能技术自动生成内容的新型生产方式 [2] - 从技术角度看,AIGC是通过人工智能算法对数据或媒体进行生产、操控和修改的技术集合 [2] - 算力、算法和数据是构成AI领域基础设施的三个核心概念,是支撑AIGC行业创新和发展的必要前提 [2] 人工智能生成内容(AIGC)产业优势 - **降本增效能力突出**:AIGC能自动化完成重复性内容生产,突破人力限制,大幅缩短创作周期,降低企业人力和时间成本,并适配大规模、高频次需求 [3][4] - **多模态创作打破边界**:AIGC具备强大的多模态生成能力,可实现文本、图像等不同形式内容的跨媒介转换,依托海量数据训练生成兼具创新性与想象力的内容 [3][4] - **个性化适配精准度高**:AIGC能深度解析用户指令,结合行业属性、目标人群和应用场景生成高度定制化内容,并通过持续学习用户反馈优化结果,实现千人千面的内容供给 [4] 人工智能生成内容(AIGC)产业政策 - 中国自2023年以来逐步构建起多层次AIGC政策体系,政策发展呈现从基础规范到全面赋能、从安全治理到产业扶持的递进态势 [5] - 2023年多部门出台办法鼓励AIGC技术在各领域创新应用并构建应用生态 [5] - 2024年四部门建立综合标准化体系,为技术研发、产业应用与安全治理提供支撑 [5] - 2025年政策进一步深化,通过强制性标识办法规范行业,以国务院行动意见部署多领域应用,并通过“揭榜挂帅”工作推动人工智能与工业深度融合 [5] 人工智能生成内容(AIGC)产业链 - **上游产业**:主要包括数据采集、数据清洗、数据标注等,为AIGC行业提供高质量的数据支持,是AI模型训练和应用的基础 [7] - **下游产业(应用层)**:指利用AI模型解决具体问题的各种应用,包括自动生成图像、文本、音乐等,覆盖医疗、金融、零售、制造业等行业以及消费者产品和服务 [7] - **盈利模式**:多样,包括向B端或C端销售服务、广告收益、订阅、付费下载等方式 [7] 人工智能生成内容(AIGC)产业发展现状 - 自2023年以来,大型模型能力进步、运算成本下降以及云端服务和API生态系统成熟,加速了AIGC领域发展 [8] - 期间出现了ChatGPT、Midjourney和Stable Diffusion等商用产品,应用领域包括内容创作、营销、教育和工业设计等,显著推进了生成式AI的商业化 [8] - 中国人工智能产业在政策倾斜和5G等基础技术发展的推动下进入爆发式增长阶段 [9][10] - 中国AIGC用户规模增长受应用场景拓展、产品易用性提升、平台推广力度加大及年轻群体接受意愿强烈等因素驱动,用户转化效率显著提升 [11][12] - 用户年龄结构以年轻群体为绝对主体,中青年群体构成核心用户层 [11][12] 人工智能生成内容(AIGC)竞争现状 - **国际格局(一超多强)**:OpenAI凭借先发优势领跑通用大模型;微软深度绑定OpenAI并依托云服务与办公生态快速商业化;谷歌依托安卓和YouTube生态在移动端发力;Meta坚持开源路线扩大影响力;英伟达主导算力底座市场 [13][14] - **中国格局(大厂争霸加垂直突围)**:百度、阿里巴巴、腾讯、字节跳动、华为依托生态全栈布局通用大模型;科大讯飞等深耕教育、医疗等垂直领域;寒武纪、浪潮信息等强化算力支撑 [13][14] - **竞争焦点演变**:整体竞争从技术参数比拼转向场景落地与商业化能力较量,多模态和行业适配成为核心方向,开源生态与闭源服务并行发展 [13][14] - **OpenAI案例**:核心业务为开发GPT系列大模型及ChatGPT、DALL-E、Sora等多模态生成工具,通过C端订阅、B端API和生态合作实现商业化,与微软深度绑定 [15][16] - **OpenAI增长数据**:算力规模从2023年的0.2GW增长至2025年的约1.9GW(较2023年增长9.5倍);年度经常性收入(ARR)从2023年的20亿美元增长至2025年的超过200亿美元(较2023年增长10倍) [15][16] 人工智能生成内容(AIGC)产业发展趋势 - **技术趋势**:AIGC技术持续向体系化升级,多模态融合打破数据处理壁垒;模型架构优化平衡性能与成本;AI智能体逐步落地商用,承担复杂任务;技术迭代推动AIGC从工具属性向产业基础设施升级 [17] - **产业与应用趋势**:AIGC加速向垂直行业深度渗透,形成专属解决方案;行业生态分工日益清晰,形成底层技术、中间服务与场景应用的协同格局;国产化替代进程加快,核心环节自主可控能力持续提升;企业、开发者与科研机构深化合作,完善生态体系 [17]
我和AI谈恋爱,我用AI留住“爸爸”,我被AI论文搞崩溃……
36氪· 2026-01-04 19:44
生产力与算力资源冲突 - 大厂凭借庞大的资金和技术资源,牢牢掌握了高端模型和算力的主导权,从而大幅提升了生产力 [3] - 中小创业公司面临算力和资金压力,难以承受持续训练模型所需的稳定算力投入和成本结构 [3][6] - 在服装设计行业,使用AI后设计效率发生巨变:传统模式一天最多画二三十个款,而AI设计一天可以生成超过千款 [4] - 支撑AI设计高效率的核心是公司在模型、算力和工程体系上的长期投入,而非个人能力 [4] - 对于创业公司,模型和算力是主要成本,例如PineAI项目每天消耗的token是1billion(十亿)级别,API调用和GPU每天都在烧钱 [9] - 创业公司面临来自大厂的人才回流压力,海外出现博士刚毕业就能拿到百万美元年薪的现象,有经验者年薪上千万美元也不稀奇 [10] - 创业公司应避免与大厂在通用基础模型或核心应用路径上正面竞争,资源差距可能达百倍以上,而应专注于将垂直场景做到极深 [10] - 垂直领域的Agent对创业公司仍有机会,因为对大厂来说“性价比不高”,例如PineAI专注于用Agent帮海外用户处理账单、纠纷等复杂场景 [10][11] 行业竞争与就业影响 - 在游戏外包行业,裁员的根本原因是“降本”,甲方给出的报价可能腰斩甚至降至原先的三分之一 [42] - AI工具改变了游戏美术设计的人力配置:原本需要三人完成的角色设计,现在可用AI生成初稿,一名资深设计师就能完成定稿 [42] - AI“赚”走了角色设计中画图、初稿等前50%工种的报酬,外包公司能承接的只剩下“精修、调整”等后半程环节 [42] - 国外AI作图工具(如Stable Diffusion)及国产大模型(如豆包、即梦)的能力已可媲美科班出身、有3年左右经验的人类画师水平 [43] - 裁员较多的是初级和中级原画师,资深设计师凭借对整体调性的把控和创意细节打磨,在精修优化环节仍有优势,但团队规模缩减已成趋势 [43] - 行业对人才的要求从单纯绘画技能转向“AI工具应用+创意深化+项目理解”的综合能力 [43] - 在游戏UI设计领域,公司已将使用AI工具与工作绩效考核挂钩,不会用AI的设计师会被边缘化 [45] - AI工具可大幅提效,几分钟就能输出各种风格的图标、按钮,其质量能让初级设计师快速达到中级水平 [45] - 资深设计师的审美与创意仍有价值,但难抵AI批量生产带来的成本和效率优势,部分失业设计师转为接单对AI生成图进行精修 [46][47] 技术应用与商业模式 - PineAI创业项目采用大小模型混合策略,小模型自训,大模型主要调用OpenAI、Anthropic和Google的“御三家”,以处理复杂的理解与推理场景 [9] - 创业团队对大厂基础模型依赖深,面临API调用上限、GPU资源规划(买多闲置、买少不足)等挑战 [11] - PineAI项目的信心来源于其是能端到端办成事(如联系真人解决问题)的Agent,并在实时语音交互和持续学习复盘两点上积累较深 [11] - 大厂在AI应用层采取烧钱补贴策略,例如在通用Agent、写代码(CodingAgent)、Deepresearch等领域,使创业公司难以竞争 [10] - 创业公司的生存策略是寻找大厂不愿下场但用户有强需求的垂直缝隙市场,并尽可能跑得久一点 [3]
【七彩虹教育】最好用的AI是什么?语音助手?大语言模型?文生图?
搜狐财经· 2025-07-15 21:37
人工智能发展现状 - 人工智能领域近期出现小爆发期,语音识别、会议总结工具、交互式文字模型以及图像生成技术如Midjourney、StableDiffusion、HunyuanDiT、Flux等纷纷涌现 [1] 信息处理效率分析 声音 - 人类可理解的语速约为每分钟150-200字,每个字约1字节,信息量约为200 bytes/minute或1600 bits/minute [4] - 语音相关人工智能技术如语音识别和合成已接近或超过人类水平,例如阿里开源的CosyVoice和SenseVoice [11] 图像 - 假设每秒处理一幅1024x1024像素RGB图像,每幅约3.15 MB,每分钟信息量可达189 MB [6] - 图像生成和识别技术尚未达到人类水平,主要因图像信息量远高于语音和文字 [11] 文字 - 平均阅读速度每分钟250-300个英文单词,每个单词约5字节,信息量约为1250 bytes/minute或10,000 bits/minute [8][9] - 大语言模型如ChatGPT和阿里QWen2逐步接近人类水平,QWen2已成为全球开源模型领先者 [11] 信息含量与技术难度关系 - 信息含量排序为语音<文字<图像,技术难度与之正相关,语音最易处理,图像最难 [11]