Workflow
Runway
icon
搜索文档
2026年互联网传媒投资策略:国内AI纵深发展,悦己消费全球化
申万宏源证券· 2025-11-28 15:46
核心观点 - 2026年互联网传媒行业投资机会将集中在AI重估和悦己消费全球化两大方向 [3] - AI云进入资本开支扩张第二年,投资重点从资本支出规模转向投入回报率,资本开支与经营现金流比率成为关键指标 [3] - AI应用从概念阶段转向商业化落地,重点关注用户和收入兑现,国内大厂将Chatbot升级为ToC应用生态 [3] - 悦己消费领域经过估值消化后,业绩持续性成为关键,游戏、视频、音乐、潮玩等细分领域存在年轻化全球化机遇 [3] - 部分行业处于底部复苏阶段,包括分众传媒、视源股份、教育出版等 [3] A股传媒及港股互联网复盘 - 近三年A股传媒板块受政策周期向上和悦己消费景气支撑,业绩实现增长,游戏版号审批自22年后逐步宽松 [7] - 2025年8月广电21条政策优化电视剧内容审查机制,显示政策底部确立,全球化年轻化驱动游戏潮玩动画IP等领域业绩高增长 [7] - 恒生科技投资叙事从23-24年回购分红的价值股转向25年AI资本开支扩张的科技股价值重估 [10] - 中国科技重估主要体现在AI算力基建上,包括云、芯片、服务器、晶圆代工等领域,AI应用表现尚不明显 [10] AI云 - 国内互联网公司加大资本开支投入,阿里巴巴表示三年3800亿元AI基础设施投资规划偏少,未来投入将更积极 [18] - 腾讯控股25年资本开支计划从占收入比例low teens调整为绝对值高于24年,24年资本开支为768亿元,占收入比例11.6% [18] - 使用资本开支与经营性现金流比率衡量云厂商投入健康度,腾讯该比率仅为25%,微软、Meta、谷歌处于50%-70%区间,亚马逊和阿里巴巴已超过经营性现金流水平 [19] - AI云产品利润率高于传统云产品,各互联网云厂利润率整体呈上行趋势,阿里巴巴目标提升份额优先于提升毛利率 [29] - 2026年国产芯片加速上市,互联网大厂自研芯片具备开发生态优势,百度昆仑芯、阿里平头哥等拥有庞大内部工作负载和开发者群体 [31] AI应用 - 中国开发的AI应用在全球具备竞争力,a16z GenAI移动端Top50中有22个由中国开发,仅3个主要在国内使用 [34] - 美图公司占据移动榜5席,字节跳动占据4席,显示出海应用实力强劲 [34] - OpenAI将ChatGPT从对话工具升级为串联多种能力的超级平台,周活用户达8亿,年底前向所有开发者开放应用审核 [35] - 国内互联网大厂持续布局AI入口,字节跳动豆包接入抖音商城,腾讯在微信引入元宝能力测试,阿里巴巴C端入口转向千问 [39] - AI赋能数字广告全链路,Meta的Lattice模型将广告转化率提升3%,腾讯25年前三季度广告收入达1039亿元,哔哩哔哩超50%效果广告素材使用AIGC工具 [50] - AI视频技术大幅压缩制作成本,从零制作AI漫剧成本降至2000-5000元/分钟,部分平台甚至达到1000元/分钟,市场规模预计突破200亿元 [57] - 世界模型进入初步商业化阶段,李飞飞团队推出的Marble支持单张2D图像生成高保真可交互3D场景,应用于游戏开发、VR/VFX等领域 [71] 悦己消费 - 视频影视行业政策拐点已现,广电总局21条优化审核机制,红果免费短剧25年9月MAU已超过优酷,人均单日使用时长超2小时 [75] - 游戏版号审批持续宽松,25年1-10月国产版号月均达135个,创监管常态化后新高,进口版号25年1-10月发布88个 [82] - 中国游戏市场Z世代用户占比达65%,年轻用户带来搜打撤、女性向等结构性产品红利,美国90后+00后玩家占比为51% [88] - 海外SLG市场规模约80亿美元,行业进化至第三阶段,点点互动通过产品创新将用户获客成本降至几美元水平 [97] - 音乐流媒体平台分化明显,腾讯音乐和网易云音乐聚焦Z世代社群与高质量版权,汽水音乐主打免费加广告模式 [104] - 泡泡玛特商业模式具备延长IP生命周期能力,国际化进程顺利,欧美渗透率仍低,25年上半年收入实现高增长 [110] - 大麦娱乐演出业务收入25财年同比增长236%,IP衍生业务收入增长339%,战略向上游延伸并布局ToC业态 [114] 底部复苏行业 - 分众传媒互联网广告投放大幅增长,毛利率达到74.10%,归母净利率45.11%,公司承诺24-26年分红不低于扣非净利润80% [122] - 视源股份AI教育业务加速落地,希沃AI备课助手激活用户超60万,MAXHUB品牌会议交互智能平板国内销量份额26.5% [125] - 出版行业经营出现分化,南方传媒25年前三季度归母净利润同比增长61%,中原传媒增长47%,山东出版单三季度同比大幅增长 [129]
我们用21款AI修图工具修了100张图:谁才是真正的“修图神器”?|Jinqiu Scan
锦秋集· 2025-11-10 19:38
文章核心观点 - 文章对21款AI修图工具进行了六轮严格测评,旨在评估其在真实场景下的图像编辑能力,核心观点是当前AI修图工具能力差距悬殊,尚无产品能完美应对所有需求,但用户可根据特定任务选择合适工具以提升效率[4][141][149] 测评工具与思路 - 测评涵盖21款主流AI修图工具,包括Nano banana(Gemini 2.5 Flash)、即梦4.0、Kling、腾讯元宝(混元模型)、美图秀秀、文心一言、Sora、Qwen Image edit、Runway等[8][9][10] - 测评采用六轮测试,每轮使用相同提示词,模型均采用最新版默认配置,不调整任何参数[11] - 通用测评维度包括视觉一致性、局部质量和内容一致性,每项评分0-5分[12][13][14][15] 局部擦除/修补测评结果 - 腾讯元宝、美图秀秀和Qwen Image edit获得15分满分,完美满足提示词要求且图片更清晰无违和感[18][23] - Nano banana、Sora、Lovart、Manus和Runway获得14分,主要扣分点为未完全消除干净人物[18][28][29] - 即梦4.0、醒图、像素蛋糕和Genspark得分在10-11分,能较好完成需求但出现明显错误如格局改动或图片模糊[18][30][31][32] - Kling、文心一言、Grok、智谱清言和天工得分在5-7分,存在未按原图修改或人物面貌改动等问题[18][32][33] - CanvaAI、Pixlr和SenseMirage未完成需求,出现严重错误如图片卡通化或随机生成[18][34] 图片抠图测评结果 - Qwen Image edit与Genspark获得15分满分,后者是唯一完全使用抠图技术保持原图格局与元素的产品[41][42] - Nano banana、即梦4.0、腾讯元宝、美图秀秀、Lovart、Manus、天工和Runway为第二梯队,多数产品存在少提取或多提取机器人问题[47][48][49] - Kling、CanvaAI、Grok、文心一言、SenseMirage和智谱清言得分在4-7分,普遍问题为生成动漫图而非抠图,或元素处理错误[50][51][52][53][54][55][56] - 醒图和像素蛋糕无此功能未参与测评,Pixlr完全随机生成图片[57] 图片替换测评结果 - 即梦4.0、腾讯元宝、Qwen Image edit、Manus和Runway获得15分满分,完美完成服饰更换和细节重建[62][65] - Nano banana和美图秀秀得分14分,前者因绳子未清除扣分,后者因人物面部特征改变扣分[62][70][71] - Kling、文心一言、Sora、Grok、Genspark和智谱清言得分在4-7分,普遍问题为未按原图修改或人物面貌改变[62][72][73] - CanvaAI、Pixlr和SenseMirage产生严重错误,如完全不符合要求或图片卡通化[62][74] 图片合成测评结果 - 本轮无满分产品,Sora和Runway表现最佳,得分14分,仅存在轻微面部变形或违和感[78][81][82][83] - Nano banana、即梦4.0和Manus得分13分,存在违和感或人物面貌改变问题[78][84][85] - Qwen Image edit、Lovart、智谱清言和天工得分10分,出现元素遗漏或人物生成错误[78][86][87][88][89][90] - Kling和Genspark得分较低,分别为7分和6分,存在未按要求生成或割裂感高问题[78][91][92][93] - CanvaAI、文心一言和Grok表现最差,生成图片不符合要求或元素错误[78][94][95][96][97] 图上文字修改测评结果 - 本轮所有产品均不达预期,无高分产品,第一梯队得分11-12.5分,包括Nano banana、即梦4.0、美图秀秀、Qwen Image edit、Manus、天工和Runway[106][107] - 产品普遍存在英文未改变、时间未修改、地点乱码或排版错误等问题[108][109][110][111][112][113] - 第二梯队得分7-10分,包括Lovart、Genspark和智谱清言,问题包括文字乱码或重新生成图片[114][115][116][117] - 文心一言和Grok得分5分左右,细节修改部分几乎全军覆没[118][119][120][121] - Kling、CanvaAI、Pixlr和SenseMirage表现最差,细节处理基本错误且改变原格局[122][123] 画质增强/修复测评结果 - 美图秀秀、Sora、Qwen Image edit、Lovart、Genspark和Manus获得10分满分,完美实现图片清晰化和彩色化[127][133] - Nano banana、即梦4.0、腾讯元宝、醒图、像素蛋糕和Runway得分8-9分,问题包括分辨率不足或无法自动上色[127][136][137][138][139] - CanvaAI、文心一言、智谱清言和SenseMirage重新生成图片,人物面貌或格局发生改变[127][140] 行业洞察与挑战 - 专业工具与通用模型对比明显,美图秀秀等传统软件在核心功能上保持优势,而Qwen等通用模型展现后发优势[141][147] - AI修图最大挑战是“修图”与“生图”的混淆,部分模型如文心一言、智谱清言倾向于重新生成图片而非修改原图[141][148] - 文字处理能力是行业短板,所有产品在文字修改测试中均未高分,显示精细化编辑能力不足[141][148] - 复杂合成能力不足,多元素理解力欠缺,导致结果违和或元素遗漏[141][148]
Wan2.2-Animate又火了,5分钟让抠脚大汉秒变高冷女神。
数字生命卡兹克· 2025-10-30 09:33
模型核心功能与效果 - 阿里开源模型Wan2.2 Animate能够通过一张人物照片和一段自录视频,生成极其自然的换脸视频,表情和动作复刻效果良好 [1] - 模型不仅能用于生成娱乐内容,其技术上限很高,能够复刻复杂的表情,实现高度自然的效果 [4][6] - 当前模型存在局限性,例如在手部动作较多的场景下,手指部分容易出现崩坏 [12] 技术应用场景 - 模型可用于生成虚拟形象舞蹈视频,相较于传统MMD技术更为便捷 [11] - 在影视二创领域有广泛应用潜力,例如实现角色替换,让不同演员出演经典影视片段 [12][13] - 结合变声工具如海螺和剪映,可以同时替换形象和声音,生成高度逼真的合成内容 [9] 技术优势与行业影响 - Wan2.2 Animate为开源模型,区别于Runway、Viggle等非开源方案,降低了使用门槛 [14] - 该技术将过去需要昂贵动捕设备和专业动画师才能实现的表情和动作捕捉,变成了普通人点几下鼠标即可完成的任务,极大降低了创作门槛和成本 [25] - 技术为电影制作、特效、数字替身及虚拟演员等领域打开了全新的想象空间,未来或能看到已逝演员在新电影中"复活" [25][26] 使用方式与技巧 - 用户可通过通义万相官网在线使用该模型,选择角色替换或动作模仿功能,上传参考图和参考视频即可生成内容 [14] - 模型提供两种主要模式:动作模仿是让参考图中的主体在原有背景中模仿视频的动作;角色替换则是用参考图中的主体替换视频中的主体,并保留视频背景 [15][16] - 为实现只换脸不换背景的效果,可采用额外流程:从视频中截取一帧,结合角色图在其他工具上生成与视频背景完全一致的图,再将此图作为参考图输入模型 [17][18][20]
深度解析谷歌Genie 3:“一句话,创造一个世界”
虎嗅· 2025-08-18 16:55
核心观点 - Genie 3是谷歌DeepMind发布的生成式交互环境模型 实现从被动观看内容到主动参与世界的范式转移 其核心使命是作为训练AI智能体的虚拟环境 推动通用人工智能发展 [1][2][15] 技术突破 - 实时交互性: 以720p分辨率和24 FPS速率实时生成并渲染整个世界 支持即时反馈和因果关系学习 [5] - 交互视界延长: 维持长达数分钟连贯可交互会话 支持复杂多步骤任务模拟和长远规划 [6][7] - 涌现视觉记忆: 物体和环境变化具有一致性 即使视线离开后变化依然存在 体现物体恒存性规则 [8][9][10] - 可提示世界事件: 通过文本提示实时动态改变环境 注入新元素或事件 支持反事实测试 [11] 模型能力演进 - Genie 1: 核心能力为从视频中学习生成可玩2D平台游戏 分辨率160x90 帧率10 FPS 交互视界约16秒 [14] - Genie 2: 核心能力为生成非实时3D环境 分辨率360p 交互视界约10-60秒(实践中更短) [14] - Genie 3: 核心能力为生成实时交互环境 分辨率720p 帧率24 FPS 交互视界数分钟 [14] 战略定位与行业对比 - 谷歌DeepMind战略路径: 将AI构建为训练其他AI的虚拟子宫 旨在创造自主学习和行动的机器智能 [2] - 与Sora/Runway差异: Genie 3是世界模型 用于模拟交互过程 Sora/Runway是视频模型 用于生成最终结果 [22][23] - 性能对比: Sora生成视频达1080p/20秒 视觉保真度高 Genie 3输出720p/数分钟 侧重物理一致性和逻辑连续性 [25][26][30] 核心应用场景 - AGI智能体训练: 解决机器人学和AGI研究中对海量多样化安全低成本训练数据的渴求 支持具身智能体如机器人和自动驾驶汽车模拟数百万种情景 [15][16] - 游戏产业: 理论上将游戏场景创建时间从数月缩短到几分钟 降低开发成本 但目前存在游戏手感不佳 图形错误和控制不精确等短板 [17][18] - 教育模拟: 创造高度互动沉浸式学习环境 如历史系学生走进AI生成的古罗马城邦 医学院学生练习急诊室突发状况 [19] 当前局限与发展方向 - 交互时长与稳定性: 数分钟交互视界不足 需稳定运行数小时才实用 长时间运行仍会退相干 [31] - 保真度与控制性: 存在图形伪影或扭曲 自然语言提示控制方式粗糙缺乏精确性 [31] - 技术挑战: 需解决实时生成立体图像 支持六自由度姿态追踪 保证低延迟和高刷新率以实现VR/AR结合 [32] 长期意义 - 对元宇宙: 预示动态无限广阔虚拟世界可由世界模型从无到有生成 而非手动搭建 [35] - 对AGI: 代表关键基础设施启动 类似航空时代初期的风洞 用于测试迭代和孕育未来人工智能 [35]
Z Product|Product Hunt最佳产品(7.14-20) ,华人产品夺取榜二、榜三!
Z Potentials· 2025-07-22 11:05
行业趋势 - AI驱动的生产力工具成为主流,覆盖项目管理、设计、开发、财务等多个领域 [4][8][14][27][31][36][42][49][54] - 无代码/低代码平台需求增长,简化开发流程并降低技术门槛 [14][21][27] - 短视频和视觉内容创作工具受市场青睐,强调自动化与叙事连贯性 [8][10] - 企业数字化转型加速,数据整合与自动化工具需求显著 [27][31][54] 公司产品分析 ClickUp (Brain MAX) - 集成多模态AI助手Brain MAX,支持跨平台智能搜索和自动化任务执行 [4][5] - 目标用户为中大型企业团队和项目经理,解决信息碎片化和工具繁杂问题 [4] - 数据表现:1082个Upvote,277条comment [6] OpenArt AI - 一键生成多场景连贯视频故事,支持文本/图片转视频及自动背景音乐生成 [8][10] - 目标用户为社媒运营者和短视频创作者,解决内容制作周期长的问题 [8] - 数据表现:905个Upvote,100条comment [12] TestSprite 2.0 - 自然语言驱动全流程自动化测试,覆盖前后端,可节约90%测试成本 [14][16] - 目标用户为中小型开发团队,解决手动测试费时费力问题 [14] - 数据表现:946个Upvote,141条comment [19] Dualite - 将Figma设计高保真转为React/HTML代码,支持本地优先架构 [21][23] - 目标用户为产品设计师和前端开发者,解决设计与开发脱节问题 [21] - 数据表现:765个Upvote,96条comment [23] Coefficient.io - 通过原生公式实现Google Sheets与Salesforce/HubSpot实时数据同步 [27][29] - 目标用户为销售主管和运营团队,解决数据孤岛问题 [27] - 数据表现:758个Upvote,52条comment [29] Finlens - AI会计协作工具,支持与QuickBooks双向同步,自动化财务流程 [31][33] - 目标用户为中小企业创始人和会计师,解决重复录入和月末结账慢问题 [31] - 数据表现:1082个Upvote,277条comment [32] Mozart AI - 基于浏览器的AI音乐创作平台,支持自然语言生成和弦、旋律等 [36][38] - 目标用户为业余爱好者和职业音乐人,解决制作耗时和技术门槛问题 [36] - 数据表现:666个Upvote,151条comment [38] Untitled UI React - 全球最大开源React组件库,与Figma同步,含5000+组件 [42][44] - 目标用户为前端开发者和设计师,解决组件库品质参差不齐问题 [42] - 数据表现:653个Upvote,96条comment [44] Checklist Genie - AI语音/图片识别生成清单,支持多周期任务追踪 [49][52] - 目标用户为个人和职场人士,解决传统清单制作繁琐问题 [49] - 数据表现:612个Upvote,49条comment [52] Runway - AI招聘工具,支持自定义筛选参数和智能候选人排序 [54][55] - 目标用户为企业HR和招聘经理,解决初筛工作量大问题 [54] - 数据表现:511个Upvote,74条comment [55]
放弃国企工作,创办一人企业:我一定能用AI挣到钱!丨AI转型访谈录
腾讯研究院· 2025-06-20 15:33
核心观点 - AI工具虽然降低了影视制作行业的门槛,但要实现商业变现仍需结合影视基础、绘画基础、审美能力和创意思路等核心能力 [4][22][45] - AI在影视制作中主要起到提升效率的作用,可提速约80%,但创作思路短期内无法被替代 [4][70][76] - 成功转型AI的关键在于持续学习、客户服务质量和作品质量,而非单纯依赖工具 [25][45][72] - AI影视制作行业已实现商业化落地,从业者月收入可达4-5万元,主要客户包括企业、媒体和机构 [24][20][26] 行业现状 - AI影视制作已形成完整产业链,从业者通过社群、平台和转介绍获取订单 [26][29][31] - 主流工具包括Midjourney、Stable Diffusion、DALL-E 3等生图工具,Pika等视频工具,每月工具成本达数千元 [44] - 行业存在分层现象:基础图片制作单价低至10元,商业广告片可达数千元 [12][14][38] - AI短剧被视为潜在风口,但当前技术尚无法与真人剧集抗衡 [66][68] 商业模式 - 典型项目周期从半天到两个月不等,紧急商业广告可在6小时内交付 [38][41] - 主要收入来源包括企业宣传片、商业广告、媒体合作等,头部从业者月均收入4-5万元 [24][20] - 获客渠道多元化:平台接单占比约30%,转介绍和社群渠道占比70% [26][29][31] - 团队采用灵活协作模式,核心成员1-2人,项目制招募临时成员 [27][28] 核心能力 - 需要掌握至少3-5种AI工具的深度应用,并能组合使用解决复杂需求 [44][45] - 影视行业基础技能(剪辑、运镜、脚本)仍是核心竞争力 [22][45][46] - 客户需求转化能力至关重要,需将模糊需求转化为可执行方案 [33][45] - 持续学习能力是关键,需每天跟踪行业新技术和新工具 [72][78] 发展趋势 - 工具迭代速度加快,从业者需保持每月20%以上的学习时间投入 [58][72] - 行业呈现专业化分工趋势,开始出现文案、生图、视频等细分领域 [44][68] - 内容质量要求持续提升,市场开始淘汰低质量批量生产内容 [68][77] - 三四线城市从业者通过远程协作实现业务突破 [20][64]
企业培训 | 未可知 x 恒都律所:AI驱动律师IP孵化新范式
AI赋能IP孵化与运营 - AI技术从工具、策略到创新层面全面赋能IP孵化,带来效率提升和商业价值 [1] - 传统IP孵化面临内容创作成本高、周期长、市场洞察缺乏数据支撑、变现路径单一等挑战 [3] - AI通过ChatGPT、Midjourney、Runway等工具实现文案、图像、视频自动化生产,大幅降低创作成本并提升效率 [3][5] AI在IP孵化中的具体应用 - deepost平台通过AI技术降低IP孵化门槛,提升运营效率,实现数据驱动的决策与可持续变现 [7] - AI在deepost平台的三层价值:效率工具、决策助手、创意伙伴,成为IP孵化的战略伙伴 [7] - AI贯穿IP孵化全流程:定位设计阶段精准定位IP概念,内容生产阶段构建全方位内容矩阵,运营管理阶段实现智能化社群管理和实时数据分析 [9] AI驱动的IP孵化案例与趋势 - 短视频IP孵化中,AI生成脚本、自动剪辑和智能投放实现高效粉丝增长与变现 [11] - 知识付费IP借助AI辅助课程设计和精准用户分析,快速构建完整变现体系 [11] - AI开辟内容订阅、智能推荐佣金、数据洞察服务等新兴变现路径 [11] - 多模态AI、个性化引擎和实时交互技术推动IP孵化向智能化、精准化方向演进 [11] 行业愿景与未来展望 - deepost平台提出"让AI为人类打工"的愿景,通过AI技术民主化让每个人成为IP创造者 [11] - AI不仅是工具,更将成为创意者的得力伙伴,助力IP孵化迈向更高效、更智能的新时代 [13] - 未可知人工智能研究院将继续深耕AI技术在各领域的应用研究,推动技术与行业深度融合 [13]
报告:DeepSeek使用率下降一半,快手可灵登顶视频组
观察者网· 2025-05-14 12:08
大模型使用趋势 - 深度求索的DeepSeek-R1模型使用率从2月峰值下降50%,但仍居推理模型分类第三位 [1] - 快手可灵(Kling系列)大模型在视频生成分类中占据30%以上份额,迅速登顶 [1] - 推理模型占所有文本模型使用率从2%飙升至10%,目前维持在8% [1] 推理模型竞争格局 - DeepSeek-R1在2月占据推理模型文本信息50%以上份额,打破OpenAI垄断 [3] - OpenAI此前100%垄断推理模型市场,现总份额仍不低于30% [5] - Gemini-2.5-Pro以31.5%份额居首,Claude-3.7占19.1%,DeepSeek-R1占12.2% [3] - Grok 3模型份额不足1%,可能因仅mini版本支持API调用 [5] 视频生成模型表现 - 快手可灵系列三个模型共占视频生成领域30%以上份额 [5] - 可灵2.0大师版(Kling-2.0-Master)三周内拿下20.9%份额 [5] - 美国Runway以23.6%份额居单个模型第一 [5] - 中国MiniMax海螺和腾讯混元也在榜单中 [5] 可灵大模型技术参数 - 可灵生成视频分辨率达1080p,时长最长2分钟(30fps),支持自由宽高比 [7] - 自去年6月发布已完成超20次迭代,全球用户突破2200万 [7]
26款AI工具入门,看这一篇就够了
虎嗅APP· 2025-03-03 18:08
核心观点 - AI工具在2025年已形成成熟应用格局,涵盖对话、写作、绘画、视频、音频、编程、搜索和音乐等领域 [3][4] - 各细分领域领先产品已明确,行业增速放缓,竞争转向产品体验和垂直场景优化 [4] - AI工具显著提升工作效率,如半小时完成原本需一天的项目方案 [2] AI对话工具 - ChatGPT:功能最全面的对话平台,多模态能力领先但创新停滞 [9][10] - 豆包:中文理解最佳,字节跳动产品体验突出,适合国内用户 [11][12] - Gemini:整合Google搜索能力,实时信息检索优势明显 [13][14] AI写作工具 - DeepSeek R1:国内最强开源模型,创意写作能力强但存在幻觉问题 [16][17][19] - Claude:写作和代码能力行业领先,理解力强但对中国用户不友好 [21][23][24] - Grok:马斯克旗下产品,网络热点捕捉能力强,风格幽默 [25][26][27] AI绘画工具 - 即梦:字节跳动产品,东方美学处理出色,中文提示词支持好 [30][31] - Whisk:谷歌产品,图片组合创作模式创新,可玩性强 [35] - Recraft.ai:商业设计场景专用,可生成风格一致的成套设计资源 [36][37] AI视频工具 - 可灵:快手产品,国内视频生成领军者,画质和动作流畅度领先 [44][45][46] - Pika:动态元素融合能力强,视频生成质量一流 [47][48] - Runway:专业视频生成先驱,质量高但价格昂贵 [50][51] AI音频工具 - 海螺AI:MINIMAX产品,声音克隆和朗读自然度高,自媒体适用 [55][56][57] - 海绵音乐:字节跳动产品,平民化音乐生成工具易上手 [76][77] - MusicFX:谷歌产品,操作简单且生成质量高 [79][80] AI搜索工具 - 纳米AI搜索:360产品,集成多模型协作和办公工具 [71] - 秘塔搜索:专注科研场景,支持文献翻译和知识库建设 [72][73] AI音乐工具 - Suno:AI音乐创作先驱,支持多种风格,专业性强 [74][75] - MusicFX:谷歌产品,简单易用且质量高 [79][80] 行业趋势 - 大厂加速布局AI领域,字节跳动和谷歌产品矩阵最为完善 [76][80] - 工具专业化程度提高,垂直场景应用成为竞争重点 [36][50][72] - 开源模型推动行业进步,DeepSeek带动国内AI工具普及 [16][17]
对话 PixVerse 王长虎:AI 视频生成可能通向新平台,Sora 只领先几个月
晚点LatePost· 2024-04-30 18:25
行业竞争格局 - Sora发布后被视为视频生成领域的领先者,其他模型如Runway、Pika、SVD、PixVerse等被比喻为"膜拜者"[4] - PixVerse是中国唯一进入全球视频生成领域第一梯队的产品,月访问量达140万,与Pika(200万)、Runway(600万)同属全球top3[6][10] - 国内所有公司视频生成产品访问量总和仅为PixVerse的三分之一[10] 技术发展现状 - Sora能生成60秒连贯视频,但实际用户需求更多是15秒以内的短视频[9] - 视频生成的ChatGPT时刻定义为普通用户能实时生成高质量视频,目前仍处于GPT-2到GPT-3阶段[9][13] - 当前视频生成模型普遍只能生成4-7秒视频,PixVerse可生成4秒,Runway通过拼接可达18秒[17][18] - 视频生成面临手指、尾巴等细节问题,可通过3D建模信息辅助优化[19] 公司战略与优势 - 公司坚持视频生成方向,认为视频内容最接近用户,团队有字节跳动视频AI技术积累[14][15] - 采用差异化策略,用更少资源(百卡级)达到与Pika、Runway同等水平[15][22] - 新融资将支持升级至千卡级训练,认为达不到此规模的公司将失去竞争力[22] - 同时布局模型层和应用层,目标直接服务C端用户,探索新内容平台可能性[27][28][29] 市场机会判断 - 大平台对AIGC内容持谨慎态度,这为创业公司创造了机会[9][29] - AI视频生成可能催生新内容平台,而非简单融入现有平台[29][30][32] - 全球市场同步推进,认为AI时代产品应面向全球[33][34] - 当前聚焦提升生成能力而非用户增长,商业化将基于ROI考量[36] 团队与资源 - 研发人员占比超70%,保持精简团队规模[38] - 创始人兼具学术和工业背景,有万卡GPU使用经验和国民级产品建设经历[41] - 新融资来自蚂蚁集团,金额达上亿元人民币[7]