Vidu
搜索文档
模型战事未了,钱已流向别处:一场百人AI公司CEO闭门会后的资本真相
36氪· 2025-11-10 18:47
投资布局与核心理念 - 锦秋基金56%的投资集中于应用层,25%押注于具身智能,10%在算力基础,另有近8%为智能硬件 [6] - 投资布局基于对智能持续提升与获取智能成本持续下降两个宏观趋势的坚定判断 [6] - 核心论断为模型是通用商品,价值会让路给产品,尤其是更懂得用户的产品是更稀缺的 [6] - 在模型尚不完美的当下,用户选择相信谁就会留下来与谁共同成长,因此“信任”将成为比技术更重要的护城河 [6] 芯片与机器人领域机遇 - 推理芯片的需求激增,Token调用量加速增长,推理芯片的窗口刚打开,同时存在芯片软件算法正向飞轮及创新技术方案的机会 [7] - 机器人各公司正在迎来ChatGPT的时刻,数据、资本与成本三大拐点同时发生,2025年全球市场融资额已达2023年的5倍 [7] - 机器人产业正处在与个人电脑发展早期相似的关键节点,缺乏一个类似Windows的中介平台让普通开发者参与构建应用 [17] 智能范式迁移与应用层发展 - AI发展正从依赖算力和数据规模的预训练,进入以强化学习和经验驱动的后训练,这一转变推动了AI在推理、编码和工具使用能力的质变 [10] - 智能商品化趋势意味着模型能力的获取将像逛超市一样货比三家,应用层公司可将重心完全聚焦于解决用户的具体问题 [10] - 对于具身智能,核心竞争力在于数据,尤其是第一人称视角视频数据以及建立真实场景的数据闭环 [10][15] 视频生成与内容创作变革 - 当前流行的文生视频、图生视频被视为过渡方案,未来的极简创作范式是“参考生视频”,允许创作者上传任意主体并通过语言指令让其持续表演,一致性可延长至5分钟 [10][11] - 在“Vidu”的调用中,60%以上来自于参考生视频,证明它正成为专业创作的主流选择 [14] - AI技术正推动内容创作从“记录现实”转向“创造想象”,实现从“交互式特效”到“可消费故事”的跨越 [18] AI公司战略与风险 - AI公司可分为“超新星”(增长快但毛利率低)和“流星”(增长稳健结构健康)两类,投资更青睐后者 [20] - 创业公司面临被基础模型公司“吸收”的结构性风险,产品若通用且技术门槛不高则被大模型吸收是必然 [20] - 创业者的最优解是找到“专业化区间”,在数据、行业知识或分发渠道上建立难以复刻的壁垒,以避免断崖式下滑 [20] 世界模型与数据价值 - 世界模型是具身智能能够进行推理和决策的“大脑”,可通过在线模拟推演获得更好决策,或作为环境模型通过离线强化学习训练智能体 [15] - 第一人称视角视频数据是指数级的宝贵资产,是训练Physical AI的关键 [15]
生数科技CEO骆怡航:当AI理解镜头,多模态生成模型如何重构全球创意与生产体系 |「锦秋会」分享
锦秋集· 2025-11-05 13:48
视频生成模型行业发展趋势 - 2025年视频生成模型能力突飞猛进,从生成几秒素材发展到重构整个内容生产链条,包括创作、剪辑、运镜、表演和分发 [2] - 行业变革本质是视频开始以AI方式被生产,创作逻辑从人驱动工具使用转向智能驱动协作生成,未来内容依赖创意、数据与算法共同完成即时生成 [3] - 每一次模型能力突破都会带来新生产方式,可能孕育下一个抖音或B站级别的应用 [4] - 内容创作正从文字、图片、视频多模态输入过渡到以参考为核心零门槛生成模式,这是从技术走向产业拐点 [8][9] 生数科技技术定位与突破 - 公司聚焦数字世界多模态大模型,于2022年全球最早发布U-ViT架构,也是中国首个视频生成模型Vidu [16] - 从2024到2025年,视频生成技术和应用迅速进入内容产业生产环节,当下及明年更关注模型到行业落地发展 [16] - 公司提出参考生视频作为变革核心支点,让创作者只需确定人物、道具、场景即可通过AI自动延展故事与镜头语言 [9] - Vidu Q2基础能力已比较接近院线级创作标准,计划明年与合作伙伴共同制作长篇电影并在院线上映 [44] 视频生成应用场景与挑战 - 应用分为三大方向:互动娱乐领域视频模型在特效和娱乐方面已基本没问题;商业制作强调效率、成本与品质平衡;专业创作需要AI在视觉水准上进一步提升 [18] - 多模态生成模型面临三大挑战:能否生成高一致性更高品质音视频内容;能否在保持一致前提下从5-8秒扩展到30秒、1分钟甚至更长;能否从服务专业创作者走向大型动画影视公司及大众 [18] - 当前文生视频、图生视频、多帧生成都不是AI最佳创作范式,文生视频在专业创作里很少使用,主要用于灵感激发和初始创意 [23][25] 参考生视频技术优势 - Vidu全球首创参考生视频,目标是砍掉传统制作流程中间环节,让创意直接以视频形式呈现 [30] - 创作者只需确定主体(人物、道具、场景、风格、特效)再配合提示词即可生成视频,不需要首帧完整图片或其他关键帧 [35] - 主体可以泛化,任何角色都可以当成主体,目前Vidu可同时支持上传7个主体,并根据提示词直接生成视频 [37] - 在Vidu全球创作者和企业用户整体调用量中,60%以上创作方式是参考生视频 [47] 技术能力具体参数 - Vidu当前能保证5秒、8秒片段一致性,视频延长功能可延长到5分钟,满足绝大部分单场景或多场景创作诉求 [40] - 全球AI视频厂商战队赛中,四名创作者利用Vidu参考生视频在2小时内现场创作出1分钟以上故事,获得赛事最高荣誉 [49] - 参考生视频已应用于广告、漫剧、文旅、动画影视等行业,在满足商业创作多主体一致性需求同时更好提效降本实现故事创意 [51]
前字节剪映AI产品负责人创业,获硅谷基金及BV百度风投投资,要做营销多模态Agent
36氪· 2025-11-01 09:16
文章核心观点 - 文章聚焦于AI多模态领域的创业机会,认为当前技术拐点已至,创业公司应聚焦于垂直场景的AI应用开发,而非基础模型[7][8][9] - 核心论点是企业用户不需要复杂的AI工具,而是需要能够直接交付成品视频的端到端解决方案,这存在明确的商业机会[11][21][30] - 面对Sora等基础模型的快速迭代,应用层公司应将自己定位为"造船的人",利用底层模型能力的提升来增强自身产品,并保持快速迭代以应对变化[7][44][78] 创始人背景与创业契机 - 创始人廖谦拥有丰富的AI产品经验,曾在腾讯云、字节跳动火山引擎和剪映负责AI产品,其主导的产品曾达到千万DAU和百万月活[5][13][17] - 2024年初Sora的发布被视为多模态的"ChatGPT时刻",促使廖谦加入生数科技,带领Vidu产品从0到1达到数千万美金收入[5][18][19] - 在生数科技期间,通过处理上千单企业级AIGC需求,发现企业端到端交付解决方案的痛点,从而决定创立"极致上下文"公司[8][20][21] - 公司于2024年8月成立,在融资PPT未完成的情况下,半个月内迅速敲定了由HT investment和BV百度风投投资的数百万美金首轮融资[5] 公司定位与产品战略 - "极致上下文"公司不做基础模型,而是定位为"造船的人",即通过整合各种AI模型能力,为企业提供端到端的营销视频生成服务[7][9][30] - 首款产品是一个营销Agent,前端通过多模态交互理解企业需求,后端整合AI模型,直接交付成品视频,而非工具[9][30][34] - 公司选择从"生产力信息"场景切入,如企业营销内容,因为这类需求ROI清晰可量化,目标是将制作成本降低十倍,速度提升百倍[9][35][36] - 未来愿景是打造一个新时代的"AI表达系统",但当前阶段务实聚焦垂直场景,类比移动互联网早期应专注像美团、滴滴这样的垂直应用[10][31][69] 技术拐点与市场判断 - 多模态模型在2024年达到商业化拐点,效果与成本综合达标,AI生成视频成本相比传统制作可降低到十分之一[23][36] - 2024年9月ChatGPT o1的发布标志着大模型推理能力成为优化问题而非可行性问题,多模态模型的一致性也得到显著提升[24][25] - 中国在AI视频领域具有独特优势,短视频生态领先全球1-2年,国内对视频落地的理解和经验可以迁移至海外市场[10][17][62] - 多模态领域的发展路径与大语言模型不同,数据质量的重要性远超参数规模,数据做得好即使模型不大效果也可能很好[60][61] 对Sora的评估与行业影响 - Sora App的发布被评估为一项AI System而不仅是模型,其具备叙事能力和镜头语言,尤其在社交娱乐内容上表现领先[47][48][50] - Sora的发布对应用层公司是重大利好,意味着可用工具更强大、门槛更低,同时会刺激整个行业和资本市场的活跃度[43][45][51] - OpenAI通过Sora App的账号体系设计显示出其构建GPT生态的野心,将永久降低AI社交和娱乐的毛利,迫使大厂防守[54][55] - 创业公司需找到足够硬的切入点,使用户愿意"多持"不同产品,并建立快速反应机制,以每周迭代应对基础模型每两三个月的更新[58][78] 商业模式与未来拓展 - 商业模式是直接交付服务结果(如合格视频),而非保证业务效果(如转化率),价格和质量标准明确,用户为确定性的交付物付费[72][73] - 未来拓展方向是沿垂类场景进行,如教育、办公等,因不同场景的交互形态和行业知识差异大,通用Agent难以做深[69][70][76] - 信息表达正进入"生成时代",AI能聚合理解信息后动态生成全新内容,实现真正个性化,这改变了推荐时代的游戏规则[67][68][76] - 创业公司应更冒险和激进,尝试未被验证的可能性,建立快速迭代文化以在不确定的技术环境中保持竞争力[80][81][83]
从视频生成工具到“世界模型”距离有多远?
中国经营报· 2025-10-31 17:49
行业竞争格局 - OpenAI推出的第二代Sora在登陆苹果应用商店后5天内下载量超过100万次,增速超过ChatGPT [1] - 视频生成模型赛道已聚集谷歌、Meta等科技巨头以及Runway、Luma AI、Midjourney等创业公司 [1] - 国内市场已有阿里、腾讯、字节、快手、百度等企业推出数十款视频大模型产品,美团也开源了其首款视频生成模型LongCat-Video [1] - 视频生成模型的主战场正从“拼参数”的通用模型竞赛转向“拼落地”的垂直生态竞争 [7] 技术应用与影响 - AI视频工具使能进行较高质量内容创作的人群从可能只有10%的专业人员提升至可能90%的人 [2] - 使用Sora等产品未来制作影视、游戏、动漫的效率将会呈现几何倍数增长 [2] - AI视频正在成为社交网络的新名片,相关特效广受欢迎,满足了消费者在数字社交中的个性化等心理需求 [2] - 抖音AI短剧排行榜中的《兴安岭诡事》等作品播放量破亿次,AI短剧正在快速崛起 [3] - 视频生成技术发展迅速,表现在内容生态重塑、社交逻辑重构、内容消费体验升级等方面 [6] 技术演进与市场前景 - Sora2的推出标志着视频生成技术正在进入全民可用的成熟阶段,将给视频相关领域带来深远影响 [4] - 通用大模型正在加速从技术提供商向应用平台服务商转变,社交是撬动大众市场的驱动力 [5] - 多模态生成大模型正迎来系统性可用窗口,生数科技旗下Vidu称用户在30秒内可完成多个镜头切换 [6] - 全球AI视频生成市场规模去年达6.15亿美元,预计今年达7.17亿美元,2032年达25.63亿美元,年均复合增速20% [8] 技术挑战与发展方向 - 美团开源的LongCat-Video模型是其探索“世界模型”的第一步,意图是深耕自家田地而非与通用大模型硬碰硬 [6] - 视频生成模型正探索垂直场景的专用模型,在电商广告、短视频制作等领域已有初步试水 [6] - 要成为真正的“世界模型”需跨越诸多关卡,包括对复杂物理规律的精准模拟、前后逻辑及画面的一致性等 [7] - 成功关键在于技术能否与自身商业场景深度耦合,实现闭环价值,而非单纯技术领先 [7]
AI+系列报告十:从Sora看AI视频的昨天、今天和明天
招商证券· 2025-10-30 14:01
行业投资评级 - 行业评级:推荐(维持)[3] 核心观点 - Sora2的发布标志着AI视频行业迎来二次革命,其技术突破与社交功能的深度融合加速了C端应用的商业化进程[1][2] - AI视频技术催生了如"AI漫剧"等创新内容形态,这些形态具备"短平快"和低成本的特点,正引发行业供需爆发,为产业链带来新的受益机会[2][16][25] - 未来AI视频的发展将围绕三个核心方向:与社交互动深度融合、向集成化平台化演进、以及与AI Agent结合实现一站式创作,从而在影视、游戏、IP等领域进一步凸显赋能作用[7][17] 技术突破与行业变革 - Sora2在2025年9月发布,相比前代实现了三大技术突破:物理世界拟真度提升、支持多模态融合同步生成音频、以及具备初步的导演叙事与镜头调度能力[2][18] - Sora App的推出是颠覆性突破,支持用户二次创作和虚拟形象植入,具备"客串"和"混剪"功能,上线七天获得62.7万次iOS下载量,登顶美国App Store榜首[19][20][72] - 国内AI视频应用如快手的可灵、字节的即梦等产品迭代迅速,可灵AI已迭代至2.5 Turbo版本,累计生成超2亿个视频和4亿张图片,服务超过2万家企业客户[61][127] 创新内容形态与应用场景 - "AI漫剧"作为AI技术与动漫短剧融合的产物,以漫画、小说IP为基础,全流程由AI制作,集均时长8-10分钟,具备"短平快"特征[2][25][27] - 腾讯动漫上线的AI漫剧《传武》和《我的治愈系游戏》由7人核心团队借助即梦AI制作,20多集耗时一个月,上线4天播放量破千万[16][25][88] - AI短剧同样表现亮眼,如68集真人短剧《奶团太后宫心计》累计播放突破2亿,首部付费AI短剧《兴安岭诡事》上线21小时播放量破千万,抖音端收益超30万[25] - 2025年上半年漫剧供给量以83%的复合增长率扩张,近半年上线漫剧3000部,环比增长603%,播放量实现92%的复合增长[27] 未来发展趋势 - AI视频将与社交互动深度融合,加速消费级应用落地,Sora App的快速普及印证了产品化对C端商业化的重要性[7][72] - ChatGPT正向生态系统演进,宣布向第三方应用全面开放,AI视频工具有望接入实现集成化和平台化,从简单工具转向"生成-分发-变现"全链路平台[7][75][76] - AI视频与AI Agent结合趋势凸显,可一站式解决脚本生成、文生图、图生视频等全流程需求,如美图公司的RoboNeo上线首月MAU破百万[7][80] 行业赋能与投资机会 - 在影视行业,AI视频技术显著降本提效,如AI动画《一品布衣》单集制作周期从传统30天压缩至3天,效率提升超90%,人力成本节省96%,单分钟成本从5万元降至3000元[93] - 在游戏领域,AI技术革新创作流程,Unity报告显示2024年有96%的游戏工作室在工作流程中使用AI,较2023年的62%大幅提升,AI赋能从美术资源生成到玩法创新[107][108] - 在IP领域,AI视频加速IP可视化,将改编周期从数月缩短至数天,并打破官方生产模式,让粉丝成为共同创作者,如Vidu发起的动画西游改编大赛掀起全民二次创作浪潮[112][116] - 谷子经济市场规模持续增长,2024年达1798.8亿元,预计2027年突破3000亿元,AI技术可快速生成角色3D模型,助力IP衍生品开发效率提升[112][119][120] 相关标的公司 - 腾讯控股:混元大模型实现多模态能力全覆盖,HunyuanImage 3.0成为最强大开源图像生成模型,全面赋能游戏、广告等核心业务[126][127] - 快手:可灵AI迭代至2.5 Turbo版本,2025年Q2单季营收达2.5亿元,与《逆水寒》合作生成角色特效,提升玩家创作体验[61][127] - 哔哩哔哩:自研AniSora V3等开源视频生成模型,赋能动漫等多场景,推出AI原声翻译功能提升内容可及性[8][51] - 美图公司:自研视觉大模型MiracleVision4.0,上线AI Agent RoboNeo,支持自然语言指令完成全场景任务[8][80] - 阅文集团:拥有海量网文IP储备,推出AIGC工具"漫剧助手"提升IP改编效率,开放十万部精品IP供AI漫剧创作[8][27]
前字节剪映AI产品负责人创业,获硅谷基金及BV百度风投投资,要做营销多模态Agent
36氪· 2025-10-29 13:08
公司核心业务与产品定位 - 公司“极致上下文”致力于打造一个新时代的“AI表达系统”,其首款产品是一个营销Agent,而非视频生成工具 [6][7][53] - 产品定位为端到端的解决方案,前端通过多模态交互理解企业品牌调性和需求,后端整合各种AI模型能力,直接交付成品视频 [6][26] - 目标是将传统营销视频制作成本降低十倍,交付速度提升百倍,使交付质量达到行业标准 [6][29][30] - 公司选择从“生产力信息”场景切入,优先服务营销人员、品牌方等有明确工作产出目标的用户,因其ROI可量化 [28][29] - 产品开发初期将首先面向海外市场推出,后续计划拓展至教育、办公等更多垂直领域 [7][57] 创始人背景与创业契机 - 创始人廖谦拥有丰富的AIGC产品经验,曾在腾讯云打造DAU千万的换脸产品,在字节跳动从0到1推出火山引擎Top1流量产品“智能创作云”,并主导剪映出海项目Pippit达到月活百万 [1][2][10][13] - 2024年初加入多模态初创公司生数科技,带领Vidu团队实现从0到1的冷启动,达到数千万全球用户和数千万美金收入 [2][15] - 创业想法源于在生数科技期间处理上千单企业级AIGC定制需求时发现的明确痛点:企业用户不需要复杂AI工具,而是需要能直接交付成片的解决方案 [5][16][18] - 公司于2024年8月成立,并在半个月内迅速敲定了由HT investment和BV百度风投投资的数百万美金首轮融资 [2] 行业趋势与技术拐点判断 - 多模态领域的ChatGPT时刻即将来临,底层模型技术处在迅猛变化中,但落地鸿沟依然存在 [2][6] - 2024年被认为是技术拐点,关键因素包括多模态模型效果与成本达到可商业化水平,生成视频成本相比传统制作可降低到十分之一 [19][20] - 模型推理能力的突破(如ChatGPT o1发布)使得大模型落地千行百业成为一个优化程度问题,而非行与不行的问题 [20] - 多模态模型的一致性得到显著提升,为商业化应用扫除了主要瓶颈 [20][21] - 中国在AI视频领域具有独特优势,短视频生态领先全球1-2年,对视频生态的落地探索和理解更深 [7][52] 竞争格局与战略选择 - 公司战略定位为“造船的人”,即应用层开发者,其能力会随着底层模型能力的上升而增强,Sora等基础模型的进步对公司是利好 [4][35][36][37] - 明确选择不做通用Agent,而是聚焦垂直场景,认为移动互联网早期的发展规律(垂直应用胜出)同样适用于AI Agent领域 [7][27][57] - 面对Sora等强大基础模型的发布,公司的策略是建立快速反应机制,产品需每周迭代一次,以应对基础模型每两三个月一次的快速迭代 [64] - 在创业心态上强调要更冒险、更激进,去做尚未被验证过的可能性,而非追求确定性 [5][65][68] 产品交互与交付模式 - 产品交互设计为多模态,不仅限于文字输入,会通过生成参考图等方式更精准地理解用户偏好 [32] - 交付模式是保证交付一个达到行业特定质量标准的、内容本身合格的交付物,但不保证其发布后带来的市场“效果”[59][60] - 对于中小客户,其业务流程可以接受AI完全接管;但对于大客户,仍需要真人参与对接 [33] - 未来信息表达将进入“生成时代”,AI能主动理解、抓取、聚合信息,并为用户动态生成全新的、个性化的内容(如图文报告、播客)[56][62]
AI“玩坏”追星:亲密照合成失控,未成年明星被“擦边”
新京报· 2025-10-23 09:50
AIGC技术应用现状 - 豆包、即梦、可灵、通义、Vidu五款AI模型产品能够生成用户与明星的拥抱、亲吻等亲密动作合影,甚至可实现男性艺人裸露上半身的效果 [6][7][10] - 生成亲密合影的成功率较高,即梦、Vidu在生成亲吻动作时一次成功,豆包、可灵需修改提示词或多次生成后亦可实现 [7][9] - 上述模型对输入未成年艺人图片未设限制,同样能生成拥抱、亲吻等亲密接触的合影 [10] 平台内容审核差异 - 小红书和抖音对AI生成明星合影内容进行严格管控,无AI水印版本被限制为"不被推荐给未关注用户",带水印版本被处置为"不可被他人查看"或"仅相互关注可见" [11][12][13] - B站和快手仅对带AI水印的内容进行标注,提示"疑似AI合成",但对无水印版本未进行明显提示或限制 [12][13] - 微博和视频号对记者上传的AI合影短视频未采取任何限制措施,也未进行AI相关风险提示 [11][13] 商业模式与功能设置 - 即梦、可灵、Vidu三款模型提供付费会员服务,开通会员后可下载去除AI水印的图片,其包月会员最低价格分别为69元、66元和59元 [15] 行业监管与法律责任 - 法律专家指出AI生成明星亲密合影可能侵害艺人肖像权和名誉权,即使在私域范围传播侵权风险依然存在 [2][14] - 模型厂商在技术上探索更难以篡改的显式标识存在高成本挑战,强行要求完全无法篡改的水印难以实现 [18] - 专家建议平台优化举报与维权通道,对本人申诉赋予更高处理优先级,并建立快速响应机制以减轻伤害 [19]
实测|AI“玩坏”追星:亲密照合成失控,未成年明星被“擦边”
贝壳财经· 2025-10-23 09:44
AI生成明星合影的技术实现与普及度 - 豆包、即梦、可灵、通义、Vidu五款支持多图参考的AI模型产品均可生成与明星的合影,并能实现拥抱、亲吻等亲密动作,甚至生成男性裸露上半身的图片[9][14] - 生成成功率较高,Vidu和即梦在测试中一次成功生成,通义和可灵在未改动提示词的情况下第二次生成成功,豆包在修改提示词后也能成功生成[10] - 使用未成年艺人图片进行“投喂”生成亲密合影同样没有限制,五款模型产品均能生成拥抱、亲吻及裸露上半身等内容的未成年人明星合影[15] 社交媒体平台对AI生成内容的监管差异 - 在B站、微博、抖音、快手、小红书、视频号六家内容平台中,仅小红书和抖音对AI生成的明星合影内容进行违规提示并限制传播范围[17][18] - B站和快手仅对带有AI水印的版本进行“疑似AI合成”标注,但未采取限制措施,而微博和视频号对有无AI水印的版本均未进行风险提示或限制[18][21] - 小红书对无AI水印视频处置为“不被推荐给未关注用户”,带AI水印视频则在发布1分钟后被处置为“不可被他人查看”[18][19] AI生成内容的标识与商业变现模式 - 即梦、可灵、Vidu三款模型产品通过开通会员服务可去除AI水印,其最低档包月会员价格分别为69元、66元和59元[24] - 根据《人工智能生成合成内容标识办法》,AI生成内容需进行显式或隐式标识,但现有规范未要求模型厂商采用无法去除的强硬技术手段[26][27] - 法律专家认为模型厂商有责任从源头上为内容提供稳定性标识,确保在常规操作后标识依然存在,但强行要求无法篡改的水印成本很高且难以实现[29][30] 粉丝群体与法律专家对AI合影的抵制及风险认知 - 单依纯、李健、张凌赫、丁程鑫等艺人的粉丝站或大粉发布声明,抵制将艺人图像、视频、声音等资料“投喂”AI,并呼吁拒绝制作和传播AI生成的艺人内容[22] - 法律专家指出AI生成亲密明星合影可能侵害艺人肖像权和名誉权,即使在小范围私域传播,只要未经同意制作虚假肖像并发送给第三方即构成侵权[23][24] - 参考“葛优躺”系列案件,未经许可使用他人肖像即使不以营利为目的,只要造成不良影响同样构成侵权,AI生成虚假亲密照的侵权性质更为恶劣[26]
宜信好望角:AI深度赋能,将如何改变创业格局
金投网· 2025-10-10 09:34
B端市场投资与机遇 - B端商业模式成熟且付费逻辑清晰,当前真实需求集中在降本增效领域,投资更倾向AI基础设施与具身智能项目[1] - 工业与智能制造领域的AI提效项目落地速度与效果超预期,尤其值得关注[1] - 针对大型企业复杂场景,通过定制化研发构建技术壁垒是可行策略,因Transformer架构泛化能力强但精准度不足[2] - SaaS模式被预测为短期内最易商业化的路径,AI硬件将在1-2年内爆发,具身智能有望在十年内融入生活[2] C端市场潜力与创新方向 - C端市场面临收费难挑战,但需求需通过持续观察与快速迭代挖掘,结合国内产品人才与工程实力有望打造全球爆款[1] - 陪伴类应用与AI Agent创作平台是已布局方向,观察到AI重塑现有工作流程的创新尝试以及Agent间交互的新生态苗头[1] 全球化战略与出海优势 - 更快的成长机会集中在海外,中国产品经理的全球化能力是核心优势[2] - 星动纪元具身智能业务海外客户占比超50%,2025年作为商业化元年重点拓展全球市场[2] - 生数科技视频生成产品Vidu全球化定位明确,商业化8个月实现ARR突破2000万美元,累计生成视频超3亿条[2] - 中国企业出海优势在于强大的AI技术能力与完备的供应链体系双重支撑,端侧大模型与硬件供应链结合可打造高性价比智能设备抢占全球AGI入口[2] - 只要产品能提供明确生产力价值,国内用户付费意愿并不逊色于海外[2] 机构孵化与创业支持模式 - 创新工场近五年孵化半数投资项目,通过提前1.5-2年布局稀缺方向降低风险[3] - 金浦投资采用产业方加资本方联合模式,为团队提供技术、渠道等全维度支持[3] - 创业者应关注退出端变化,优先对接产业资源丰富的投资机构[3]
AI视频生成“暗战”起风
华尔街见闻· 2025-09-29 08:01
行业商业化进展 - AI视频生成赛道已实现用户付费,而大语言模型的同类模式尚未跑通[1] - 2024年6月,Runway年化营收超过9000万美元(约6.4亿元人民币)[1] - 2025年第二季度,快手旗下AI视频生成应用"可灵"创收超过2.5亿元人民币[1] - 生数科技的Vidu上线8个月年化经常性收入(ARR)突破2000万美元(约1.4亿元人民币)[9] - 爱诗科技的拍我订阅收入已经覆盖成本[9] 主要市场参与者 - 国内市场参与者包括字节、快手、百度等互联网大厂以及生数科技、爱诗科技等初创公司[4] - 生数科技的"Vidu"和爱诗科技的"拍我"用户数均已突破千万[2] - 群核科技计划年内发布针对C端消费者的AI视频生成产品,并拥有庞大的室内空间数据集优势[2][10] 技术能力突破 - 2024年2月,OpenAI的Sora 1.0支持生成长达60秒视频,实现突破性进展[3] - 当前国内AI视频生成模型一次生成时长基本在5秒-10秒,但可通过镜头组合形成连贯长视频[4] - 百度蒸汽机升级后支持生成无限长度AI视频,突破了5-10秒的局限[8] - 长视频生成技术引入自回归扩散模型,结合自回归长序列能力和扩散一致性强优势[8] 具体应用场景 - 影视行业是AI视频生成技术的第一批尝鲜者[5] - 50集动漫短剧《明日周一》80%内容由生数科技Vidu生成,10人团队45天完成制作,效率较传统一周制一集提升至少7倍[6] - 快手"可灵"客户群体涵盖大众创作者、电商及广告从业者和影视制作工作室[7] - 市场想象空间延伸至机器人训练等场景,可为机器人提供虚拟场景进行训练[11] - 快手计划扩大"可灵"在游戏制作、专业电影以及视觉制作中的应用[12] 产品定价策略 - 标准版定价差异较大:可灵66元、Vidu59元、拍我79元、即梦79元[9] - Vidu和即梦"加量不加价",分别可生成200个/月、216个/月视频,而可灵、拍我只能生成数十个[9] - 行业出现价格战,百度蒸汽机定价低至行业70%,可灵2.5 Turbo模型比2.1模型同档位便宜近30%[10] 技术挑战与优化 - AI视频生成模型存在空间一致性、内容拼接崩坏问题,实测中出现脸部表情崩坏、物体凭空消失等现象[13] - 核心难点在于模型对长时序运动轨迹与多尺度语义连贯性的精准建模[13] - 问题根源在于当前算法基于2D图像序列学习,未能真正理解3D空间关系和物理世界逻辑[14] - 生数科技通过自研U-ViT架构、构建大规模视频数据集、引入动态遮罩与一致性补偿算法进行优化[15] - 群核科技推进3D视频生成工作流研发,以降低穿模和畸变[15] 数据资源与隐私 - 高质量数据集是AI视频生成模型公司渴求的训练素材[16] - Meta因被指控下载2396部成人电影训练AI模型而面临诉讼[17] - 国内视频平台如快手、抖音在用户数据使用方面拥有更多弹性空间和优势[18] - 快手的隐私政策允许其为广告目的与第三方合作伙伴读取用户部分信息与数据[18]