AI + Video - 财报，业绩电话会，研报，新闻

AI + Video

搜索文档

锦秋被投企业OiiOii创始人闹闹：亲历微信与字节后，如何抓住下一波机会？｜Jinqiu Spotlight

锦秋集· 2026-01-07 19:03

文章核心观点 - 2026年将是AI视频应用爆发的关键年份，预计将催生大量新的独角兽公司 [6] - AI视频生成领域的创业公司，特别是采用Agent架构的产品，不仅不会被Sora等大模型“端到端”吃掉，反而会迎来最好的发展时代，与大模型形成互补共生的繁荣生态 [9][11][57] - OiiOii作为AI动画视频生成Agent，其核心价值在于通过“厨师调味”般的深度工作，将底层模型能力转化为面向特定人群和场景的成品，满足从专业创作者到普通用户的广泛需求 [16][57][59] 快问快答 (公司基本情况) - 创始人闹闹毕业于中山大学，MBTI为INTJ，星座是狮子座 [19][20] - 公司核心业务是用AI制作动画 [22] - 公司处于Pre-A轮融资尾声，产品内测发布约一个月，目前需要邀请码 [23][26] - 公司成立约4个月，尚无收入和利润，团队全职规模为18-19人 [25][27] - 创始人创业前拥有丰富的产品经理经验，曾任职于腾讯微信事业群（QQ邮箱）、字节跳动（剪映、抖音特效）以及B站动画业务 [28][29] AI视频的Agent时刻：为什么是现在？ - 创始人在2022年DALL-E 2发布时便萌生用AI做动画的想法，但真正的切入时机在2024年上半年，源于观察到多模态模型开始激烈竞争，势头类似语言模型爆发期 [40][43] - Agent架构被确定为最佳产品形态，原因有三：1) 可灵活调用多种模型；2) 动画制作本身是流式、多角色协作的流水线，与Agent工作方式高度契合；3) Agent交互提供高自由度，避免传统GUI工具的功能臃肿 [44][45] - 产品初期采用“首尾帧”生成路线以保证单镜头稳定性，并创新设计Task Agent为不同分镜自动匹配最优模型 [46][47] - Sora 2发布后，其出色的分镜和镜头语言能力促使公司果断放弃原有路线，全面转向接入Sora，首个测试视频（小螃蟹和小猩猩打篮球）一句prompt直出，效果令人兴奋 [47][48][52] 为什么不怕Sora？大模型与Agent的共生关系 - 核心观点：视频模型不可能“大一统”，因各家训练数据、标注标准不同，输出结果各有特色，这为Agent的“组合式创新”留下了巨大空间 [53][166] - 提出“超市与餐馆”理论：大模型如同提供原材料的大型超市，而Agent则是川菜馆、粤菜馆等特色餐馆，为用户提供符合特定口味和场景的成品，两者共存共荣 [16][54][57] - Agent公司约60%-70%的工作是“后厨调味”，即通过建立垂直知识库、优化prompt、调整模型参数等细微工作，将生硬的模型输出转化为符合目标用户需求的佳肴，这是其核心护城河 [16][57][59] - 即使未来Sora发展到4.0/5.0版本，开始提供一些“熟食”（垂直功能），Agent产品也不会消亡，反而会更加繁荣，因为垂直领域的需求深度和专业性是无法穷尽的 [11][63] 目标用户与市场定位 - 初始目标用户定位为“自媒体人”，主要包括三类：1) 围绕IP创作动画的小型工作室（可将内容更新效率从一周一集提升至一天一两集）；2) ACG领域的MV创作者；3) 讲历史、科普等非动画领域的自媒体人 [71][72][73] - 内测中发现了三类意料之外的用户：1) 漫剧团队（利用其高效分镜生成能力）；2) 从未做过视频但想用动画表达想法的人；3) 为维系社交关系而创作的用户（如家长为孩子、学生为老师、情侣之间制作动画视频） [18][76][77] - 公司未来将采用类似抖音做垂类的策略，针对科普、MV等不同内容类型，深入研究其结构并构建专属知识库，逐个垂直领域进行深度服务 [78][79] - AI视频Agent不会取代剪映等传统工具，而是带来增量市场，两者效率叠加为最优解，用户可在OiiOii生成内容后，再导入剪映进行轻量剪辑等后期处理 [16][87][94][95] 产品设计与技术架构 - 选择Agent架构的重要原因之一是避免传统创作工具（如PS、PR、剪映）从简单走向功能臃肿的必然循环，Agent的能力更多隐藏在后台，而非通过GUI堆叠 [82] - Agent产品具有用户与产品共建的魅力，用户能探索出开发者意想不到的用法，不断拓展产品边界 [83][84] - 为平衡工作流的“稳定性”与用户修改的“自由度”，公司在两个月内重构了四次系统架构，最终采用在严格workflow中嵌入“信号”机制的方案，允许Agent在特定环节跳出接受用户指令后再跳回，技术挑战大且仍在优化稳定性 [85][86] - 产品设计赋予每个Agent（如剧本Agent、角色设计Agent）角色感，模拟“团队服务于导演”的体验，但多Agent交互中的上下文记忆管理是架构难点 [96][97] - 产品的“秘方”在于将影视学的专业知识（如用特定色调、场景表达“孤独”情绪）打包成可调用的元素，使普通用户仅用情绪词也能生成有“感觉”的片子 [98][100] 创始人的产品方法论与行业洞察 - 在微信的工作经历培养了深刻的产品价值观和“被训练出来的直觉”，强调通过大量阅读用户反馈（每天数百上千条）来识别真伪需求，洞察人性 [108][111] - 在字节的工作经历强化了数据驱动和理性策略思维，学会了通过用户行为数据计算概率来指导产品决策（如“造风”），将产品sense与数据科学结合 [112][115][117] - 微信与字节的共同点在于都将自身基因优势发挥到极致：微信将“体验”和“感性”发挥到极致，字节则将“效率”和“数据”发挥到极致 [120][121] - 成为一名优秀产品经理的三个关键能力：1) 移情能力，能迅速切换为用户视角；2) 50%自信与50%自省结合，避免盲区；3) 对技术敏感，理解技术可实现性的边界 [131][132] - 动画行业是商业世界中少数会奖励“纯粹”与“热爱”的领域，创始人长期的动画梦想与AI技术机遇、团队能力实现了完美匹配 [9][128][129][137] 对2026年AI视频领域的预测 - 技术发展将延续质量提升、可编辑性增强的趋势，实时性和互动性也可能提高，但更高的编辑自由度和互动性可能使产品更小众，因为大众已习惯被动接收信息 [158][159][160] - 一些在现有媒介基础上的“小改动”（如Sora 2带来的更自然切镜）可能比巨大的技术革新更能吸引广泛受众 [161] - 视频模型厂商将朝两个方向发展：一是强化自身擅长领域，二是补足短板，同时会继续追求通用性，实时性和可编辑性将是重点增强方向 [168][169] - 视频模型难以大一统，不同模型有先天差异（数据与标注）和后天差异（公司战略），且即使模型相同，调用手法和输入内容的不同也会导致输出结果迥异 [164][165][166]