Workflow
AI + Video
icon
搜索文档
锦秋被投企业OiiOii创始人闹闹:亲历微信与字节后,如何抓住下一波机会?|Jinqiu Spotlight
锦秋集· 2026-01-07 19:03
文章核心观点 - 2026年将是AI视频应用爆发的关键年份,预计将催生大量新的独角兽公司 [6] - AI视频生成领域的创业公司,特别是采用Agent架构的产品,不仅不会被Sora等大模型“端到端”吃掉,反而会迎来最好的发展时代,与大模型形成互补共生的繁荣生态 [9][11][57] - OiiOii作为AI动画视频生成Agent,其核心价值在于通过“厨师调味”般的深度工作,将底层模型能力转化为面向特定人群和场景的成品,满足从专业创作者到普通用户的广泛需求 [16][57][59] 快问快答 (公司基本情况) - 创始人闹闹毕业于中山大学,MBTI为INTJ,星座是狮子座 [19][20] - 公司核心业务是用AI制作动画 [22] - 公司处于Pre-A轮融资尾声,产品内测发布约一个月,目前需要邀请码 [23][26] - 公司成立约4个月,尚无收入和利润,团队全职规模为18-19人 [25][27] - 创始人创业前拥有丰富的产品经理经验,曾任职于腾讯微信事业群(QQ邮箱)、字节跳动(剪映、抖音特效)以及B站动画业务 [28][29] AI视频的Agent时刻:为什么是现在? - 创始人在2022年DALL-E 2发布时便萌生用AI做动画的想法,但真正的切入时机在2024年上半年,源于观察到多模态模型开始激烈竞争,势头类似语言模型爆发期 [40][43] - Agent架构被确定为最佳产品形态,原因有三:1) 可灵活调用多种模型;2) 动画制作本身是流式、多角色协作的流水线,与Agent工作方式高度契合;3) Agent交互提供高自由度,避免传统GUI工具的功能臃肿 [44][45] - 产品初期采用“首尾帧”生成路线以保证单镜头稳定性,并创新设计Task Agent为不同分镜自动匹配最优模型 [46][47] - Sora 2发布后,其出色的分镜和镜头语言能力促使公司果断放弃原有路线,全面转向接入Sora,首个测试视频(小螃蟹和小猩猩打篮球)一句prompt直出,效果令人兴奋 [47][48][52] 为什么不怕Sora?大模型与Agent的共生关系 - 核心观点:视频模型不可能“大一统”,因各家训练数据、标注标准不同,输出结果各有特色,这为Agent的“组合式创新”留下了巨大空间 [53][166] - 提出“超市与餐馆”理论:大模型如同提供原材料的大型超市,而Agent则是川菜馆、粤菜馆等特色餐馆,为用户提供符合特定口味和场景的成品,两者共存共荣 [16][54][57] - Agent公司约60%-70%的工作是“后厨调味”,即通过建立垂直知识库、优化prompt、调整模型参数等细微工作,将生硬的模型输出转化为符合目标用户需求的佳肴,这是其核心护城河 [16][57][59] - 即使未来Sora发展到4.0/5.0版本,开始提供一些“熟食”(垂直功能),Agent产品也不会消亡,反而会更加繁荣,因为垂直领域的需求深度和专业性是无法穷尽的 [11][63] 目标用户与市场定位 - 初始目标用户定位为“自媒体人”,主要包括三类:1) 围绕IP创作动画的小型工作室(可将内容更新效率从一周一集提升至一天一两集);2) ACG领域的MV创作者;3) 讲历史、科普等非动画领域的自媒体人 [71][72][73] - 内测中发现了三类意料之外的用户:1) 漫剧团队(利用其高效分镜生成能力);2) 从未做过视频但想用动画表达想法的人;3) 为维系社交关系而创作的用户(如家长为孩子、学生为老师、情侣之间制作动画视频) [18][76][77] - 公司未来将采用类似抖音做垂类的策略,针对科普、MV等不同内容类型,深入研究其结构并构建专属知识库,逐个垂直领域进行深度服务 [78][79] - AI视频Agent不会取代剪映等传统工具,而是带来增量市场,两者效率叠加为最优解,用户可在OiiOii生成内容后,再导入剪映进行轻量剪辑等后期处理 [16][87][94][95] 产品设计与技术架构 - 选择Agent架构的重要原因之一是避免传统创作工具(如PS、PR、剪映)从简单走向功能臃肿的必然循环,Agent的能力更多隐藏在后台,而非通过GUI堆叠 [82] - Agent产品具有用户与产品共建的魅力,用户能探索出开发者意想不到的用法,不断拓展产品边界 [83][84] - 为平衡工作流的“稳定性”与用户修改的“自由度”,公司在两个月内重构了四次系统架构,最终采用在严格workflow中嵌入“信号”机制的方案,允许Agent在特定环节跳出接受用户指令后再跳回,技术挑战大且仍在优化稳定性 [85][86] - 产品设计赋予每个Agent(如剧本Agent、角色设计Agent)角色感,模拟“团队服务于导演”的体验,但多Agent交互中的上下文记忆管理是架构难点 [96][97] - 产品的“秘方”在于将影视学的专业知识(如用特定色调、场景表达“孤独”情绪)打包成可调用的元素,使普通用户仅用情绪词也能生成有“感觉”的片子 [98][100] 创始人的产品方法论与行业洞察 - 在微信的工作经历培养了深刻的产品价值观和“被训练出来的直觉”,强调通过大量阅读用户反馈(每天数百上千条)来识别真伪需求,洞察人性 [108][111] - 在字节的工作经历强化了数据驱动和理性策略思维,学会了通过用户行为数据计算概率来指导产品决策(如“造风”),将产品sense与数据科学结合 [112][115][117] - 微信与字节的共同点在于都将自身基因优势发挥到极致:微信将“体验”和“感性”发挥到极致,字节则将“效率”和“数据”发挥到极致 [120][121] - 成为一名优秀产品经理的三个关键能力:1) 移情能力,能迅速切换为用户视角;2) 50%自信与50%自省结合,避免盲区;3) 对技术敏感,理解技术可实现性的边界 [131][132] - 动画行业是商业世界中少数会奖励“纯粹”与“热爱”的领域,创始人长期的动画梦想与AI技术机遇、团队能力实现了完美匹配 [9][128][129][137] 对2026年AI视频领域的预测 - 技术发展将延续质量提升、可编辑性增强的趋势,实时性和互动性也可能提高,但更高的编辑自由度和互动性可能使产品更小众,因为大众已习惯被动接收信息 [158][159][160] - 一些在现有媒介基础上的“小改动”(如Sora 2带来的更自然切镜)可能比巨大的技术革新更能吸引广泛受众 [161] - 视频模型厂商将朝两个方向发展:一是强化自身擅长领域,二是补足短板,同时会继续追求通用性,实时性和可编辑性将是重点增强方向 [168][169] - 视频模型难以大一统,不同模型有先天差异(数据与标注)和后天差异(公司战略),且即使模型相同,调用手法和输入内容的不同也会导致输出结果迥异 [164][165][166]