速递｜单图生成实时视频分身：扩散模型AI助手Lemon Slice获YC、Matrix等1050万美元投资

公司概况与融资 - 数字头像生成公司Lemon Slice于2024年由Lina Colucci、Sidney Primas和Andrew Weitz创立 [3] - 公司周二宣布已获得1050万美元种子轮融资 [3] - 投资方包括Matrix Partners、Y Combinator、Dropbox首席技术官Arash Ferdowsi、Twitch首席执行官Emmett Shear以及The Chainsmokers乐队 [3] - 公司目前拥有八名员工，计划将资金用于招募工程和市场拓展人员，同时支付训练模型所需的算力成本 [9] 核心技术：Lemon Slice-2模型 - 公司通过新型扩散模型为聊天场景增添视频维度，该技术仅需单张图像即可生成动态数字形象 [2] - 该模型名为Lemon Slice-2，拥有200亿参数，仅需单张GPU即可实现每秒20帧的视频直播流生成 [2] - 模型能够创建基于知识库运行的数字化身，可扮演AI智能体所需的任何角色，例如解答客户咨询、协助完成作业问题，甚至担任心理健康支持顾问 [2] - 公司通过API和可嵌入小组件提供服务，企业仅需一行代码就能将其集成至网站 [2] - 创建数字化身后，用户可以随时变更角色背景、风格样式与外观形态 [2] - 公司采用自研的通用扩散模型来创建虚拟形象，这是一种能够从带噪声的训练数据中逆向学习以生成新数据的生成式模型 [3] - 采用扩散模型使公司能够生成任何类型的虚拟形象，而其他一些初创公司往往局限于生成类人或游戏角色风格的虚拟形象 [8] - 公司训练与Veo3或Sora相同类型的模型：视频扩散变换器，这是一个端到端的通用模型，其性能提升没有上限 [8] - 该模型同时适用于人类与非人类面部，仅需单张图像即可添加新面孔 [8] 产品应用与市场定位 - 开发者和企业正越来越多地在应用内部署AI Agent与聊天机器人，但目前大多仍局限于文本交互 [1] - 公司相信通过其自研的通用扩散模型来创建虚拟形象，将使其在竞争中获得独特优势 [3] - 公司未透露其技术应用的具体机构名称，但表示该模型正应用于教育、语言学习、电子商务和企业培训等场景 [5] - 公司表示已建立防护机制防止未经授权的面部或语音克隆，并采用大型语言模型进行内容审核 [4] - 除了拟人化形象，公司还着力开发能够生成非人型角色的技术，以满足多元化需求 [3] - 公司正运用ElevenLabs的技术为这些数字化身生成语音 [3] 行业竞争与市场观点 - 公司面临着激烈的竞争，对手包括D-ID、HeyGen和Synthesia等视频生成初创企业，以及其他数字化身制作者Genies、Soul Machine、Praktika和AvatarOS [5] - Matrix合伙人Ilya Sukhar认为，虚拟形象将在视频主导的领域大有可为，比如人们更倾向于通过YouTube学习，而非阅读长篇大论的文字 [5] - Ilya Sukhar指出，Lemon Slice的技术实力与自主创新能力将使其在初创企业中脱颖而出 [5] - Ilya Sukhar认为这是一个技术实力深厚的团队，拥有交付机器学习产品而不仅仅是演示和研究的实绩，公司正采用在其他人工智能模式中已见成效的通用化“苦涩教训”扩展路径（即数据与算力并重） [7] - Y Combinator的Jared Friedman认为，Lemon Slice是唯一采用基础机器学习方法、最终能够跨越恐怖谷并突破数字形象图灵测试的公司 [8] 创始人愿景与行业痛点 - 联合创始人Lina Colucci表示，在生成式人工智能的早期阶段，其联合创始人开始尝试各种视频模型，明显意识到视频将走向交互化 [2] - 像ChatGPT这类工具之所以引人注目，正是因为它们的交互性，公司希望视频也能具备这种特质 [2] - Lina Colucci表示，迄今为止所见的现有虚拟形象解决方案都在为产品增加负面价值，它们既诡异又僵硬，前几秒看起来不错，但一旦开始互动就会感到非常怪异，无法让人放松 [3] - Colucci认为，阻碍虚拟形象真正普及的根本原因在于它们的表现始终不够出色 [3]