Workflow
MACE
icon
搜索文档
独家|Vattention 获数百万美元投资:从非线性到指数剪辑,定义视频编辑3.0时代
Z Potentials· 2026-03-02 13:14
公司概况与融资 - 公司Vattention(时空注力)已完成数百万美元种子轮融资,投资方为青锐资本、百度风投、常垒资本 [1] - 融资资金将主要用于核心团队组建与技术研发,推动其三大核心引擎(MACE、ACE、PACE)的产品化落地 [1] - 公司由连续创业者钟超(花名船长)创立,其背景为计算机科班出身,曾任阿里淘系核心产品总监,并拥有多年专业视频制作经验 [1][8] 核心观点与市场定位 - 公司选择了一条更具挑战性的路径:构建理解创作者意图、支持预测到自主执行的AI Agent,而非当前AI视频赛道主流的“一键/一句话生成”工具 [2] - 公司认为视频内容未来会分为重度依赖AI生成的视频和非重度依赖AI生成的视频,但最终都会统一走向“Scripting + Configuring + Compositing + Packaging”的新生产范式,即“PostPro 3.0” [2] - 公司致力于通过Human-AI Cocreation(人机协同创作)的理念,重新定义视频后期制作的效率天花板 [2] - 公司认为视频工业应用层从业者真正需要的是Video-Editing Agent(视频编辑智能体),而非不可控的Video Generating Agent(视频生成智能体) [6] - 公司瞄准To P(Professional Consumer,专业消费者)市场,认为这是当前GenAI生产力革命早期阶段真正能够落地的领域,向上可辐射To B需求,向下兼容To C易用性,服务数千万专业创作者 [9] 行业演进与效率革命 - 视频后期制作正迎来从线性到指数的范式转变:PostPro 1.0是线性剪辑,2.0是非线性剪辑,3.0将是指数剪辑 [3] - 传统非线性编辑工具(如Premiere, Final Cut Pro)只是将物理操作数字化,创作者的思维流程并未被真正加速,仍需在海量操作中反复试错 [5] - “指数剪辑”的核心在于,随着视频工程内上下文(Context)越来越丰富,AI能以指数级增长的速度理解创作意图并主动推荐下一步操作 [5] 技术路径与核心引擎 - 公司的技术答案是Context Modeling(上下文建模),认为Human-AI Cocreation类产品必须结合Context Modeling和Context Engineering,通过建模持续理解、记忆和预测创作者意图来提升效率 [5] - 公司构建了三大核心技术引擎,作为其“预测与自主”的技术底座 [6] - MACE (Meta Action Classification Engine):用于训练数据处理,通过对海量优质视频内容的深度解析与模式分类,为AI构建理解专业创作意图的底层逻辑 [10] - ACE (Asset Comprehension Engine):通过端云协同计算,对素材进行深度信息提取的基础设施 [10] - PACE (Predictive Action Chain Engine):用于线上推理,基于Context实现创作意图的实时预测与智能操作引导,是整个Agent系统的核心大脑 [10] - 公司技术架构的巧妙之处在于既保留了创作者的主导权,又通过持续学习让AI越用越懂用户 [6] 团队构成与竞争壁垒 - 团队最大的竞争壁垒在于其复合基因,创始人既懂AI又懂视频制作 [7][8] - 创始人钟超兼具技术思维、商业视角与一线视频创作经验,从2018年即开始持续追踪AI模型发展 [8] - 核心团队成员包括前基础大模型公司核心研发负责人、独角兽公司AI算法负责人、知名剪辑产品工程引擎专家、一线大厂通用Agent平台核心架构师以及深度参与过多模态模型的纪录片导演 [9] - 团队对AI技术与视频后期流程的双重深度理解,使其能够精准切入将离散素材加工成高质量成片的应用层环节 [9] 产品发展计划 - 公司不追求短期的Demo效果,目标是构建一套能在生产环境中持续迭代、越用越聪明的系统 [10] - 接下来的工作重点包括:完善三大引擎的工程化能力,实现产品级稳定性;探索AI-only Skills(GenAI独特的后期工作);打造从Global Chat到Active Intent Prediction的原生交互体系,逼近“AI与人类主动配合、人机协同、自主执行”的终极形态 [11] 行业愿景与市场机遇 - 公司愿景是让AI成为创作者最强大的Agent伙伴,理解意图、预测需求、加速创作、拓展边界,而非替代创作者 [12] - 视频后期是一个千亿级市场,正在等待它的“Agent时刻”,类比编程领域从Github Copilot到Claude Code/Cursor的演进 [12] - 随着视频内容创作需求持续爆发,专业创作者对效率工具的渴求从未如此强烈 [13]
穷人福音,MIT研究:不用堆显卡,抄顶级模型作业就成
36氪· 2026-01-09 21:20
文章核心观点 - 麻省理工学院的研究表明,尽管用于科学发现的AI模型在架构、训练数据和模态上存在巨大差异,但随着模型性能的提升,它们对物质世界的内在理解会趋于一致,即向同一个“真理”收敛 [1][2][3] - 这种“表征对齐”现象不仅存在于科学AI领域,也出现在跨模态(如语言与视觉)的模型中,意味着强大的AI正在构建一个共享的、对现实的“内在图景” [9][14] - 研究揭示了高性能模型认知的趋同性,为AI开发提供了新方向:无需盲目堆砌算力和参数量,可通过“模型蒸馏”等技术,将大模型的知识迁移到更轻量的小模型上,从而实现高效且低成本的创新 [18][20][24] AI模型认知的收敛性 - 研究汇集了59个不同“出身”的模型,发现当模型变得足够强大时,它们对物质的理解(隐藏层表达)会变得极度相似,尽管它们处理数据的方式天差地别 [1][2] - 引入“表征对齐度”指标后发现,模型预测物质能量越准确,其思维方式就越接近其他顶尖模型,在表达空间里会自发地向同一个方向靠拢 [3][5] - 一个处理文字(SMILES字符串)的模型与一个计算受力的物理模型,在“认知”上实现了高度对齐,表明它们通过不同路径抵达了相同的理解顶峰 [2] - 无论模型架构多么复杂,其最终提取的物质特征在数学复杂度上压缩到了一个非常窄的范围,抓取的都是最核心、最精简的物理信息 [5][6] 跨模态与跨领域的普遍性 - 认知收敛现象不局限于科学AI,在纯文本语言模型(如GPT)和纯图像视觉模型(如CLIP)中也存在 [9] - 当模型规模变大、性能变强时,语言模型中对“猫”的文本向量表示(靠近“毛茸茸”“宠物”等词)与视觉模型中对“猫”的图像向量表示(靠近胡须、圆眼睛等特征)会在线性空间中越来越接近 [11][14] - 这表明AI无论从文字、图像、分子结构还是3D坐标切入,只要足够强大,其内部表征都会趋向同一个对现实的“内在图景” [14] 低性能模型的局限与风险 - 性能不佳的模型有两种失败模式:一是各自在错误的道路上渐行渐远(表征对齐度低),二是集体漏掉关键信息,虽然想法一致但理解肤浅 [15] - 例如MACE-OFF模型在特定任务上表现强,但表征对齐度极低,其学到的规律难以迁移到其他科学任务上,可能只是“死记硬背”而非真正理解 [15] - 当AI遇到训练数据中从未见过的分子结构时,预测误差(MAE)会激增,且表征完全偏离正常的物理分布,表明其缺乏真正的泛化能力 [17] - 训练数据的多样性和质量是模型能否触及“真理”的基础,数据不足会导致模型无法进化成真正的通用基座模型,只能在舒适区内“原地踏步” [17] 对行业发展的启示与未来方向 - 研究挑战了盲目追求大算力和大参数量的行业竞赛,指出了一条更务实的路径:利用“真理收敛”特性,通过“模型蒸馏”将大模型的知识复刻到更轻量、高效的小模型上 [18][24] - 实验显示,即使是参数量较小的模型,只要其表征能与最佳性能模型对齐,同样能在分子能量预测等任务中获得极高的准确度 [20] - Orb V3模型展示了通过大规模训练和聪明的正则化手段,简单的架构也能学到昂贵、强加物理限制的模型才有的理解力,这为模型设计提供了新思路 [20] - 未来评估科学AI的标准将更加多元,不仅看其任务“考分”,更要看其是否踏入了“真理的收敛圈”,这有助于催生更多针对特定场景的轻量级AI,实现“算力自由”下的创新爆发 [22][25] - 行业的发展重点可能从设计复杂架构或漂亮公式,转向如何更稳定地让模型进入“收敛圈”,并利用“表征对齐”实现模型的轻量化和知识迁移 [24]