深度｜打破次元边界，Xmax AI发布世界首个虚实融合的实时交互视频模型X1，开启视频交互新范式

行业背景与痛点 - 2024年全球AI视频生成市场规模已超6亿美元，预计2032年将突破25亿美元，行业由Sora、Runway等巨头引领，主要卷画质、时长和分辨率，致力于服务影视和广告行业[8] - 现有文生视频工具对普通用户而言存在高门槛（需复杂Prompt）、反馈慢（生成几秒视频需等待数分钟）以及内容被动（生成的视频是“只能看、不能碰”的MP4文件）等痛点，用户成为“局外人”[9] - AI视频要真正走向大众，必须进一步降低门槛，并从“生成结果”进化为“生成体验”[10] 公司核心技术与突破 - Xmax AI发布了全球首个虚实融合的实时交互视频生成模型X1，其技术路径聚焦于实现毫秒级的实时视频生成和低门槛的手势交互，让虚拟内容进入现实[2] - 该技术标志着AI视频正从“内容消费”向“实时体验”跃迁[3] - 公司选择了一条截然不同的技术路线：虚实融合 + 实时交互，不仅要生成画面，还要让画面理解现实，并允许用户用最本能的手势参与[11] - 为实现效果，公司需攻克三大技术挑战：极致实时、精准意图理解、稀缺的高质量数据[16] - 针对“极致实时”：公司提出端到端的流式重渲染视频模型架构，通过帧级别的自回归DiT和多阶段蒸馏压缩，将扩散采样速度提升百倍，将延迟压低至毫秒级，并通过自研循环回归架构实现无限时长的连续生成[19] - 针对“意图理解”：公司构建了统一的交互模型架构，使模型能理解摄像头透视下的三维空间关系和屏幕触控下的二维操作，实现精准的意图识别[28] - 针对“数据荒漠”：公司自主搭建了一套虚实融合数据合成管线，以半自动化方式批量生成高质量交互训练数据，形成了难以复制的行业壁垒[28] 产品核心功能与应用 - 基于X1模型的实时生成能力，公司落地了四大核心玩法，让手机变身为连接次元的工具[12] - 次元互动：用户上传任意角色图，打开摄像头即可将其置入现实场景，并能通过触摸获得实时物理反馈（如角色转头蹭手、绒毛形变），所有反馈由AI实时计算生成，实现零延迟交互[12] - 世界滤镜：上传特定风格图片（如梵高画作），摄像头拍摄的现实画面会实时转化为对应风格，用户动作会实时同步到风格化画面中[13] - 触控动图：用户可通过在触摸屏上拖拽，让静态照片中的角色“活”过来并做出相应动作（如拖耳朵摇头、拖嘴角微笑），仿佛赋予图像骨骼和肌肉[14] - 表情捕手：镜头对准人物并选择Emoji，AI能瞬间捕捉特征并实时生成神态精准的动态表情包[15] - 公司已通过技术演示应用X-cam beta开放了X1模型的体验，用户可通过TestFlight下载体验[7] 团队与竞争优势 - 公司由前华为“天才少年”史佳欣创立，联合创始人包括港科大（广州）助理教授梁宸和全栈工程师翁跃庭[20] - 核心技术团队源自清华大学KEG实验室和HCI实验室，汇聚了国内大模型与人机交互领域的顶尖人才，且大多拥有字节、快手、华为、阿里等大厂的实战经验[20] - 团队被描述为一支既懂底层算法、又懂工程落地、还极具产品嗅觉的“特种部队”[18] - 在业内人士看来，X-cam看似简单的“好玩”背后，是极高技术门槛的工程化胜利[16] 公司愿景与行业展望 - X1模型希望AI能像玩伴一样与用户互动，而不仅仅是像导演一样叙事[21] - 公司不仅是在开发一款App，更是在试图定义全新的内容交互范式，以及搭建下一代内容交互引擎[21] - 公司的愿景是让世界的一切内容通过实时AI变得可交互、更好玩，其Slogan为“Play the World through AI”[22] - 展望未来：社交中，摄像头可像“精灵球”随时捕捉好友互动；游戏中，虚拟怪物可直接跳到用户身上；陪伴场景中，数码宝贝等将真正融入现实生活，可触碰、可感知；视频内容将不再被动观看，而是可以随时唤醒，变得更加鲜活和个性化[29]