打破次元，Xmax AI发布首个虚实融合实时交互视频模型

行业现状与痛点 - 全球AI视频生成领域呈现爆发式增长，2024年全球相关市场规模已达6.148亿美元，行业巨头在画质、时长和分辨率上激烈角逐 [7] - 当前行业技术路线仍主要聚焦于“文生视频”的单向输出，服务于影视、广告等专业生产力需求，对于普通用户而言存在操作复杂、生成等待时间长、内容缺乏互动性等痛点，难以融入日常生活 [7] 公司核心产品与技术突破 - Xmax AI发布全球首个虚实融合的实时交互视频生成模型X1，其核心在于实现毫秒级延迟的实时视频生成和低门槛的手势交互，并将虚拟内容无缝融入现实物理空间，开启了从“看视频”到“玩视频”的交互范式革命 [2][7] - X1模型无需复杂提示词和漫长云端渲染等待，仅凭手机摄像头和直觉手势即可操作，已通过技术演示应用X-cam开放体验 [6] - 为攻克实时响应与精准意图理解的世界性难题，团队创新了端到端流式重渲染架构，实现了帧级自回归DiT模型，通过多阶段蒸馏压缩与对抗训练，将扩散采样速度提升了百倍 [17] - 团队构建了统一交互模型架构，融合空间三维关系与屏幕二维操作，以精准解析复杂用户意图，并搭建了半自动化合成管线以解决虚实融合数据稀缺问题，建立了行业技术壁垒 [17] 产品核心玩法与应用场景 - 次元互动：用户可上传任意角色图片，通过手机摄像头将其实时置入现实场景，并能通过触摸屏幕与虚拟角色进行实时动态交互，如抚摸时角色会转头蹭手 [8] - 世界滤镜：上传特定风格图片（如梵高画作），摄像头捕捉的现实画面可实时全域转化为该风格，并保持用户动作的连贯性与风格一致性 [10][11] - 触控动图：上传静态照片后，可通过在触摸屏上拖拽照片中角色的特定部位（如耳朵、嘴角），使其产生相应的动态效果，如摇头、微笑 [13] - 表情捕手：镜头对准人物并选择一个Emoji，AI可瞬间捕捉人物特征与神态，实时生成神态精准的动态表情包，用于社交破冰 [15] 团队背景与公司愿景 - Xmax AI由前华为“天才少年”创立，团队汇聚了来自华为“天才少年”计划、清华大学KEG与HCI实验室、香港科技大学（广州）以及字节跳动、快手等企业的顶尖人才，兼具算法与工程能力 [17] - 公司的愿景是定义全新的内容交互范式并搭建下一代内容交互引擎，其口号为“Play the World through AI”（用AI玩转世界），X1模型和X-cam应用仅是开始 [18]