Xmax AI发布全球首个虚实融合实时交互视频模型开启AI视频交互新范式

公司技术发布 - Xmax AI正式发布全球首个虚实融合的实时交互视频生成模型X1 该模型实现毫秒级实时视频生成和低门槛手势交互可将虚拟内容实时无缝融入现实物理空间打破了AI视频生成“预制内容”的传统范式[1] - 公司已通过技术演示应用X-cam beta开放了X1模型的能力体验用户可通过TestFlight下载[1] - X1模型无需复杂提示词和漫长的云端渲染等待仅凭手机摄像头和直觉化手势即可实现虚拟与现实的无缝融合推动AI视频从“被动的消费内容”向“共创体验”跃迁[1] 行业痛点与公司技术路线 - 当前全球AI视频生成领域发展势头迅猛行业企业纷纷在画质、时长和分辨率上展开技术角逐相关技术主要服务于影视、广告等专业领域的生产力需求[1] - 现有技术路线多聚焦于“文生视频”的单向输出对普通用户而言存在操作流程复杂、生成等待时间长以及内容缺乏互动性的问题使得AI视频生成难以真正融入日常生活[1] - 针对行业痛点 Xmax AI选择“虚实融合+实时交互”的技术路线旨在让AI视频实现“人人可玩”[1] 核心应用场景 - 基于X1模型的实时生成能力公司落地了四大核心玩法覆盖多元交互场景[2] - 次元互动：上传任意角色图通过手机摄像头对准现实平面即可将角色实时置入现实场景虚拟角色能对触摸、捏握等手势做出精准的动态与物理反馈[2] - 世界滤镜：上传指定风格图片后摄像头捕捉的现实画面可实现实时全域风格化转化动作同步保持风格一致性与连贯性[2] - 触控动图：上传静态照片后通过触摸屏拖拽照片中的元素可唤醒并操控角色做出相应动作[2] - 表情捕手：镜头对准人物后选择指定表情Emoji AI可实时生成神态精准的动态表情包[2] 核心技术突破 - X1模型的技术实现源于团队在算法与工程层面的核心突破[2] - 为实现极速响应与精准意图理解团队创新端到端流式重渲染架构实现帧级自回归DiT模型通过多阶段蒸馏压缩与对抗训练将扩散采样速度大幅提升[2] - 团队构建了统一交互模型架构融合空间三维关系与屏幕二维操作让模型能精准解析“捏”“拖拽”等复杂用户意图[2] - 针对虚实融合数据稀缺的行业困境团队搭建了半自动化合成管线在筑牢技术壁垒的同时也为AI视频生成领域储备了数字资产[2] 研发团队背景 - Xmax AI团队汇聚了来自华为“天才少年”计划、清华大学KEG与HCI实验室、香港科技大学（广州）以及字节跳动、快手等高校和头部企业的顶尖人才兼具算法研发与工程落地能力[3] 公司战略愿景 - Xmax AI表示 X1模型和X-cam应用只是企业布局的开端团队正致力于定义全新的内容交互范式搭建下一代内容交互引擎[3] - X1模型的推出让AI视频从单纯的内容生成走向虚实融合的实时交互为行业发展提供了全新的技术方向[3]