行业现状与痛点 - 全球AI视频生成领域呈现爆发式增长,2024年全球相关市场规模已达6.148亿美元,行业巨头在画质、时长和分辨率上激烈角逐 [7] - 当前行业技术路线仍主要聚焦于“文生视频”的单向输出,服务于影视、广告等专业生产力需求,对于普通用户而言存在操作复杂、生成等待时间长、内容缺乏互动性等痛点,难以融入日常生活 [7] 公司核心产品与技术突破 - Xmax AI发布全球首个虚实融合的实时交互视频生成模型X1,其核心在于实现毫秒级延迟的实时视频生成和低门槛的手势交互,并将虚拟内容无缝融入现实物理空间,开启了从“看视频”到“玩视频”的交互范式革命 [2][7] - X1模型无需复杂提示词和漫长云端渲染等待,仅凭手机摄像头和直觉手势即可操作,已通过技术演示应用X-cam开放体验 [6] - 为攻克实时响应与精准意图理解的世界性难题,团队创新了端到端流式重渲染架构,实现了帧级自回归DiT模型,通过多阶段蒸馏压缩与对抗训练,将扩散采样速度提升了百倍 [17] - 团队构建了统一交互模型架构,融合空间三维关系与屏幕二维操作,以精准解析复杂用户意图,并搭建了半自动化合成管线以解决虚实融合数据稀缺问题,建立了行业技术壁垒 [17] 产品核心玩法与应用场景 - 次元互动:用户可上传任意角色图片,通过手机摄像头将其实时置入现实场景,并能通过触摸屏幕与虚拟角色进行实时动态交互,如抚摸时角色会转头蹭手 [8] - 世界滤镜:上传特定风格图片(如梵高画作),摄像头捕捉的现实画面可实时全域转化为该风格,并保持用户动作的连贯性与风格一致性 [10][11] - 触控动图:上传静态照片后,可通过在触摸屏上拖拽照片中角色的特定部位(如耳朵、嘴角),使其产生相应的动态效果,如摇头、微笑 [13] - 表情捕手:镜头对准人物并选择一个Emoji,AI可瞬间捕捉人物特征与神态,实时生成神态精准的动态表情包,用于社交破冰 [15] 团队背景与公司愿景 - Xmax AI由前华为“天才少年”创立,团队汇聚了来自华为“天才少年”计划、清华大学KEG与HCI实验室、香港科技大学(广州)以及字节跳动、快手等企业的顶尖人才,兼具算法与工程能力 [17] - 公司的愿景是定义全新的内容交互范式并搭建下一代内容交互引擎,其口号为“Play the World through AI”(用AI玩转世界),X1模型和X-cam应用仅是开始 [18]
打破次元,Xmax AI发布首个虚实融合实时交互视频模型
搜狐财经·2026-02-09 17:42