童年的滚球兽「走进」现实？华为天才少年创业，全球首个虚实融合的实时交互视频模型来了

行业背景与市场趋势 - 全球AI视频生成市场规模在2024年已达6.148亿美元，预计到2032年将飙升至25.629亿美元 [8] - 当前AI视频生成赛道多数玩家聚焦于文生视频，致力于为影视、广告等内容工业打造专业生产力工具，主要方向是提升生成画质、时长和分辨率 [8] - 现有视频生成工具对普通用户存在上手门槛高、生成等待时间长（从数秒到数十分钟）以及生成内容与日常生活缺乏关联等问题，导致大众参与感不足 [9] 公司产品与核心创新 - 公司Xmax AI推出了首个虚实融合的实时交互视频模型X1，其核心是让用户通过手机摄像头和简单手势，即可将虚拟角色实时融入现实环境并进行交互 [4][10] - 产品通过技术演示应用X-cam开放体验，其核心理念是“Play the World through AI（用AI玩转世界）”，旨在让AI生成内容融入日常生活 [6][28] - 与追求极致生成能力的Sora等模型不同，X1模型选择了一条差异化路线，聚焦于降低交互门槛和增强与现实世界的结合，让视频生成“人人可玩” [10][26] 核心技术能力与突破 - 模型X1具备强大的端侧实时生成能力，实现了四大核心玩法：次元互动（召唤角色）、世界滤镜（实时风格转换）、触控动图（操控静态图像运动）和表情捕手（实时生成动态表情包） [10][11][14][15][16] - 为实现极致实时交互体验，公司进行了架构创新，提出了端到端的流式重渲染视频模型架构，实现了帧级别的自回归DiT，并通过技术优化将延迟压低至毫秒级，支持无限时长的连续生成 [19][24] - 为理解用户多样的自然交互意图（如手势），公司构建了统一的交互模型架构，使其能同时理解三维空间关系和二维平面触控操作 [20][24] - 针对“虚实融合交互数据”稀缺的行业难题，公司搭建了虚实融合数据的合成管线，以半自动化方式低成本、批量化生成了高质量训练数据，构建了行业壁垒 [20][24] 团队与技术背景 - 公司核心团队由兼具底层算法、工程化落地和产品嗅觉的成员组成，创始人出身于华为“天才少年”计划，联合创始人包括港科大（广州）助理教授及全栈工程师 [22] - 核心技术团队来自清华大学KEG实验室和HCI实验室，核心成员大多拥有字节、快手、华为、阿里等头部AI大厂的丰富技术落地实践经验 [22][23] 战略愿景与未来展望 - 公司的目标不仅是开发一款应用，更是试图搭建下一代内容交互引擎，重新定义用户与AI生成内容之间的个性化交互方式 [27] - 长远愿景是让影视和虚拟世界中的角色成为可走进现实的“数字生命体”，进入家庭成为虚拟陪伴或宠物，并在社交、娱乐、通讯等场景实现“万物可交互” [27]