行业背景与市场趋势 - 全球AI视频生成市场规模在2024年已达6.148亿美元,预计到2032年将飙升至25.629亿美元 [8] - 当前AI视频生成赛道多数玩家聚焦于文生视频,致力于为影视、广告等内容工业打造专业生产力工具,主要方向是提升生成画质、时长和分辨率 [8] - 现有视频生成工具对普通用户存在上手门槛高、生成等待时间长(从数秒到数十分钟)以及生成内容与日常生活缺乏关联等问题,导致大众参与感不足 [9] 公司产品与核心创新 - 公司Xmax AI推出了首个虚实融合的实时交互视频模型X1,其核心是让用户通过手机摄像头和简单手势,即可将虚拟角色实时融入现实环境并进行交互 [4][10] - 产品通过技术演示应用X-cam开放体验,其核心理念是“Play the World through AI(用AI玩转世界)”,旨在让AI生成内容融入日常生活 [6][28] - 与追求极致生成能力的Sora等模型不同,X1模型选择了一条差异化路线,聚焦于降低交互门槛和增强与现实世界的结合,让视频生成“人人可玩” [10][26] 核心技术能力与突破 - 模型X1具备强大的端侧实时生成能力,实现了四大核心玩法:次元互动(召唤角色)、世界滤镜(实时风格转换)、触控动图(操控静态图像运动)和表情捕手(实时生成动态表情包) [10][11][14][15][16] - 为实现极致实时交互体验,公司进行了架构创新,提出了端到端的流式重渲染视频模型架构,实现了帧级别的自回归DiT,并通过技术优化将延迟压低至毫秒级,支持无限时长的连续生成 [19][24] - 为理解用户多样的自然交互意图(如手势),公司构建了统一的交互模型架构,使其能同时理解三维空间关系和二维平面触控操作 [20][24] - 针对“虚实融合交互数据”稀缺的行业难题,公司搭建了虚实融合数据的合成管线,以半自动化方式低成本、批量化生成了高质量训练数据,构建了行业壁垒 [20][24] 团队与技术背景 - 公司核心团队由兼具底层算法、工程化落地和产品嗅觉的成员组成,创始人出身于华为“天才少年”计划,联合创始人包括港科大(广州)助理教授及全栈工程师 [22] - 核心技术团队来自清华大学KEG实验室和HCI实验室,核心成员大多拥有字节、快手、华为、阿里等头部AI大厂的丰富技术落地实践经验 [22][23] 战略愿景与未来展望 - 公司的目标不仅是开发一款应用,更是试图搭建下一代内容交互引擎,重新定义用户与AI生成内容之间的个性化交互方式 [27] - 长远愿景是让影视和虚拟世界中的角色成为可走进现实的“数字生命体”,进入家庭成为虚拟陪伴或宠物,并在社交、娱乐、通讯等场景实现“万物可交互” [27]
童年的滚球兽「走进」现实?华为天才少年创业,全球首个虚实融合的实时交互视频模型来了
机器之心·2026-02-09 09:18