Workflow
X1模型
icon
搜索文档
Xmax AI发布全球首个虚实融合实时交互视频模型 开启AI视频交互新范式
证券日报· 2026-02-09 20:16
公司技术发布 - Xmax AI正式发布全球首个虚实融合的实时交互视频生成模型X1 该模型实现毫秒级实时视频生成和低门槛手势交互 可将虚拟内容实时无缝融入现实物理空间 打破了AI视频生成“预制内容”的传统范式[1] - 公司已通过技术演示应用X-cam beta开放了X1模型的能力体验 用户可通过TestFlight下载[1] - X1模型无需复杂提示词和漫长的云端渲染等待 仅凭手机摄像头和直觉化手势即可实现虚拟与现实的无缝融合 推动AI视频从“被动的消费内容”向“共创体验”跃迁[1] 行业痛点与公司技术路线 - 当前全球AI视频生成领域发展势头迅猛 行业企业纷纷在画质、时长和分辨率上展开技术角逐 相关技术主要服务于影视、广告等专业领域的生产力需求[1] - 现有技术路线多聚焦于“文生视频”的单向输出 对普通用户而言存在操作流程复杂、生成等待时间长以及内容缺乏互动性的问题 使得AI视频生成难以真正融入日常生活[1] - 针对行业痛点 Xmax AI选择“虚实融合+实时交互”的技术路线 旨在让AI视频实现“人人可玩”[1] 核心应用场景 - 基于X1模型的实时生成能力 公司落地了四大核心玩法覆盖多元交互场景[2] - 次元互动:上传任意角色图 通过手机摄像头对准现实平面即可将角色实时置入现实场景 虚拟角色能对触摸、捏握等手势做出精准的动态与物理反馈[2] - 世界滤镜:上传指定风格图片后 摄像头捕捉的现实画面可实现实时全域风格化转化 动作同步保持风格一致性与连贯性[2] - 触控动图:上传静态照片后 通过触摸屏拖拽照片中的元素可唤醒并操控角色做出相应动作[2] - 表情捕手:镜头对准人物后选择指定表情Emoji AI可实时生成神态精准的动态表情包[2] 核心技术突破 - X1模型的技术实现源于团队在算法与工程层面的核心突破[2] - 为实现极速响应与精准意图理解 团队创新端到端流式重渲染架构 实现帧级自回归DiT模型 通过多阶段蒸馏压缩与对抗训练将扩散采样速度大幅提升[2] - 团队构建了统一交互模型架构 融合空间三维关系与屏幕二维操作 让模型能精准解析“捏”“拖拽”等复杂用户意图[2] - 针对虚实融合数据稀缺的行业困境 团队搭建了半自动化合成管线 在筑牢技术壁垒的同时也为AI视频生成领域储备了数字资产[2] 研发团队背景 - Xmax AI团队汇聚了来自华为“天才少年”计划、清华大学KEG与HCI实验室、香港科技大学(广州)以及字节跳动、快手等高校和头部企业的顶尖人才 兼具算法研发与工程落地能力[3] 公司战略愿景 - Xmax AI表示 X1模型和X-cam应用只是企业布局的开端 团队正致力于定义全新的内容交互范式 搭建下一代内容交互引擎[3] - X1模型的推出让AI视频从单纯的内容生成走向虚实融合的实时交互 为行业发展提供了全新的技术方向[3]
深度|打破次元边界,Xmax AI发布世界首个虚实融合的实时交互视频模型X1,开启视频交互新范式
Z Potentials· 2026-02-09 10:32
行业背景与痛点 - 2024年全球AI视频生成市场规模已超6亿美元,预计2032年将突破25亿美元,行业由Sora、Runway等巨头引领,主要卷画质、时长和分辨率,致力于服务影视和广告行业[8] - 现有文生视频工具对普通用户而言存在高门槛(需复杂Prompt)、反馈慢(生成几秒视频需等待数分钟)以及内容被动(生成的视频是“只能看、不能碰”的MP4文件)等痛点,用户成为“局外人”[9] - AI视频要真正走向大众,必须进一步降低门槛,并从“生成结果”进化为“生成体验”[10] 公司核心技术与突破 - Xmax AI发布了全球首个虚实融合的实时交互视频生成模型X1,其技术路径聚焦于实现毫秒级的实时视频生成和低门槛的手势交互,让虚拟内容进入现实[2] - 该技术标志着AI视频正从“内容消费”向“实时体验”跃迁[3] - 公司选择了一条截然不同的技术路线:虚实融合 + 实时交互,不仅要生成画面,还要让画面理解现实,并允许用户用最本能的手势参与[11] - 为实现效果,公司需攻克三大技术挑战:极致实时、精准意图理解、稀缺的高质量数据[16] - 针对“极致实时”:公司提出端到端的流式重渲染视频模型架构,通过帧级别的自回归DiT和多阶段蒸馏压缩,将扩散采样速度提升百倍,将延迟压低至毫秒级,并通过自研循环回归架构实现无限时长的连续生成[19] - 针对“意图理解”:公司构建了统一的交互模型架构,使模型能理解摄像头透视下的三维空间关系和屏幕触控下的二维操作,实现精准的意图识别[28] - 针对“数据荒漠”:公司自主搭建了一套虚实融合数据合成管线,以半自动化方式批量生成高质量交互训练数据,形成了难以复制的行业壁垒[28] 产品核心功能与应用 - 基于X1模型的实时生成能力,公司落地了四大核心玩法,让手机变身为连接次元的工具[12] - **次元互动**:用户上传任意角色图,打开摄像头即可将其置入现实场景,并能通过触摸获得实时物理反馈(如角色转头蹭手、绒毛形变),所有反馈由AI实时计算生成,实现零延迟交互[12] - **世界滤镜**:上传特定风格图片(如梵高画作),摄像头拍摄的现实画面会实时转化为对应风格,用户动作会实时同步到风格化画面中[13] - **触控动图**:用户可通过在触摸屏上拖拽,让静态照片中的角色“活”过来并做出相应动作(如拖耳朵摇头、拖嘴角微笑),仿佛赋予图像骨骼和肌肉[14] - **表情捕手**:镜头对准人物并选择Emoji,AI能瞬间捕捉特征并实时生成神态精准的动态表情包[15] - 公司已通过技术演示应用X-cam beta开放了X1模型的体验,用户可通过TestFlight下载体验[7] 团队与竞争优势 - 公司由前华为“天才少年”史佳欣创立,联合创始人包括港科大(广州)助理教授梁宸和全栈工程师翁跃庭[20] - 核心技术团队源自清华大学KEG实验室和HCI实验室,汇聚了国内大模型与人机交互领域的顶尖人才,且大多拥有字节、快手、华为、阿里等大厂的实战经验[20] - 团队被描述为一支既懂底层算法、又懂工程落地、还极具产品嗅觉的“特种部队”[18] - 在业内人士看来,X-cam看似简单的“好玩”背后,是极高技术门槛的工程化胜利[16] 公司愿景与行业展望 - X1模型希望AI能像玩伴一样与用户互动,而不仅仅是像导演一样叙事[21] - 公司不仅是在开发一款App,更是在试图定义全新的内容交互范式,以及搭建下一代内容交互引擎[21] - 公司的愿景是让世界的一切内容通过实时AI变得可交互、更好玩,其Slogan为“Play the World through AI”[22] - 展望未来:社交中,摄像头可像“精灵球”随时捕捉好友互动;游戏中,虚拟怪物可直接跳到用户身上;陪伴场景中,数码宝贝等将真正融入现实生活,可触碰、可感知;视频内容将不再被动观看,而是可以随时唤醒,变得更加鲜活和个性化[29]