实时交互
搜索文档
打破次元,Xmax AI发布首个虚实融合实时交互视频模型
搜狐财经· 2026-02-09 17:42
行业现状与痛点 - 全球AI视频生成领域呈现爆发式增长,2024年全球相关市场规模已达6.148亿美元,行业巨头在画质、时长和分辨率上激烈角逐 [7] - 当前行业技术路线仍主要聚焦于“文生视频”的单向输出,服务于影视、广告等专业生产力需求,对于普通用户而言存在操作复杂、生成等待时间长、内容缺乏互动性等痛点,难以融入日常生活 [7] 公司核心产品与技术突破 - Xmax AI发布全球首个虚实融合的实时交互视频生成模型X1,其核心在于实现毫秒级延迟的实时视频生成和低门槛的手势交互,并将虚拟内容无缝融入现实物理空间,开启了从“看视频”到“玩视频”的交互范式革命 [2][7] - X1模型无需复杂提示词和漫长云端渲染等待,仅凭手机摄像头和直觉手势即可操作,已通过技术演示应用X-cam开放体验 [6] - 为攻克实时响应与精准意图理解的世界性难题,团队创新了端到端流式重渲染架构,实现了帧级自回归DiT模型,通过多阶段蒸馏压缩与对抗训练,将扩散采样速度提升了百倍 [17] - 团队构建了统一交互模型架构,融合空间三维关系与屏幕二维操作,以精准解析复杂用户意图,并搭建了半自动化合成管线以解决虚实融合数据稀缺问题,建立了行业技术壁垒 [17] 产品核心玩法与应用场景 - **次元互动**:用户可上传任意角色图片,通过手机摄像头将其实时置入现实场景,并能通过触摸屏幕与虚拟角色进行实时动态交互,如抚摸时角色会转头蹭手 [8] - **世界滤镜**:上传特定风格图片(如梵高画作),摄像头捕捉的现实画面可实时全域转化为该风格,并保持用户动作的连贯性与风格一致性 [10][11] - **触控动图**:上传静态照片后,可通过在触摸屏上拖拽照片中角色的特定部位(如耳朵、嘴角),使其产生相应的动态效果,如摇头、微笑 [13] - **表情捕手**:镜头对准人物并选择一个Emoji,AI可瞬间捕捉人物特征与神态,实时生成神态精准的动态表情包,用于社交破冰 [15] 团队背景与公司愿景 - Xmax AI由前华为“天才少年”创立,团队汇聚了来自华为“天才少年”计划、清华大学KEG与HCI实验室、香港科技大学(广州)以及字节跳动、快手等企业的顶尖人才,兼具算法与工程能力 [17] - 公司的愿景是定义全新的内容交互范式并搭建下一代内容交互引擎,其口号为“Play the World through AI”(用AI玩转世界),X1模型和X-cam应用仅是开始 [18]
深度|打破次元边界,Xmax AI发布世界首个虚实融合的实时交互视频模型X1,开启视频交互新范式
Z Potentials· 2026-02-09 10:32
行业背景与痛点 - 2024年全球AI视频生成市场规模已超6亿美元,预计2032年将突破25亿美元,行业由Sora、Runway等巨头引领,主要卷画质、时长和分辨率,致力于服务影视和广告行业[8] - 现有文生视频工具对普通用户而言存在高门槛(需复杂Prompt)、反馈慢(生成几秒视频需等待数分钟)以及内容被动(生成的视频是“只能看、不能碰”的MP4文件)等痛点,用户成为“局外人”[9] - AI视频要真正走向大众,必须进一步降低门槛,并从“生成结果”进化为“生成体验”[10] 公司核心技术与突破 - Xmax AI发布了全球首个虚实融合的实时交互视频生成模型X1,其技术路径聚焦于实现毫秒级的实时视频生成和低门槛的手势交互,让虚拟内容进入现实[2] - 该技术标志着AI视频正从“内容消费”向“实时体验”跃迁[3] - 公司选择了一条截然不同的技术路线:虚实融合 + 实时交互,不仅要生成画面,还要让画面理解现实,并允许用户用最本能的手势参与[11] - 为实现效果,公司需攻克三大技术挑战:极致实时、精准意图理解、稀缺的高质量数据[16] - 针对“极致实时”:公司提出端到端的流式重渲染视频模型架构,通过帧级别的自回归DiT和多阶段蒸馏压缩,将扩散采样速度提升百倍,将延迟压低至毫秒级,并通过自研循环回归架构实现无限时长的连续生成[19] - 针对“意图理解”:公司构建了统一的交互模型架构,使模型能理解摄像头透视下的三维空间关系和屏幕触控下的二维操作,实现精准的意图识别[28] - 针对“数据荒漠”:公司自主搭建了一套虚实融合数据合成管线,以半自动化方式批量生成高质量交互训练数据,形成了难以复制的行业壁垒[28] 产品核心功能与应用 - 基于X1模型的实时生成能力,公司落地了四大核心玩法,让手机变身为连接次元的工具[12] - **次元互动**:用户上传任意角色图,打开摄像头即可将其置入现实场景,并能通过触摸获得实时物理反馈(如角色转头蹭手、绒毛形变),所有反馈由AI实时计算生成,实现零延迟交互[12] - **世界滤镜**:上传特定风格图片(如梵高画作),摄像头拍摄的现实画面会实时转化为对应风格,用户动作会实时同步到风格化画面中[13] - **触控动图**:用户可通过在触摸屏上拖拽,让静态照片中的角色“活”过来并做出相应动作(如拖耳朵摇头、拖嘴角微笑),仿佛赋予图像骨骼和肌肉[14] - **表情捕手**:镜头对准人物并选择Emoji,AI能瞬间捕捉特征并实时生成神态精准的动态表情包[15] - 公司已通过技术演示应用X-cam beta开放了X1模型的体验,用户可通过TestFlight下载体验[7] 团队与竞争优势 - 公司由前华为“天才少年”史佳欣创立,联合创始人包括港科大(广州)助理教授梁宸和全栈工程师翁跃庭[20] - 核心技术团队源自清华大学KEG实验室和HCI实验室,汇聚了国内大模型与人机交互领域的顶尖人才,且大多拥有字节、快手、华为、阿里等大厂的实战经验[20] - 团队被描述为一支既懂底层算法、又懂工程落地、还极具产品嗅觉的“特种部队”[18] - 在业内人士看来,X-cam看似简单的“好玩”背后,是极高技术门槛的工程化胜利[16] 公司愿景与行业展望 - X1模型希望AI能像玩伴一样与用户互动,而不仅仅是像导演一样叙事[21] - 公司不仅是在开发一款App,更是在试图定义全新的内容交互范式,以及搭建下一代内容交互引擎[21] - 公司的愿景是让世界的一切内容通过实时AI变得可交互、更好玩,其Slogan为“Play the World through AI”[22] - 展望未来:社交中,摄像头可像“精灵球”随时捕捉好友互动;游戏中,虚拟怪物可直接跳到用户身上;陪伴场景中,数码宝贝等将真正融入现实生活,可触碰、可感知;视频内容将不再被动观看,而是可以随时唤醒,变得更加鲜活和个性化[29]
童年的滚球兽「走进」现实?华为天才少年创业,全球首个虚实融合的实时交互视频模型来了
机器之心· 2026-02-09 09:18
行业背景与市场趋势 - 全球AI视频生成市场规模在2024年已达6.148亿美元,预计到2032年将飙升至25.629亿美元 [8] - 当前AI视频生成赛道多数玩家聚焦于文生视频,致力于为影视、广告等内容工业打造专业生产力工具,主要方向是提升生成画质、时长和分辨率 [8] - 现有视频生成工具对普通用户存在上手门槛高、生成等待时间长(从数秒到数十分钟)以及生成内容与日常生活缺乏关联等问题,导致大众参与感不足 [9] 公司产品与核心创新 - 公司Xmax AI推出了首个虚实融合的实时交互视频模型X1,其核心是让用户通过手机摄像头和简单手势,即可将虚拟角色实时融入现实环境并进行交互 [4][10] - 产品通过技术演示应用X-cam开放体验,其核心理念是“Play the World through AI(用AI玩转世界)”,旨在让AI生成内容融入日常生活 [6][28] - 与追求极致生成能力的Sora等模型不同,X1模型选择了一条差异化路线,聚焦于降低交互门槛和增强与现实世界的结合,让视频生成“人人可玩” [10][26] 核心技术能力与突破 - 模型X1具备强大的端侧实时生成能力,实现了四大核心玩法:次元互动(召唤角色)、世界滤镜(实时风格转换)、触控动图(操控静态图像运动)和表情捕手(实时生成动态表情包) [10][11][14][15][16] - 为实现极致实时交互体验,公司进行了架构创新,提出了端到端的流式重渲染视频模型架构,实现了帧级别的自回归DiT,并通过技术优化将延迟压低至毫秒级,支持无限时长的连续生成 [19][24] - 为理解用户多样的自然交互意图(如手势),公司构建了统一的交互模型架构,使其能同时理解三维空间关系和二维平面触控操作 [20][24] - 针对“虚实融合交互数据”稀缺的行业难题,公司搭建了虚实融合数据的合成管线,以半自动化方式低成本、批量化生成了高质量训练数据,构建了行业壁垒 [20][24] 团队与技术背景 - 公司核心团队由兼具底层算法、工程化落地和产品嗅觉的成员组成,创始人出身于华为“天才少年”计划,联合创始人包括港科大(广州)助理教授及全栈工程师 [22] - 核心技术团队来自清华大学KEG实验室和HCI实验室,核心成员大多拥有字节、快手、华为、阿里等头部AI大厂的丰富技术落地实践经验 [22][23] 战略愿景与未来展望 - 公司的目标不仅是开发一款应用,更是试图搭建下一代内容交互引擎,重新定义用户与AI生成内容之间的个性化交互方式 [27] - 长远愿景是让影视和虚拟世界中的角色成为可走进现实的“数字生命体”,进入家庭成为虚拟陪伴或宠物,并在社交、娱乐、通讯等场景实现“万物可交互” [27]
爱诗科技发布全球首个实时视频生成模型,曾获马云史玉柱团队投资
搜狐财经· 2026-01-14 11:23
公司产品发布与技术突破 - 爱诗科技正式发布全球首个支持最高1080P分辨率的通用实时世界模型 PixVerse R1 [1] - 该模型实现了“实时交互、持续演化”,将视频生成从“静态输出、等待成片”推进至“实时交互、持续演化” [1] - 在生成过程中,视频画面会随着用户指令即时变化,用户可持续调整角色状态、环境变化和镜头走向,系统同步响应并保持一致性 [1] 产品核心能力与用户体验 - PixVerse R1 的核心能力在于“实时交互”,使视频内容能够连续生成而非反复重启,实现“所想即所见、所说即所现”的交互体验 [1] - 用户从“生成结果”的观看者转变为可介入创作节奏的“导演”,创意表达不再被“进度条”打断 [2] - 用户可以在极短时间内连续指示角色做出不同动作或姿态,变化会随着视频进展即时呈现 [2] 技术架构与行业意义 - 模型基于原生多模态基础模型、自回归流式生成机制和瞬时响应引擎构建,生成一条可持续生成、可随时调整的视觉流 [4] - 该框架系统性突破了长期困扰AI视频生成的画面突变、逻辑断裂和高延迟问题 [4] - 该成果标志着实时世界模型从研究探索走向可交互、可部署的产品级阶段 [4] - 实时视频生成技术正在消除内容创作与传播之间的技术隔阂,重塑用户与AI生成内容的互动方式 [4] 行业竞争格局与公司定位 - 全球排名前列的AI视频生成模型多由中国企业推出,相关产品在生成速度、使用成本和并发能力等方面表现突出 [4] - 中国企业在AI视频领域选择了一条不同于高算力、重渲染的技术路线,更强调工程化与系统级能力的突破 [5] - 这种路径使实时视频生成技术更容易走向规模化应用,是中国团队实现“从零到一”产品级突破的重要原因 [5] - 爱诗科技被业内视为OpenAI视频模型Sora的有力挑战者 [6] 应用前景与市场影响 - 实时生成能力有望在AI原生游戏、互动电影、生成式直播电商体验、互动娱乐、影视创作、教育培训、数字仿真等领域释放更大应用潜力 [5] - PixVerse R1开创了“正在发生的现在”的实时生成新纪元,叙事能实现“所想即所现” [5] - 创作与消费的边界逐渐模糊,视频消费者同时也是创作者,能够在观看的同时立即调整和生成新内容 [5] 公司背景与市场表现 - 爱诗科技成立于2023年,专注于AI视频生成大模型及应用研发 [6] - 公司海外产品PixVerse及国内产品“拍我AI”全球用户规模已超过1亿,单月月活跃用户超过1600万 [6] - 产品被广泛应用于影视、广告、动漫及内容创作等场景 [6] - 公司获得了阿里巴巴、巨人网络等企业的投资支持 [6]
视频生成赛道竞争白热化 百度押注“实时交互”求破局
每日经济新闻· 2025-10-16 20:53
AI视频生成行业发展趋势 - 行业竞争焦点正从技术性能比拼转向降低用户门槛和丰富玩法的竞争[6] - 全球技术竞赛快速推进但底层架构和技术路径日益趋同创新和用户体验成为核心突破口[6] - 行业目标是通过降低门槛和丰富玩法吸引更多用户涌入最终让用户知道怎么玩并愿意玩[6] 百度“蒸汽机”模型技术架构 - 模型采用三层结构中底层是模型层中层是工具层上层是产品层承担着AI内容生态基础设施的角色[4] - 技术架构从窗口式扩散生成升级为自回归流式扩展架构以实现可打断和可修改的实时交互[2][3] - 通过采用历史帧和稳定锚点帧技术等优化手段解决自回归机制带来的累积误差和一致性挑战[3] 实时交互的价值与应用 - 实时交互能提升信息密度将单向内容消费转变为双向互动极大提升娱乐性[3] - 浅层应用可提升广告线索质量深层应用能完成如心理咨询等场景的深度交互服务[3] - 实时交互是AI视频竞争下半场的关键能让更多人低成本参与创作从而在生态中积累势能[1] 百度视频生成业务表现与战略 - 平台视频生成量级已从百万级提升到千万级通过升级流式架构提升了生成效率[6] - 当前最明显收益是C端用户留存和使用时长提升直接带来了原有商业化模式收入增长[7] - 营销相关和内容创作是调用量最大的两大落地场景其中营销相关调用量占到约一半[7] - 公司To B端满足内部技术业务库和外部客户定制化需求To C端侧重于结合百家号等生态做大创作者生态[7]
迈向通用具身智能:具身智能的综述与发展路线
具身智能之心· 2025-06-17 20:53
具身AGI的定义 - 具身AGI被定义为能够以人类水平的熟练度完成多样化、开放式现实世界任务的具身AI系统,强调其人类交互能力和任务执行能力 [3] 通用具身智能路线 - 论文提出从L1到L5的五级路线图,衡量和指导具身AGI的发展,每个级别基于四个核心维度:模态、类人认知能力、实时响应能力和泛化能力 [4] - L1(单一任务完成):机器人能够可靠地完成单一、明确定义的任务,但功能局限于特定任务领域 [7] - L2(组合任务完成):机器人能够处理组合任务,通过将高级人类指令分解为简单动作序列来执行,但能力仍限于预定义任务和技能库 [7] - L3(有条件的一般任务完成):机器人能够处理多种任务类别,表现出对任务、环境和人类指令的有条件泛化能力,但对全新或开放式任务的可靠性不足 [7] - L4(高度通用机器人):机器人展现出对广泛未见任务的稳健泛化能力,具备强大的多模态理解和推理能力 [7] - L5(全功能机器人):机器人能够满足人类日常生活的广泛需求,展现出类似人类的认知行为 [7] 现状和挑战 - 当前具身AI的能力处于L1和L2之间 [7] - 现有的具身AI模型大多仅支持视觉和语言输入,并且输出仅限于动作空间 [8] - 现有的机器人主要专注于任务特定的操作,缺乏高级的推理和社交互动能力 [11] - 大多数现有的具身AI系统以半双工方式运行,即在完全接收和处理指令后才开始行动,这使得它们在动态环境中表现不佳 [14] - 具身AI需要在推理和对话智能方面表现出色,类似于复杂的聊天机器人,并展示与人类偏好和伦理价值观的一致性 [17] L3∼L5核心能力组件 - 全模态能力:L3+机器人需处理超越视觉和文本的多模态输入(如听觉、触觉、热感等),并生成多模态响应(动作、语音、推理等) [18] - 类人认知行为:包括自我意识、社会关联理解、程序性记忆和记忆重组 [18] - 实时交互:现有模型因参数量限制难以支持全模态实时响应,且计算复杂度随序列长度平方增长 [19] - 开放任务泛化:当前模型依赖任务特定数据,缺乏物理规律的内化 [19] L3+机器人大脑框架 - 模型结构设计原则包括全模态流式处理和动态响应 [19] - 训练范式包括全模态从头训练、终身学习集成和物理导向训练 [20] 总结与未来挑战 - 具身AGI的发展路线图具有长期相关性 [20] - 未来挑战包括技术障碍以及伦理、安全和社会影响等方面的挑战 [20]