千问App核心功能更新 - 千问App正式接入阿里两大顶级视觉模型Qwen-Image和Wan 2.5,将工业级AI视觉生成能力整合至移动端[1][4] - 此次更新旨在打破技术门槛,使普通用户无需代码知识或复杂部署即可在手机上使用顶尖的多模态AI模型[4][73] - 更新深度整合了文生图、图像编辑、图生视频、原生音画同步等能力,在单一应用内实现了多模态工作流的无缝串联[47][74] Qwen-Image模型能力 - 模型核心突破在于强大的视觉逻辑理解能力,能够理解几何空间关系,在处理家居摆放等涉及透视和物体关系的指令时表现出色[9][14] - 展现出卓越的主体一致性保持能力,在宠物图像替换、多图融合等高难度编辑任务中能精准保留主体特征,避免身份崩坏[18][22][65] - 在Hugging Face等开源社区备受关注,Qwen-Image-Edit及其变体总下载量已突破300万次,是平台上最热门的图像模型之一[58][72] - 引入了语义与外观双重编辑机制,既能进行像素级修补,也能实现语义重构,在多项图像生成和编辑基准测试中达到SOTA性能[62][64] Wan 2.5模型能力 - 作为国内少有的具备原生音画同步能力的视频生成模型,其采用原生多模态架构,可同时处理文本、图像、视频和音频信号[36][68][69] - 能够基于画面场景推理生成匹配的音乐,实现对口型、音画卡点等高难度操作,使AI视频生成进入视听一体新阶段[43][70][76] - 模型可直接在千问App内调用,用户无需在不同工具间切换即可实现从静态图像到有声视频的一站式创作[47][49] 多模态工作流整合 - 千问App解决了AI视觉生成领域的“工具孤岛”问题,用户可在同一对话框内无缝串联调用Qwen-Image和Wan 2.5等顶尖模型[46][47] - 实现了从文生图到图生视频的流畅创作体验,例如生成《疯狂动物城》角色图像后可直接将其转化为带有对话和音效的视频[48][49][51] - 这种深度整合降低了创作门槛,用户无需连接复杂节点或使用专业软件,通过自然对话即可实现“所说即所得”的创作效果[55][75] 行业技术地位 - 阿里已构建起覆盖文生图、图像编辑、文生视频、音画同步等核心赛道的多模态生成模型生态,模型在全球处于第一梯队[72] - Qwen-Image在开源社区长期霸榜,而Wan 2.5在音画同步等用户体验方面甚至超越了海外闭源顶流模型[3][72] - 此次更新是公司在多模态领域长期技术积累的集中释放,将分散在代码仓库中的专业能力转化为普通用户可轻松使用的产品[73][74]
刚刚,千问App把谷歌和OpenAI的「付费绝活」塞进了手机,还免费?