AI 版抖音社交 APP
搜索文档
Sora 2 中国首测?Open AI 这次真成了!
歸藏的AI工具箱· 2025-10-01 04:32
模型核心能力 - 该模型被描述为当前世界上最强的视频生成模型,具备卓越的人物ID保持能力,仅需用户录制三段视频(包括说三个数字和转转头)即可克隆其人脸和声音 [1] - 模型具备世界知识,能够理解复杂提示词并生成符合逻辑的视频内容,例如在雨天场景中人物未打伞时脸上会有雨水效果 [4][8] - 视频生成具备自动分镜和镜头切换能力,能够根据对话者自动调整镜头位置,展现出成熟的视频编排和故事逻辑创作能力 [8][11] - 支持多模态输入,用户可上传图片(如马、汽车、香水瓶)并结合简单提示词生成视频,实现人物、场景和物体ID的一致性保持 [6][7][9] 技术性能表现 - 语音克隆效率极高,仅需不到2秒的语音样本(三个数字)即可完成音色克隆,并支持中文、日语、英语等多种语言 [1] - 在复杂提示词遵循方面表现优异,能够精确匹配动作细节(如篮球投掷、教练喊话)和场景转换(从白天到黄昏的长镜头),音效同步精准 [13][14] - 支持多人物合拍功能,用户可在生成视频时@其他用户,实现人物间的互动对话,且对话内容具有逻辑性和深度 [1][15][16] 产品形态与市场定位 - 公司为该模型推出了一个社交APP,其形态类似于AI版的抖音,用户可邀请朋友合拍AI视频,且视频生成服务免费 [1] - 产品设计了“Ramix”功能,用户可通过简单提示词(如“在城堡”)对现有视频进行二次创作,改变场景和装扮同时保持人物面部一致性 [5] - 该模型被定位为真正面向C端用户的视频生成工具,集成了声音、音效、运镜和分镜规划,大幅降低了高质量视频内容的创作门槛 [17]