Sora2 ：AI视频的“GPT-3.5”时刻

行业与公司 * 涉及的行业为人工智能（AI）行业，特别是生成式AI和视频生成领域 [1] * 涉及的公司包括OpenAI（及其产品Sora、ChatGPT）、Google（及其产品Vue）、字节跳动、阿里巴巴、Uber、TripAdvisor、Shutterstock、快手、可灵（Keling）、吉梦（Jimu）等 [1][2][3][6] 核心观点与论据 1 OpenAI开发者大会与生态构建 * OpenAI开发者大会推出APP、SDK、Agent Kit和Chat Kit等新工具，展示其商业帝国雏形 [1][2] * 与Uber、TripAdvisor等11家知名企业合作，通过ChatGPT实现自然语言交互，可自动调起合作伙伴的APP [1][3] * MCP协议实现标准化，使OpenAI能快速对接产品服务企业，提供超越传统数据交互的服务（如返回旅游目的地照片、3D装修设计） [1][5] * OpenAI的APP SDK被视为接近基于大语言模型的操作系统或小程序市场，未来想象空间巨大 [6] 2 AI编程与效率提升 * Agent Kit实现拖拽式编程，使非IT开发者也能轻松创建应用，单人5-6分钟完成的应用相当于人工3人1周工作量，人效提升20倍以上 [7][8] * 在头部和二线互联网企业中，超过50%的程序通过AI编写，超过75%的代码通过AI审核 [10] * Code X是一套高级工具，其底层逻辑认为所有事物最终通向通用人工智能（AGI），通过自我编写代码解决问题 [11][12] 3 Sora 2.0 视频生成技术的特点与竞争 * Sora 2.0专注于解决影视动漫工作流的实际问题，与Shutterstock等合作获取高质量视频数据，并与业内专家合作结合传统工作流 [1][13][14] * 通过让视频片段有3到5秒重叠训练模型，能生成1分钟以上长视频，效果优于普遍只能生成10到15秒短视频的其他模型 [16] * 当前使用挑战包括成本（单秒生成价格0.7元至3元不等）和算力不足，通过优化模型和降价策略（如降至1/5）可扩大受众 [17] * 与Google Vue 3相比，Sora风格更超现实（含赛博朋克），Vue 3风格偏向电影纪录片且数据来源包括YouTube等，Vue 3按月收费费用较高，Sora按次收费相对灵活但仍昂贵 [18] 4 应用前景与市场方向 * 未来大模型产品发展方向包括更广泛应用于C端市场，通过授权使用真人肖像实现裂变效应，各大IP（如迪士尼）也可能授权形象创造故事 [3][24] * 视频生成技术在教育、医疗行业应用前景巨大，可实现讲师视频一次拍摄终身复用，解决资源稀缺问题 [21] * 在AI带货、网红经济、短剧等领域，Sora可每天生成数百条不同风格视频，提高真实性和效率，基于物理世界推理生成视频效果较好 [31][32] * AI技术对影视行业有影响，目前可制作1至3分钟预告片，减少分镜师工作量，改善多镜头一致性，AI短剧会更快突破，长篇电影还需时日 [33] 5 行业竞争格局与企业应对策略 * 大模型迭代速度在减缓，知识积累基本完成，更新集中在标注数据时间范围和推理速度优化，应用侧探索更为广泛 [24][25] * 视频生成领域难以一家独大，Sora价格比可灵（Keling）高出三倍以上，企业考虑成本仍倾向使用可灵，可灵在精确控制和一致性方面表现优异 [27][28] * 大模型企业可能对B端软件企业产生影响，B端软件企业应提前布局，将自身业务（如招聘、客户关系管理系统）封装成标准化模块（如GMCP模块），以便被大平台调用，融入生态系统 [35][36][37] 其他重要内容 * Sora Two主要依靠大模型本身能力生成视频，不依赖外部素材，具备对世界知识的理解能力，可推理视频内容合理性 [22] * OpenAI未来发展方向包括培养用户习惯，将自身打造成大入口，可能涉及更多企业联动及硬件入口形式（如眼镜、耳机） [34] * 国内视频生成行业需区分C端（要求快速便捷）和B端（关注高质量、精确控制的一致性）需求 [29]