纪要涉及的行业或公司 * 行业:人工智能多模态模型行业,特别是视频生成领域 [1] * 公司:OpenAI (Sora)、谷歌 (Gemini/Veo)、可灵AI (Kling)、字节跳动 (Seedance)、DeepSeek [1][2] 核心观点和论据 * 核心观点:2026年是多模态模型的“DeepSeek时刻”,意味着在能力提升的同时,成本将大幅下降,从而推动应用落地 [1] * 论据1:技术演进类比:将2024年2月的初代Sora比作视频领域的“GPT-1时刻”,将2025年9月底的Sora 2比作“GPT-3.5式突破时刻” [1] * 论据2:近期重大进展:2025年10月谷歌发布Veo 3.1及Fast付费预览版,带来音频支持、叙事控制等升级;2026年初,可灵3.0系列和字节Seedance 2.0相继正式上线 [1][2] * 论据3:驱动因素:借鉴DeepSeek通过开源与成本优势驱动文本大模型普及的经验,预计多模态模型将遵循类似路径 [1] * 核心观点:多模态领域竞争加剧,技术实现突破性进展 [2] * 论据1:可灵3.0系列模型:于2月5日上线,基于All-in-One理念构建一体化视频模型体系,覆盖图片生成、视频生成、编辑及后期等影视级全流程链路 [2] * 论据2:字节Seedance 2.0模型:于2月7日上线,具备生成1080p广播级视频、音视频同步、多镜头叙事、流畅运动合成、卓越提示词遵循等特征 [2] * 核心观点:商业化落地是2026年多模态模型厂商的重要命题 [3] * 论据1:商业化关键:在于模型能力增强以提升用户体验,以及成本端下降以降低使用门槛 [3] * 论据2:标杆案例:可灵AI是国内商业化最快的多模态模型之一,截至2025年12月,已拥有超6000万创作者,生成视频超6亿个,服务企业用户超3万,年化收入运行率达2.4亿美元 [3] 其他重要内容 * 技术细节:谷歌Veo 3.1在Veo 3基础上进行了重大升级,带来更丰富的音频支持、更强的叙事控制及更逼真的质感还原 [1] * 产品定位:可灵3.0系列标志着AI正式进入影视与创意内容的核心生产环节 [2]
未知机构:周观点2026年多模态模型有望迎来DS时刻开源计算机1-20260210
2026-02-10 10:10