Workflow
Sora2/Pro App
icon
搜索文档
AI需求侧核心逻辑正式向多模态大模型延展-国产算力认知强化!Tokens消耗 | 投研报告
中国能源网· 2025-10-08 10:01
海外多模态大模型进展 - OpenAI于10月1日上线Sora2/Pro App,支持最长15秒文生视频,物理运动更精准并支持用户客串生成内容,发布三天后登上美区App Store第一名 [1][1] - OpenAI在10月7日开发者大会上宣布ChatGPT可直接调用第三方应用,并推出GPT-5Pro、Sora2 API等开发者工具,标志其从单一对话工具向AI应用及社交平台转型 [1] - xAI于10月6日推出视觉生成模块Imagine,可从文字生成高质量图像与视频,Grok由问答助手升级为多模态创作AI,构建社交+搜索+创作一体化平台 [1] - Anthropic于9月30日发布Claude Sonnet 4.5编程模型,强调构建生产就绪级AI Agent能力,推动智能体从原型验证迈向实际部署 [1] - 多模态理解与生成技术已突破具备商业化价值临界点,AI生成视频动作可控性与内容观赏度显著提升,用户主动创作与付费意愿大幅提升 [1] 国内多模态能力发展 - 快手可灵2.5 Turbo于10月2日在全球视频生成模型榜单中登顶图生视频与文生视频双榜首,体现其视频生成与内容质量的国际领先水平 [2] - 字节跳动于10月2日与UCLA推出Self-Forcing++视频生成技术,可生成4分15秒高清视频,视觉稳定性提升至2.6倍 [2] - 字节跳动旗下豆包1.6-Vision模型于9月30日更新,通过工具调用将图像融入思维链,提升视觉理解精度 [2] - 腾讯于9月28日推出并开源混元图像3.0,作为业界首个开源工业级原生多模态生成模型,快速登顶Hugging Face热榜并保持领先 [2] - AI应用落地竞争核心从单一语言智能转向多模态生成与理解能力,国内头部厂商正快速补齐该关键环节并在国际基准测试中崭露头角 [2] 国产算力投资逻辑演变 - DeepSeek于9月30日发布DeepSeek-V3.2-Exp,DSA架构使得推理成本更低且支持更长上下文,模型支持国产开发生态tilelang语言,并实现与寒武纪、海光、昇腾等芯片的首日适配 [3] - 智谱于9月30日开源GLM-4.6,在Agentic Coding等关键能力上显著提升,代码生成性能已对齐Claude Sonnet 4,并完成与国产GPU的联合优化 [3] - 阿里巴巴于10月4日发布并开源Qwen3-VL系列多模态模型,实现昇腾芯片的0Day适配,加速国产硬件生态落地 [3] - 投资逻辑从因H20限售驱动的供给侧替代逻辑,演进为多模态能力突破带来的需求侧拉动,AI应用自身增长牵引形成国产算力原生成长路径 [3] - 随着多模态生成与实时推理场景不断丰富,国产算力有望进入内生驱动的新一轮成长周期 [3]