大模型硝烟再起，DeepSeek、通义千问、Google、OpenAI先后迎来更新

报告核心观点近期DeepSeek、通义千问、谷歌、OpenAI等公司的大模型迎来更新，各有亮点与优势，为行业发展带来新动态与机遇各部分总结 DeepSeek-V3模型更新 - 3月25日DeepSeek V3完成小版本升级，版本号DeepSeek - V3 - 0324，与之前使用同样base模型，仅改进后训练方法，私有化部署只需更新checkpoint和tokenizer_config.json，模型参数约660B，开源版本上下文长度为128K，网页端、App和API提供64K上下文 [2][13] - 进阶能力包括推理任务表现提高、前端开发能力增强、中文写作升级、中文搜索能力优化，在工具调用、角色扮演、问答闲聊等方面也有能力提升 [13] - 推理任务借鉴DeepSeek - R1强化学习技术，在数学、代码评测集得分超GPT - 4.5；前端开发在HTML代码任务上生成代码可用性高、视觉效果好；中文写作基于R1优化，提升中长篇文本创作质量；中文搜索在联网场景下输出结果详实准确、排版美观 [14] 通义千问Qwen2.5 - Omni - 7B开源 - 3月27日通义千问Qwen2.5 - Omni - 7B正式开源，是通义系列首个端到端全模态大模型，可处理多种输入并实时生成文本与语音输出，能以多感官方式认知世界、识别情绪、智能决策，开发者和企业可免费下载商用，手机等终端可轻松部署 [3][17][19] - 采用Thinker - Talker双核架构、Position Embedding融合音视频技术、位置编码算法TMRoPE，支持多种输入形式，实现实时语义理解与语音生成高效协同 [19] - 以7B小尺寸让全模态大模型广泛应用成为可能，已在魔搭社区和Hugging Face同步开源，用户可在Qwen Chat体验 [20] 谷歌发布Gemini 2.5 Pro - 3月26日谷歌发布Gemini 2.5 Pro，在基础模型和后训练技术上较Gemini 2.0 Flash Thinking有改进，在推理、数学、科学、编程基准上表现出色 [4][21][24] - 上下文窗口是1M tokens，支持原生多模态，可处理文本、音频、图像、视频、代码库等复杂问题，已面向Gemini Advanced付费用户开放，开发人员可在Google AI Studio试用，未来几周将在Vertex AI推出 [24] OpenAI发布GPT - 4o - 3月26日OpenAI发布GPT - 4o图像生成技术模型，初始版本专注图像创建，将在ChatGPT Plus、Pro、Team和Free订阅层提供，与GPT - 4 Turbo相比价格降低50%，成本是10倍GPT - 3.5，还将向免费用户提供 [4][30] - 该模型在文本集成、上下文理解、多对象绑定、风格适应方面有改进，能准确嵌入文字、利用聊天历史细化图像、处理多个物体、适应多种风格 [31] - 作为ChatGPT默认图像生成工具，即日起向Plus、Pro、Team及Free用户开放，Enterprise及Edu访问权限后续开放，Sora可享升级，DALL - E用户可通过专门方式访问，开发人员未来几周可通过API使用，图像创建像聊天一样简单，但渲染时间可能达1分钟 [32]