报告核心观点 近期DeepSeek、通义千问、谷歌、OpenAI等公司的大模型迎来更新,各有亮点与优势,为行业发展带来新动态与机遇 各部分总结 DeepSeek-V3模型更新 - 3月25日DeepSeek V3完成小版本升级,版本号DeepSeek - V3 - 0324,与之前使用同样base模型,仅改进后训练方法,私有化部署只需更新checkpoint和tokenizer_config.json,模型参数约660B,开源版本上下文长度为128K,网页端、App和API提供64K上下文 [2][13] - 进阶能力包括推理任务表现提高、前端开发能力增强、中文写作升级、中文搜索能力优化,在工具调用、角色扮演、问答闲聊等方面也有能力提升 [13] - 推理任务借鉴DeepSeek - R1强化学习技术,在数学、代码评测集得分超GPT - 4.5;前端开发在HTML代码任务上生成代码可用性高、视觉效果好;中文写作基于R1优化,提升中长篇文本创作质量;中文搜索在联网场景下输出结果详实准确、排版美观 [14] 通义千问Qwen2.5 - Omni - 7B开源 - 3月27日通义千问Qwen2.5 - Omni - 7B正式开源,是通义系列首个端到端全模态大模型,可处理多种输入并实时生成文本与语音输出,能以多感官方式认知世界、识别情绪、智能决策,开发者和企业可免费下载商用,手机等终端可轻松部署 [3][17][19] - 采用Thinker - Talker双核架构、Position Embedding融合音视频技术、位置编码算法TMRoPE,支持多种输入形式,实现实时语义理解与语音生成高效协同 [19] - 以7B小尺寸让全模态大模型广泛应用成为可能,已在魔搭社区和Hugging Face同步开源,用户可在Qwen Chat体验 [20] 谷歌发布Gemini 2.5 Pro - 3月26日谷歌发布Gemini 2.5 Pro,在基础模型和后训练技术上较Gemini 2.0 Flash Thinking有改进,在推理、数学、科学、编程基准上表现出色 [4][21][24] - 上下文窗口是1M tokens,支持原生多模态,可处理文本、音频、图像、视频、代码库等复杂问题,已面向Gemini Advanced付费用户开放,开发人员可在Google AI Studio试用,未来几周将在Vertex AI推出 [24] OpenAI发布GPT - 4o - 3月26日OpenAI发布GPT - 4o图像生成技术模型,初始版本专注图像创建,将在ChatGPT Plus、Pro、Team和Free订阅层提供,与GPT - 4 Turbo相比价格降低50%,成本是10倍GPT - 3.5,还将向免费用户提供 [4][30] - 该模型在文本集成、上下文理解、多对象绑定、风格适应方面有改进,能准确嵌入文字、利用聊天历史细化图像、处理多个物体、适应多种风格 [31] - 作为ChatGPT默认图像生成工具,即日起向Plus、Pro、Team及Free用户开放,Enterprise及Edu访问权限后续开放,Sora可享升级,DALL - E用户可通过专门方式访问,开发人员未来几周可通过API使用,图像创建像聊天一样简单,但渲染时间可能达1分钟 [32]
大模型硝烟再起,DeepSeek、通义千问、Google、OpenAI先后迎来更新
华福证券·2025-03-30 21:32