中美科技巨头AI模型竞争 - 4月中旬OpenAI发布GPT-4.1 o3/o4 mini系列模型 谷歌推出Gemini 2.5 Flash Preview混合推理模型 同日豆包发布1.5·深度思考多模态模型 阿里Qwen3大模型预计本月发布 [5] - Hugging Face CEO发布神秘动态 附DeepSeek官方资源库入口 引发科技圈对DeepSeek R2模型发布倒计时猜测 [6][8] DeepSeek R2模型技术参数与市场预期 - 传闻技术参数:1.2万亿总参数/780亿活跃参数 混合MoE架构 成本比GPT-4o低97.3%(输入0.07美元/百万次 输出0.27美元/百万次) 使用5.2PB训练数据 C-Eval2.0测试得分89.7% COCO视觉测试达92.4% [10] - 公司保持季度迭代节奏:2024年9月V2.5→12月V3→2025年3月V3-0324 路透社披露R2原计划5月初发布 可能提前推出 [10] - V3-0324版本已超越Google Gemini 2.0 Pro/Anthropic Claude 3.7Sonnet/Meta Llama 3.3 70B 业界预期R2将强化代码生成与多语种推理能力 [11] 创始人梁文锋的战略布局 - 创始人梁文锋聚焦AGI本质探索 早期拒绝有退出顾虑的资方 主要依托自有资金 认为Chatbot产品可替代性强 技术实力是用户争夺关键 [13] - 提出"中国需成为创新贡献者" 芯片禁令是核心挑战 但强调"重建团队追赶下一代技术才是护城河" 公司已与国产头部芯片厂商展开合作 [15][18] 国产算力生态与行业需求 - 英伟达H20芯片禁令促使华为昇腾910C/寒武纪MLUarch04等国产芯片加速替代 DeepSeek曾推出针对英伟达H卡的算力优化方案 [14][16] - 行业存在旺盛的大模型部署需求 但当前面临稳定性与成本挑战 公司可能在新模型中深度适配国产算力 [17][18]
全网都在等梁文锋
虎嗅APP·2025-04-28 21:35