全网都在等梁文锋

中美科技巨头AI模型竞争 - 5月将迎来中美科技巨头AI模型发布高峰，OpenAI发布GPT-4.1 o3、o4 mini系列模型，谷歌推出Gemini 2.5 Flash Preview混合推理模型，豆包发布1.5·深度思考模型[6] - 阿里下一代大模型Qwen3预计本月发布[6] - DeepSeek R2模型发布进入倒计时，Hugging Face首席执行官发布暗示性动态引发行业猜测[7][10] DeepSeek R2模型技术参数传闻 - 传闻DeepSeek-R2拥有1.2万亿参数，活跃参数780亿，采用混合MoE架构[12] - 成本比GPT-4o便宜97.3%（输入每百万次0.07美元，输出每百万次0.27美元）[12] - 使用5.2PB训练数据，在C-Eval2.0测试中取得89.7%得分，COCO测试集视觉能力达92.4%[12] - 公司对传闻不予回应，知情人士称网上消息真实性含量非常低[16] DeepSeek产品迭代与研发策略 - 公司保持每季度重大更新的开发范式，2024年9月推出V2.5，12月发布V3，次年3月升级至V3-0324版本[17] - 路透社披露公司正加快R2研发进程，原计划5月初发布，现希望尽早推出[17] - V3-0324版本在基准测试中力压Google Gemini 2.0 Pro、Anthropic Claude 3.7Sonnet等顶尖模型[17] 创始人梁文锋的战略布局 - 创始人梁文锋志向直指终极AGI，早期优先排除有退出顾虑的机构，主要依托自有资金[20] - 认为Chatbot产品可替代性强，技术优势是关键，DeepSeek R1发布证实这一观点[20] - 表示公司真正挑战是高端芯片出口禁令，而非资金问题[22] - 强调追赶下一代技术是真正的护城河，需要重建团队、付出时间和成本[22] 国产芯片与大模型适配 - 美国对英伟达H20芯片出口禁令倒逼华为昇腾910C、寒武纪MLUarch04等国产芯片加速发展[21] - 公司已推出针对英伟达H卡的算力优化方案[21] - 行业人士透露公司正与国产芯片头部企业合作，但合作进展和R2适配情况尚不明确[25][26] - 行业存在对稳定、便宜的大模型部署需求，公司需要解决这一问题[24]