Workflow
全网都在等梁文锋
投中网·2025-04-29 14:21

中美科技巨头AI模型竞争 - 5月将迎来中美科技巨头AI模型发布高峰,OpenAI发布GPT-4.1 o3、o4 mini系列模型,谷歌推出Gemini 2.5 Flash Preview混合推理模型,豆包发布1.5·深度思考模型[6] - 阿里下一代大模型Qwen3预计本月发布[6] - DeepSeek R2模型发布进入倒计时,Hugging Face首席执行官发布暗示性动态引发行业猜测[7][10] DeepSeek R2模型技术参数传闻 - 传闻DeepSeek-R2拥有1.2万亿参数,活跃参数780亿,采用混合MoE架构[12] - 成本比GPT-4o便宜97.3%(输入每百万次0.07美元,输出每百万次0.27美元)[12] - 使用5.2PB训练数据,在C-Eval2.0测试中取得89.7%得分,COCO测试集视觉能力达92.4%[12] - 公司对传闻不予回应,知情人士称网上消息真实性含量非常低[16] DeepSeek产品迭代与研发策略 - 公司保持每季度重大更新的开发范式,2024年9月推出V2.5,12月发布V3,次年3月升级至V3-0324版本[17] - 路透社披露公司正加快R2研发进程,原计划5月初发布,现希望尽早推出[17] - V3-0324版本在基准测试中力压Google Gemini 2.0 Pro、Anthropic Claude 3.7Sonnet等顶尖模型[17] 创始人梁文锋的战略布局 - 创始人梁文锋志向直指终极AGI,早期优先排除有退出顾虑的机构,主要依托自有资金[20] - 认为Chatbot产品可替代性强,技术优势是关键,DeepSeek R1发布证实这一观点[20] - 表示公司真正挑战是高端芯片出口禁令,而非资金问题[22] - 强调追赶下一代技术是真正的护城河,需要重建团队、付出时间和成本[22] 国产芯片与大模型适配 - 美国对英伟达H20芯片出口禁令倒逼华为昇腾910C、寒武纪MLUarch04等国产芯片加速发展[21] - 公司已推出针对英伟达H卡的算力优化方案[21] - 行业人士透露公司正与国产芯片头部企业合作,但合作进展和R2适配情况尚不明确[25][26] - 行业存在对稳定、便宜的大模型部署需求,公司需要解决这一问题[24]