o4 mini系列模型

搜索文档
全网都在等梁文锋
凤凰网财经· 2025-04-29 20:39
中美科技巨头AI模型竞争 - 4月中旬OpenAI发布GPT-4.1 o3、o4 mini系列模型 [3] - 谷歌同期推出Gemini 2.5 Flash Preview混合推理模型 [3] - 豆包发布1.5·深度思考模型,多模态能力显著提升 [3] - 阿里下一代大模型Qwen3预计本月发布 [3] DeepSeek R2模型发布传闻 - Hugging Face CEO发布神秘动态暗示DeepSeek R2即将发布 [4][7] - 传闻称R2模型拥有1.2万亿参数,活跃参数780亿,采用混合MoE架构 [12] - 成本比GPT-4o低97.3%(输入0.07美元/百万次,输出0.27美元/百万次) [12] - 使用5.2PB训练数据,C-Eval2.0测试得分89.7%,COCO视觉测试92.4% [12] - 公司对传闻不予置评,但知情人士称真实性较低 [14] DeepSeek技术迭代与市场影响 - 公司保持季度重大更新节奏:2024年9月V2.5,12月V3,2025年3月V3-0324 [14] - V3-0324版本在基准测试中超越Google Gemini 2.0 Pro等顶尖模型 [17] - R2预计提升代码生成和多语种推理能力 [17] - 3月发布的V3-0324采用6850亿参数MoE架构,代码能力显著增强 [20] 国产芯片与AI发展 - 美国对英伟达H20芯片禁令促使华为昇腾910C、寒武纪MLUarch04等国产芯片加速发展 [21] - 公司已与部分国产芯片头部企业展开合作 [26] - 创始人梁文锋表示真正挑战是高端芯片出口禁令而非资金 [22] - 公司曾推出针对英伟达H卡的算力优化方案 [21] 公司战略与行业定位 - 创始人梁文锋致力于探索通用人工智能(AGI)本质 [18][20] - 公司早期主要依托自有资金,排除有退出顾虑的投资机构 [20] - 创始人认为技术实力比产品黏性更重要,可通过技术优势获取用户 [20] - 公司目标是通过技术创新改变全球AI格局而非仅服务用户 [20]
全网都在等梁文锋
投中网· 2025-04-29 14:21
中美科技巨头AI模型竞争 - 5月将迎来中美科技巨头AI模型发布高峰,OpenAI发布GPT-4.1 o3、o4 mini系列模型,谷歌推出Gemini 2.5 Flash Preview混合推理模型,豆包发布1.5·深度思考模型[6] - 阿里下一代大模型Qwen3预计本月发布[6] - DeepSeek R2模型发布进入倒计时,Hugging Face首席执行官发布暗示性动态引发行业猜测[7][10] DeepSeek R2模型技术参数传闻 - 传闻DeepSeek-R2拥有1.2万亿参数,活跃参数780亿,采用混合MoE架构[12] - 成本比GPT-4o便宜97.3%(输入每百万次0.07美元,输出每百万次0.27美元)[12] - 使用5.2PB训练数据,在C-Eval2.0测试中取得89.7%得分,COCO测试集视觉能力达92.4%[12] - 公司对传闻不予回应,知情人士称网上消息真实性含量非常低[16] DeepSeek产品迭代与研发策略 - 公司保持每季度重大更新的开发范式,2024年9月推出V2.5,12月发布V3,次年3月升级至V3-0324版本[17] - 路透社披露公司正加快R2研发进程,原计划5月初发布,现希望尽早推出[17] - V3-0324版本在基准测试中力压Google Gemini 2.0 Pro、Anthropic Claude 3.7Sonnet等顶尖模型[17] 创始人梁文锋的战略布局 - 创始人梁文锋志向直指终极AGI,早期优先排除有退出顾虑的机构,主要依托自有资金[20] - 认为Chatbot产品可替代性强,技术优势是关键,DeepSeek R1发布证实这一观点[20] - 表示公司真正挑战是高端芯片出口禁令,而非资金问题[22] - 强调追赶下一代技术是真正的护城河,需要重建团队、付出时间和成本[22] 国产芯片与大模型适配 - 美国对英伟达H20芯片出口禁令倒逼华为昇腾910C、寒武纪MLUarch04等国产芯片加速发展[21] - 公司已推出针对英伟达H卡的算力优化方案[21] - 行业人士透露公司正与国产芯片头部企业合作,但合作进展和R2适配情况尚不明确[25][26] - 行业存在对稳定、便宜的大模型部署需求,公司需要解决这一问题[24]
全网都在等梁文锋
虎嗅APP· 2025-04-28 21:35
中美科技巨头AI模型竞争 - 4月中旬OpenAI发布GPT-4.1 o3/o4 mini系列模型 谷歌推出Gemini 2.5 Flash Preview混合推理模型 同日豆包发布1.5·深度思考多模态模型 阿里Qwen3大模型预计本月发布 [5] - Hugging Face CEO发布神秘动态 附DeepSeek官方资源库入口 引发科技圈对DeepSeek R2模型发布倒计时猜测 [6][8] DeepSeek R2模型技术参数与市场预期 - 传闻技术参数:1.2万亿总参数/780亿活跃参数 混合MoE架构 成本比GPT-4o低97.3%(输入0.07美元/百万次 输出0.27美元/百万次) 使用5.2PB训练数据 C-Eval2.0测试得分89.7% COCO视觉测试达92.4% [10] - 公司保持季度迭代节奏:2024年9月V2.5→12月V3→2025年3月V3-0324 路透社披露R2原计划5月初发布 可能提前推出 [10] - V3-0324版本已超越Google Gemini 2.0 Pro/Anthropic Claude 3.7Sonnet/Meta Llama 3.3 70B 业界预期R2将强化代码生成与多语种推理能力 [11] 创始人梁文锋的战略布局 - 创始人梁文锋聚焦AGI本质探索 早期拒绝有退出顾虑的资方 主要依托自有资金 认为Chatbot产品可替代性强 技术实力是用户争夺关键 [13] - 提出"中国需成为创新贡献者" 芯片禁令是核心挑战 但强调"重建团队追赶下一代技术才是护城河" 公司已与国产头部芯片厂商展开合作 [15][18] 国产算力生态与行业需求 - 英伟达H20芯片禁令促使华为昇腾910C/寒武纪MLUarch04等国产芯片加速替代 DeepSeek曾推出针对英伟达H卡的算力优化方案 [14][16] - 行业存在旺盛的大模型部署需求 但当前面临稳定性与成本挑战 公司可能在新模型中深度适配国产算力 [17][18]