R2来之前,DeepSeek又放了个烟雾弹
头图|视觉中国 5月前后,DeepSeek的动作倒是频繁,却都不是大家期待的R2。不过,一系列前菜已经给R2做足了铺 垫。 编辑|苗正卿 5月14日,一篇DeepSeek V3论文,揭示了梁文峰是如何做到"极致降本"的。这篇论文也让业界得以一窥 这家以技术立身的公司,其"内功"究竟修炼到了何种火候。 与此前发布的V3技术报告不同,这篇论文详细阐述了DeepSeek如何做到在硬件资源的的"紧箍咒"下, 通过精妙的"软硬一体"协同设计,将成本效益这笔账算到极致。(虎嗅注:DeepSeek-V3仅使用了2048 块英伟达H800 GPU) 出品|虎嗅科技组 作者|宋思杭 实际上,4月30日,DeepSeek还上了另一道"前菜"。 当时,DeepSeek Prover V2以671B的参数重磅亮相,要知道,DeepSeek上一次发布V2模型的时候仅有 7B。对于DeepSeek Prover V2,行业观察者们普遍认为,这是AI在辅助科学发现,特别是挑战人类智力 极限的数学领域迈出的重要一步。 而DeepSeek近期的系列动作,放置于当前AI大模型产业的宏观背景下,更耐人寻味。 一方面,我们看到的是头部厂商在模型参数 ...