Workflow
一晚上跌1万亿,春晚没这个好看
英伟达英伟达(US:NVDA) 猫笔刀·2025-01-28 22:11

很多网友都会有疑问,deepseek怎么一下子就冒出来,而且还这么厉害? 我今天看了不少资料,deepseek的优秀主要来自于架构设计层面的创新,很多文章都提到了MoE(Mixture-of-Experts),是一种混合专家架构,它大幅提 高了资源的利用效率。 用一个通俗的比喻,就是每周上班的时候老板如果召集全公司的人一起开会,浪费大家时间,效率很低。更合理的方式是老板按时间顺序开小会,人力组 的开完,换人,开技术组的会,完了再开市场组的。MoE就是细分单元,高效调用,节约资源的一种架构。 既然这种架构更高效,那么包括openai在内的大公司们为什么都没有想到?我觉得和大公司过于充沛的物质基础有关系,它们有钱,可以大量购买算力, 所以为了尽快出成果,会选择最传统最稳妥的路线去做产品。像openai这样的龙头,他们希望全行业最好都按照他们探索的路径去追赶,这样就可以一直 领先。 deepseek是后发的小厂,他们手里掌握的资源有限,就倒逼他们必须在有限的条件下通过技术层面创新去提升模型能力,结果一不小心就弯道超车了。 有新读者问我春节期间更不更新,当然更了,过去12年一直365天日更,春节也不会断的。诚然春节还 ...