她为何被雷军挖角

公司背景与起源 - 公司DeepSeek（深度求索）为杭州AI企业由幻方量化创始人梁文锋于2023年创立团队源自浙江大学电子工程系人工智能方向[4][5][11] - 幻方量化成立于2015年为中国头部量化私募机构管理规模曾超千亿被称为"量化四大天王"之一[6][11] - 公司拥有万张英伟达显卡集群 2020年投入10亿元建设"萤火二号"超算为芯片禁令前稀缺资源储备[11] 技术突破与性能表现 - 2024年末发布开源大模型DeepSeek-V3 在多项基准测试中超越LLaMa 3.1 媲美GPT-4o和Claude 3.5[5] - 数学推理能力突出：MATH-500测试准确率达90.2% 超过LLaMa 3.1的73.8%和Claude 3.5的74.6%[15] - 代码生成优势显著：HumanEval-Mul测试通过率82.6% 高于LLaMa 3.1的77.2%和Claude 3.5的80.5%[15] - 创新"深度思考"功能展示AI推理过程增强答案可信度[13][14] 成本效率革命 - 训练成本仅557.6万美元使用2048张H100 GPU 耗时53天相当同行1/10资源消耗[6] - 预训练仅需266.4万GPU小时为LLaMa 3.1的1/11（3080万GPU小时）[18] - API定价极具竞争力：输入每百万tokens收费1元输出2元仅为GPT-4 Turbo价格的1.4%-0.9%[9][10] 技术创新路径 - 采用MLA（多头潜在注意力）架构压缩数据提升计算效率减少算力需求[9][16] - 首创FP8混合精度训练框架降低数据精度至8位大幅节省存储和计算资源[16][17] - 应用DualPipe跨节点通信优化减少GPU流水线并行中的"计算气泡" 提升资源利用率至行业5倍以上[18][20] 行业影响与定位 - 被海外专家称为"AI界拼多多" 迫使国内外巨头降价重塑行业定价体系[8][10][20] - 打破Scaling Law依赖证明小团队通过工程优化可实现超大规模模型效能[6][20] - 开源策略推动技术透明化每次发布附带详细技术报告促进生态发展[6][21] 团队与文化特质 - 团队规模约90人以清华北大应届生为主平均年龄轻无海归背景[11][21] - 管理扁平化无公关团队和融资需求专注技术原始创新[11][20] - 坚持"不贴钱不暴利"原则目标参与全球创新浪潮而非短期商业化[11][20]