公司背景与起源 - 公司DeepSeek(深度求索)为杭州AI企业 由幻方量化创始人梁文锋于2023年创立 团队源自浙江大学电子工程系人工智能方向[4][5][11] - 幻方量化成立于2015年 为中国头部量化私募机构 管理规模曾超千亿 被称为"量化四大天王"之一[6][11] - 公司拥有万张英伟达显卡集群 2020年投入10亿元建设"萤火二号"超算 为芯片禁令前稀缺资源储备[11] 技术突破与性能表现 - 2024年末发布开源大模型DeepSeek-V3 在多项基准测试中超越LLaMa 3.1 媲美GPT-4o和Claude 3.5[5] - 数学推理能力突出:MATH-500测试准确率达90.2% 超过LLaMa 3.1的73.8%和Claude 3.5的74.6%[15] - 代码生成优势显著:HumanEval-Mul测试通过率82.6% 高于LLaMa 3.1的77.2%和Claude 3.5的80.5%[15] - 创新"深度思考"功能 展示AI推理过程 增强答案可信度[13][14] 成本效率革命 - 训练成本仅557.6万美元 使用2048张H100 GPU 耗时53天 相当同行1/10资源消耗[6] - 预训练仅需266.4万GPU小时 为LLaMa 3.1的1/11(3080万GPU小时)[18] - API定价极具竞争力:输入每百万tokens收费1元 输出2元 仅为GPT-4 Turbo价格的1.4%-0.9%[9][10] 技术创新路径 - 采用MLA(多头潜在注意力)架构 压缩数据提升计算效率 减少算力需求[9][16] - 首创FP8混合精度训练框架 降低数据精度至8位 大幅节省存储和计算资源[16][17] - 应用DualPipe跨节点通信优化 减少GPU流水线并行中的"计算气泡" 提升资源利用率至行业5倍以上[18][20] 行业影响与定位 - 被海外专家称为"AI界拼多多" 迫使国内外巨头降价 重塑行业定价体系[8][10][20] - 打破Scaling Law依赖 证明小团队通过工程优化可实现超大规模模型效能[6][20] - 开源策略推动技术透明化 每次发布附带详细技术报告 促进生态发展[6][21] 团队与文化特质 - 团队规模约90人 以清华北大应届生为主 平均年龄轻 无海归背景[11][21] - 管理扁平化 无公关团队和融资需求 专注技术原始创新[11][20] - 坚持"不贴钱不暴利"原则 目标参与全球创新浪潮而非短期商业化[11][20]
她为何被雷军挖角
投资界·2025-01-21 15:35