DeepSeek MoE - 财报，业绩电话会，研报，新闻

DeepSeek MoE

搜索文档

理想TOP2· 2025-06-08 12:24

理想VLA与DeepSeek MoE技术类比 - VLA和MoE均为首次完整落地到新领域并取得良好结果均包含大量创新但两者在具体实现方式上存在显著差异 [2] - DeepSeek MoE通过细粒度专家划分将单个专家隐藏层维度缩小至1/4 专家数量增至4倍使激活组合可能性从120种提升至44亿种量级 [2] - 采用共享专家隔离机制设置占总专家数1/8的固定共享专家处理公共知识显著减少不同专家间的知识冗余 [2] 理想VLA核心技术突破 - 需攻克6大关键技术点：MindVLA设计/训练流程 3D空间理解能力获取驾驶知识语言模型构建 Diffusion融合车端实时推理实现 [4] - 3D高斯技术通过RGB图像自监督训练实现多尺度几何表达与丰富语义承载为3D表征提供核心支持 [4] - 基座模型采用MoE架构和稀疏注意力机制在扩容参数量的同时控制推理负担训练数据配比优化减少文史类数据增加3D及自动驾驶图文数据 [6][7] 模型训练与推理优化 - 引入未来帧预测和稠密深度预测任务通过快慢思考双系统设计（快思考直接输出action token 慢思考采用固定简短CoT模板）提升实时性 [8] - 创新并行解码机制：语言逻辑采用因果注意力逐字输出 action token通过双向注意力一次性全输出 [8] - 使用小词表和投机推理技术使CoT效率提升44亿倍量级实现参数规模与推理性能平衡 [8] Diffusion技术应用 - 将action token解码为驾驶轨迹同步生成自车轨迹与周边交通参与者轨迹复杂环境博弈能力提升120% [9] - 采用多层Dit结构支持条件输入改变生成结果（如"开快点"指令响应）类比图像多风格生成技术 [10] - 使用ODE采样器将Diffusion生成步骤压缩至2-3步解决传统方法效率低下问题 [11] 强化学习突破 - 构建端到端可训架构解决早期强化学习中信息传递低效问题 [12] - 通过多视角噪声训练生成模型联合3D重建优化创建真实度达标的训练环境场景建设效率提升20倍 [12] 技术路线演进 - V10-11阶段确实跟随特斯拉技术路线但V12后自主创新比例显著提升仅在快系统部分保留特斯拉框架 [13][14] - 慢系统为完全自主创新特斯拉未涉及该领域整体技术路线类比"增程式"方案：在算力/数据资源不足条件下实现可用性 [14] - VLM到VLA的演进为公司独立提出的技术路径非跟随策略获王兴评价为"真正实现Think Different"的典型案例 [15]

AI原生浪潮冲击下，互联网大厂的组织如何进化？

36氪· 2025-04-11 18:20

AI原生组织的崛起 - AI原生组织（AI Native）将AI内化为产品、服务和业务流程的核心驱动力，而非功能附加 [2] - 核心技术均为自研模型（如OpenAI的GPT、DeepSeek的MoE架构），技术迭代速度远超传统企业，OpenAI从GPT-3到GPT-4仅用两年，研发投入占比高达90%以上 [2] - 产品设计天然依赖AI能力，无法脱离AI独立存在，如Midjourney的生成式图像、Character.AI的角色人格化交互 [3] AI原生组织的核心特征 - 技术原生性：自研模型快速迭代，OpenAI单次训练GPT-4成本超1亿美元，DeepSeek MoE架构将参数价值挖掘效率提升300% [4] - 组织液态化：扁平化、自组织结构，DeepSeek科研背景员工占比超80%，通过"影子组织"打破部门墙 [5] - 极客文化与创始人凝聚力：如OpenAI的Altman与DeepSeek的梁文锋以技术远见凝聚顶尖人才 [6] 互联网大厂的挑战 - 大模型开发落后于AI原生组织，大厂虽资源丰富但缺乏领军人才和极致技术追求 [9] - 用户时间争夺战：AI原生APP月活跃用户突破1.2亿，月人均使用时长133分钟，AIGC领域MAU同比增长244.7% [10] - 智能体领域落后：大厂智能体多局限于垂类场景，消费端突破力不足，如阿里钉钉的AI工单系统 [11] 大厂的应对策略 - 数据深化：将数据规模优势转化为智能优势，如DeepSeek重视数据标注，Grok3受益于SpaceX知识库 [16] - 模型竞合：采用合作与自研双轨策略，如微软130亿美元投资OpenAI并成为其独家云服务提供商 [18] - 组织变革：字节设立虚拟小组提升敏捷性，腾讯调整产品线至CSIG，阿里三年投入3800亿元建设AI基础设施 [19][21][22] 组织效率对比 - 决策周期：大厂需周/月级审批，AI原生组织为分钟级数据驱动 [17] - 创新速度：大厂以周/季为单位迭代，AI原生组织以天为单位微调模型 [17] - 人才结构：大厂支持人员占比高，AI原生组织科学家与技术人员密度高 [17] 未来趋势 - "模型-数据-智能体"解构传统互联网公司的"数据-算法-流量"铁三角 [27] - 组织学习速度成为决胜要素，需快速将技术突破转化为商业闭环 [27] - 大厂面临基因突变挑战，如字节用AI-native人才替代搜推广背景人员 [26]

梧桐树下V· 2025-01-29 11:16

公司基本信息 - 公司全称为杭州深度求索人工智能基础技术研究有限公司，英文名Hangzhou Deep Search Artificial Intelligence Basic Technology Research Co Ltd，成立于2023年7月17日 [2] - 注册资本1000万元且已完成实缴，法定代表人裴湉，注册地址为杭州市拱墅区环城北路169号汇金国际大厦西1幢1201室 [2][3] - 截至2023年底公司社保缴费员工4名，企查查行业分类为信息系统集成服务，规模为微型企业 [2][3] 业务与技术 - 公司专注于通用人工智能模型（AGI）研发，主要产品包括开源大语言模型DeepSeek LLM、MoE模型DeepSeek MoE、代码模型DeepSeek Coder系列、数学模型DeepSeek Math及多模态模型DeepSeek-VL系列 [4] 股权结构与股东 - 股东为宁波程恩企业管理咨询合伙企业（有限合伙）持股99%和梁文锋持股1% [6] - 宁波程恩成立于2023年7月31日，出资额1200万元，其合伙人包括梁文锋（50.10%）、宁波程信柔兆企业管理咨询合伙企业（49.80%）和宁波程普商务咨询有限公司（0.10%） [6][9] - 梁文锋通过多层持股控制宁波程信（68.14%股权）和宁波程普（68.21%注册资本） [6] 关联企业与变更记录 - 宁波程恩、宁波程信、宁波程普均成立于2023年7月下旬，晚于杭州深度求索的成立日期（7月17日），三家企业执行事务合伙人均为梁键 [8][9] - 公司初始为北京深度求索全资子公司，2023年8月2日股权转让给宁波程恩和梁文锋，同日注册资本从100万元增至1000万元 [11] - 北京深度求索成立于2023年5月16日，曾与杭州深度求索形成交叉持股结构（双方互相100%持股），后调整为现有股权架构 [11]

Artificial Intelligence

General Artificial Intelligence Model (AGI)

Large Language Model (LLM)

Information System Integration Services

DeepSeek

DeepSeek MoE

Artificial Intelligence

General Artificial Intelligence Model (AGI)

Large Language Model (LLM)

Information System Integration Services

DeepSeek

DeepSeek MoE