DeepSeek MoE

搜索文档
理想的VLA可以类比DeepSeek的MoE
理想TOP2· 2025-06-08 12:24
理想VLA与DeepSeek MoE技术类比 - VLA和MoE均为首次完整落地到新领域并取得良好结果 均包含大量创新 但两者在具体实现方式上存在显著差异 [2] - DeepSeek MoE通过细粒度专家划分将单个专家隐藏层维度缩小至1/4 专家数量增至4倍 使激活组合可能性从120种提升至44亿种量级 [2] - 采用共享专家隔离机制 设置占总专家数1/8的固定共享专家处理公共知识 显著减少不同专家间的知识冗余 [2] 理想VLA核心技术突破 - 需攻克6大关键技术点:MindVLA设计/训练流程 3D空间理解能力获取 驾驶知识语言模型构建 Diffusion融合 车端实时推理实现 [4] - 3D高斯技术通过RGB图像自监督训练 实现多尺度几何表达与丰富语义承载 为3D表征提供核心支持 [4] - 基座模型采用MoE架构和稀疏注意力机制 在扩容参数量的同时控制推理负担 训练数据配比优化减少文史类数据 增加3D及自动驾驶图文数据 [6][7] 模型训练与推理优化 - 引入未来帧预测和稠密深度预测任务 通过快慢思考双系统设计(快思考直接输出action token 慢思考采用固定简短CoT模板)提升实时性 [8] - 创新并行解码机制:语言逻辑采用因果注意力逐字输出 action token通过双向注意力一次性全输出 [8] - 使用小词表和投机推理技术 使CoT效率提升44亿倍量级 实现参数规模与推理性能平衡 [8] Diffusion技术应用 - 将action token解码为驾驶轨迹 同步生成自车轨迹与周边交通参与者轨迹 复杂环境博弈能力提升120% [9] - 采用多层Dit结构支持条件输入改变生成结果(如"开快点"指令响应) 类比图像多风格生成技术 [10] - 使用ODE采样器将Diffusion生成步骤压缩至2-3步 解决传统方法效率低下问题 [11] 强化学习突破 - 构建端到端可训架构 解决早期强化学习中信息传递低效问题 [12] - 通过多视角噪声训练生成模型 联合3D重建优化 创建真实度达标的训练环境 场景建设效率提升20倍 [12] 技术路线演进 - V10-11阶段确实跟随特斯拉技术路线 但V12后自主创新比例显著提升 仅在快系统部分保留特斯拉框架 [13][14] - 慢系统为完全自主创新 特斯拉未涉及该领域 整体技术路线类比"增程式"方案:在算力/数据资源不足条件下实现可用性 [14] - VLM到VLA的演进为公司独立提出的技术路径 非跟随策略 获王兴评价为"真正实现Think Different"的典型案例 [15]
AI原生浪潮冲击下,互联网大厂的组织如何进化?
36氪· 2025-04-11 18:20
AI原生组织的崛起 - AI原生组织(AI Native)将AI内化为产品、服务和业务流程的核心驱动力,而非功能附加 [2] - 核心技术均为自研模型(如OpenAI的GPT、DeepSeek的MoE架构),技术迭代速度远超传统企业,OpenAI从GPT-3到GPT-4仅用两年,研发投入占比高达90%以上 [2] - 产品设计天然依赖AI能力,无法脱离AI独立存在,如Midjourney的生成式图像、Character.AI的角色人格化交互 [3] AI原生组织的核心特征 - 技术原生性:自研模型快速迭代,OpenAI单次训练GPT-4成本超1亿美元,DeepSeek MoE架构将参数价值挖掘效率提升300% [4] - 组织液态化:扁平化、自组织结构,DeepSeek科研背景员工占比超80%,通过"影子组织"打破部门墙 [5] - 极客文化与创始人凝聚力:如OpenAI的Altman与DeepSeek的梁文锋以技术远见凝聚顶尖人才 [6] 互联网大厂的挑战 - 大模型开发落后于AI原生组织,大厂虽资源丰富但缺乏领军人才和极致技术追求 [9] - 用户时间争夺战:AI原生APP月活跃用户突破1.2亿,月人均使用时长133分钟,AIGC领域MAU同比增长244.7% [10] - 智能体领域落后:大厂智能体多局限于垂类场景,消费端突破力不足,如阿里钉钉的AI工单系统 [11] 大厂的应对策略 - 数据深化:将数据规模优势转化为智能优势,如DeepSeek重视数据标注,Grok3受益于SpaceX知识库 [16] - 模型竞合:采用合作与自研双轨策略,如微软130亿美元投资OpenAI并成为其独家云服务提供商 [18] - 组织变革:字节设立虚拟小组提升敏捷性,腾讯调整产品线至CSIG,阿里三年投入3800亿元建设AI基础设施 [19][21][22] 组织效率对比 - 决策周期:大厂需周/月级审批,AI原生组织为分钟级数据驱动 [17] - 创新速度:大厂以周/季为单位迭代,AI原生组织以天为单位微调模型 [17] - 人才结构:大厂支持人员占比高,AI原生组织科学家与技术人员密度高 [17] 未来趋势 - "模型-数据-智能体"解构传统互联网公司的"数据-算法-流量"铁三角 [27] - 组织学习速度成为决胜要素,需快速将技术突破转化为商业闭环 [27] - 大厂面临基因突变挑战,如字节用AI-native人才替代搜推广背景人员 [26]
快看!这就是DeepSeek背后的公司
梧桐树下V· 2025-01-29 11:16
公司基本信息 - 公司全称为杭州深度求索人工智能基础技术研究有限公司,英文名Hangzhou Deep Search Artificial Intelligence Basic Technology Research Co Ltd,成立于2023年7月17日 [2] - 注册资本1000万元且已完成实缴,法定代表人裴湉,注册地址为杭州市拱墅区环城北路169号汇金国际大厦西1幢1201室 [2][3] - 截至2023年底公司社保缴费员工4名,企查查行业分类为信息系统集成服务,规模为微型企业 [2][3] 业务与技术 - 公司专注于通用人工智能模型(AGI)研发,主要产品包括开源大语言模型DeepSeek LLM、MoE模型DeepSeek MoE、代码模型DeepSeek Coder系列、数学模型DeepSeek Math及多模态模型DeepSeek-VL系列 [4] 股权结构与股东 - 股东为宁波程恩企业管理咨询合伙企业(有限合伙)持股99%和梁文锋持股1% [6] - 宁波程恩成立于2023年7月31日,出资额1200万元,其合伙人包括梁文锋(50.10%)、宁波程信柔兆企业管理咨询合伙企业(49.80%)和宁波程普商务咨询有限公司(0.10%) [6][9] - 梁文锋通过多层持股控制宁波程信(68.14%股权)和宁波程普(68.21%注册资本) [6] 关联企业与变更记录 - 宁波程恩、宁波程信、宁波程普均成立于2023年7月下旬,晚于杭州深度求索的成立日期(7月17日),三家企业执行事务合伙人均为梁键 [8][9] - 公司初始为北京深度求索全资子公司,2023年8月2日股权转让给宁波程恩和梁文锋,同日注册资本从100万元增至1000万元 [11] - 北京深度求索成立于2023年5月16日,曾与杭州深度求索形成交叉持股结构(双方互相100%持股),后调整为现有股权架构 [11]