Workflow
DeepSeek MoE
icon
搜索文档
理想的VLA可以类比DeepSeek的MoE
理想TOP2· 2025-06-08 12:24
理想VLA与DeepSeek MoE技术类比 - VLA和MoE均为首次完整落地到新领域并取得良好结果 均包含大量创新 但两者在具体实现方式上存在显著差异 [2] - DeepSeek MoE通过细粒度专家划分将单个专家隐藏层维度缩小至1/4 专家数量增至4倍 使激活组合可能性从120种提升至44亿种量级 [2] - 采用共享专家隔离机制 设置占总专家数1/8的固定共享专家处理公共知识 显著减少不同专家间的知识冗余 [2] 理想VLA核心技术突破 - 需攻克6大关键技术点:MindVLA设计/训练流程 3D空间理解能力获取 驾驶知识语言模型构建 Diffusion融合 车端实时推理实现 [4] - 3D高斯技术通过RGB图像自监督训练 实现多尺度几何表达与丰富语义承载 为3D表征提供核心支持 [4] - 基座模型采用MoE架构和稀疏注意力机制 在扩容参数量的同时控制推理负担 训练数据配比优化减少文史类数据 增加3D及自动驾驶图文数据 [6][7] 模型训练与推理优化 - 引入未来帧预测和稠密深度预测任务 通过快慢思考双系统设计(快思考直接输出action token 慢思考采用固定简短CoT模板)提升实时性 [8] - 创新并行解码机制:语言逻辑采用因果注意力逐字输出 action token通过双向注意力一次性全输出 [8] - 使用小词表和投机推理技术 使CoT效率提升44亿倍量级 实现参数规模与推理性能平衡 [8] Diffusion技术应用 - 将action token解码为驾驶轨迹 同步生成自车轨迹与周边交通参与者轨迹 复杂环境博弈能力提升120% [9] - 采用多层Dit结构支持条件输入改变生成结果(如"开快点"指令响应) 类比图像多风格生成技术 [10] - 使用ODE采样器将Diffusion生成步骤压缩至2-3步 解决传统方法效率低下问题 [11] 强化学习突破 - 构建端到端可训架构 解决早期强化学习中信息传递低效问题 [12] - 通过多视角噪声训练生成模型 联合3D重建优化 创建真实度达标的训练环境 场景建设效率提升20倍 [12] 技术路线演进 - V10-11阶段确实跟随特斯拉技术路线 但V12后自主创新比例显著提升 仅在快系统部分保留特斯拉框架 [13][14] - 慢系统为完全自主创新 特斯拉未涉及该领域 整体技术路线类比"增程式"方案:在算力/数据资源不足条件下实现可用性 [14] - VLM到VLA的演进为公司独立提出的技术路径 非跟随策略 获王兴评价为"真正实现Think Different"的典型案例 [15]
AI原生浪潮冲击下,互联网大厂的组织如何进化?
36氪· 2025-04-11 18:20
AI原生组织的崛起 - AI原生组织(AI Native)将AI内化为产品、服务和业务流程的核心驱动力,而非功能附加 [2] - 核心技术均为自研模型(如OpenAI的GPT、DeepSeek的MoE架构),技术迭代速度远超传统企业,OpenAI从GPT-3到GPT-4仅用两年,研发投入占比高达90%以上 [2] - 产品设计天然依赖AI能力,无法脱离AI独立存在,如Midjourney的生成式图像、Character.AI的角色人格化交互 [3] AI原生组织的核心特征 - 技术原生性:自研模型快速迭代,OpenAI单次训练GPT-4成本超1亿美元,DeepSeek MoE架构将参数价值挖掘效率提升300% [4] - 组织液态化:扁平化、自组织结构,DeepSeek科研背景员工占比超80%,通过"影子组织"打破部门墙 [5] - 极客文化与创始人凝聚力:如OpenAI的Altman与DeepSeek的梁文锋以技术远见凝聚顶尖人才 [6] 互联网大厂的挑战 - 大模型开发落后于AI原生组织,大厂虽资源丰富但缺乏领军人才和极致技术追求 [9] - 用户时间争夺战:AI原生APP月活跃用户突破1.2亿,月人均使用时长133分钟,AIGC领域MAU同比增长244.7% [10] - 智能体领域落后:大厂智能体多局限于垂类场景,消费端突破力不足,如阿里钉钉的AI工单系统 [11] 大厂的应对策略 - 数据深化:将数据规模优势转化为智能优势,如DeepSeek重视数据标注,Grok3受益于SpaceX知识库 [16] - 模型竞合:采用合作与自研双轨策略,如微软130亿美元投资OpenAI并成为其独家云服务提供商 [18] - 组织变革:字节设立虚拟小组提升敏捷性,腾讯调整产品线至CSIG,阿里三年投入3800亿元建设AI基础设施 [19][21][22] 组织效率对比 - 决策周期:大厂需周/月级审批,AI原生组织为分钟级数据驱动 [17] - 创新速度:大厂以周/季为单位迭代,AI原生组织以天为单位微调模型 [17] - 人才结构:大厂支持人员占比高,AI原生组织科学家与技术人员密度高 [17] 未来趋势 - "模型-数据-智能体"解构传统互联网公司的"数据-算法-流量"铁三角 [27] - 组织学习速度成为决胜要素,需快速将技术突破转化为商业闭环 [27] - 大厂面临基因突变挑战,如字节用AI-native人才替代搜推广背景人员 [26]
快看!这就是DeepSeek背后的公司
梧桐树下V· 2025-01-29 11:16
| © 企查查 企业主页 | | --- | | 杭州深度求索人工智能基础技术研 存续 | | 究有限公司 | | 21万+ 91330105MACPN4X08Y ¥ 发票抬头 | | 简介:DeepSeek成立于2023年,是一家通用人工智能模... 展开 | | 法定代表人 注册资本 成立日期 | | 製作 1000万元 2023-07-17 | | 企查查行业 规模 品丁 2023年 | | 信息系统集成服务 微型 XS 4人 | | & 0571-85377238 | | 9 浙江省杭州市拱墅区环城北路169号汇金国际大厦西1幢120 | | 1室 | | 宁波程图个业管理 | | 梁文章 服 咨询合伙 ... 大股东 | | 东 | | 持股比例 99.00% 持股比例 1.00% 2 | | 投资企业2家 关联企业15家 2 | | 裴活 王南军 | | 퀘 + 등 执行董事兼. 监事 | | 2 关联企业3家 关联企业2家 | 文/梧桐晓驴 DeepSeek爆火,晓驴好奇地去查了一下开发、运营DeepSeek的公司情况。 "企查查"显示:杭州深度求索人工智能基础技术研究有限公司,英文名Hangz ...