Workflow
大语言模型
icon
搜索文档
月之暗面 MoBA 核心作者自述:一个 “新晋大模型训练师” 的三入思过崖
晚点LatePost· 2025-02-20 22:21
注意力机制优化进展 - Kimi和DeepSeek同日发布注意力机制改进成果MoBA和NSA,均针对Transformer核心组件"注意力机制"进行创新[2] - 标准全注意力机制存在计算复杂度随文本长度平方级增长的问题,成为制约长上下文能力的关键瓶颈[4] - 行业出现两大优化方向:稀疏注意力机制(如NSA/MoBA/InfLLM)和线性注意力机制(如MiniMax-01),前者侧重稳健优化,后者尝试根本性解决计算爆炸问题[5] MoBA技术演进 - 项目始于2023年5月,初始目标为支持16K长度预训练,后升级至128K需求,经历v0.5到v2三次架构迭代[6][12][16] - 关键技术突破包括:采用Online Softmax实现与全注意力机制的可对照调试、解决注意力汇聚点问题、最终形成极简单层稀疏注意力结构[13][16] - 在1M长度测试中达到与全注意力机制持平的性能指标,已部署至Kimi生产环境[20] 行业竞争格局 - 中国头部AI公司密集发布注意力机制创新:MiniMax-01采用线性注意力,面壁智能InfLLM被NSA论文引用[5] - 微软亚研院专家指出稀疏注意力与线性注意力的本质差异:前者保留复杂依赖关系捕捉能力,后者可能牺牲部分长程关联性[5] - 清华大学团队证实NSA和MoBA均采用动态注意力选择机制,相比静态方法显著提升模型性能[5] 工程实现细节 - MoBA开源代码已在GitHub发布,包含完整工程实现与技术论文,实际经过1年多线上验证[6][25] - 解码阶段对MHA效果最佳(IO优化达理论最大值),但对GQA/MQA效果递减[22] - Triton实现版本曾获得10%+性能提升,但因维护成本过高暂未持续优化[24] 研发方法论 - 采用"饱和救援"模式推进技术攻坚,整合跨团队资源进行多轮消融实验[15][19] - 通过"思过崖"机制实现快速试错与迭代,三次关键架构调整分别解决参数膨胀、训练不稳定和SFT效率问题[8][13][19] - 最终方案保留数学严谨性(支持全注意力模式对照)与工程实用性(单机/分布式兼容)的双重优势[16][20]
GenAI 内存解决方案第 5 部分:DeepSeek 在芯片领域的高光时刻
Counterpoint Research· 2025-02-19 17:46
DeepSeek大语言模型 - DeepSeek的LLM性能接近ChatGPT但成本大幅降低 训练效率与低成本优势显著 政府支持部分数据训练成本如数据标注和归类 [2] 中国存储芯片成本竞争力 - 中国存储芯片在政府支持下已具备成本竞争力 2024Q1 DRAM每Gb价格为$0.34 韩国DRAM总成本占售价67%约$0.23 中国不计固定成本可能低至$0.20 [4] - 中国固定成本远高于韩国 但通过规模优势弥补性能差距 华为Ascend 920 GPU支持HBM2/HBM2e而非最新HBM3/HBM3e 在部分推理领域仍具竞争力 [4] 中国半导体设备进展 - 北方华创低温刻蚀机已为长江存储投入量产 设备是三大要素中的关键瓶颈 中国在HBM等新产品供应链布局全面 2025-2026年是竞争格局关键时期 [4]
李彦宏:创新的本质是成本下降与生产力提升,百度将持续投入AI基础设施
IPO早知道· 2025-02-13 22:48
AI基础设施投入与创新趋势 - 公司强调需持续投入芯片、数据中心和云基础设施以保持在技术创新最前沿[2][3] - 大模型推理成本正以每年超90%的速度降低 远快于摩尔定律描述的每18个月性能翻倍、价格减半的速度[3][5] - 创新的本质与成本下降和生产力提升紧密相关 成本降低一定比例可带来同比例的生产力提高[3][5] 自动驾驶技术进展 - 公司自动驾驶技术比人类驾驶安全10倍 Robotaxi可显著降低交通事故死亡率[3] - 萝卜快跑在中国复杂路况下的实际出险率仅为人类驾驶员的1/14[3] - 萝卜快跑累计行驶里程已超过1.3亿公里[4] 大模型产品动态与用户规模 - 文心一言将于4月1日0时起全面免费 用户可体验最新模型及超长文档处理、高级AI绘画等功能[6] - 文心一言上线深度搜索功能 具备更强思考规划和工具调用能力 支持多模态输入与输出[7] - 截至2024年11月 文心一言用户规模达4.3亿 文心大模型日均调用量超15亿次 较2023年增长超30倍[7] 下一代模型发展与行业前景 - 公司计划在下半年发布下一代AI模型Ernie 5.0 其多模态能力将有重大增强[9] - 技术快速进步和成本降低迫使持续投资 探索不同技术路径可能需花费数十亿美元[9] - 当前大模型已在ToB场景创造价值 客户成本从不到1万美元降至约1000美元 但ToC领域尚未出现日活数亿、用户时长超两小时的超级应用[9][10]
互联网平台涉税新规草案公布;ChatGPT早期奠基者全部离开;耐克营收全线下滑,打算重新聚焦“运动”丨百亿美元公司动向
晚点LatePost· 2024-12-20 23:54
政治与科技人物动态 - 三位共和党议员提议埃隆·马斯克担任众议院议长 该职位拥有实权且为美国总统第二顺位继承人 但马斯克因非美国原生公民无法担任总统 [1] - 马斯克在社交媒体发布20多条帖子批评美国国会临时拨款法案 包括反对国会议员加薪 若法案未通过将导致政府停摆 [1] OpenAI人才与技术动态 - OpenAI早期奠基者阿列克·拉德福德离职 参与GPT-1到GPT-4o研发 最早将Transformer架构用于大规模语言训练的研究者之一 [2] - 随着拉德福德离职 前两代GPT论文作者已全部离开OpenAI 反映公司进入创业公司必经的人才流动阶段 [2] - OpenAI推出Mac版ChatGPT与Warp、XCode等应用打通 但该功能在11月已介绍过非全新 [3] - OpenAI发布活动即将结束 从业者猜测可能发布GPT 4.5、Agent应用或"tasks"功能 [4] 科技行业竞争 - Google发布Gemini 2.0 Flash Thinking模型 注重推理能力 对标OpenAI的o1模型 声称回答问题更快 [3] 奢侈品与运动品牌业绩 - Nike最新财季营收124亿美元同比下滑8% 全渠道业绩下滑 新CEO批评公司"失去对运动的痴迷" 将重新聚焦运动差异化 [5] - Gucci母公司开云集团考虑为地产业务再融资但否认分拆上市 前九个月营收128亿欧元同比下降12% 预计年底净负债达110亿欧元 [6] 餐饮与汽车行业 - 新徽菜品牌小菜园港交所上市首日股价上涨13.65%至9.66港元/股 市值113.65亿港元 前八个月营收35.4亿元同比增长15.3% [7] - 极越汽车数百名离职员工在总部墙壁签名维权 标语被改为"中国智能汽车维权史" [8] - 一汽集团启动涉及30多位高管的人事调整 涵盖一汽-大众、一汽解放、一汽奥迪等子公司 [11] 互联网与电商 - 小红书大面积封禁账号 主要针对低质营销和违规引流 封号话题登顶微博热搜 [12][13] - 中国公布互联网平台涉税新规草案 要求按季报送平台内经营者及从业人员身份与收入信息 但不追溯存量收入 [14] - 印度外卖平台Zomato、Swiggy等推出10分钟内超快配送服务 去年印度线上食品消费占比仅11% 远低于美国的58%和中国的40% [15] 国际贸易政策 - 德国总理朔尔茨批评欧盟对中国纯电动车加征关税 呼吁通过谈判解决 并提议建立欧盟电动车推广计划 [10]
起底 OpenAI 核心班底,600 多人和他们塑造的 AI 格局
晚点LatePost· 2024-12-04 22:52
公司业绩与增长策略 - ChatGPT上线两年实现每周2.5亿用户,与抖音并列最快达到此规模的产品,且基本未进行买量推广 [3] - 公司两年带来37亿美元收入,公司估值达1570亿美元,远超Google、Facebook同期水平及拼多多上市时情况 [3] - 当前经营效率较低,年收入37亿美元对应近90亿美元支出,每花2.4元收回1元,效率与WeWork、商汤级别相当 [4] - 公司计划通过激进增长解决盈利问题,预计到2026年以400亿美元支出换取260亿美元营收,到2029年以1000亿美元支出实现盈利 [4] - 首席执行官山姆·阿尔特曼提出宏大投资计划,包括耗资1000亿美元建数据中心,装200万AI芯片,耗电5吉瓦相当于400多万美国家庭年用电量 [8] 组织架构与人才流动 - 公司从非营利转向营利实体解决了资本问题但触发了人的问题,组织动荡和人才流失持续发生 [8] - 为GPT系列模型打下基础的早期研究人员中有三分之二已离开公司,截至10月,583位贡献者名单中的80人已离职,包括20多位创始团队成员和中高层 [11] - 人才流失与融资活动相关,2020年初引入微软10亿美元投资后,GPT-3的30位论文作者中有8位离职创办Anthropic [15] - 2023年11月公司发生董事会动荡,阿尔特曼被驱逐五天后重返,首席科学家伊尔亚·苏茨克维于2024年5月离职,引发又一批在意安全的贡献者离开 [15] - 公司吸引人才方式转变,2023年初给应届博士毕业生开出80万美元年薪,资深研究者年薪可达数百万美元,与Google、Meta竞争人才 [20] 研发团队构成演变 - 完整参与GPT-1到GPT-o1研发的仅苏茨克维一人,其离职后仅有阿列克·拉德福德等极少数元老拥有从早期模型到最新模型的完整研发经验 [20] - GPT-4o、o1两代模型的核心贡献者共390人,超过70%在ChatGPT发布后加入公司,新员工塑造了新的OpenAI [21] - 新贡献者主要来自大型科技公司,54%曾在美国七大科技公司工作,其中Google和Meta是最大人才来源,分别输送119人和103人,合计占近四成 [29][32] - Y Combinator系公司是第三大人才来源,Stripe、Dropbox等公司共输送59人,这些公司价值观与阿尔特曼相近,信奉增长高于一切 [32] - 贡献者教育背景高度集中在顶级高校,斯坦福大学、加州伯克利、MIT毕业生占三成,中国清北高校毕业生有20多人 [34] 管理层变革与战略转向 - 阿尔特曼自担任CEO后按照自身设想改造公司,2020年任命首位产品副总裁推动GPT-3 API产品化,并从Facebook挖来政策负责人 [41] - ChatGPT发布并获得微软百亿美元投资后,阿尔特曼进一步提升产品与商业化地位,半年内挖来3位副总裁 [42] - 2023年11月董事会风波后,阿尔特曼全面掌控公司,2024年进入高管大规模清洗期,同时从外部引入首席产品官、首席财务官等关键职位 [43] - 公司职能结构发生显著变化,2023年产品相关职能人数跃升至第二位,显示业务重心从纯技术研究向产品化、商业化倾斜 [47][48] - 公司明确将Agent(智能体)视为明年最重要事项,目前至少3个相关产品在开发,但在此领域已慢于由前员工创办的Anthropic [49] 行业影响与竞争格局 - ChatGPT的出现维持了全球AI投资热度,两年间1320亿美元资金涌入AI领域,平均每个季度催生6个独角兽公司 [50] - 离职员工建成一个AI创业生态,69位有明确去向的贡献者中超过一半重新创业或加入AI创业公司,Anthropic是主要聚集地 [54] - 前员工创办的公司已成为OpenAI强劲对手,非营利机构MERT报告显示Anthropic的Claude Sonnet 3.5在多个问题上表现超过OpenAI最先进模型o1-preview [61] - 公司估值在两年内从不足200亿美元蹿升至1570亿美元,成为世界第三大超级独角兽,仅次于字节跳动和SpaceX [50]
对话宇树科技王兴兴,造出 9.9 万元人形机器人的 90 后偏才
晚点LatePost· 2024-05-15 22:45
公司发展历程 - 2016年创办宇树科技,自主研发机器狗中大多数零部件如电机、3D激光雷达等,累计融资超10亿元[7][9] - 2023年8月发布首款人形机器人H1,售价9万美元,采用简易设计但稳定性强,吸引OpenAI等机构购买[2][4] - 2024年5月发布升级版人形机器人G1,价格降至9.9万元人民币(降幅超80%),新增灵巧手和360°旋转能力[4][24] 产品技术特点 - 人形机器人技术源自四足机器人经验,控制算法复用率达80%以上,仅用3名全职员工6个月完成H1开发[11][12][15] - 自主研发关节电机和灵巧手(3指设计),G1可完成鲤鱼打挺、舞棍等高难度动作,抗打击测试表现突出[4][20][23] - 成本控制核心在于设计优化而非量产,通过材料替代、结构简化使G1成本较H1降低80%[24][25][29] 创始人特质 - 创始人王兴兴本科毕业于浙江理工大学,硕士期间自研低成本机器狗XDog(研发成本1-2万元),早于MIT开源方案3年[7][50][52] - 强调"24小时思考"的研发方法论,拥有20余年机械设计经验,擅长跨领域技术整合[9][55][56] - 创业初期获200万元天使投资,现公司估值超10亿元,成为四足机器人行业头部企业[7][9][56] 行业认知 - 人形机器人热潮受AI技术进步驱动,预计3-5年内实现AI与机器人深度结合的技术临界点[37][38] - 当前机器人硬件发展滞后AI约10年,行业面临人才短缺和技术方案未跑通的挑战[37] - 机器人形态未必局限于"人形",未来核心在于通用智能而非外形模仿[33][36] 商业化策略 - 机器狗产品覆盖消费娱乐(售价最低9000元)、科研教育、工业巡检三大市场,累计出货量行业领先[69][75] - 采用垂直整合模式,自研电机、驱动器、锂电池等核心部件,拥有自有工厂[30] - 定价策略强调"理性商业利润",通过迭代旧款产品覆盖不同价格带(参考苹果策略)[24][70]
晚点独家丨蚂蚁投资视频生成模型公司爱诗科技;奈雪投资人加入茶颜悦色
晚点LatePost· 2024-04-23 19:12
蚂蚁集团投资爱诗科技 - 蚂蚁集团近期独家投资爱诗科技A2轮,金额超1亿元人民币,布局视频生成大模型领域[3] - 爱诗科技成立于2023年4月,团队约30人,创始人王长虎曾任字节跳动视觉技术负责人[3] - 公司采用DiT架构(与Sora相同技术路线),2023年6月开始尝试该技术[4] - 已推出视频生成产品PixVerse,支持文字/图片生成4秒视频[4] 视频生成行业竞争格局 - PixVerse上线3个月月访问量达115万,同期Pika为226万,Runway达668万(网页端)[5] - PixVerse跳出率33.02%,显著低于Pika(44.26%)和Runway(44.82%)[6] - 用户平均停留时间10分51秒,远超Pika(5分43秒)和Runway(4分8秒)[6] - 行业主流产品视频时长集中在4-7秒,Sora可达60秒[9] 技术发展路径 - 15秒视频被视为关键节点,需突破物理规律模拟和画面一致性技术[9] - 大语言模型能力被视为视频模型基础,GPT-4V支撑了Sora表现[10] - Sora未开放或因成本高(生成60秒视频需20-30分钟)和质量稳定性问题[10] 茶颜悦色战略调整 - 原天图资本合伙人潘攀加入任战略负责人,曾主导投资百果园(回报1.29倍)、奈雪(回报9倍)[10] - 公司目前拥有600+直营门店,2022年起加速扩张并推出4个子品牌[10] - 对比竞品霸王茶姬采用加盟模式已开4150家国内门店及100+海外门店[10] - 全公司员工超6500人,过去一年部分部门扩招30%[11] - 正筹备香港IPO,已选定中金和大摩为保荐人,拟募资数亿美元[11]