大语言模型 - 财报，业绩电话会，研报，新闻

大语言模型

搜索文档

晚点LatePost· 2025-02-20 22:21

注意力机制优化进展 - Kimi和DeepSeek同日发布注意力机制改进成果MoBA和NSA，均针对Transformer核心组件"注意力机制"进行创新[2] - 标准全注意力机制存在计算复杂度随文本长度平方级增长的问题，成为制约长上下文能力的关键瓶颈[4] - 行业出现两大优化方向：稀疏注意力机制（如NSA/MoBA/InfLLM）和线性注意力机制（如MiniMax-01），前者侧重稳健优化，后者尝试根本性解决计算爆炸问题[5] MoBA技术演进 - 项目始于2023年5月，初始目标为支持16K长度预训练，后升级至128K需求，经历v0.5到v2三次架构迭代[6][12][16] - 关键技术突破包括：采用Online Softmax实现与全注意力机制的可对照调试、解决注意力汇聚点问题、最终形成极简单层稀疏注意力结构[13][16] - 在1M长度测试中达到与全注意力机制持平的性能指标，已部署至Kimi生产环境[20] 行业竞争格局 - 中国头部AI公司密集发布注意力机制创新：MiniMax-01采用线性注意力，面壁智能InfLLM被NSA论文引用[5] - 微软亚研院专家指出稀疏注意力与线性注意力的本质差异：前者保留复杂依赖关系捕捉能力，后者可能牺牲部分长程关联性[5] - 清华大学团队证实NSA和MoBA均采用动态注意力选择机制，相比静态方法显著提升模型性能[5] 工程实现细节 - MoBA开源代码已在GitHub发布，包含完整工程实现与技术论文，实际经过1年多线上验证[6][25] - 解码阶段对MHA效果最佳（IO优化达理论最大值），但对GQA/MQA效果递减[22] - Triton实现版本曾获得10%+性能提升，但因维护成本过高暂未持续优化[24] 研发方法论 - 采用"饱和救援"模式推进技术攻坚，整合跨团队资源进行多轮消融实验[15][19] - 通过"思过崖"机制实现快速试错与迭代，三次关键架构调整分别解决参数膨胀、训练不稳定和SFT效率问题[8][13][19] - 最终方案保留数学严谨性（支持全注意力模式对照）与工程实用性（单机/分布式兼容）的双重优势[16][20]

Artificial Intelligence

Artificial Intelligence

MoBA

GenAI 内存解决方案第 5 部分：DeepSeek 在芯片领域的高光时刻

Counterpoint Research· 2025-02-19 17:46

DeepSeek大语言模型 - DeepSeek的LLM性能接近ChatGPT但成本大幅降低训练效率与低成本优势显著政府支持部分数据训练成本如数据标注和归类 [2] 中国存储芯片成本竞争力 - 中国存储芯片在政府支持下已具备成本竞争力 2024Q1 DRAM每Gb价格为$0.34 韩国DRAM总成本占售价67%约$0.23 中国不计固定成本可能低至$0.20 [4] - 中国固定成本远高于韩国但通过规模优势弥补性能差距华为Ascend 920 GPU支持HBM2/HBM2e而非最新HBM3/HBM3e 在部分推理领域仍具竞争力 [4] 中国半导体设备进展 - 北方华创低温刻蚀机已为长江存储投入量产设备是三大要素中的关键瓶颈中国在HBM等新产品供应链布局全面 2025-2026年是竞争格局关键时期 [4]

李彦宏：创新的本质是成本下降与生产力提升，百度将持续投入AI基础设施

IPO早知道· 2025-02-13 22:48

AI基础设施投入与创新趋势 - 公司强调需持续投入芯片、数据中心和云基础设施以保持在技术创新最前沿[2][3] - 大模型推理成本正以每年超90%的速度降低远快于摩尔定律描述的每18个月性能翻倍、价格减半的速度[3][5] - 创新的本质与成本下降和生产力提升紧密相关成本降低一定比例可带来同比例的生产力提高[3][5] 自动驾驶技术进展 - 公司自动驾驶技术比人类驾驶安全10倍 Robotaxi可显著降低交通事故死亡率[3] - 萝卜快跑在中国复杂路况下的实际出险率仅为人类驾驶员的1/14[3] - 萝卜快跑累计行驶里程已超过1.3亿公里[4] 大模型产品动态与用户规模 - 文心一言将于4月1日0时起全面免费用户可体验最新模型及超长文档处理、高级AI绘画等功能[6] - 文心一言上线深度搜索功能具备更强思考规划和工具调用能力支持多模态输入与输出[7] - 截至2024年11月文心一言用户规模达4.3亿文心大模型日均调用量超15亿次较2023年增长超30倍[7] 下一代模型发展与行业前景 - 公司计划在下半年发布下一代AI模型Ernie 5.0 其多模态能力将有重大增强[9] - 技术快速进步和成本降低迫使持续投资探索不同技术路径可能需花费数十亿美元[9] - 当前大模型已在ToB场景创造价值客户成本从不到1万美元降至约1000美元但ToC领域尚未出现日活数亿、用户时长超两小时的超级应用[9][10]

Artificial Intelligence

Artificial Intelligence

互联网平台涉税新规草案公布；ChatGPT早期奠基者全部离开；耐克营收全线下滑，打算重新聚焦“运动”丨百亿美元公司动向

晚点LatePost· 2024-12-20 23:54

政治与科技人物动态 - 三位共和党议员提议埃隆·马斯克担任众议院议长该职位拥有实权且为美国总统第二顺位继承人但马斯克因非美国原生公民无法担任总统 [1] - 马斯克在社交媒体发布20多条帖子批评美国国会临时拨款法案包括反对国会议员加薪若法案未通过将导致政府停摆 [1] OpenAI人才与技术动态 - OpenAI早期奠基者阿列克·拉德福德离职参与GPT-1到GPT-4o研发最早将Transformer架构用于大规模语言训练的研究者之一 [2] - 随着拉德福德离职前两代GPT论文作者已全部离开OpenAI 反映公司进入创业公司必经的人才流动阶段 [2] - OpenAI推出Mac版ChatGPT与Warp、XCode等应用打通但该功能在11月已介绍过非全新 [3] - OpenAI发布活动即将结束从业者猜测可能发布GPT 4.5、Agent应用或"tasks"功能 [4] 科技行业竞争 - Google发布Gemini 2.0 Flash Thinking模型注重推理能力对标OpenAI的o1模型声称回答问题更快 [3] 奢侈品与运动品牌业绩 - Nike最新财季营收124亿美元同比下滑8% 全渠道业绩下滑新CEO批评公司"失去对运动的痴迷" 将重新聚焦运动差异化 [5] - Gucci母公司开云集团考虑为地产业务再融资但否认分拆上市前九个月营收128亿欧元同比下降12% 预计年底净负债达110亿欧元 [6] 餐饮与汽车行业 - 新徽菜品牌小菜园港交所上市首日股价上涨13.65%至9.66港元/股市值113.65亿港元前八个月营收35.4亿元同比增长15.3% [7] - 极越汽车数百名离职员工在总部墙壁签名维权标语被改为"中国智能汽车维权史" [8] - 一汽集团启动涉及30多位高管的人事调整涵盖一汽-大众、一汽解放、一汽奥迪等子公司 [11] 互联网与电商 - 小红书大面积封禁账号主要针对低质营销和违规引流封号话题登顶微博热搜 [12][13] - 中国公布互联网平台涉税新规草案要求按季报送平台内经营者及从业人员身份与收入信息但不追溯存量收入 [14] - 印度外卖平台Zomato、Swiggy等推出10分钟内超快配送服务去年印度线上食品消费占比仅11% 远低于美国的58%和中国的40% [15] 国际贸易政策 - 德国总理朔尔茨批评欧盟对中国纯电动车加征关税呼吁通过谈判解决并提议建立欧盟电动车推广计划 [10]

起底 OpenAI 核心班底，600 多人和他们塑造的 AI 格局

晚点LatePost· 2024-12-04 22:52

公司业绩与增长策略 - ChatGPT上线两年实现每周2.5亿用户，与抖音并列最快达到此规模的产品，且基本未进行买量推广 [3] - 公司两年带来37亿美元收入，公司估值达1570亿美元，远超Google、Facebook同期水平及拼多多上市时情况 [3] - 当前经营效率较低，年收入37亿美元对应近90亿美元支出，每花2.4元收回1元，效率与WeWork、商汤级别相当 [4] - 公司计划通过激进增长解决盈利问题，预计到2026年以400亿美元支出换取260亿美元营收，到2029年以1000亿美元支出实现盈利 [4] - 首席执行官山姆·阿尔特曼提出宏大投资计划，包括耗资1000亿美元建数据中心，装200万AI芯片，耗电5吉瓦相当于400多万美国家庭年用电量 [8] 组织架构与人才流动 - 公司从非营利转向营利实体解决了资本问题但触发了人的问题，组织动荡和人才流失持续发生 [8] - 为GPT系列模型打下基础的早期研究人员中有三分之二已离开公司，截至10月，583位贡献者名单中的80人已离职，包括20多位创始团队成员和中高层 [11] - 人才流失与融资活动相关，2020年初引入微软10亿美元投资后，GPT-3的30位论文作者中有8位离职创办Anthropic [15] - 2023年11月公司发生董事会动荡，阿尔特曼被驱逐五天后重返，首席科学家伊尔亚·苏茨克维于2024年5月离职，引发又一批在意安全的贡献者离开 [15] - 公司吸引人才方式转变，2023年初给应届博士毕业生开出80万美元年薪，资深研究者年薪可达数百万美元，与Google、Meta竞争人才 [20] 研发团队构成演变 - 完整参与GPT-1到GPT-o1研发的仅苏茨克维一人，其离职后仅有阿列克·拉德福德等极少数元老拥有从早期模型到最新模型的完整研发经验 [20] - GPT-4o、o1两代模型的核心贡献者共390人，超过70%在ChatGPT发布后加入公司，新员工塑造了新的OpenAI [21] - 新贡献者主要来自大型科技公司，54%曾在美国七大科技公司工作，其中Google和Meta是最大人才来源，分别输送119人和103人，合计占近四成 [29][32] - Y Combinator系公司是第三大人才来源，Stripe、Dropbox等公司共输送59人，这些公司价值观与阿尔特曼相近，信奉增长高于一切 [32] - 贡献者教育背景高度集中在顶级高校，斯坦福大学、加州伯克利、MIT毕业生占三成，中国清北高校毕业生有20多人 [34] 管理层变革与战略转向 - 阿尔特曼自担任CEO后按照自身设想改造公司，2020年任命首位产品副总裁推动GPT-3 API产品化，并从Facebook挖来政策负责人 [41] - ChatGPT发布并获得微软百亿美元投资后，阿尔特曼进一步提升产品与商业化地位，半年内挖来3位副总裁 [42] - 2023年11月董事会风波后，阿尔特曼全面掌控公司，2024年进入高管大规模清洗期，同时从外部引入首席产品官、首席财务官等关键职位 [43] - 公司职能结构发生显著变化，2023年产品相关职能人数跃升至第二位，显示业务重心从纯技术研究向产品化、商业化倾斜 [47][48] - 公司明确将Agent（智能体）视为明年最重要事项，目前至少3个相关产品在开发，但在此领域已慢于由前员工创办的Anthropic [49] 行业影响与竞争格局 - ChatGPT的出现维持了全球AI投资热度，两年间1320亿美元资金涌入AI领域，平均每个季度催生6个独角兽公司 [50] - 离职员工建成一个AI创业生态，69位有明确去向的贡献者中超过一半重新创业或加入AI创业公司，Anthropic是主要聚集地 [54] - 前员工创办的公司已成为OpenAI强劲对手，非营利机构MERT报告显示Anthropic的Claude Sonnet 3.5在多个问题上表现超过OpenAI最先进模型o1-preview [61] - 公司估值在两年内从不足200亿美元蹿升至1570亿美元，成为世界第三大超级独角兽，仅次于字节跳动和SpaceX [50]

Artificial Intelligence

大语言模型

Artificial Intelligence

ChatGPT

GPT-o1

GPT-4

Artificial Intelligence

大语言模型

Artificial Intelligence

ChatGPT

GPT-o1

GPT-4

对话宇树科技王兴兴，造出 9.9 万元人形机器人的 90 后偏才

晚点LatePost· 2024-05-15 22:45

公司发展历程 - 2016年创办宇树科技，自主研发机器狗中大多数零部件如电机、3D激光雷达等，累计融资超10亿元[7][9] - 2023年8月发布首款人形机器人H1，售价9万美元，采用简易设计但稳定性强，吸引OpenAI等机构购买[2][4] - 2024年5月发布升级版人形机器人G1，价格降至9.9万元人民币（降幅超80%），新增灵巧手和360°旋转能力[4][24] 产品技术特点 - 人形机器人技术源自四足机器人经验，控制算法复用率达80%以上，仅用3名全职员工6个月完成H1开发[11][12][15] - 自主研发关节电机和灵巧手（3指设计），G1可完成鲤鱼打挺、舞棍等高难度动作，抗打击测试表现突出[4][20][23] - 成本控制核心在于设计优化而非量产，通过材料替代、结构简化使G1成本较H1降低80%[24][25][29] 创始人特质 - 创始人王兴兴本科毕业于浙江理工大学，硕士期间自研低成本机器狗XDog（研发成本1-2万元），早于MIT开源方案3年[7][50][52] - 强调"24小时思考"的研发方法论，拥有20余年机械设计经验，擅长跨领域技术整合[9][55][56] - 创业初期获200万元天使投资，现公司估值超10亿元，成为四足机器人行业头部企业[7][9][56] 行业认知 - 人形机器人热潮受AI技术进步驱动，预计3-5年内实现AI与机器人深度结合的技术临界点[37][38] - 当前机器人硬件发展滞后AI约10年，行业面临人才短缺和技术方案未跑通的挑战[37] - 机器人形态未必局限于"人形"，未来核心在于通用智能而非外形模仿[33][36] 商业化策略 - 机器狗产品覆盖消费娱乐（售价最低9000元）、科研教育、工业巡检三大市场，累计出货量行业领先[69][75] - 采用垂直整合模式，自研电机、驱动器、锂电池等核心部件，拥有自有工厂[30] - 定价策略强调"理性商业利润"，通过迭代旧款产品覆盖不同价格带（参考苹果策略）[24][70]

晚点独家丨蚂蚁投资视频生成模型公司爱诗科技；奈雪投资人加入茶颜悦色

晚点LatePost· 2024-04-23 19:12

蚂蚁集团投资爱诗科技 - 蚂蚁集团近期独家投资爱诗科技A2轮，金额超1亿元人民币，布局视频生成大模型领域[3] - 爱诗科技成立于2023年4月，团队约30人，创始人王长虎曾任字节跳动视觉技术负责人[3] - 公司采用DiT架构（与Sora相同技术路线），2023年6月开始尝试该技术[4] - 已推出视频生成产品PixVerse，支持文字/图片生成4秒视频[4] 视频生成行业竞争格局 - PixVerse上线3个月月访问量达115万，同期Pika为226万，Runway达668万（网页端）[5] - PixVerse跳出率33.02%，显著低于Pika（44.26%）和Runway（44.82%）[6] - 用户平均停留时间10分51秒，远超Pika（5分43秒）和Runway（4分8秒）[6] - 行业主流产品视频时长集中在4-7秒，Sora可达60秒[9] 技术发展路径 - 15秒视频被视为关键节点，需突破物理规律模拟和画面一致性技术[9] - 大语言模型能力被视为视频模型基础，GPT-4V支撑了Sora表现[10] - Sora未开放或因成本高（生成60秒视频需20-30分钟）和质量稳定性问题[10] 茶颜悦色战略调整 - 原天图资本合伙人潘攀加入任战略负责人，曾主导投资百果园（回报1.29倍）、奈雪（回报9倍）[10] - 公司目前拥有600+直营门店，2022年起加速扩张并推出4个子品牌[10] - 对比竞品霸王茶姬采用加盟模式已开4150家国内门店及100+海外门店[10] - 全公司员工超6500人，过去一年部分部门扩招30%[11] - 正筹备香港IPO，已选定中金和大摩为保荐人，拟募资数亿美元[11]

视频生成模型

大语言模型

Artificial Intelligence

Artificial Intelligence