Workflow
晚点LatePost
icon
搜索文档
特朗普或将延长TikTok出售期限;贝壳将被调入港股通;拉里·佩奇成立人工智能初创公司丨百亿美元公司动向
晚点LatePost· 2025-03-08 20:17
TikTok出售进展 - 特朗普可能延长TikTok出售期限至4月5日之后,此前法案要求1月19日前完成交易[1] - TikTok美国业务可能成立合资企业,美国持有50%股份[1] - 目前至少两支竞购团队:Frank McCourt团队(含Reddit联创)和Jesse Tinsley团队(含Mr Beast)[1] 贝壳港股通调入 - 贝壳将于3月10日被调入港股通,符合恒生综合指数大型股标准[2] - 作为同股不同权公司,贝壳需满足183个交易日日均市值不低于200亿港元(实际市值2200亿港元)[2] 人工智能与制造业 - Google联创拉里·佩奇成立Dynatomics公司,开发AI驱动的制造业设计转化系统[3] - 项目由电动飞机企业Kittyhawk前CTO Chris Anderson负责[3] - AI技术可能解决制造业数字化改造的历史难题[3] 汽车关税动态 - 宝马10%在美销售车辆来自墨西哥,不符合USMCA规定可能面临高额关税[4][5] - 大众汽车表示其北美产车辆符合USMCA要求[5] - 马自达墨西哥产Mazda3和CX-30车型30天内暂不受关税影响[5] 新能源汽车政策 - 合肥经开区将对换电模式推广企业给予专项奖补[6] - 蔚来推出限时购车补贴,金额2000元至1万元不等[6] 人工智能基础设施 - "星际之门"项目计划部署64000块英伟达GB200芯片,2026年前完成[7] - 德克萨斯州阿比林被选为首个数据中心选址,2024年夏季需完成16000块芯片部署[7] - 项目总投资预计达5000亿美元[7] 芯片行业竞争 - 苹果自研基带芯片C1已用于iPhone16e,C2/C3芯片正在开发中[8][9] - 高通推出X85 5G调制解调器,集成AI技术并计划2027年停止向苹果供货[9] 太空导航技术 - NASA与意大利合作的LuGRE系统实现月球表面GNSS信号接收[10] - 打破GNSS信号获取海拔纪录,支持地月间空间任务导航[10] 生鲜电商业绩 - 叮咚买菜2024年Q4收入59.1亿元(同比+18.3%),GMV65.5亿元(同比+18.4%)[11] - 华东地区增长显著:江苏/浙江GMV增速超20%,上海16.8%[11] - 2024全年GMV255.6亿元(同比+16%),GAAP净利润3.04亿元(2023年亏损0.91亿元)[11][12] 旅游行业动态 - 复星旅文将于3月19日退市,转型轻资产运营模式[13] - 2023年前主要业务为度假村/酒店直接投资,疫情期间持续亏损[13] 咖啡市场波动 - 全球咖啡商采购量降至最低水平,仅购买"当前必需品"[14] - 阿拉比卡咖啡期货价格自2023年11月上涨70%,但年底可能下跌30%[14]
3 位连续创业者打造 Manus,应用潮里有更多 “underdog” 的机会(文末附 Manus、Open Manus 实测)
晚点LatePost· 2025-03-08 20:17
编辑 丨 程曼祺 3 月 6 日,AI 产品 Manus 引发关注。开发 Manus 的三位关键人物是:创始人、CEO 肖弘(小红);联 合创始人、首席科学家季逸超(Peak);以及产品合伙人张涛(hidecloud)——两位 90 后连续创业者 和一位 15 年换了 10 家公司的 85 后产品老兵。 一个边缘地带的 "underdog" 小团队 ,以车库创业的开发方式,出乎意料地搅起了一场小风暴。 "硬科技创业者基本都是名门正派,光谱另一端的消费级产品创始人则几乎都是畎亩之中。" 真格基金投 资人刘元说。他也是 Manus 的天使投资人。 毕业于华中科技大学的肖弘是江西吉安人,创业起点在武汉,曾开发过两款微信生态的插件:微信公众 号排版工具壹伴和企业微信客户关系管理工具微伴,卖给一家独角兽公司。 高中阶段就开始创业的季逸超是北京人,他在苹果 App Store 上线不久,就开发出猛犸浏览器,后来做 了 Magi 知识搜索引擎。季逸超曾告诉我们,那时有投资人 "诱惑" 他:我给你一笔钱,敢不敢做个 Google?他拒绝了,不是觉得做不到,而是他觉得只有 "抛开利益" 才有可能。 重庆人张涛则先后在烽火国际、 ...
GPT-5 有了雏形;OpenAI 和 Manus 研发 Agent 的经验;中国大公司扩大算力投资丨 AI 月报
晚点LatePost· 2025-03-08 20:17
技术趋势 - 硅谷巨头形成新共识:推理能力应作为大模型的核心组成部分而非附加功能,OpenAI、Google等公司正推动基础模型与推理模型的融合[6] - GPT-5开发路径曝光:结合GPT-4.5基础模型与推理模型o3,采用类似Claude 3.7的融合技术[6] - 模型能力提升面临瓶颈:Grok 3(10万张GPU训练)、GPT-4.5(10亿美元投入)、Claude 3.7均未实现能力突破[6] - 行业分化两种智能范式:无监督学习(GPT-3.5/4/4.5主导)与推理能力(o1/o3-mini推动),OpenAI计划分层服务用户[6] - 模型封装引发争议:斯坦福学者批评系统黑箱化导致底层机制不可解释[7],中国研究员证实行业普遍探索System1+System2结合路线[8] 应用创新 - Deep Research成为Agent标杆:OpenAI版本支持多层级订阅(20/200美元/月),分析师评价其接近AGI水平,效率相当于雇佣200美元/月员工[9][10] - 开发经验揭示关键:强化学习驱动的端到端训练优于人工编排规则,高质量数据集决定模型上限[14] - 应用局限显现:热门话题易受低质信息污染,冷门领域价值更高,无法获取未公开信息[13] - Manus提出Agent开发哲学:主张"less structure, more intelligence",重构AI浏览器、搜索等产品形态[13][15] - 投资人观点:推理/编程/工具使用能力突破临界点,催生无需人类Attention的主动型Agent工具[16] 基建投资 - 中国算力投入激增:阿里宣布三年3800亿元(530亿美元)投入,字节2025年资本开支达200亿美元,腾讯GPU采购大幅增长[17] - DeepSeek成关键变量:6710亿参数模型推动部署需求,完整版R1需80台H800(月成本500-600万)[17] - 算力需求矛盾显现:黄仁勋称下一代模型算力需求增长100倍[18],微软却叫停数据中心建设预警行业过度投资[19] - 英伟达股价震荡:2月先涨17%后跌20%,中国收入占比降至15%(禁令前30%)[19][20] 投融资动态 - 并购市场活跃:3笔超1亿美元交易包括Voyage AI(2.2亿被MongoDB收购)、Humane(1.16亿被惠普收购)、Kinara(3.07亿被恩智浦收购)[21] - 基础设施领域火热:CoreWeave拟IPO募40亿(估值350亿),Together AI获3.05亿融资(估值33亿),Lambda Labs获4.8亿融资[22][23] - 基础模型融资分化:Safe Superintelligence(OpenAI系)寻求300亿估值融资,Latent Labs获5000万开发生物编程模型[22] - 应用层融资集中老牌公司:23家获超5000万融资企业中,仅2家成立于2023年后(Genspark、Eudia),医疗/法律/安防领域受青睐[25][26][30] 模型训练突破 - 数据生产模式革新:OpenAI以100美元时薪雇佣300名专家生成高质量数据(如医学/物理问题,单问题耗时2小时)[32][33] - 数据质量决定上限:行业从AI生成数据(如DeepSeek专家模型)转向人工专家生产,Labelbox项目支付会计师200美元时薪[31][32] - 训练成本飙升:GPT-4.5后训练阶段依赖高价专业数据,OpenAI投入超600万美元/月用于专家数据生产[33]
茶饮有尽头,古茗想成为一家 “卖新鲜” 的便利店
晚点LatePost· 2025-03-06 18:48
公司发展历程 - 创始人王云安从2009年创业至今,将古茗从浙江温岭小镇奶茶店发展为万店规模并计划扩张至三四万家的茶饮品牌 [3] - 2012年经历经营困境后转向加盟模式,通过团结早期加盟商形成核心团队 [6][7] - 2016年突破1000家门店关键节点,通过标准化建设和供应链优化战胜像素级竞争对手 [11] - 2020年获得美团龙珠4亿元投资,2025年计划香港上市 [16] 商业模式创新 - 采用"便利店式"区域密集扩张策略,单个区域达到500家店才建仓,目前22间仓库覆盖76%门店150公里配送范围 [4] - 自建三温冷链系统(常温/冷冻/冷藏),实现鲜果1-3天从产地到门店,支撑30%产品使用现切果肉 [4][21] - 通过规模效应降低冷链成本,单仓配送成本比跨省运输低30% [17] - 加盟商必须亲自在店经营,总部早期将毛利率从18%降至8%让利加盟商 [9] 产品战略 - 抓住水果茶风口后布局轻乳茶,使用七窨茉莉等高品质原料但定价低于竞品 [22][25] - 产品研发注重工业化可复制性,如建立桃子催熟库保证出品稳定性 [29] - 咖啡产品采用60元/公斤的高品质豆和低温鲜奶,定价12-14元下沉市场 [30] - 每周上新能力支撑,产品库储备充足可快速响应市场趋势 [25] 市场扩张策略 - 专注低线城市非省会市场,在浙江/福建/江西市占率达30-40% [17] - 采用"根据地"策略,依靠加盟商自然外溢决定新区域拓展 [17] - 门店加密形成区域壁垒,典型案例单县蜜雪13家店封锁市场 [18] - 目前覆盖17个省份,仍有十多个省份未进入 [4] 供应链建设 - 拥有3家原物料加工厂和22个仓储中心,实现76%门店150公里内覆盖 [17] - 杨梅从云南果园到杭州仓仅45小时冷链运输,再3小时分发至门店 [21] - 草莓采购在报价基础上加价0.5元/斤确保品质,通过冷链替代空运降低成本 [24] - 正在筹建果蔬原料工厂,计划向其他餐饮品牌开放供应链服务 [17] 管理特色 - 建立"古茗学院"培训体系和钉钉直连机制,高管每年需下店实操10小时 [29] - 采用"一年解决1-2个关键问题"的渐进式改进,十五年持续优化运营体系 [12] - 通过督导体系管理加盟商,单名督导每月通话时长可达3000分钟 [8] - 数字化系统追踪原料效期,要求门店严格按秒数搅拌轻乳茶 [29]
极兔中国经调整后盈利;昂跑净利润增长两倍;特斯拉美国重启免息贷款丨百亿美元公司动向
晚点LatePost· 2025-03-06 18:48
极兔速递 - 2024年极兔营收同比增长16%至103亿美元,中国市场贡献超六成[1] - 极兔中国全年经调整EBIT首次转正达1.5亿美元,带动公司整体净利润从-11.6亿美元扭亏至1.1亿美元[1] - 中国单票成本下降12%至0.3美元,东南亚市场经调整EBIT同比增长49%至3亿美元[1] - 中东/拉美市场包裹量增长22%、营收增长76%,EBIT亏损缩窄45%至7647万美元[1] 昂跑 - 2024年销售额同比增长29.4%至23.2亿瑞士法郎(约189.6亿元人民币),净利润增长超200%至2.423亿瑞士法郎(约19.8亿元)[2] - 亚太地区销售额增长超八成,中国门店数量约60家(半数为直营)[2] - 品牌通过跑者文化营销策略抢占耐克、阿迪达斯市场份额[2] 特斯拉 - 在美国推出促销政策:Cybertruck/Model X/S提供终身免费充电,Model 3开放免息贷款,老款Model Y提供折扣[4] - 促销因销量低迷及马斯克政治举措引发市场抗议[4] XR头显设备 - 三星发布Project Moohan头显,搭载Android XR平台及Gemini AI技术,支持手部/眼部追踪[5] - 苹果Vision Pro截至2024年底销量约40万台,低于预期[5] OpenAI - 成立NextGenAI联盟,联合15家研究机构推动AI研究,承诺提供5000万美元资助及计算资源[6] 亚马逊云 - 成立Agentic AI新团队,目标打造数十亿美元级业务,整合Bedrock/SageMaker等AI部门[7] Shopee - 2024年首次实现年度盈利,GMV达1005亿美元,经调整EBITDA 1.6亿美元(2023年为-2.1亿)[8] - 东南亚市占率48%,通过提高佣金/广告收入率实现货币化能力提升[8] TikTok - 计划在美国开展本地生活业务,招聘人员评估西雅图/洛杉矶/纽约市场[9] - 东南亚试水本地生活业务,抖音生活服务2024年1-8月销售额达3200亿元(超2023全年)[10] Prada集团 - 2024年销售额同比增长15%至54.3亿欧元,Miu Miu销售额增长93%突破10亿欧元[11] - 增速超过爱马仕/LVMH/开云/历峰集团[11] 阿迪达斯 - 2024年营收同比增长24%至59.7亿欧元,四季度营业利润5700万欧元(主要由鞋类推动)[12] - 运动鞋服市占率8.9%(上升0.7个百分点),次于耐克14.1%[12] 德赛西威 - 定增募资43.99亿元获批,用于中西部基地建设(16.99亿)、智能汽车电子生产(19.8亿)、智算中心研发(7.2亿)[13]
晚点独家丨美团内部沟通会:食杂零售、国际化、AI 是王兴关注的 “新” 方向
晚点LatePost· 2025-03-05 09:05
美团15周年战略方向 - 公司CEO王兴在内部沟通会上提出三个新方向:食杂零售、国际化和科技,对应长期使命"帮大家吃得更好,生活更好" [6][8] - 国际化进展最快,外卖海外版Keeta在沙特加速扩张,计划三年覆盖海湾六国(沙特、阿联酋、卡塔尔、科威特、阿曼和巴林) [7][9] - 科技方向聚焦AI机遇,目标是建设大规模、全品类、有纵深的本地商业系统 [8] Keeta在中东市场的扩张策略 - Keeta在沙特通过大额补贴(新用户优惠近200元人民币)、免配送费(15沙特里亚尔以上订单)和超时赔偿(10-15沙特里亚尔)快速抢占市场 [10] - 已吸纳约15000家餐厅入驻,接近当地龙头Hunger Station的三分之一 [10] - 计划2025年覆盖沙特所有核心城市并实现市占率领先,当前沙特外卖市场第一名日单量不足100万单 [7][10] 竞争格局与市场反应 - 沙特本地外卖平台Hunger Station、Jahez、Careem此前占据80%份额,但配送费高达15-20沙特里亚尔(约30-40元人民币)且配送延迟 [10] - Keeta的运营效率显著领先,竞争对手需数小时跟进其补贴策略 [10] - 叮咚买菜因担忧与小象超市竞争,放弃进军沙特市场 [10] 香港市场的成功经验 - Keeta进入香港一年半后日单量从15-20万单提升至30万单以上,市占率第一 [11] - 通过"一人饭堂"策略(30-60港币套餐)降低客单价,单人餐占比达30%-40%,用户月均下单频次从2-3次增至5-10次 [12] - 骑手招募灵活化,香港骑手最高收入达3.5万港币(约3.27万元人民币),允许步行配送 [12] 沙特市场的本地化运营 - 利用沙特低沙化率政策(配送类仅需10%本地员工),以2000-6000沙特里亚尔(约3800-11400元人民币)薪资招募外籍劳工 [12] - 骑手每日在线10小时,初期无单量考核,后期要求每月200-300单(低于竞品的400-450单) [12] - 通过集单配送和规模效应压缩配送成本,目标降低当前平台每单9.5-19元人民币的差价 [12] 核心竞争优势 - 产品技术能力:高效派单和精准配送时长测算 [12] - 运营方法论:"早启动,晚总结"的快速迭代机制 [12] - 本地化策略:管理层强调"live like locals",深度融入当地需求 [12]
比亚迪融资435亿港元;Anthropic估值冲到615亿美元;台积电至少在美国新增千亿美元投资丨百亿美元公司动向
晚点LatePost· 2025-03-04 23:33
比亚迪港股增发 - 比亚迪计划新增发行1.298亿股H股,配售价335.2港元/股,预计融资435.09亿港元,净额约433.83亿港元 [1] - 融资用途包括研发投入、海外业务发展、补充营运资金及一般企业用途 [1] - 这是过去十年全球汽车行业最大股权再融资项目,阿联酋Al-Futtaim家族办公室以战略投资者身份参与 [1] - 本次发售是2021年以来港交所同类售股中规模最大的一次 [1] Anthropic融资与估值 - Anthropic完成35亿美元E轮融资,投后估值达615亿美元 [2] - 公司由OpenAI前核心员工创立,因对AI未来走向和安全风险存在分歧而离开 [2] - Claude系列大模型2023年市场份额仅落后OpenAI约10个百分点 [2] 台积电美国投资计划 - 台积电计划未来四年对美国芯片制造工厂投资至少1000亿美元 [3] - 投资包括新建三家芯片制造工厂、两家芯片封装工厂和一个研发中心 [3] - 将允许台积电在美国生产AI芯片和智能手机芯片 [3] 腾讯元宝应用表现 - 腾讯AI助手"元宝"下载量短暂超越DeepSeek,登顶苹果应用商店中国区免费应用榜 [4][5] - 排名从2月初的200名外迅速上升,得益于接入DeepSeek-R1及多渠道广告投放 [5] - 微信在生活服务"九宫格"限时接入元宝进一步助推增长 [5] TikTok竞购动态 - Reddit联合创始人Alexis Ohanian加入TikTok竞购团队"人民的出价",担任社交媒体战略顾问 [6] - 该团队由Frank McCourt创立,旨在让用户控制自己的数据,已提交报价 [6] - 另一竞购团队由科技企业家Jesse Tinsley为首,包括网红Mr Beast [6] CoreWeave IPO申请 - AI云服务提供商CoreWeave申请纳斯达克IPO,股票代码"CRWV" [7] - 公司2024年营收19亿美元,同比增长737%,净亏损8.63亿美元 [7] - 从加密货币挖矿基础设施转型为大模型训练提供GPU能力 [7] 三星智能戒指专利 - 三星获得新智能戒指专利,内置加速度计和陀螺仪,可监测手指或手部运动 [8][9] - 此前推出的Galaxy Ring内置温度传感器,专为女性用户设计,可预测月经周期 [9] 奢侈品行业动态 - SMCP集团去年销售额同比下降1.5%至12.12亿欧元,关闭65家中国门店 [10] - Prada集团接近以约15亿欧元收购Versace,较此前20亿欧元报价下降 [11] 海底捞新业务拓展 - 海底捞孵化烘焙品牌SHUA BAKERY,即将在杭州西湖银泰开设全国首店 [12] - 去年启动"红石榴计划"内部孵化餐饮品牌,包括烤肉、炸鸡等品类 [12] - 有计划开拓现制茶饮品类 [12] 特斯拉销量表现 - 特斯拉中国2月批发销量30688台,同比下降49.2%,环比下降51.5% [13] - 欧洲市场销量持续下滑,瑞典下降42%,丹麦下降48%,法国下降26% [13] 自动驾驶融资动态 - 滴滴自动驾驶业务正与潜在投资者谈判,完成后估值约50亿美元 [14] - 去年10月完成C轮融资2.98亿美元,由广汽集团领投 [14] - 资金可能用于技术研发和加快自动驾驶出租车量产 [14] 新能源车市场数据 - 2月中国新能源乘用车批发销量预计84万辆,同比增长82%,环比下降5% [15] - 批发销量前五名为比亚迪、吉利、上汽通用五菱、奇瑞、长安 [15]
千亿餐饮 IPO,被时代选中的创业者
晚点LatePost· 2025-03-04 23:33
公司发展历程 - 创始人张红超兄弟早期创业经历塑造公司基因 从1997年寒流刨冰到2003年蜜雪冰城家常菜馆 坚持高性价比策略 鱼香肉丝5元但用料超同行50% [3][4] - 20多年间中国物价上涨4-20倍 但蜜雪冰城核心产品价格仅上涨1元 冰淇淋从1元涨至2元 柠檬水从3元涨至4元 最贵产品不超过10元 [4] - 早期创业经历多次失败 郑州6次关店后仍坚持 形成"平价高质 简单直接 勤奋高效"的经营哲学 [4] - 2024年港股上市首日大涨40% 市值突破千亿 成为中国价值最高餐饮品牌 [4] 商业模式与战略 - 采用"总成本领先战略" 通过规模效应降低成本 2023年采购11.5万吨柠檬(全国第一) 成本比行业低20% [12] - 收入97.6%来自加盟商原料采购 与加盟商形成强利益绑定 而非依赖服务费 [23] - 建立完整供应链体系 包括5大生产基地(年产能165万吨) 自建冷链覆盖97%门店 自建吹瓶车间降低包装成本40% [12][14][15] - 2024年与君乐宝合资建立"雪王牧场" 计划养殖8000头奶牛 年产奶4.2万吨 [17] 产品与市场定位 - 定位"全民饮料" 价格仅为日本便利店瓶装水水平 满足中国下沉市场消费需求 [5] - 产品命名极度直白(如柠檬水) 降低决策门槛 对标经典饮料品类 [5] - 2018年起持续原料升级 从茶粉到原叶茶 从水果罐头到冷冻鲜果 提出"真鲜纯"标准 [10] - 57.2%门店分布在三线及以下城市 2024年前9个月新增4000家加盟商 [19] 加盟体系与管理 - 建立"蜜雪商学"培训体系 包含10种店型实操教学 加盟商需通过考试才能开业 [21] - 2024年前9个月闭店率仅2.8% 为行业最低 通过驻场辅导解决经营问题 [23] - 加盟流程包含7个环节 培训强调创始人亲身经验 多数高管有门店运营经历 [19][23] 国际化扩张 - 2018年进入越南市场 通过直营店验证模型 因地制宜调整策略(如增加堂食区域) [29] - 2020年进入印尼 3年开1000家 之后8个月新增1000家 海外门店达4800家覆盖11国 [29] - 出海初期依靠草根打法 如创始人亲自参与门店运营 本地化喊麦营销等 [29] 行业趋势与时代机遇 - 现制茶饮成为中国"时代饮料" 依托劳动力 数字化 冷链等基础设施优势 [5] - 抓住中国城市化红利 服务被主流忽视的下沉市场消费者 类似麦当劳 沃尔玛早期路径 [6][9] - 2010年代消费市场从稀缺转向过剩 连锁品牌效率优势凸显 蜜雪冰城成为低门槛创业选择 [19]
对话新石器余恩源:新融 10 亿元,物流出身如何研发无人车丨具身智能对话系列#11
晚点LatePost· 2025-03-04 23:33
无人配送车行业拐点 - 行业拐点已至,2024年底新石器已落地超2000辆无人配送车,开年获得超2万台新订单,计划今年全国部署超过1万台,成为L4无人车行业首个达到此规模的公司[8] - 1万台是行业赛点,代表算法和系统稳定性、硬件可靠性及调度能力将过拐点,形成规模效应;同时市场渗透率达0.5‰(类比乘用车10万台标准),完成0到1突破[10] - 拐点驱动因素包括:政府路权开放态度转变(从"是否开放"转向"如何开放")、物流行业降本需求迫切(传统方式效率提升空间有限)、技术成本下降70%以上[11][12][13] 商业模式与成本优势 - 无人车运输成本比货拉拉/滴滴货运低70%-80%,快递网点到驿站段单票成本从0.15元降至0.06元[12][14] - 采用"大B→小B→散B"扩张路径,当前重点服务快递公司(如顺丰),未来将拓展生鲜供应链、批发市场等100+城配场景,潜在需求达千万台[17][28][32] - 硬件成本比友商低40%-50%,通过传感器简化(1激光雷达+12摄像头)和规模化生产持续压价,已主动发起价格战[30][31] 产品与技术演进 - 产品矩阵覆盖3m³/6m³/12m³载荷,分别对应三轮车/面包车/轻卡替代需求,针对性获取不同区域路权[32][33][34] - 自动驾驶技术从依赖百度Apollo转向自研,模型解决问题能力达90%以上,通过数据积累优化极端案例处理(corner case出现频率随规模指数级上升)[7][19][26][40] - 独创"笼车"设计解决装卸自动化难题,将运输环节分解为运输+装卸+搬运三动作,形成差异化竞争力[46][47] 运营策略与行业影响 - 采取"高密度城市+分散县域"双轨布局,北京等大城市需4000-5000台形成运力网络,县域市场则追求更高单价[27][29] - 快递员工作模式重构:将快递员4小时运输时间转化为服务时间,单量增长背景下通过人效提升缓解行业招工难问题[48][51] - 长期愿景是构建"无人车版货拉拉",整合车辆闲置时间形成联合调度运力网络,但公司可能侧重推动平台而非自建[52][53] 创始人差异化背景 - 创始人余恩源具有物流行业背景(曾任快递员、研发巴枪/快递柜),采取"从产业接科技"的逆向路径,早期侧重硬件生产和产品实用性[5][6][7] - 2018年承接理想汽车SEV生产线建立制造能力,2020年开始自研自动驾驶技术,形成"硬件定义产品+数据驱动迭代"的复合能力[38][39][40][41]
大模型 “注意力简史”:与两位 AI 研究者从 DeepSeek、Kimi 最新改进聊起
晚点LatePost· 2025-03-02 14:10
大模型注意力机制改进 - 近期DeepSeek和Kimi分别推出NSA和MoBA架构,聚焦改进大模型核心机制"注意力机制",旨在提升长文本处理能力[4] - 注意力机制优化需解决两大瓶颈:显存开销随序列长度线性增长、计算复杂度呈平方级增长[16] - 稀疏注意力成为主流改进方向,通过仅保留关键连接提升效率,数学上Softmax机制天然支持稀疏性[16] 技术实现路径 - NSA采用硬件协同设计,在Block级别进行稀疏计算,利用Triton框架优化GPU并行效率,实现11.6倍解码加速[24][31] - MoBA创新性地在预训练阶段引入稀疏性,通过混合分块注意力保留远距离关键信息,效果超越稠密注意力[20][37] - 两种方案均采用动态稀疏机制,结合内容相关性动态选择关注区域,平衡效率与效果[38] 性能验证 - NSA在270亿参数模型训练中,损失曲线与稠密注意力趋同,推理任务表现更优[42][46] - MoBA在Llama-8B模型测试中,GSM8K数学推理得分达0.7278,优于稠密模型的0.7142[49] - 长文本专项测试显示,32K输入下末端1K词元预测损失显著降低[43] 行业应用前景 - 多模态发展将大幅增加输入长度,1小时视频相当于100万token,需开发跨模态注意力模式[55] - 长思维链生成成为RL训练关键,DeepSeek-R1显示输出长度随训练步数持续增长[26][28] - 科研场景被视为AGI重要突破口,需存储数月研究过程数据并支持复杂推理[59][62] 硬件与算法协同 - GPU显存发展滞后算力增长,B200显存仅为A100的1.2倍,迫使算法层压缩存储需求[53] - 系统层优化如FlashAttention使显存占用降低量级,算子级优化成为效率突破关键[20][35] - 未来可能结合RNN固定存储优势与注意力机制,探索存储复杂度新平衡点[53]