Workflow
36氪
icon
搜索文档
训练加速1.8倍,推理开销降78%,精准筛选题目高效加速RL训练
36氪· 2026-02-09 18:39
行业技术背景与挑战 - 以DeepSeek R1为代表,基于强化学习(RLVR)微调显著提升大语言模型推理能力,但强化微调成本高昂 [1] - 高昂成本主要源于训练过程中的“低效”,大量算力浪费在无法提供有效学习信号的题目上 [1] - 现有主流“挑题”策略存在明显缺陷:“题海战术”(Uniform Sampling)导致大量算力浪费;“先测后学”(Dynamic Sampling, DS)依赖大模型“自测”,推理成本依然高昂 [2] MoPPS框架核心创新 - 清华大学THU-IDM团队与慕尼黑大学CompVis团队合作,提出全新框架:基于模型预测的提示选择(Model Predictive Prompt Selection, MoPPS) [2] - 核心解决思路是无需昂贵的大模型评估,动态预测题目难度并精准挑选训练数据,以更高效提升模型推理能力 [5] - 将每道题目建模为“老虎机”,每个题目有一个未知的“获胜概率”(即模型在当前参数下答对的成功率) [7] - 采用轻量化的贝叶斯难度预测,为每个题目配备Beta分布来估计其成功率,并通过二值反馈递归更新,计算量极低 [8] - 引入时间衰减因子以适应模型能力动态变化的环境 [9] - 使用Thompson Sampling进行主动问题筛选,从候选集中挑选最接近目标难度(成功率约0.5)的“黄金题”,平衡探索与利用 [10] 性能与效率优势 - 与需要大量额外推理的“先测后学”方法相比,MoPPS达到相同性能所需的Rollouts减少了高达78.46% [15] - 相较于传统的“题海战术”,MoPPS实现了高达1.6倍至1.8倍的训练加速,且训练效果更好 [16] - 在R1-Distill-Owen-1.5B模型上,MoPPS在多项基准测试中的平均性能达到51.83,与DS(Oracle)的52.00相当,但仅使用737k Rollouts,远低于DS的2933k [17] - 在R1-Distill-Qwen-7B模型上,MoPPS平均性能达62.20,与DS的62.42相当,但仅使用287k Rollouts,远低于DS的1147k [17] - MoPPS预测的题目难度与真实难度之间具有极高的相关性(Spearman Rank Correlation),证明了其预测的有效性和可靠性 [19] 方法适用性与行业影响 - MoPPS作为“数据筛选器”即插即用,可兼容PPO、GRPO、Reinforce++等多种强化学习算法 [20] - 在PPO (k=1)算法下,MoPPS在CD-34和CD-4基准上的性能分别为69.12和40.11,显著优于Uniform采样的62.33和32.65 [23] - 支持不同采样策略并可引入先验信息,默认采用Top-B采样,也可扩展为阈值采样,并能结合先验知识加速前期训练 [24] - 该工作已被KDD 2026接收,受到包括阿里千问、腾讯混元、蚂蚁等业界的关注,以及UIUC张潼老师、UCL汪军老师、UvA Max Welling教授等知名学界团队的引用 [4] - 该研究为大模型强化微调领域提供了一个“降本增效”的利器,其核心贡献在于提出了一种全新的“先预测,再优化”范式 [26]
机构今日买入巨力索具等17股,卖出通源石油1.68亿元
36氪· 2026-02-09 18:27
龙虎榜机构资金动向 - 2月9日龙虎榜数据显示 共有35只个股出现机构身影 其中17只呈现机构净买入 18只呈现机构净卖出 [1] - 机构净买入金额前三的股票为巨力索具 湖南白银 飞沃科技 净买入金额分别为1.54亿元 1.18亿元 7162万元 [1] - 机构净卖出金额前三的股票为通源石油 拓日新能 中文在线 净流出金额分别为1.68亿元 1.55亿元 9574万元 [1]
千问的1000万杯奶茶:阿里大发赛博鸡蛋始末
36氪· 2026-02-09 18:19
文章核心观点 - 阿里巴巴通过旗下AI产品“千问”发起一场大规模、高补贴的“春节30亿大免单”营销活动,旨在快速获取C端用户并教育市场,将AI从聊天工具转变为消费入口,以应对激烈的行业竞争和窗口期压力 [1][3][5][8][11] 事件概述与市场反应 - 2025年2月6日,千问“免单喝奶茶”活动导致系统在上午10点至12点因瞬时请求激增而宕机,期间订单量超过200万单 [1][2] - 活动当天订单总量超过1000万单,一些头部茶饮品牌的日单量增长超过200% [3] - 活动推动千问App下载量登顶应用商店榜,并带动部分港股茶饮品牌股价上涨,如茶百道上涨6.8%、古茗上涨3.58%、沪上阿姨上涨1.15% [4] - 与之相对,阿里巴巴港股当日下跌2.88% [5] 活动执行与系统问题 - 宕机核心原因在于千问自身AI agent处理高并发请求时算力消耗巨大,叠加支付、比价等环节,导致服务器资源被击穿,初始服务器承载仅为预估峰值的1/3 [2] - 活动筹备仓促,部分商家和骑手未提前收到明确通知,导致门店出餐和配送秩序混乱,一些商家不得不开启“自配送”以应对运力短缺 [2][3] - 闪购系统本身日订单处理能力可达八九千万至上亿单,但千问在约9小时内涌入的1000万笔订单仍使其系统承压 [7] 公司战略与行业竞争 - 阿里巴巴将千问项目置于高优先级,采用集中项目制进行封闭式开发,目标是不计成本地在最短时间内获取C端用户 [5] - 此次营销是对竞争对手的直接回应:腾讯元宝于1月25日宣布投入10亿元现金红包,字节跳动豆包为春晚投入约20-30亿元赞助费用 [7][8] - 行业共识是C端用户获取窗口期紧迫,豆包DAU已于2025年12月底突破1亿,落后方后续获客与教育成本将成倍放大 [8] - 阿里选择“闪购+奶茶”作为切入点,因该组合具备裂变传播、拉新速度快、用户心智成熟等优势 [6] 营销逻辑与资金投入 - 此次“30亿大免单”活动费用完全由千问团队补贴,其中大部分用于直接向用户发放优惠券,内部认为这比渠道投流更直接有效 [8] - 活动分为两波,第一波“免单喝奶茶”于2月6日至12日进行,第二波于2月13日启动,用户可直接领取最高2888元的现金红包 [7] - 免单卡使用场景从奶茶扩展至三餐、生鲜百货、天猫超市及线下商超,并计划接入全国盒马门店,以覆盖更日常的消费 [4] AI与消费结合的前景与挑战 - 阿里试图通过千问打造差异化路径,主打“聪明、办事、靠谱”,将AI从聊天工具推向能处理实际消费事务的助手 [11] - 当前大语言模型在理解复杂、变化的上下文以及形成长期稳定记忆方面仍存在技术门槛,限制了其作为“私人助手”的精准性 [12][13] - AI购物在目标明确、比价、预订等场景已显示效率优势,但如何触发人类模糊、随机的消费冲动,以及避免因平台属性带来的推荐偏见,仍是挑战 [13][14] - 大规模营销旨在培养用户新习惯,但红包散去后,用户是否会持续使用AI购物仍是未知数 [12]
咖啡行业一年之变:瑞幸库迪多了2个万店对手,星巴克卖身求生
36氪· 2026-02-09 17:44
行业格局与品牌梯队 - 行业核心增长驱动要素已从“第三空间”体验和品牌溢价,彻底转向极致性价比和触达便利性,扩张速度直接定义了品牌梯队座次[3] - 2025年“万店俱乐部”扩容,瑞幸、库迪、幸运咖、挪瓦咖啡相继跻身万店阵营,规模化扩张成为跻身行业第一梯队的必经之路[4] - 截至2025年第三季度,瑞幸咖啡全球门店总数达29,214家,登顶全球单市场咖啡品牌门店数量榜首,单季度净新开门店3,008家,其中中国市场贡献2,979家增量[6] - 对比2024年末22,340家的门店规模,瑞幸在9个月内增加了6,874家新门店[6] - 截至2025年12月22日,库迪咖啡门店总数超1.8万家,而2024年2月其门店才1万家出头[6] - 挪瓦咖啡在2024年9月门店数不足2,000家,至2025年12月突破万店,月均拓店稳定在1,000家,单月最高开店量达1,800家[9] - 幸运咖在2025年3月签约门店突破5,000家,7月达7,000家,11月突破万店,仅用8个月完成门店数翻倍[9] - 截至2025财年(截至2025年9月底),星巴克中国门店数约8,011家,全财年净增仅415家,进入战略收缩与调整期[10] 商业模式与扩张路径 - 瑞幸采用“自营+联营”混合模式,截至2025年第三季度自营门店达18,809家,联营门店正式破万达10,287家[6] - 库迪咖啡90%以上的门店为联营模式,扩张姿态激进[6] - 挪瓦咖啡与幸运咖凭借更轻量化模式实现快速突围[6] - 挪瓦咖啡将“店中店”定为核心商业模式,其店中店占比已超门店总数的80%,初期单店投入不足2万元[9] - 库迪通过“店中店”(或称“寄生店”)模式助力扩张,该模式因品牌形象模糊与品控问题于2024年12月底被叫停,后于2025年2月重启并仅面向TOB加盟商开放,效果立竿见影[6][7][8][9] - 幸运咖的万店之路依托母公司蜜雪冰城的供应链与加盟体系优势[9] - 2025年11月,星巴克与博裕投资达成协议成立合资公司重组在华零售业务,博裕投资最多可持有60%股权并获得控制权,星巴克仅保留40%股权及品牌授权[10] - 星巴克首席执行官表示,正将中国超8,000家咖啡店从自营模式转为特许经营模式,并计划未来将中国门店数量提升至15,000至20,000家[23][24] 价格战与外卖大战影响 - 2025年京东、美团、淘宝闪购掀起的外卖大战是重塑行业格局的核心变量,平台补贴系统性地重构了行业定价逻辑与消费者价格预期[11] - 外卖大战将咖啡价格底线不断拉低,库迪借助平台补贴将美式咖啡外卖价下探至2.68元,自提价低至0.5元[11] - 京东战报披露,瑞幸、库迪等品牌成为其外卖业务上线仅四个月即销售额破亿的品类[11] - 2025年7月12日平台发放大额优惠券,当日幸运咖外卖订单量环比暴涨258%,单店最高外卖订单量达3,095单[11] - 2025年7月淘宝闪购500亿补贴上线一周,挪瓦咖啡的订单较4月增长超过600%[12] - 截至2025年11月,挪瓦咖啡小程序外卖业务开通率达94.2%[12] - 星巴克核心产品定价长期维持在30-40元区间,2025年4月接入京东外卖后借助补贴将大杯咖啡价格降至26.8元,仍与本土品牌存在价差鸿沟[12] - 2025年6月星巴克宣布入华26年来首次官方降价,单杯最低23元起,大杯平均降价约5元[12] - 星巴克2025财年第四季度中国区同店交易量增长9%,但客单价同比大幅下滑7%[12] - 2026年2月1日起,库迪咖啡结束持续近两年的“9.9元全场畅饮”活动,仅保留部分产品9.9元不限量,标志着行业价格战进入收尾阶段[3][14] 成本结构与盈利挑战 - 外卖大战中配送成本与平台佣金侵蚀品牌利润空间,2025年第三季度,外卖在瑞幸整体营收中占比从常规的10%-20%增长到30%以上[13] - 2025年第三季度,瑞幸在配送费用方面的支出高达28.9亿元,同比增长211%,同期其成本和费用合计135.1亿元,同比增长57%[13] - 幸运咖强调外卖只是辅助,基本盘在线下,洞察到外卖渠道的隐性成本风险[14] 产品多元化与跨界竞争 - 品牌纷纷打破品类边界,库迪是搞副业的最激进探索者,2025年初在北京门店开卖早餐面点和热食便当,SKU接近20款,价格在1.2元-20.9元之间[18] - 多数咖啡品牌选择更稳妥的“茶饮化”路径扩充产品线[19] - 截至2025年第三季度,瑞幸茶咖融合产品占现制饮品营收比重已提升至31.2%[21] - 幸运咖的茶饮布局主打水果与鲜花元素,2025年5月推出十余款真果咖系列产品,10月又推出10款新品增加场景覆盖面[21] - 古茗、沪上阿姨、茶百道等茶饮品牌都上线了咖啡产品,“茶咖互侵”的双向跨界战已然成势[21] 出海与下沉市场拓展 - 2025年6月30日,瑞幸在美国纽约曼哈顿开设两家门店,以3.45-7.95美元的主力价格带,复制高性价比模式挑战星巴克[23] - 下沉市场成为咖啡行业新战场,2025年三线及以下城市咖饮门店增速明显高于新一线和二线城市[24] - 幸运咖在下沉市场的门店占比高达71.2%,瑞幸、库迪等品牌的占比也超过30%[24] 资本动态与公司事件 - 2025年1月,挪瓦咖啡宣布完成数亿元C轮融资,这是过去一年中国餐饮业最大规模的一笔融资[1] - 瑞幸公开表示正推进二次上市[1][3]
米哈游、阅文、网易托举,卡牌第二梯队冲击上市
36氪· 2026-02-09 17:39
行业竞争与合作态势 - 春节临近,卡牌赛道竞争升温,卡游成为2026年央视春晚独家卡牌合作伙伴,其他品牌如卡卡沃与春晚联名,吾流文化获得央视86版《西游记》卡牌独家授权[1] - 多家卡牌企业正冲击港交所上市,形成第二梯队上市热潮,包括Suplay、闪魂、Hitcard等,背后均有豪华资本阵容支持[1] - 卡牌新贵企业营收规模与行业龙头卡游差距巨大,例如Hitcard 2024年营收为4亿元,Suplay 2024年营收为2.81亿元,而卡游2024年营收达100.57亿元,是前者的四五十倍[1] 企业商业模式与市场定位 - 卡牌企业普遍依赖授权IP,并试图通过增强游戏性和互动性实现弯道超车,抢占不同消费群体和细分赛道[2] - 各公司依托不同资源切入细分市场:闪魂深度绑定热门游戏IP(如《第五人格》、《原神》);Hitcard背靠大股东阅文集团,深度接入其超1000个IP库并共享线下渠道;Suplay则因最大外部股东是米哈游而受关注[3] - 卡牌受众主要分为两类:以青少年为主的群体注重卡牌的集换价值和社交属性;以成年人为主的群体更看重稀缺性、流动性,甚至将其视为理财产品[4] - Suplay旗下卡卡沃品牌定位高端成人奢侈品市场,产品定价远高于行业普遍水平,例如一包漫威系列卡牌售价69元,一盒售价699元,而行业普遍为1元包、5元包和10元包[5] 行业挑战与风险 - 卡牌行业高度依赖第三方授权IP,存在IP到期续约风险和热门IP热度快速降温的问题,例如卡游依赖奥特曼、小马宝莉等IP,Suplay在2023年至2025年前三季度,授权IP产品销售收入占比从54.2%攀升至95.0%,而自有IP贡献营收占比从40.6%下滑至4.1%[6] - 线下渠道面临库存压力和经营挑战,卡游于2025年3月起将加盟模式改为联营模式,加盟商按营业额30%分成,但仍有许多门店在开业数月后闭店止损[7] - 热门IP通常非独家授权,导致多家企业竞争同一IP,稀释了单一产品的市场热度和价值[7] - 企业为扩大规模常加印卡牌系列,导致稀缺卡(如Hitcard的黑卡)价值下降,影响二级市场价格和玩家收藏热情[8] - 定位高端的品牌(如Suplay的卡卡沃)严重依赖二级市场流通性和价格,但除迪士尼百年庆典卡牌外,其他IP卡牌在二级市场价格低迷,部分原因在于产品系列设计雷同、签名等物料非“亲笔”或“亲穿”系列,收藏价值受质疑[9] - 二级市场价格暴跌导致玩家转向二手市场直接收购单卡,影响了企业的新卡销售频次和用户复购率[9] 上市进程与行业未来 - “卡牌第一股”归属未定,行业龙头卡游的港交所上市申请状态已显示为“失效”,第二次冲击IPO陷入停滞[10] - 全球范围内尚未有纯卡牌业务企业成功上市,冲击上市的卡牌新贵们也普遍面临依赖授权IP的挑战[10] - 企业正尝试多元化转型以应对挑战:卡游正大规模增加签约IP数量、拓展文具及毛绒公仔等周边产品,并打造集合店;行业集体发力带有对战竞技元素的TCG卡牌,试图通过线下赛事维持IP热度并驱动新玩家加入[10] - 国内TCG市场培育尚需时日,存在游戏设计不成熟、规则不完善、卡面交互体验差等问题,例如闪魂的《符文战场:英雄联盟对战卡牌》[11] - 中国集换式卡牌市场人均支出远低于成熟市场,2024年中国人均支出为18.7元人民币,仅为日本(119.3元人民币)的约1/6,美国(64.0元人民币)的约1/3,显示市场渗透率与成熟度有巨大提升空间[11]
当AI公司都在产品层内卷,这家公司却在思考Frontier Research
36氪· 2026-02-09 17:33
行业现状与核心挑战 - AI Agent因Open Claw的爆火首次被推向真实工程环境,开始尝试进入企业内部承担持续、复杂、可被验证的工作任务 [1] - 当Agent走向长期运行的真实工作流,挑战暴露,远不止提示词或工具调用,而是部署成本、交互效率以及底层模型是否适合“常驻运行” [1] - 行业形成隐含共识,试图通过更快的产品迭代解决Agent问题,方向包括更复杂的Prompt、更精细的流程编排和更丰富的工具调用 [1] - 有观点认为,若底层模型本身不适合长期运行与实时协作,再精巧的产品设计也只是放大系统的结构性上限 [1] FlashLabs的战略定位与核心理念 - 公司选择了一条更慢、风险更高的路径,回到前沿研究和模型层本身,重新审视Agent的基础假设 [2] - 公司认为AI Agent不应只是被动执行指令的工具,而应更接近被赋予目标、能够自主拆解并持续推进工作的“数字员工” [3] - 创始人认为,当下中小企业核心挑战是在组织规模受限前提下持续放大关键岗位产出能力,因此Agent需能理解OKR与KPI并主动工作 [3] - 公司战略是押注决定长期上限的基础能力,优先于短期变现,在Agent尚未定型前把决定未来上限的能力先做出来 [19][20] 核心产品SuperAgent的设计与功能 - SuperAgent是一款以持续完成复杂任务为目标的企业级AI Agent,面向销售、市场与运营等真实岗位场景 [5] - 产品设计假设为一个可以长期运行的系统,而非一次性任务执行器,首先进行意图理解,将其判断为可能包含多个阶段的复合目标 [5] - 系统会自动进入任务规划流程,对整体目标进行多步骤拆解,并在执行过程中持续维护上下文状态,避免“任务半途而废” [5] - 产品具有主动性,在目标歧义或条件不明确时会向用户发起确认,任务完成后会主动提出下一步建议 [5] - 整个任务拆解、规划、搜索与执行过程对用户保持可见,使其从“指令执行器”升级为更接近组织协作者的角色 [5] - 在部署方式上选择了云端化、开箱即用的路径,以应对使用与部署成本过高的问题 [6] - 已在销售与增长、内容与展示、GTM与运营等多个岗位场景中完成能力验证 [6] 自研端到端语音模型Chroma - 公司认为如果Agent要嵌入真实工作流,语音是不可回避的交互形态,尤其在客服、销售、支持等以实时沟通为核心的岗位中 [7] - 行业主流选择“快路径”,即通过ASR、LLM与TTS的级联式架构,但此架构在实时、长期人机协作场景中存在信息丢失和累积延迟问题 [7][8] - 公司反共识地回到模型层,尝试重新定义语音交互基础架构,花费约一年时间自研打造了端到端语音模型Chroma [8] - Chroma在同一模型体系内完成语音理解、语义推理与语音生成,避免了传统级联式方案的信息损失与多段延迟 [8] - 模型采用交错调度策略,能在实时流式对话中同时处理语音与文本标记,实现亚秒级的端到端响应 [8] - 实际测试中,模型能直接感知并表达语音中的副语言信息,如情绪、语调与停顿 [9] - 只需几秒钟参考音频即可实现高保真的个性化语音克隆,并在多轮对话中保持一致 [9] - 在真实对话场景中,Chroma的端到端延迟显著低于传统级联系统 [9] - 在Speaker Similarity (SIM)指标上,Chroma 1.0得分为0.817,优于Human baseline的0.73及多个竞品 [11] - 模型的时间性能指标包括:Time-to-First-Token (TTFT) 146.9 ms,平均每帧延迟52.3 ms,生成RTF 0.43x,总生成时长16.6s [13] 开源战略与研究理念 - 公司认为如果Agent被视为前沿研究问题,其核心能力不应只存在于公司内部 [15] - Chroma被当作一种“可被检验的研究假设”而非产品模块,其成立取决于在更复杂、更开放环境中的适应能力 [15] - 公司在发布Chroma时,与Huggingface及Github平台同步开放了模型权重与推理代码 [15] - 创始人认为,对于前沿方向,真正需要验证的是整个架构是否具备可扩展性与长期成立的可能,开源是为了更快发现尚未想清楚的部分 [16] - 模型开源后,在社区的下载量迅速超过一万次,开发者讨论焦点集中在端到端语音路径的适用性上 [16] - 开源被规划为一项长期工程,随着Chroma向2.0版本迭代,公司计划持续开放模型能力、训练思路与部分数据构建方法,并准备发起语音数据集共建计划 [17]
不写、不看、不审查:这家安全公司决定不再让人类碰代码,还把这套模式开源了
36氪· 2026-02-09 17:18
核心观点 - 一家专注于基础设施安全的公司StrongDM在2026年2月公开了一套名为“软件黑灯工厂”的生产线成果,其核心原则是“禁止手写软件”,实现了从规格说明到软件交付的全流程非人工介入 [1][5] - 这套实践的核心在于将软件开发流程围绕AI进行彻底重构,而非简单地将AI工具嵌入旧有流程,代表了软件开发方式的一次激进变革 [4] 软件开发流程重构 - 新成立的AI团队在章程中确立了极端约束:代码不得由人类编写、代码不得由人类审查,并设定了每位人类工程师每日token成本应达到1000美元的高标准作为工厂成熟度的衡量指标 [6][24] - 开发流程从传统的交互式协作转变为“种子 → 验证 → 反馈回路”的闭环系统:系统接收一个最小起点,在贴近真实世界的验证环境中运行场景测试,并将输出持续反馈回输入,让AI在闭环中自我纠错,直到结果收敛 [11] - 团队放弃了“测试全绿”的布尔式成功定义,转而采用“满意度”来量化验证结果,即观察在所有场景的执行轨迹中,有多大比例可能令用户满意 [10] 核心组件与开源项目 - 公司开源了其软件工厂体系的核心非交互式编码Agent仓库“attractor”,该仓库内无代码,仅包含三份极其细致的Markdown规格说明文件,提示用户将规格说明交给选择的编码Agent去执行即可 [2] - 同时开源了“CXDB”仓库,这是一个“AI Context Store”系统,用于存储对话历史和工具输出,数据以不可变有向无环图形式组织,包含约1.6万行Rust、9500行Go以及6700行TypeScript代码 [2] - 有开发者按照规范使用Claude基于spec构建了完整应用,生成的应用质量“明显好于让模型自由发挥时生成的结果”,整套规格说明约6000–7000行,覆盖行为约束、接口语义及系统边界,细节密度令开发者震惊 [3][4] 规格说明与验证体系的重定义 - 规格说明的角色被彻底前移,从传统的“对齐工具”转变为整个系统启动、纠偏和收敛的核心输入与控制面 [13] - 验收标准被重写,规格说明与场景共同构成一个不断运行的评测基准,模型生成的行为是否符合规范,依靠其在隔离场景中跑出的结果是否持续满足预期来判断,而非人工代码审查 [15] - 测试覆盖率的概念从“人为编写测试的多少”转向“规范/场景是否足够多与准确”加上“验证生态能否在闭环中捕获异常” [16] 数字孪生宇宙 - 公司提出了“数字孪生宇宙”概念,即一组对第三方服务的行为级克隆体,例如克隆了Okta、Jira、Slack、Google Docs等服务的API和可观察行为 [17][19] - DTU使得团队能在远超生产环境限制的规模和速率下进行验证,可安全测试危险或不可能的失败模式,并能每小时运行成千上万个场景,而无需担心限流、滥用检测或API成本 [17] - 克隆方法是将服务的完整公开API文档喂给AI,让其生成自包含的模拟程序,并始终以最流行的官方SDK客户端库作为100%兼容性目标 [21] 成本与经济效益 - 当前实践面临高昂的token成本挑战,有开发者反馈按照spec构建应用时TypeScript路线的token消耗极高,需中途充值才能完成流程 [24] - 团队内部标准暗示,成熟的软件工厂应在每位人类工程师身上每日花费约1000美元的token成本,这引发了关于商业模式能否负担此种开发方式以及功能易被克隆的讨论 [6][24] - 有观点认为,构建高保真SaaS应用克隆在技术上一直可行,但过去在经济上不划算,而AI让此事变得经济可行,这本身可能比“无人审核代码”的规范更重要 [17][25] - 尽管当前成本高昂,但有预期认为随着方法成熟和流程优化,成本会下降,类比制造业自动化历史经验 [29] - 有分析将每日1000美元token成本换算为年薪约24万美元,相当于硅谷大型科技公司新毕业生的总薪酬包,并指出许多初级到中级工程师的表现可能不优于AI,预示软件工程可能向仅由极少数人类位于顶层的金字塔结构演变 [26] 技术背景与行业影响 - 这一变革的技术背景可追溯至2024年末,随着Claude 3.5等模型的更新,团队观察到在长时序的Agentic编程任务中,结果开始叠加正确性而非累积错误,结合Cursor的YOLO模式,出现了“非交互式开发”或“成长型软件”的雏形 [6][8] - 沃顿商学院教授Ethan Mollick评价此为“真正激进的软件开发方式”,强调需要围绕AI重做流程本身,而非仅在旧流程中塞入AI [4] - 公司承认开源项目“是最近几天才决定开源的”,尚未经过充分技术优化,存在疑似bug、反模式及宽松错误处理等问题,已安排AI代理继续清理改进 [4]
年终奖新贵诞生了
36氪· 2026-02-09 17:17
文章核心观点 - 年终奖发放格局发生显著变化 传统互联网大厂之外 以拓竹科技 大疆 追觅科技等为代表的硬件及新兴科技公司成为年终奖“新贵” 其丰厚的奖金反映了公司强劲的盈利能力和对人才的重视 [1][2][3] - 年终奖的分配呈现明显的行业与岗位倾斜 AI 算法 硬件等核心技术部门奖金丰厚 而传统业务部门则相对持平 映射出当前AI赋能下硬件崛起 互联网转型的行业变迁图谱 [7][9] - 丰厚的年终奖不仅是公司财务实力的体现 更是其人才战略的核心部分 被视为对顶尖人才的直接定价与尊重 能有效激励员工并吸引外部人才 [8][10] 年终奖“新贵”公司案例 - **拓竹科技**:社交平台爆料其市场岗位年终奖达45万元 对应9个月薪资 更有员工称整体年终奖总包比去年上涨超50% 最高奖金超200万元 对应25个月薪资 公司2024年营收已破百亿[1][2] - **大疆**:车载部门年终奖达4个月 员工斩获14万元 算法等核心技术岗年终奖接近30万元或更高[5] - **追觅科技**:除常规年终奖外 额外奖励全体员工每人1克黄金 按全员群人数计算需发放超18公斤黄金 并奖励十名核心骨干南极游[5] - **影石创新**:2024年会上老板曾狂撒20万元人民币 公司此前连续7年年会累计送出27辆新车[5] - **泡泡玛特**:凭借亮眼业绩 其限量款年终礼物在社交媒体引发关注[5] - **胖东来**:根据预估15亿元净利润 按照95%分给员工的惯例 其“分钱成绩单”刷屏[5] 互联网大厂年终奖概况 - **快手**:最高发放10.5个月绩效奖金 入账“大几十万” 普通员工最少也能拿4-8个月[6] - **腾讯**:AI 算法等核心岗位年终奖达6-12个月 普通基础岗为4-6个月[7] - **阿里巴巴**:阿里云与达摩院年终奖达8-12个月 而电商 本地生活业务为3-5个月[7] - 互联网公司的年终奖资源明显向AI及核心技术部门倾斜[7] 行业变迁与奖金分配逻辑 - 2025年是AI赋能下硬件公司崛起的大年 创业公司营收翻倍增长 直接体现在丰厚的年终奖上[9] - 互联网大厂迅速转型 AI相关投入急剧增加 对应新业务年终奖倍增 传统业务相对持平[9] - 金融 房地产等传统行业年终奖话题则相对沉寂[9] - 公司营业利润超预期会直接推高年终奖 例如SK海力士2025年人均年终奖高达约64万元 中国子公司员工平均到账8个月 个别工程师实收11个月[8] - 年终奖的分配被视为公司信心和实力的体现 也是对人才价值的直接定价与尊重 能激发内生动力并吸引外部人才[8][10]
摩尔线程,不想只做AI“卖铲人”
36氪· 2026-02-09 17:03
文章核心观点 - 摩尔线程推出全球首个基于国产全功能GPU的AI智能编程服务“AI Coding Plan”,标志着国产AI芯片从“能用”的算力补充向“好用”的生产力工具关键进化,旨在打通算力国产化替代的关键场景闭环 [1] - 该服务通过“软硬一体、全栈国产化”的解决方案,试图重构国产AI生态叙事,降低开发者对英伟达CUDA生态的路径依赖,并有望催化中国本土AI原生应用的爆发 [2][4][6] - 此举象征着摩尔线程从“芯片硬件商”向“软硬一体生态平台商”的关键转型,通过拓展高毛利软件服务,拓宽收入边界、改善利润结构,并可能引发资本市场对其长期价值的重估 [7][8][9] 产品与服务 - 推出“AI Coding Plan”智能编程服务,实现了国产芯片与国产大模型在AI编程领域的首次深度耦合 [1] - 该服务是全球首个基于国产全功能GPU算力底座构建的智能开发解决方案,是一套“软硬一体、全栈国产化”的AI辅助编程引擎 [2] - 在算力层,以摩尔线程MTT S5000的全精度计算能力为核心驱动,通过软硬件协同实现算力效能倍增 [2] - 在框架层,与硅基流动联合开发,通过高效算子融合及框架优化,在确保代码生成质量的同时显著降低响应延迟 [2] - 在模型层,搭载智普GLM-4.7顶尖代码模型,该模型在Code Arena评估中位列开源及国产第一,在部分场景表现优于GPT-5.2 [2] - 在生态层,实现与Claude Code、Cursor、OpenCode等多款主流编程工具的即插即用适配,开发者无需改变习惯 [3] 战略意义与行业影响 - 标志着国产AI芯片实现了从“能用”的算力补充,向“好用”的实战生产力工具的关键进化 [1] - 为国内开发者提供了一个高性能且安全的“技术避风港”,是国产算力从“幕后支撑”向“台前赋能”的重要标志 [3] - 核心价值在于通过AI辅助编程与自动化迁移技术,降低国产架构的学习曲线和算力切换的沉没成本,打破英伟达CUDA生态构建的习惯围墙 [4] - AI编程作为AI后时代的“卖铲人”,有望催化国内原生应用的放量,通过提升开发效率、降低门槛,助力中国企业在AI应用层取得先发优势 [6] - 应用端的爆发将触发国产AI链条的整体进化,真实场景的优化反馈将反哺底层模型迭代与算力芯片架构优化,形成从芯片、模型到应用协同进化的正向循环 [6] 商业模式与公司转型 - AI Coding Plan的推出象征着公司身份实现了从“芯片硬件商”向“软硬一体生态平台商”的关键转型 [7] - 该服务扮演了硬件销售的“加速器”,通过降低开发门槛激发需求,AI应用的爆发会反过来提振市场对底层算力芯片的需求 [7] - 成功卡位AI编程入口,有望提升用户对公司整个生态系统的黏性,带动硬件业务进一步扩张 [7] - 成功拓展了高毛利、高黏性的软件服务业务,该业务采取阶梯式订阅制收费,对外部环境依赖较低,一旦形成规模效应,边际成本会快速递减,带动毛利率持续走高,现金流更稳定 [8] - 公司从一个上游AI芯片供应商转变为“AI硬件+生态系统+软件服务”的国产头部AI平台主导者,通过软硬件深度协同拓宽收入边界,改善利润结构,有效平滑芯片行业的周期性风险 [8] 市场与估值展望 - 公司身份的转变可能引发资本市场对其长期价值的重估 [9] - 相比于硬件公司,软件公司收入边界更广、现金流更稳定、毛利空间更高,在资本市场可以拿到更好的估值溢价 [9] - 参考英伟达和苹果的进化路径,软件服务能力的提升直接拔高了公司的增长天花板,提振了长期估值中枢 [9] - 以AI Coding为代表的软件业务落地,有望使公司在“国产AI芯片龙头”的稀缺性溢价之外,进一步获得“生态平台商”角色赋予的高估值溢价 [9]
编程AI变天了,实测神秘模型Pony Alpha:Opus级智能,架构师思维上线
36氪· 2026-02-09 16:50
文章核心观点 - 一款名为Pony Alpha的未公开厂商的下一代基础模型在OpenRouter平台引发高度关注,其在编程、推理和角色扮演方面表现出色,尤其针对智能体工作流进行了优化,工具调用准确性较高 [1] - 该模型通过一系列复杂实测(包括前端应用开发、游戏复刻、存量代码重构)展现了超越当前主流模型的强大能力,特别是在长上下文、复杂工程理解与执行稳定性方面,体现出“代际差异”,可能预示着国内基础模型在高阶编程与工程智能体领域的竞争进入新阶段 [32] 模型性能与市场反响 - Pony Alpha在模型聚合平台OpenRouter上悄然走红,没有发布会、论文或公开厂商,但凭借超出预期的实测表现在开发者和模型爱好者圈子里迅速引发关注 [1] - 用户实测反馈积极,例如有博主用秘密SVG生成测试题考验模型,结果生成质量“高得离谱”;另有开发者让模型连续编程3小时,直接做出了一个真正可游玩且完成度高的《Pokemon Ruby》游戏复刻版 [3] - 模型在OpenRouter上免费可用,支持网页对话和API调用,上下文窗口为200K [9] 技术能力实测:编程与前端开发 - 在“迷你数据仪表盘”案例中,模型能根据输入数字实时生成准确的最大值、均值、最小值和波动率,前端结构组织合理,并实现了平滑动画更新,完成度高 [9] - 在复杂的SVG卡通场景绘制任务中,模型能遵循具体尺寸、主题、元素、风格和细节要求,输出结构清晰、图层关系合理、细节准确的SVG图形 [9][11] - 在算法可视化演绎任务中,模型能将排序或寻路算法转化为动画,通过颜色变化、节奏和路径演化直观呈现算法步骤和决策过程,展示了其用代码解释复杂概念的综合能力 [13] - 综合以上案例,Pony Alpha在“能跑、好看、好理解”层面已处于目前主流模型的水平线上方 [14] 技术能力实测:复杂系统构建与Agentic Coding - 通过复刻知名游戏《星露谷物语》的压力测试,验证模型的Agentic Coding能力,即像资深架构师一样以系统视角理解问题,并长期、自主地推进复杂工程 [15] - 面对涉及数千行代码和多种机制的游戏复刻需求,模型首先分析核心需求,梳理出需要设计的八大系统与配色方案,然后规划了整体项目架构 [17] - 模型采用模块化思路构建了项目,最终打造出初步可玩的游戏界面,视觉风格统一,核心玩法逻辑(如开垦、播种、浇水、体力消耗系统)运行正常 [17] - 在进一步要求加入数据保存机制和优化画面后,模型提供了多个技术解决方案,并连续编程超过10分钟无需人为干预,完成了后端服务器、数据库和前端存档管理器的打造,大幅优化了画面细节并加入了动态天气系统 [19][21][22] 技术能力实测:存量代码理解与重构 - 在模拟企业真实环境的测试中,模型需要面对一个变量命名混乱、函数职责不明、隐藏特殊账户逻辑、存在数据一致性风险的“屎山”财务系统代码库 [23][24] - 模型在重构前没有急于修改,而是先准确理解系统业务和技术栈,并按照严重程度对问题进行分类(如命名混乱、职责不清、隐藏逻辑、数据一致性风险等) [27][28] - 在自行设定的重构目标指导下,模型成功交付了现代化版本,完整保留了原系统所有功能(包括特殊的“9999”账户隐藏逻辑),同时大幅提升了代码清晰度、安全性和可维护性 [29][31] - 重构后的代码架构清晰,配置层、数据层、业务层隔离明确,变量名语义化,并主动新增了输入验证、数据加载容错机制等安全功能 [29][31] 模型背景与行业影响推测 - 由于其不合常理的强势表现,模型“身世之谜”成为焦点,猜测可能来自Anthropic的Sonnet 5、即将发布的DeepSeek-V4或是智谱的下一代模型GLM-5 [4][8] - 综合实测感受,Pony Alpha更像是一个“Opus级别的下一代旗舰级基础模型”,可能是某家厂商长期打磨、针对真实开发工作流深度优化后能力的集中释放 [32] - 如果该模型确实来自国内厂商,则意味着国内基础模型在高阶编程与工程智能体方向上的竞争可能已提前进入新阶段 [32]