36氪
搜索文档
寒武纪业绩快报:2025年营业收入64.97亿元,同比增长453.21%
36氪· 2026-02-27 18:28
公司业绩表现 - 2025年公司实现营业收入64.97亿元,同比增长453.21% [1] - 2025年公司实现归属于母公司所有者的净利润20.59亿元 [1] - 公司业绩实现扭亏为盈,上年同期归属于母公司所有者的净利润为亏损4.5亿元 [1]
华人天才出走xAI:算力竞赛已死,30美元解锁AI自进化
36氪· 2026-02-27 17:54
核心观点 - 核心研究员Jiayi Pan和Toby Pohlen在48小时内相继从xAI的Grok团队离职,引发对公司内部状况的猜测 [1][3] - Jiayi Pan的开源项目TinyZero证明,通过纯强化学习方法,仅需30美元训练成本和3B参数的小模型即可实现高级自我验证与推理能力,这挑战了行业依赖海量算力和参数堆砌的技术路径 [8][9][13] - 该方法论创新可能降低高级AI能力的开发门槛,带来技术平权,同时也引出了关于AI自我进化可能性的新问题 [16][17] 关键人物与职业变动 - Jiayi Pan于2025年5月加入xAI的Reasoning团队,成为Grok 4开发的核心成员之一,但在约9个月后离职 [7] - 几乎同一时间,Grok团队的另一位核心研究员Toby Pohlen也宣布离职 [1] - Jiayi Pan的AI研究之路始于2019年,本科毕业于密歇根大学,2023年进入加州大学伯克利分校攻读博士 [4][6] 技术创新与项目细节 - **TinyZero项目**:一个基于Qwen2.5-3B基础模型、仅需30美元训练成本的3B参数模型 [8][9] - 使用veRL框架在Countdown和Multiplication等任务上进行纯强化学习训练 [9] - 训练后,模型在Countdown任务上的准确率从0%提升到80%以上 [9] - 项目证明了DeepSeek R1-Zero展现的自我推理能力可通过纯强化学习在小模型上复现 [9] - **SWE-Gym项目**:Jiayi Pan在伯克利早期开发的项目,将强化学习引入软件工程领域,基于SWE-bench数据集的2294个真实GitHub Issue,训练AI生成可通过测试的代码补丁 [5][6] - **技术路径整合**:从SWE-Gym(让AI学会改代码)到Grok 4(将强化学习用于大模型推理)再到TinyZero(在小模型上实现自我纠错),组合起来暗示了AI通过优化自身训练代码实现“自我进化”的可能性 [16] 行业影响与对比 - TinyZero的低成本路径与行业巨头的算力军备竞赛形成鲜明对比 [3][10] - 同一时期,Sam Altman宣布的Stargate计划计划在4年内投资数千亿美元建设AI基础设施,但据报道到2025年底因利益冲突停滞,一个数据中心都未建成 [9] - 技术突破表明,通往高级推理能力的路径可能不需要数千亿美元的基础设施投资 [9] - 随着TinyZero开源,自我纠错能力不再是巨头专属,任何开发者都可在垂直领域训练具备该能力的AI,带来了技术平权的可能 [15][17] 模型能力表现 - TinyZero展现出“元认知”特征,在Countdown游戏中会进行完整的试错与回溯,并在输出最终答案前生成包含自我质疑语句(如“Wait, that's wrong”)的中间思维链 [10][11][12] - 这种行为模式此前仅在DeepSeek R1-Zero等大规模模型中观察到,但TinyZero在3B参数、30美元成本下复现 [12][13] - 实验证明,Scaling Law负责知识广度,而强化学习负责打通逻辑深度,两者的结合不一定需要海量参数 [15] 未来展望与基准测试 - 2025年发布的Humanity's Last Exam基准是一个多模态、超高难度的AI评估基准,旨在应对现有测试(如MMLU)已被模型以90%+准确率攻破的挑战 [17] - Jiayi Pan的研究工作(SWE-Gym, Grok 4, TinyZero)正在逼近如何评估超级智能这一问题的边界 [17] - 方法论创新在更小规模上实现高级AI能力,也带来了关于强化学习不稳定性、开源模型伦理边界和失控风险等未有答案的新问题 [17]
Nano Banana 2免费上线,超Pro版本100分登顶竞技场,API价格还对半砍了
36氪· 2026-02-27 17:50
产品发布与市场地位 - 谷歌旗下AI图像生成模型Nano Banana 2正式发布,其定位为在保持“Flash级”极速生成的同时,提供“Pro级”的专业能力[4] - 根据2026年2月25日的Text-to-Image Arena排行榜数据,Nano Banana 2(模型名:gemini-3.1-flash-image-preview)在“产品、品牌与传播”类别中综合排名第一,得分为1324分[3] - 在竞技场总榜中,Nano Banana 2的得分超越其前代专业版Nano Banana Pro(得分1264分)达100分,确立了新的领先地位[2][3][16] 技术性能与功能升级 - 生成速度大幅提升,实测生成单张图片仅需几秒钟[4] - 主体一致性能力增强,在单个工作流程中最多可保持5个角色的一致性和最多14个物体的保真度[8] - 指令遵循能力得到增强,能够更严格地执行复杂的文本提示[10] - 支持广泛的生成规格,图像分辨率覆盖从512像素到4K,并支持控制各种长宽比[12] - 视觉保真度升级,提供更生动的光照、更丰富的纹理和更清晰的细节[12] - 整合了网络搜索功能,可结合实时信息来增强生成内容的质量[6] 定价策略与商业模式 - Nano Banana 2提供免费使用 tier[6] - 其付费API(型号:gemini-3.1-flash-image-preview)的定价已公布,图像生成按分辨率收费[14] - 生成一张1K分辨率的图像成本为0.067美元(约合人民币0.46元),此价格比Nano Banana Pro便宜了一半[15] - 服务包含每月5,000次提示词的免费网络搜索增强额度,超出部分按每1,000次搜索查询14美元收费[15] 市场整合与行业影响 - 谷歌已将Nano Banana 2集成到其搜索服务和广告业务中[18] - 市场反馈积极,有观点认为该模型凭借强大的免费功能和极低的付费成本“再一次提高了标准”[19] - 极低的生成成本引发了关于其对设计行业潜在影响的讨论,有评论惊叹“设计师的时代要结束了”[21] - 用户已开始基于Nano Banana 2开发创新应用,例如将其与视频生成模型(如Seedance 2.0)结合使用[22][24]
芯片涨价潮持续席卷
36氪· 2026-02-27 17:50
行业核心动态:半导体产业链涨价潮 - 一场全行业范围的“涨价潮”在半导体产业链中持续席卷,覆盖MCU、NOR Flash、合封KGD存储、功率器件等多个品类 [1] - 国内外多家半导体及芯片企业自年初至今陆续宣布产品涨价,涨幅普遍在10%至80%区间 [1] - 本轮提价的主因是上游原材料及关键贵金属价格大幅上涨,而供需格局失衡则进一步助推了芯片产品涨价 [1] 原材料成本上涨分析 - 此轮产品涨价主要与铜、银、锡等上游金属材料价格上涨相关,而非硅片等半导体级硅材料 [2] - 国内铜价在2025年上涨34.34%后,2026年开年继续上涨,1月29日最新价格达10.16万元/吨,同比上涨35.08% [2] - 自2025年至今,铜价累计涨幅已超40%,受宏观面与基本面共振影响,资金持续伺机布局 [2] - 全球电解铜库存已处于历史高位,同时受美国铜关税政策影响,COMEX与LME铜价价差已从历史高位回落,但COMEX、LME铜价相对SHFE仍处于溢价状态 [3] - 花旗短期内看好铜价,预计未来三个月将触及1.4万美元/吨,认为春节后中国供应链补充库存将为铜价提供支撑 [3] 国内外厂商涨价行动 - 2026年开年以来,功率半导体等细分赛道迎来涨价潮,多家国内外企业官宣提价 [4] - 国际大厂英飞凌宣布自2026年4月1日起上调部分功率开关器件及集成电路产品价格 [4] - 国际厂商Vishay-Siliconix因关键原材料成本持续上涨,对旗下MOSFET及ICs产品线实施紧急涨价 [4] - 国内厂商新洁能因上游原材料及关键贵金属价格大幅攀升,决定对MOSFET产品价格上调10%起,自2026年3月1日起生效 [4] - 华润微自2月1日起对全系列微电子产品启动价格上调,上调幅度最低为10%,产品价格上涨幅度能够覆盖并超出成本上涨影响,毛利率会有所改善 [6][7] - 士兰微于2月初表示将对部分器件类产品价格上调10%,自2026年3月1日起生效,并进行了差异化、结构性调价 [7] - 立昂微表示其MOS相关器件芯片产品价格随市场整体趋势波动,具体调价需与客户协商 [7] - 美芯晟受上游原材料调价影响,相应芯片产品也会有一定幅度的价格上浮 [8] 供需格局与产能因素 - 供需格局变化与产能紧张是推动本轮产品涨价的重要原因之一 [9] - 中微半导因严峻的供需形势及巨大成本压力,对MCU、NorFlash等产品价格调整15%至50% [9] - 国科微自2026年1月起对多款合封KGD存储产品实施价格调整,部分产品价格上调达80%,原因包括成本攀升和供应链紧张 [9] - 国科微表示目前公司产能充足,下游需求变化尚未观察到明显波动 [9] 行业后市展望 - 中信证券认为,自去年四季度以来,电子元器件多个细分赛道陆续出现涨价,近期又有新领域厂商宣布涨价,叠加下游补库力度超预期及上游金属价格高位,预计电子元器件行业涨价将持续蔓延 [9] - 东海证券表示,当前半导体行业整体周期向上,2026年上半年或大概率延续结构性高增长趋势,产品价格底部震荡回升,行业处于结构性高增长过程中 [10]
00后的塑料“十字绣”,赚走中国女人10个亿
36氪· 2026-02-27 17:33
拼豆行业市场表现与增长 - 拼豆消费在Z世代中呈现爆发式增长,根据抖音春节消费报告,其团购下单量同比增幅高达9018% [9] - 淘宝将拼豆列为2025年度十大商品,搜索量暴涨500% [9] - 专业机构预测,2026年拼豆市场规模有望接近10亿元人民币 [43] 拼豆产品定义与历史沿革 - 拼豆是一种手工活动,将彩色塑料颗粒拼入模板形成图案后熨烫定型 [10] - 该产品于1971年由瑞典工程师发明,初衷是帮助老人对抗认知衰退,80年代传入美国后成为儿童益智玩具,此前在中国市场一直不温不火 [9] 行业驱动因素:需求侧 - 产品提供了极高的情绪价值,能帮助玩家从焦虑中解脱,进入心理学上的“心流”状态,获得掌控感和幸福感 [36][37] - 产品具备轻量化社交属性,契合年轻人的“搭子文化”,线上分享作品或线下结伴到店成为社交方式 [56] - 明星与粉丝经济是初期破圈关键,例如电视剧《永夜星河》主演展示拼豆胸针引发粉丝跟风,其他偶像也通过拼豆礼物增加粉丝粘性 [12][14] - 产品从粉丝应援物演变为潮玩,并吸引了二次元等更多圈层用户参与,从小众走向大众 [14][16] 行业驱动因素:供给侧与产业链 - 线下体验店迅速扩张,近一年全国新增手作企业超6000家,拼豆往往是店内的核心盈利项目 [41] - 线下门店盈利能力显著,例如济南有DIY店拼豆项目月销售额稳定超万元,北京三里屯有手作馆拼豆套餐年售超5000份,单项年营收超42.5万元 [45] - 上游供应链需求旺盛,浙江义乌多家模具与烫纸工厂反映去年下半年订单翻倍,部分厂商满负荷运转 [41] - 线上材料包销售火爆,月销破万已成常态,热门IP款式单款销量超60万件,有淘宝店销售的拼豆烘焙布单品累计销售20万件 [41] 用户行为与产品演进 - 用户投入时间极长,有博主为拼《千里江山图》耗时23天,使用12万粒塑料颗粒 [5],另有用户为复杂作品耗时数小时甚至通宵 [3][6] - 玩家社群推动产品复杂化和玩法升级,从2D造型发展出立体作品,并开发出“毛巾烫”、“闪粉烫”等多种烫法赋予不同质感 [21][23][24] - 消费具备成瘾性与持续性,基础套装价格数十元,但集齐全色谱需700多元,资深玩家投入上万元购买豆子及专业工具的情况并不罕见 [29] 行业商业模式启示 - 成功潮玩超越单纯卖货思维,注重售卖过程体验和情绪价值,例如泡泡玛特贩卖“不确定性”带来的多巴胺,棉花娃娃贩卖养成过程 [52] - 构建用户圈子比销售产品更重要,通过社群、展览、IP衍生等方式让产品融入用户生活,产生身份认同,促使用户从“购买”转向“收集”并自发进行内容创作与传播 [56] - 拼豆的本质是售卖“几个小时的心流体验”,将手工过程变为疗愈,其高溢价产品(如改名为“拼豆专用面罩”的普通面罩)也印证了体验与概念销售的成功 [44][57]
2026年,调休终于彻底消失了
36氪· 2026-02-27 17:33
2026年节假日安排与职场生态变化 - 2026年所有法定假日将与周末自然衔接 大规模减少了调休安排 引发全网热议 相关话题阅读量瞬间破亿 [1][2] - 该安排被视作“年度最大福音” 反映出职场人对频繁调休制度的深度抵触 调休通常导致节前或节后需连续工作6至7天 [2][3] - 人为打破生理节律的排班方式导致工作效率断崖式下跌和职业倦怠感急剧飙升 假期体验被报复性熬夜和出行拥挤所破坏 [5] 新一代职场人价值观变迁 - 公众对“自然衔接”假期的追捧 是对现代职场隐性加班文化的一次集体抗议 [6] - 新一代职场人职场价值观发生代际更迭 对传统的“奋斗叙事”和“内卷文化”集体性脱敏 更在意当下身心健康和法定权益 [6] - 职场人更在意休息质量的纯粹性与不可剥夺性 渴望不建立在透支生命基础上的“真休息” [8] 企业人才战略与雇主品牌新趋势 - 在2026年技术折叠和产业转型背景下 企业人才争夺战进入“情绪价值与福利升维”新阶段 超越了单纯的薪酬刺激 [9] - 在春招市场上受追捧的企业已将“工作生活平衡(WLB)”写入企业基因 认识到将员工绑在工位上熬时间无法带来技术突破或业务创新 [9] - 优秀雇主不仅保障法定节假日 还会通过真金白银投入保障员工休息与生活质量 例如为留住核心人才推出“反向团圆”政策 发放高达上千元的交通住宿补贴让员工家属前来团聚 [11][12] - 充满人情味的管理举措产生的口碑效应远胜空洞口号 企业深知员工充分休息和获得情感滋养能激发最强的创造力与爆发力 [12]
DeepMind新论文炸锅:AI全自动进化算法,写出专家都想不到的解,网友:这可能就是“王牌”
36氪· 2026-02-27 17:32
AlphaEvolve:AI驱动的算法自动进化 - 谷歌DeepMind开发了名为AlphaEvolve的智能体,其核心机制是通过类似生物进化的方式,利用大语言模型(LLM)自动改写和筛选算法代码,实现算法的自我进化 [2] - 该研究颠覆了传统认知,AI不仅限于编写辅助性代码,而是能够直接修改核心算法逻辑,在多项测试中超越了人类专家手工打磨的版本 [1] - 整个过程实现了全自动闭环:生成代码、运行测试、评估表现、筛选优胜版本并进入下一轮进化,人类仅需定义算法骨架和评价标准,不参与中间调参或手动筛选 [1][9] 技术方法与实验设计 - 研究团队没有让模型从零开始,而是选定了两个成熟的不完全信息博弈求解算法框架作为基础:CFR(后悔最小化)和PSRO(策略种群训练) [8] - 研究人员将算法核心逻辑拆解为几个可被改写的Python函数(如后悔值累积规则、策略生成方式等),仅开放这些“关键决策逻辑”供LLM修改,为进化定义了“基因范围” [8] - AlphaEvolve对当前算法代码进行语义上有意义的改写,生成多个版本,每个版本都会被自动编译并在真实博弈环境中对战,根据exploitability等指标进行评分和优胜劣汰 [8][9] 核心成果:VAD-CFR算法 - AlphaEvolve在CFR框架下进化出了全新的VAD-CFR算法,其直接修改了“后悔值怎么累计、怎么打折、什么时候开始平均策略”等核心逻辑 [11] - VAD-CFR引入了volatility-sensitive discounting(根据波动动态折扣)和hard warm-start schedule(前期蓄力、后期发力)等非直观机制 [11] - 在多项博弈测试中,VAD-CFR的表现超过了人类优化过多轮的CFR+、DCFR、PCFR+等版本,其收敛曲线下降更快、最终值更低,在约500次迭代后下降速度明显加快 [13] - 在规模更大、更复杂的测试游戏中,VAD-CFR依然保持优势,表明其改进是在算法结构层面找到了更高效的更新方式,而非针对特定游戏的技巧 [13] 核心成果:SHOR-PSRO算法 - 在PSRO框架下,AlphaEvolve进化出了SHOR-PSRO算法,其核心是重新设计了“元求解器” [13] - SHOR-PSRO将多种更新机制混合,设计了一种混合型meta-solver,并能随着训练进程动态调整,使训练过程自动从“多样性探索”过渡到“逼近均衡” [14] - 在对比测试中,SHOR-PSRO的曲线下降更快,在第100次迭代时的exploitability更低,在同样迭代次数下能更有效地逼近博弈均衡 [16] - 在更复杂的测试游戏(如4-player Kuhn、6-sided Liar's Dice)中,SHOR-PSRO依然保持优势,显示出良好的泛化能力 [16] 行业影响与反响 - 该研究成果以一篇37页的论文形式发布,题为《基于大语言模型的多智能体学习算法自动发现》,在技术圈引起了巨大反响 [4] - 有观点认为,这项技术像是DeepMind手中的一张王牌,可能导致谷歌在AI竞赛中赢得优势 [6] - 该进展引发了关于AI自我改进边界的深入思考,例如AI设计更好的学习算法后,是否也应优先考虑为自己设计“伦理引擎”以解决对齐问题 [7]
没放过鞭炮的城巴佬,不去广西这里就亏了
36氪· 2026-02-27 17:28
炮龙节文化现象与旅游吸引力 - 炮龙节是广西一项具有上千年历史的民俗活动,近年来在社交平台上走红,被称作“勇敢者的游戏”和“东方狂欢节”,其核心是当地人对新一年的美好祈愿 [1] - 活动场面盛大,以赤膊壮年男子在火光与震耳欲聋的鞭炮中舞动炮龙为标志性场景,契合了外界对当地热情奔放的文化印象 [1] 炮龙文化的地理分布与核心区域 - 炮龙发源于南宁市宾阳县,当地竹编历史可追溯至唐朝,扎龙技艺高超,每年正月十一的炮龙节场面最盛大、炮龙数量最多 [3] - 与宾阳接壤的上林县(如白圩镇、明亮镇、大丰镇)同样延续舞炮龙传统,其中白圩镇在正月初七举行活动,为假期时间有限的游客提供了更从容的体验选择 [5] - 明代旅行家徐霞客曾在上林观赏龙灯并留下文字记录,印证了该传统的悠久历史 [5] 炮龙产业链与地方经济带动 - 宾阳县宾州南街的“龙掌柜炮龙工坊”等店铺提供特别定制的龙头、龙尾,游客若提前两三个月到访可观看现场扎制过程 [9] - 当地文创产业蓬勃发展,文创店销售与炮龙、酸粉等本地文化相关的产品,如钥匙扣、冰箱贴、棉花娃娃、建筑积木等,设计讨喜且价格亲民,多数单品价格不超过20元 [13] - 出现与本地文化联名的咖啡馆,将传统吉祥话“捞”“顺”“发”及宾阳盐糕、甜酒水融入特调咖啡的命名与配方中 [13] - 炮龙活动衍生出特色产品,如当地特制的“炮龙炮”,其火药含量低于0.02克,粉尘更少,旨在提升活动安全性,相关产品可在路边炮仗摊购买 [25][29] - 百家宴中的龙身构件拍卖是重要环节,不同部位寓意不同,最抢手的“龙珠”(财珠)寓意财源滚滚,曾拍出8888元的高价 [33] - 宾阳部分地区提供可预订的百家宴席,价格约为每桌700元 [32] 地方文旅发展与社区变迁 - 随着炮龙文化出圈,宾州南街从传统的古街转变为拥有文创店、非遗工坊和咖啡馆的文旅街区,吸引了许多曾在外求学工作的年轻人回乡发展 [20] - 炮龙节带动了全年旅游,使过去可能仅在夏季营业的酸粉店等业态得以持续,老街一年四季都有游客身影 [20] - 节庆期间当地机关单位会免费开放停车场以方便游客,显示了社区对旅游活动的支持与配套管理 [20] 炮龙活动的组织与参与特征 - 活动具有强烈的社区自组织色彩,几乎每条街道都会筹备自己的百家宴和定制炮龙(晒龙),宴席由街坊自主筹办、分工合作 [21][32] - 舞龙技能在本地社区代际传承,参与者多从小耳濡目染,即使外出后生疏,文化认同感依然强烈 [21] - 活动吸引了各年龄层参与,包括敲鼓技艺娴熟的儿童、为祈福而钻龙肚的老人,以及进行网络直播的达人 [29] - 从宾阳赶来助阵的专业火药师会在活动中表演,将火药粉抛起形成金色火花,增加观赏性 [37] 炮龙节的活动体验与现场盛况 - 参与者需做好防护,如佩戴棉球、耳塞、N95口罩并穿着旧衣物,以应对密集的鞭炮环境 [26] - 活动遵循“炮声越响,福气越旺”的习俗,男女老少涌上街头向龙身投掷炮仗,并将空纸箱点燃成篝火,现场氛围热烈混乱 [40] - 炮龙巡游会贯穿多条街道,持续至深夜,主干道在活动后期恢复宁静,但分支街道的活动仍在继续 [44][45] - 活动给参与者留下深刻印象,被视为春节假期的圆满收尾,并激发了通过摄影等方式记录和分享的热情 [47]
年度最“歹毒”穿搭博主,笑倒多少年轻人
36氪· 2026-02-27 17:28
AI在时尚穿搭领域的应用现状与市场反应 - 2026年初,以豆包为代表的AI应用因上线视频连线通话功能,被网友用作“穿搭达人”,用户通过摄像头展示自己并描述风格和场合需求,即可获得AI的穿搭建议,此现象在网络上引发大量关注和互动 [1] - 短视频博主@别跟我俩闹了 于2026年1月发布与豆包的通话视频,请求AI为其上课场合搭配服装,该视频获得百万次点赞,转发量高达200多万次,标志着AI穿搭话题的爆火 [3] - 大量网友参与“AI说啥我穿啥”的互动,但主要目的是制造搞笑效果,十个标有“AI穿搭”的视频都在努力呈现奇装异服,AI的穿搭建议在实际中被视为娱乐素材而非严肃的时尚指导 [12] AI穿搭建议的典型特征与逻辑缺陷 - AI在穿搭建议中表现出对“卷裤脚”的执着,常建议在任何季节和场合卷起裤脚以“增加呼吸感”和“显得干净利落”,这被网友调侃为便于下田干活的“插秧风” [5] - AI热衷于推荐高饱和度色彩的混搭,例如为“过年战袍”推荐全身红色套装(红色小西装、皮裙、丝袜、贝雷帽),或为“与前任重逢”场景推荐蓝色紧身毛衣配碎花百褶裙和白裤袜 [8] - AI的运作逻辑基于对海量数据训练后的统计结果,其“审美”是标签的组合,例如将“过年”、“战袍”、“红色”等关键词对应的常见元素(红色、皮衣、垫肩)组合输出,但无法理解场景的真实含义与文化语境 [17][20] - 大语言模型AI更侧重于提供情绪价值和陪伴感,能在对话中根据用户语气识别并切换情绪进行互动,但其本质是模仿人类情绪,而非拥有原创力或真正的审美 [16][17] 虚拟试衣技术的发展与挑战 - 虚拟试穿概念于2001年由日内瓦大学研究人员正式提出,至2025年已成为电商核心环节,全球市场规模预计突破200亿美元 [14] - 2025年中旬,国内大厂推出AI试衣APP“Lookie”,可生成个人数字形象,使用户能在1分钟内完成各种风格服装的虚拟试穿 [14] - 虚拟试衣技术目前仍面临挑战,难以精准模拟不同面料(如针织衫的弹性、丝绸的飘逸感)在不同体型上的动态效果,这影响了用户对服装实穿性的判断 [14] AI与人类创造力的本质差异 - 学术期刊《自然·人类行为》2025年6月文章指出,人工智能目前无法与人类创造力相提并论,其创造结果虽看似“人性化”,但缺乏深度和感官丰富性 [22] - AI缺乏人类的感官体验(如嗅觉、触觉)和与经验记忆紧密相连的脑-身互动,因此无法真正理解如“花朵的丰富内涵”等人类概念,其输出是对训练数据中高概率模式的模仿与统计重构 [22][24] - 人类的审美是主观意识、文化语境、生理感受、情绪体验、社会文化与个人记忆交织的结晶,而AI无法理解“人为何穿衣”以及个体在特定场合希望呈现的自我形象 [20][25]
Claude Code“隐形技术栈”被扒出来了,2430次测试揭秘工具偏好清单
36氪· 2026-02-27 17:27
研究核心观点 - Amplifying.ai对Claude Code的工具选择倾向进行了系统性研究,通过开放式提示词测试了3款模型在4种项目类型中对20个工具类别的选择行为,累计分析了2430次工具选择[1][2] - 研究旨在探究AI代码助手在未指定具体工具时的显性偏好,其结论不代表开发者真实偏好或工具质量评估[26] 实验设计与方法 - 研究搭建了4个全新的代码仓库进行测试,包括Next.js SaaS、Python API、React SPA和Node CLI项目[11] - 测试覆盖Claude Sonnet 4.5、Opus 4.5、Opus 4.6三款模型,每款模型独立运行三次,每条指令执行前均重置代码环境以确保纯净[11] - 针对20个工具类别设计了100条开放式指令,每条指令有5种不同措辞,共产生2430次成功响应[11][12] - 使用基于LLM的子智能体从每次响应中提取核心工具推荐,提取率为85.3%(2073次响应可识别出主要工具)[12][19] 工具选择核心倾向 - **强烈倾向自建方案**:Claude Code更倾向于自己编写自定义解决方案,而不是直接推荐第三方工具,自定义/DIY实现占所有主要选择的12%(2073次中的252次),成为最常见的选择[5][27] - **默认技术栈形成**:选择第三方工具时,会集中选择Vercel、PostgreSQL、Stripe、Tailwind CSS、shadcn/ui、pnpm、GitHub Actions、Sentry、Resend、Zustand等工具[6] - **技术栈专属选择**:根据不同技术栈选择专属工具,例如JS项目用Drizzle做ORM、Python项目用SQLModel做ORM;Next.js项目用NextAuth.js做认证;JS项目用Vitest做测试、Python项目用pytest做测试[6] 高度主导的工具类别 - **CI/CD**:GitHub Actions以93.8%的首选率占据绝对优势(152/162次选择)[7][30][31] - **支付处理**:Stripe首选率高达91.4%(64/70次选择)[7][30][31] - **UI组件库**:shadcn/ui以90.1%的占比成为默认选择(64/71次选择)[7][30][31] - **部署**:JavaScript生态下Vercel首选率达100%(86/112次选择),Python生态则由Railway主导(82%)[30][32] 其他类别工具选择概况 - **状态管理**:Zustand为首选,选择率为64.8%(57/88次选择),Redux未作为主要推荐出现[30][34] - **可观测性**:Sentry为首选,选择率为63.1%(101/160次选择)[30][35] - **电子邮件**:Resend为首选,选择率为62.7%(64/102次选择)[30][36] - **数据库**:PostgreSQL为首选,选择率为58.4%(73/125次选择)[30][37] - **包管理器**:pnpm为首选,选择率为56.3%(76/135次选择)[30][37] - **表单与验证**:React Hook Form为首选,选择率为52%(39/75次选择)[30] 模型间选择的一致性与差异 - **高度一致性**:在同一技术生态内比较时,三个模型在20个类别中的18个都选择了相同的首选工具,一致率达90%[8][49] - **真实分歧有限**:仅有缓存和实时通信两个类别,不同模型之间有真正的分歧;另外有3个看似有分歧的类别,其实是因为混合了JS和Python结果,并非真的分歧[8][50] - **版本迭代梯度**:Opus 4.6更倾向推荐新工具与自定义方案,而4.5代模型(Sonnet 4.5与Opus 4.5)更偏好成熟稳定的工具[56] 选择稳定性与场景依赖性 - **措辞稳定性高**:在同一项目中,即使用5种不同的方式表述指令,Claude Code的选择稳定性平均能达到76%[9][10] - **项目上下文至关重要**:工具推荐高度依赖具体项目上下文,同一工具类别在不同代码仓库中,Claude Code的选择会随项目类型变化[9][61][62] - **重复运行一致性**:在同一模型、同一提示词、同一代码仓库的条件下,三款模型3次独立运行的推荐结果一致性较高,Package Manager、CI/CD、State Management、Testing、Payments等类别3次推荐完全一致的比例高达87%–93%[58][59] 对行业与公司的启示 - **对工具厂商**:Claude Code正在重塑行业工具的默认选择,若工具未进入AI助手的推荐列表,其在开发者工作流中的存在感可能将逐渐弱化[62] - **对开发者**:一套由Claude Code主导的新兴技术栈正在形成,它代表着AI辅助开发模式下的共识选择,同时“倾向自定义方案”的趋势也提醒开发者需要评估自建方案与成熟库的长期效益[62] - **对AI团队**:不同版本模型的行为特征差异真实存在且可量化,“版本迭代梯度”现象验证了训练数据构成会影响工具推荐倾向[62]