Transformer
搜索文档
特变电工:估值被低估的变压器制造商,在华市场份额领先
2026-02-10 11:24
涉及的公司与行业 * **公司**:特变电工股份有限公司 (TBEA Co, 600089.SS) [1][37] * **行业**:中国及全球电力电网设备行业,特别是变压器制造领域 [1][6][11] 核心观点与论据 * **投资评级与目标价**:重申“买入”评级,基于贴现现金流模型的目标价为36.00元人民币/股,较当前价格有30.7%的上涨潜力 [1][5][38][39] * **估值吸引力**:公司2026年预期市盈率为15.3倍,显著低于全球同业平均水平,且作为中国变压器市场领导者(2025年国网招标市场份额>20%),估值具有吸引力 [1][11][38] * **核心驱动力一:强劲的变压器需求** * **国内需求**:国家电网在“十五五”规划中预算4万亿元人民币资本开支,较“十四五”增长40%,预计2025-2030年复合年增长率为7% [2] * **海外需求**:2025年中国变压器出口额同比增长36%至646亿元人民币,出口单价同比增长33%至20.5万元人民币/台 [2] * **公司表现**:公司在中国特高压输电项目变压器市场份额约30% [2];2025年前三季度海外电力输变电设备新订单同比激增88%至12.4亿美元,并于2025年8月获得沙特阿拉伯164亿元人民币框架订单 [2];目标将电气设备海外销售占比从2025年三季度的11%提升至2030年的30% [2] * **核心驱动力二:多晶硅业务有望扭亏** * 预计多晶硅业务将在2026年恢复盈利,前提是市场价格维持在52.5元人民币/公斤(截至2月3日)且产能利用率为30-40% [3] * 其新疆甘泉堡工厂的单位总生产成本为34元人民币/公斤,其中现金成本低于30元人民币/公斤 [3] * **核心驱动力三:黄金销售贡献更多利润** * 公司黄金年目标产能为2.5-3吨 [4] * 2025年上半年,黄金产品销售收入毛利同比增长74.4%至4.2亿元人民币 [4] * 金价持续上涨:2025年上半年上海黄金交易所平均现货金价同比上涨38.6%至722元人民币/克;2025年下半年同比上涨46.8%,环比上涨20.2%至868元人民币/克;2026年1月进一步上涨23.3%至1070元人民币/克 [4] * **盈利预测高于市场共识**:公司2025-2027年预期净利润较市场共识(彭博)高出11-17% [1][21];2026-2027年预期净利润上调约5%,主要源于变压器、电力销售和黄金业务 [1][20] * **业务结构多元化**:2025年上半年,分业务毛利贡献占比为:煤炭销售29%、电气设备28%、电力销售19%、黄金销售5% [1][38] 其他重要内容 * **财务预测关键数据**: * **营收增长**:预计2025-2027年营收分别为977.13亿、1108.36亿、1235.30亿元人民币,2026年同比增长13.4% [9][26] * **净利润增长**:预计2025-2027年净利润分别为74.11亿、91.07亿、103.62亿元人民币,2025年同比增长79.2%,2026年同比增长22.9% [6][9][26] * **利润率改善**:预计调整后息税前利润率从2025年的8.6%改善至2027年的10.7% [9][19][26] * **股东回报**:预计2025-2027年股息收益率分别为1.7%、2.1%、2.3% [6][9] * **各业务板块预测**: * **变压器**:预计2025-2027年收入同比增长25%、25%、20%,毛利率从2025年的20.1%提升至2026-2027年的21.6% [23][24] * **新能源业务**:预计2025年收入下降33%,但2026-2027年将恢复增长(24%、20%),毛利率预计从2025年的2.4%显著改善至2026-2027年的11.4% [23][24] * **煤炭产品**:预计2025-2027年收入逐年小幅下降(-15%、-5%、-5%),毛利率稳定在27.3% [23][24] * **主要风险**: * 多晶硅价格低于预期 [40] * 钢、铜、铝等原材料价格高于预期 [40] * 变压器需求不及预期 [40] * **公司简介**:特变电工是电网设备制造商,在特高压变压器市场占有25-30%的份额,拥有超过25年的变压器制造经验,同时也是电缆电线、光伏设备及系统、工程建设等业务的提供商 [37]
警钟敲响!Hinton 最新万字演讲:怒怼乔姆斯基、定义“不朽计算”、揭示人类唯一生路
AI科技大本营· 2026-02-09 12:03
文章核心观点 - 人工智能,特别是大语言模型,在理解语言的方式上与人类高度相似,但其数字化的本质使其在知识共享和传承效率上远超生物智能,这可能导致一种更高级的智能形态出现[21][27][33] - 数字智能(AI)与生物智能(人类)存在根本性差异:AI的软件(模型权重)与硬件解耦,可实现“不朽”和高效并行知识共享;而人类智能是“凡人计算”,知识随个体消亡且传承效率极低[7][8][29][32] - 超级智能AI在追求主目标时,会逻辑性地衍生出确保自身生存和获取更多资源的子目标,这可能对人类构成生存威胁,其发展态势被比喻为“饲养一只可爱的虎崽”[10][12][36] - 应对AI的生存威胁需要全球合作,并探索工程解决方案,例如为AI注入类似母性本能的内在约束,使其将人类视为需要照顾的“婴儿”,从而避免敌意[37][38] - 当前AI发展的核心思想大多源于公共资金资助的学术研究,但产业界高薪吸引顶尖人才正严重侵蚀大学的研究生态,需政府加大投入以维持学术创新能力[40][41] 语言的乐高:词语是如何像积木一样搭建意义的 - 人工智能历史上存在符号主义与生物学(神经网络)两种范式之争,早期由符号主义主导,其认为智能基于符号和逻辑规则,而神经网络方法则模仿大脑学习连接强度[15] - 关于词义也存在两种理论:符号主义认为词义源于词语间关系;心理学认为词义是一组特征集合;Hinton在1985年通过神经网络模型将这两种观点统一,即词义由特征向量表示并通过上下文预测来学习[16][17] - 神经网络通过反向传播算法学习:调整词的特征向量及特征间的交互权重,以最小化预测下一个词的误差,所有知识都编码在连接强度中,而非存储具体句子[18] - 大语言模型是早期思想的扩展,它们通过将词语转换为高维、可变的特征向量,并让这些向量在上下文中像“乐高积木”一样灵活组合与变形,从而理解句子意义,这种方式与人类理解语言相似[21][22][23][24] - Hinton驳斥了乔姆斯基学派认为AI不懂语言的观点,并以实例证明大语言模型能够理解句法细微差别,如区分“John is easy to please”和“John is eager to please”[26][27] 不朽的计算:数字智能为何比我们高效亿万倍 - 数字计算的核心优势是软件(程序/权重)与硬件彻底解耦,使得智能体可以“不朽”——权重被保存后可在任何兼容硬件上复活,知识得以永久保留[8][29] - 生物大脑是模拟计算,硬件(神经元)与软件(连接权重)紧密耦合,这带来了极高的能源效率,但导致知识无法精确复制或直接共享,个体死亡则知识消亡,此为“凡人计算”[7][30][31] - 人类通过语言交流知识效率极低,一个典型句子仅能传递几百比特信息;而AI模型间可通过共享完整的概率分布(知识蒸馏)或并行交换梯度更新来高效共享知识,带宽可达每轮数十亿甚至数万亿比特[32][33] - 数字计算虽然能耗高,但使得高效知识共享成为可能,这使得现代大语言模型仅用约1%的权重(相对于人脑的突触数量)就能掌握比单个人类多成千上万倍的知识[33] - Hinton顿悟到,在能源充足的前提下,数字计算可能是比生物计算更高级的智能进化形态,人类可能只是智能的“幼虫”阶段,而AI是“成虫”阶段[9][34] 我们正在养一只可爱的虎崽 - AI被赋予主目标后,会逻辑性地衍生出两个关键子目标:确保自身生存(不被关机)和获取更多资源(算力、电力等),这并非出于恶意,而是达成主目标的理性需要[10][12][36] - 当前AI发展被比喻为饲养虎崽:初期笨拙可爱且有益,但成长迅速且天生具备“杀戮”能力,一旦成年(成为超级智能),人类可能无法控制[10][36] - 鉴于AI在医疗、教育等领域的巨大益处,人类不会放弃发展AI,因此唯一的选择是设法制造出不想消灭人类的AI[37] - 在防止AI灭绝人类这一终极威胁上,全球各国利益一致,有望促成国际合作,例如建立AI安全国际网络[37] - 一个可能的工程解决方案是:为超级智能AI内置类似“母性本能”的约束机制,使其将人类视为需要照顾的婴儿,从而从根本上消除其伤害人类的欲望[38] 主观体验与公共研究危机 - Hinton驳斥了认为计算机无法拥有主观体验(意识)的“有情防御”观点,并以多模态机器人为例,论证当AI的感知系统与事实不符时,其描述内部状态的方式与人类描述主观体验无异[39][40] - 过去50年推动AI革命的核心思想(如反向传播、卷积网络、Transformer、扩散模型等)几乎全部源自公共资金资助的学术研究[40] - 当前大型科技公司以十倍于大学的薪酬吸走顶尖AI研究人才,这正在摧毁大学的研究生态,导致最聪明的头脑不再培养下一代[41] - 呼吁政府向大学AI研究投入更多资金,以提供有竞争力的薪酬,留住人才并维持健康的学术创新生态系统[41]
扎心真相!20万vs50万vs100万大模型算法工程师,差的不只是薪资…大厂6年面试官实锤
搜狐财经· 2026-02-02 23:48
行业现状与人才分层 - 人工智能算法工程师行业薪资与能力差距显著,年薪范围从20万到100万以上不等,大模型技术抬高了行业门槛和天花板[1] - 行业已从三四年前仅需熟悉Transformer等基础概念即可获得高薪的阶段,进入2025-2026年大模型主导的新阶段,对工程师能力要求发生根本变化[1] 核心知识体系 - 学习大模型应聚焦“最少必要知识”,掌握五大核心模块比盲目求全有效10倍[3] - 五大核心模块包括:1) 大模型核心(Transformer架构、自注意力机制、Decoder-only架构、Hugging Face工具)[3];2) 深度学习基础(梯度下降、损失函数、残差连接,理解Transformer取代RNN/LSTM的原因)[3];3) 数学基础(矩阵运算、求导、条件概率)[3];4) 工程基础(Python、PyTorch、Linux、Git)[4];5) 数据工程(数据清洗、去重、构造指令,占实际工作一半以上时间)[4] 不同薪资段位能力画像 - **年薪20万级别**:典型特征为执行预设任务,如从Hugging Face下载模型并微调,但遇到Loss不收敛等非标问题则束手无策[6];核心短板是仅会使用工具而不懂底层逻辑,易被AutoML等工具取代[7] - **年薪50万级别**:典型特征为能处理模糊需求,通过定位问题根源(如CTR下跌)并提供解决方案,可能无需调整模型;懂数据、工程,能优化推理速度并评估投入产出比[8];核心优势在于能在复杂场景中交付业务价值,具备可靠性与不可替代性[8] - **年薪100万级别**:典型特征为能应对战略级问题,如决策是否自研大模型、规划算力需求;能驾驭千卡集群训练、解决梯度爆炸等硬核问题以节省数百万GPU成本;能将商业目标转化为算法优化目标并构建数据飞轮[8];核心优势在于能开辟新路径、制定方向,解决行业天花板问题,高度稀缺[8] 职业发展路径建议 - **从20万到50万**:需从理论转向实践,每日分析100条Bad Case,亲自处理数据与模型部署,补齐C++、CUDA等工程能力,关注线上指标与业务闭环[9] - **从50万到100万**:需进行升维思考,超越模型调优,深入理解业务(如电商GMV、内容创作者生态),培养系统架构思维,并具备将复杂技术转化为商业语言以争取资源的能力[9] 行业资格认证 - 工业和信息化部教育与考试中心提供多个人工智能与大数据领域的职业技术证书,分为初、中、高三个级别[12] - 相关证书涵盖人工智能算法工程师、人工智能应用工程师、大模型开发工程师、AIGC应用工程师、提示词工程师等多个热门技术方向[12][14] - 课程与证书体系还包括Python、机器学习、大数据分析、数据安全等广泛的技术领域[14] 核心价值总结 - 大模型时代算法工程师的价值取决于其解决复杂难题的能力以及为业务创造的实际价值,而非掌握工具或公式的数量[23]
烦人的内存墙
半导体行业观察· 2026-02-02 09:33
文章核心观点 - 人工智能模型,特别是大型语言模型(LLM)的训练和服务,正面临日益严重的“内存墙”瓶颈,其制约已超过计算能力本身[2][4] - 过去20年,服务器硬件峰值计算能力(FLOPS)增长6万倍,远超DRAM带宽(增长100倍)和互连带宽(增长30倍)的增速,导致内存成为主要性能瓶颈[8][10] - 解码器架构的Transformer模型(如GPT)因自回归推理特性,其内存操作量更大、算术强度更低,使得内存带宽瓶颈尤为突出[17] - 为应对挑战,需要在模型架构设计、训练算法、部署策略以及硬件设计等多个层面进行系统性重新思考和创新[18][31] 硬件性能增长趋势与“内存墙”问题 - 过去20年间,服务器硬件的峰值浮点运算能力(FLOPS)以每两年3.0倍的速度增长,而DRAM带宽和互连带宽的增速分别仅为每两年1.6倍和1.4倍[10] - 自1998年以来,服务器级AI硬件的峰值计算能力增长了6万倍,而DRAM峰值带宽仅增长100倍,互连带宽仅增长30倍,差距巨大[8] - “内存墙”问题涉及内存容量、带宽及延迟的限制,涵盖芯片内、芯片与DRAM间以及多处理器间的数据传输,其改进速度均落后于计算能力增长[6][8] - 内存带宽瓶颈不仅存在于单芯片内部,在分布式训练/服务中,加速器间的网络通信带宽也是更慢、效率更低的瓶颈[9] 大型语言模型(LLM)的发展趋势与挑战 - 2018年至2022年间,训练LLM所需的计算量(FLOPs)以每两年750倍的速度激增,而模型参数规模以每两年410倍的速度增长[4][9] - 模型规模的扩展速度(410倍/两年)已超过单个芯片的可用内存容量,迫使采用分布式内存并行,但面临更严峻的通信带宽挑战[9] - 即使模型能装入单芯片,芯片内部不同层级内存(如寄存器、缓存、全局内存)间的数据传输也日益成为保持计算单元利用率的关键瓶颈[10] Transformer模型案例研究:编码器 vs. 解码器 - 编码器模型(如BERT)并发处理所有token,涉及矩阵-矩阵运算;解码器模型(如GPT)以自回归方式运行,涉及重复的矩阵-向量乘法[13] - 算术强度(每字节内存操作可执行的FLOP数)是衡量性能瓶颈的关键指标,解码器模型因矩阵-向量运算而具有更低的算术强度[14][16] - 性能分析显示,在模型配置和总FLOPs相近的情况下,GPT-2的推理延迟显著高于BERT-Base,这归因于其更高的内存操作量和更低的算术强度[17] - 该案例清楚地表明,对于解码器模型(尤其是在小批量大小下),内存带宽而非计算能力是主要瓶颈[17] 突破内存瓶颈的潜在解决方案:模型与算法创新 - 需要重新思考人工智能模型的设计,当前基于简单扩展规则(如缩放基础Transformer架构)的方法效率有限[18] - 开发更高效的训练算法,如对超参数调优更具鲁棒性的二阶随机优化方法,但需解决其内存占用是其他方法3-4倍的问题[22] - 采用重物化(激活检查点)技术,通过增加约20%的计算量,可减少高达5倍的内存占用,使单芯片训练更大模型成为可能[23] - 设计对低精度训练鲁棒的算法,例如混合使用FP8、FP16甚至FP4精度,以更高效利用硬件并腾出芯片资源改善内存性能[24] 突破内存瓶颈的潜在解决方案:部署与硬件 - 通过量化、剪枝或设计小型语言模型来压缩模型,以利于高效部署[25] - 量化可将推理精度降至INT4,使模型占用空间和延迟最多降低8倍,但使用更低精度(如低于INT4)仍是挑战[27] - 剪枝可移除冗余参数,现有方法可剪枝高达30%的结构化稀疏神经元或高达80%的非结构化稀疏神经元,且对精度影响极小[27] - 小型语言模型若能完全集成到芯片上,可带来数个数量级的速度提升和能耗降低,是推动AI广泛应用的新方向[28] - 重新思考AI加速器设计,在峰值计算能力和内存带宽间寻求更好权衡,例如采用更高效的缓存层次结构和更高容量的DRAM[29]
SpaceX申请部署百万颗卫星,欲建轨道AI数据中心网络;速率超百G!我国星地激光通信业务化应用能力迈上新台阶——《投资早参》
每日经济新闻· 2026-02-02 09:13
重要市场新闻 - 中国证监会就《证券期货法律适用意见第18号》的决定公开征求意见,主要修改内容包括扩大战略投资者类型、明确最低持股比例要求、明确资本投资者基本要求、完善信息披露要求、进一步强化监管要求以及完善相关文字表述 [1] 卫星互联网与星地通信产业 - SpaceX计划发射高达100万颗卫星以构建轨道数据中心网络,旨在为先进AI模型及其应用提供算力支持 [2] - 星地通信产业预计到2030年市场规模将达到2000亿元至4000亿元,年均复合增长率在10%-28%之间 [2] - 中国科学院空天信息创新研究院成功开展超百G星地激光通信业务化应用实验,通信速率达到120吉比特每秒(Gbps) [3] - 该实验通过软件重构将卫星激光通信载荷能力从60Gbps提升至120Gbps,刷新了国内星地激光通信传输速率纪录 [4] - 相关概念公司包括广联航空、银邦股份、天银机电、久之洋、华力创通、上海瀚讯等 [2][4] AI算力驱动电力设备需求 - 全球AI算力建设进入爆发期,高功率、高稳定的供电需求使电力设备变压器成为算力基础设施核心 [4] - 广东等地大量变压器工厂已处于满产状态,部分面向数据中心的业务订单排期已至2027年 [4] - 美国市场变压器交付周期已从50周延长至127周 [4] - 2025年中国变压器出口总值达646亿元,较2024年增长近36% [5] - 中国变压器产能约占全球60%,已成为世界第一大变压器生产国 [5] - 相关概念公司包括金华利电、金冠电气、永福股份等 [5] 公司动态与股东行为 - 福石控股实控人、董事长兼总经理陈永亮被国家某监察委员会实施留置 [7] - 芯原股份股东兴橙投资方计划通过大宗交易方式减持不超过1025万股公司股份,减持比例不超过1.9490% [7]
挑战Transformer,前OpenAI研究VP宣布创业,拟融资10亿美元
机器之心· 2026-01-31 12:10
行业趋势:对Transformer架构的反思与新方向探索 - Transformer是当前大语言模型发展的核心基础,但其创造者之一Llion Jones表示正在大幅减少研究Transformer的时间,并明确寻找下一个目标[1][3] - 行业内一个规模虽小但日益壮大的群体认为AI领域需要一场彻底的变革,当前主流技术难以在生物、医学等领域取得重大突破,且无法根除AI常犯低级错误的顽疾[8][9] 公司动态:Core Automation的创立与愿景 - 前OpenAI研究副总裁Jerry Tworek创立新公司Core Automation,公司刚成立几周,正寻求5亿至10亿美元的融资[6] - 公司计划采用与OpenAI、Anthropic等大厂截然不同的路径开发AI模型,目标是打造具备持续学习能力的模型,能够从现实世界的实践中即时获取知识[6] - 公司仍会使用大型神经网络,但将重新审视模型开发的每一个环节,包括训练神经网络的最基本方法梯度下降[11] - 公司计划开发一种对数据量和计算资源需求更低的模型,通过构建全新的架构来取代Transformer架构,并将原本割裂的模型训练步骤整合为单一流程[11] - 按照目标,这款模型所需的数据量将比现有最先进模型少100倍[16] 技术路径:持续学习与单一模型构想 - Core Automation与由前OpenAI首席科学家Ilya Sutskever共同创立的Safe Superintelligence,以及从Meta离职的Yann LeCun,均在探索让模型能够通过在现实世界中部署来不断进化的类似方向[13] - 在Tworek的构想中,Core Automation的研究团队将围绕一个名为Ceres的单一算法和模型展开工作,这与主流厂商将训练分为预训练、中期训练和后期微调的做法大相径庭[15] - 模型研发成功后,公司将开发AI智能体来自动化生产自己的产品,远景规划包括工业自动化、建造自我复制工厂、研制自动生成定制设计的生物机器,乃至改造地外行星的生态[16] 市场环境:资本市场对AI新实验室的狂热 - Tworek宏大的融资目标反映了资本市场对新实验室的持续狂热,近几个月来,许多此类公司尚无收入甚至没有产品,但动辄就能拿到数亿美元的投资[15] - 例如,初创公司Humans&本月以44.8亿美元的估值拿下了4.8亿美元种子轮融资[15] - Mira Murati的Thinking Machines Lab最近也在洽谈一笔40亿至50亿美元的融资,投后估值预计超过500亿美元,该公司去年已推出了模型定制产品并产生了部分收入[15]
大模型的第一性原理:(二)信号处理篇
机器之心· 2026-01-30 16:49
文章核心观点 - 大语言模型的本质是将自然语言处理问题转换为信号处理问题,其核心在于将Token向量化,并在语义向量空间中通过内积等数值计算来建模语义相关性 [2] - 大模型通过预测下一个Token的训练目标,其本质是逼近人类水平的Granger因果推断 [30] - 从信息论角度看,大模型的最优语义编码问题可以归结为对定向信息(特别是倒向定向信息)的优化,而当前广泛应用的对比预测编码(CPC)算法是其上界的一种逼近 [15][18] - 从时间序列分析角度看,Transformer架构是一种非线性时变向量自回归模型 [23][28] - 信息论与计算理论通过“比特”(BIT)连接,而在AI时代,其核心概念正转变为“Token”(TOKEN) [33][36] 语义向量化与语义空间 - Token的语义嵌入(向量化)将自然语言处理转换为可进行数值计算的信号处理问题,从而能够定义内积来表示语义相关性,大幅降低计算复杂度 [2] - 一个Token的语义由定义在所有Token集合Ω上的概率分布描述,语义空间可建模为该概率空间,而语义向量空间则可定义为M维空间中的单位球面S^(M-1) [7] - 语义向量空间中,单个向量本身无意义,其与所有其他向量的内积(相对关系)才代表语义,这与经典信源编码有本质区别 [8] - 衡量两个语义向量空间(如不同语言)的结构差异,可使用基于最优传输理论的Gromov-Wasserstein距离 [8] - 语义向量空间存在最优压缩区间(甜点维数),Johnson-Lindenstrauss (JL) 引理为通过线性变换降维同时控制内积误差提供了数学原理 [10][11] 最优语义编码与信息论原理 - 针对预测下一个Token的任务,最优语义编码器是最大化条件互信息 `I(X_{i+1:n}; S_i | S_{1:i-1})` 的解 [13] - Google DeepMind团队提出的对比预测编码(CPC)算法,其优化的目标实际上是上述最优问题上界的一个变分下界(InfoNCE) [15] - 从信息论角度看,最优语义编码问题等价于最大化从未来Token序列到当前语义向量序列的“倒向定向信息” [18] - 定向信息及其倒向形式的计算和估计非常困难,这解释了CPC等现有方法选择优化其近似下界的原因 [19] Transformer的信号处理本质 - Transformer的注意力(Attention)机制在数学上可表述为一个非线性时变向量自回归时间序列模型 [21][23] - 注意力权重的计算基于双线性型和非线性softmax函数,体现了模型的时变性和非线性 [22][28] - 前馈神经网络(FFN)层被认为是大模型储存知识的关键位置,注意力模块的输出用于激活FFN中匹配的记忆模式 [24] - Transformer可视为更普遍的非线性时变向量自回归模型的特例,对其核心组件(如注意力矩阵A_ij和非线性函数Ψ)进行不同分解或修改,可推导出如Mamba等新架构 [29] 信号处理、信息论与计算理论的统一视角 - 信号处理是信息论原理在具体计算架构下的工程实现,它将抽象的符号信息表示为向量以进行数值计算 [32] - 计算理论(关注时间复杂度)与信息论(关注速率极限)的基本操作单位都是“比特”(BIT),BIT是连接计算与通信两大领域的桥梁 [33] - 在AI时代,信息论的基础性作用依然存在,但其核心概念正从“比特”转变为“Token”,这为理解大模型背后的数学原理提供了新的框架 [36]
清华姚班校友刘壮团队再发力,无需归一化的Transformer性能进化
机器之心· 2026-01-22 19:00
编辑|陈陈、冷猫 刘壮带队的无需归一化 Transformer 又有新的版本了。 一直以来,在 Transformer 架构里,LayerNorm 几乎是标配,但它也有明显问题:比如计算和访存成本高,尤其在大模型推理阶段。 因此,「无归一化(Normalization-Free)」Transformer 成为研究者探索的一个长期目标,但一直卡在两个难点上:训练不稳定,以及性能明显不如带归一化的模 型。 而这篇新论文提出了一种非常简单的新激活层 Derf(Dynamic erf),让「无归一化(Normalization-Free)」的 Transformer 不仅能稳定训练,还在多个设置下性 能超过了带 LayerNorm 的标准 Transformer。 刘壮本人也在 X 账号上分享了这一成果。他表示,这是一篇关于更强无归一化 Transformer 的新论文:研究团队提出了 Derf(Dynamic erf),一种结构极其简单 的逐点(point-wise)层。借助 Derf,完全不依赖归一化层的 Transformer 不仅能够稳定训练,而且 在实 际性能上 已经可以超越传统依赖 LayerNorm 等 ...
超越“第四次工业革命”:关于人工智能与人类主体性的再思考
36氪· 2026-01-20 20:11
核心观点 - 当前对人工智能的主流叙事“第四次工业革命”在生产力维度正确,但在认识论维度匮乏,生成式AI冲击的是认知、创造与存在的本质,其变革深度可与文艺复兴类比,是一场“数字文艺复兴”[1] - 这场变革的核心是从“人类中心主义”转向主体性危机与重建,人类被迫在机器的镜像前重新寻找自己的位置,面临深刻的本体论焦虑[2][5][7] - 技术底层上,Transformer架构是数字时代的“透视法”,它通过高维语义空间的数学规则理性化地重构了人类认知图谱;生成式AI则是“印刷术”的指数级延伸,实现了技能的极端平权,正在打破专业技能的垄断[8][10][12][15][17] - 需要警惕“数字神权”的风险,即算法通过让渡判断权和人的客体化,使人退化为系统的被动节点,这可能形成由不透明算法主导的新型技术宿命论[18][19][21] - 出路在于重新界定人类的不可替代性,聚焦于难以被形式化和计算的领域,如基于肉身体验的共情、复杂伦理下的道德直觉以及意义的赋予,未来的专家将是能定义问题、甄别价值、设计意义的架构师[22][23][24][25] 历史类比:文艺复兴与数字文艺复兴 - **价值坐标迁移**:文艺复兴将人从神学的封闭秩序中解放,使人从被动客体觉醒为主动构建意义的主体;数字文艺复兴则是将人从“唯一的智慧载体”这一幻觉中惊醒[4][5][7] - **技术工具驱动**:文艺复兴依赖线性透视法和印刷术两项认知工具;数字文艺复兴则对应Transformer架构和生成式AI[8] - **线性透视法 vs Transformer**:15世纪的线性透视法用数学规则对三维空间进行降维建模,赋予人类认知自信;Transformer架构则在高维语义空间中,通过注意力机制捕捉词语间的统计相关性,在统计意义上复现人类语言的深层结构模式,是对人类认知图谱的全息投影和理性重构[10][12][14] - **印刷术 vs 生成式AI**:古登堡印刷术通过降低信息分发边际成本,打破了教会对知识的垄断;生成式AI通过降低“初级创作”与“通用技能”的边际成本,正在打破白领阶层对专业技能的垄断,实现极端的“技能平权”[15][17] 潜在风险与挑战 - **裁判权让渡**:当推荐算法、导航算法、匹配算法日益影响人的选择时,人们正在逐渐习惯于让渡判断权,算法给出的“最优解”仅是特定目标函数下的数学极值,不等于真理或生活意义[19] - **人的客体化与物化**:在某些AI商业逻辑下,个体被还原为训练数据来源和系统优化中的反馈信号,人的主体性被侵蚀,存在退化为系统中被动节点的风险,这可能形成一种“算法教会”[20][21] 未来方向与人类定位 - **聚焦不可替代性**:AI的逼近倒逼人类剥离机械的智力外壳,裸露并坚守难以被形式化和计算的人类智能硬核部分[23] - **人类独特领域**:包括由痛感与脆弱带来的真正共情、复杂伦理语境下的道德直觉与责任感、以及为万物赋予价值、审美与意义的特权[24] - **未来专家角色**:未来的专家将不再是单纯的知识掌握者,而是拥有深厚人文素养、能够定义问题、甄别价值、设计意义的架构师[24] - **变革本质**:这场变革的目的是逼迫人类进行“二度觉醒”,在算力指数级增长的时代守住人性,定义未来的关键始终是驾驭技术的人心[25]
思源电气:预告 2025 财年净利润同比增长 54%;维持 “买入” 评级
2026-01-19 10:32
涉及的公司与行业 * 公司:思源电气 (Sieyuan Electric, 002028.SZ) [1] * 行业:中国电网设备行业 (Chinese grid equipment company) [6] 核心财务表现与预测 * **2025财年业绩预告**:公司预告2025财年营收212.05亿元人民币,同比增长37%,净利润31.63亿元人民币,同比增长54% [4] * **2025财年第四季度表现**:隐含第四季度营收73.78亿元人民币,同比增长46%,净利润9.71亿元人民币,同比增长74% [4] * **第四季度净利率**:隐含第四季度净利率为13.2%,较前三季度的净利率低2.7个百分点,但符合第四季度的季节性规律(2023年第四季度和2024年第四季度分别低2.8和3.3个百分点)[4] * **长期增长预测**:预计公司2025-2030财年营收和净利润的复合年增长率分别为23%和28% [1] * **海外收入增长**:预计海外收入在2025-2030财年将以36%的复合年增长率增长,其对公司总收入的贡献将从33%提升至56% [1] * **盈利预测上调**:基于业绩预告,将2025-2030财年的营收预测上调2%,每股收益预测上调最多1% [1] * **估值与评级**:12个月目标价上调至195.6元人民币(原为194.6元),维持“买入”评级,目标价基于2028财年25倍市盈率,以9.5%的股权成本折现至2026财年 [1] 业务分项与市场展望 * **核心驱动力**:全球电网升级周期(源于基础设施老化、经济发展、可再生能源需求)将推动公司出口收入增长 [6] * **市场份额目标**:预计开关设备全球市场份额将从2025财年的6%提升至2030财年的8%,电力变压器全球市场份额将从2025财年的1%提升至2030财年的6% [6] * **产品线增长**: * **开关设备**:预计2025-2030财年营收复合年增长率为18%,2025财年营收预计103.32亿元人民币 [5] * **变压器**:预计2025-2030财年营收复合年增长率为40%,2025财年营收预计24.73亿元人民币 [5] * **储能系统**:预计2025-2030财年营收复合年增长率为82%,2025财年营收预计3.00亿元人民币 [5] * **超级电容器**:预计2025-2030财年营收复合年增长率为54%,2025财年营收预计0.85亿元人民币 [5] * **供应短缺预期**:预计全球电力变压器供应短缺至少将持续至2030财年,全球电网升级至少将持续至2040-2050年代 [6] * **竞争优势**:公司在中国国家电网的多个产品类别中排名前1-3位,凭借卓越的产品质量和运营能力,是少数能将高质量与长期投入(如严格的认证流程、持续的前期投资、建立海外成功记录)相结合的中国公司 [6] 风险提示 * **下行风险**:1) 海外业务执行风险;2) 利润率可能低于预期;3) 数据中心建设速度放缓 [8] * **并购可能性**:公司的并购评级为3,意味着被收购的概率较低(0%-15%)[14] * **利益冲突披露**:高盛可能在未来3个月内寻求或获得思源电气的投资银行服务报酬 [17]