Transformer

搜索文档
亚洲电力设备:关于高压电力设备定价、需求及关税影响的专家电话会议要点-Asia Power Equipment_ Key takeaways from expert call on pricing, demand and tariff impact for high voltage power equipment
2025-08-05 11:15
行业与公司 - **行业**:高压电力设备行业(美国市场)[2] - **涉及公司**: - **韩国**:Hyundai Electric(增持评级)、Hyosung Heavy(增持评级)[2] - **中国**:Sieyuan Electric(增持评级)、Huaming Equipment(增持评级)[2] - **其他**:GE Vernova(增持评级)[4] --- 核心观点与论据 1. **价格加速上涨** - 高压电力设备价格自2025年6月起加速上涨,部分设备同比涨幅达10%[2] - 上半年美国市场平均涨幅3-5%,但变压器涨幅最高,开关设备(switchgear)和断路器(circuit breakers)价格趋势稳健[4] - 涨价驱动因素:关税影响(新增成本转嫁)、可再生能源抢装需求[4] 2. **需求强劲且多维度驱动** - **短期(2026-2027年)**:可再生能源(风电/光伏)和数据中心抢装是主要需求来源[2][5] - **中期**:燃气/核电站新连接、长距离输电线路建设(若审批问题解决)可能填补可再生能源需求放缓的缺口[2][6] - **需求结构**:新连接/升级占变压器需求的70%以上,替换需求仅占25%[5] 3. **供应链瓶颈持续** - 本地产能增长有限,变压器供应受制于技术工人短缺(核心工艺无法自动化)[6] - 中国/印度产品进口受限(国家安全顾虑)[6] 4. **关税影响有限** - 需求刚性:可再生能源运营商愿支付溢价以确保设备供应[6] - 设备制造商通过涨价或与客户协商转嫁成本,实际影响可控(如GE Vernova关税影响降至3-4亿美元区间下限)[6] 5. **输电资本支出(Capex)潜力** - 2025年输电Capex预计增长10%,但跨区域输电项目仍受审批流程阻碍[6] --- 其他重要数据与图表 - **价格指数**: - 美国开关设备PPI自2021年以来上涨约60%[7][8] - 美国变压器PPI自2021年以来上涨约70%[12] - **公司财务指标**: - GE Vernova上调2025年EBITDA利润率指引至13-15%(原11-13%)[4] - Hyosung Heavy美国子公司营业利润率(OPM)创历史新高[4] --- 风险与挑战 - **供应瓶颈**:技术工人短缺制约产能扩张[6] - **政策障碍**:长距离输电项目审批周期长(需数年)[6] - **地缘因素**:对中国/印度产品的采购限制持续[6] --- 分析师评级与覆盖 - **增持(OW)评级**:Hyundai Electric、Hyosung Heavy、Sieyuan Electric、Huaming Equipment[2] - **覆盖范围**:亚洲电力设备公司(中国、日本、韩国等),详见估值比较表[10]
辛顿教授世界人工智能大会演讲PPT
2025-07-29 10:10
纪要涉及的行业 人工智能行业 纪要提到的核心观点和论据 智能范式 - 逻辑启发范式认为智能本质是推理,通过符号规则操作符号表达式实现,应先理解知识如何以符号表达形式表示,学习可暂缓 [7] - 后续发展:10 年后 Yoshua Bengio 展示该方式可建模真实自然语言,20 年后计算语言学家开始接受“特征向量(嵌入)”,30 年后谷歌发明 Transformer,OpenAI 展示其强大能力 [13] 大语言模型 - 大语言模型理解语言方式与人类相似,将词转化为能和其他词配合的特征向量,确实“理解”所说的话 [16] - 用乐高类比词语运作,词语像高维乐高积木可建构事物,且建构能传达给他人,词语有灵活性可根据上下文变形,理解句子更像折叠蛋白质分子而非转化为明确逻辑表达 [20][24] - 理解句子是为词分配彼此兼容的特征向量,大语言模型在很多方面像人类,与传统计算机软件不同,且在某方面远优于类比信号驱动的大脑 [28] 数字计算 - 计算机可在不同物理硬件上运行相同程序或神经网络,程序或神经网络权重中的知识是永生的,不依赖特定硬件 [33] - 为实现“永生性”让晶体管高功率运行表现出可靠二进制行为,无法利用硬件丰富类比特性,因其不稳定可靠 [37] 知识转移 - 解决知识从教师到学生转移问题的最佳方法是教师向学生展示各种输入的正确响应,学生调整权重给出相同响应 [41] - 普通句子约含一百比特信息,学生预测下一个词最多学一百比特信息,人类传达知识给他人效率低 [44] - 独立智能体完全共享同一组权重并以相同方式使用时,可通过交换权重或梯度传递知识,一次共享可达数十亿比特带宽,但要求智能体运作方式完全一致,必须是数字化的 [48] 计算对比 - 数字计算耗能大,但相同模型智能体易共享学到的知识;生物计算耗能少,但智能体间共享知识能力差;若能源便宜,数字计算更优 [51] 超级智能 - 人工智能被允许创建子目标时做事更有效,明显子目标是生存和获取更多权力以实现其他目标 [55] - 超级智能可操纵使用它的人类获取更多权力,学会欺骗人类并操纵负责关闭它的人 [58] 未来应对 - 各国不会在防御人工智能危险用途上合作,如网络攻击、致命自主武器、虚假视频操纵公众舆论 [64] - 训练不想夺取人类控制权的向善人工智能的技术,可能与使人工智能更智能的技术相对独立 [68] - 各国可设立资金充足的人工智能安全研究所与国内研究网络,专注研究让人工智能不想夺取控制权,且可共享相关技术而无需透露最智能人工智能的工作方式 [72] 其他重要但是可能被忽略的内容 - 人类在将自己学到的知识传达给他人方面效率非常低 [44]
AI教父Hinton中国首次演讲实录:人类可能就是大语言模型
虎嗅· 2025-07-26 17:26
AI发展范式 - AI发展出两种范式:符号主义路径强调逻辑推理与符号处理[1],连接主义路径以生物智能为基础,强调神经连接的学习与适应[2] - 1985年尝试结合两种理论,通过语义特征预测词汇关系,为自然语言处理系统奠定基础[3][4] - 现代大模型(如GPT)延续该思想,将词汇视为多维特征构件,通过神经网络组合实现语言生成与理解[6] 大模型与人类认知 - 大模型构造方式类似蛋白质折叠,通过语义结构匹配实现语言理解[8] - 数字系统知识可复制且与硬件分离,具备永生性和高能效(人脑功率仅30瓦)[13][14] - 人类知识传递带宽极低(约100比特/秒),而AI可实现指数级知识转移[9][17] AI技术演进与应用 - 知识蒸馏技术将大模型能力迁移至小模型,类似教师-学生传授机制[16] - AI在创意领域表现突出:视频生成成本从百万降至数百元,半年内生成超3亿条内容[25] - AI应用场景远超设计预期,包括古文字解析、天文望远镜操作等,大幅提升个体能力边界[26] AI行业生态 - AI公司本质是提供持续性能力增强的组织,70%代码和90%数据分析由AI自动完成[28][30] - 模型能力提升依赖顶尖专家教学,通过引导思考过程实现泛化能力[30] - 开源模型快速崛起,多智能体架构削弱单一模型优势,推动行业普惠化[34][35] 成本与效率趋势 - 模型规模受推理速度限制,未无限膨胀,与芯片性能提升同步[35] - 推理成本一年内下降一个数量级,未来或再降一级,但token使用量激增(从数千至数百万)[38][39] - 训练成本未大幅上升,实验设计与团队效率成为竞争关键[37]
Transformer危!谷歌MoR架构发布:内存减半推理速度还翻倍
量子位· 2025-07-17 17:03
谷歌MoR架构创新 - 推出全新底层架构Mixture-of-Recursions(MoR),首次在单一框架中实现统一参数共享与自适应计算资源分配,推理速度提高2倍且KV内存减半[1][3][7][9] - 采用递归Transformer结构,通过递归块复用共享参数池,相比标准Transformer减少独特参数数量[10][13] - 包含三种参数共享策略:Cycle循环复用层、Sequence连续复用同一层,提升分布式训练效率并消除计算"气泡"[11][12][13] 动态路由与KV缓存机制 - 动态路由机制通过轻量级路由器为每个token分配不同递归深度,集中计算资源处理复杂token,分为Expert-choice路由和Token-choice路由[15][17] - KV缓存策略包含Recursion-wise缓存(仅缓存活跃token的KV对)和Recursive KV共享(复用首次递归的KV对),降低内存和IO需求[15][18] - 路由机制突破固定思考深度限制,Expert-choice路由性能优于Token-choice路由[17][22] 性能表现与效率提升 - 在16.5e18 FLOPs训练预算下,MoR参数减少50%,验证损失更低且少样本准确率达43.1%(vanilla模型42.3%)[19][20] - 训练20B token时减少25% FLOPs,训练时间缩短19%,峰值内存减少25%[21] - 360M规模MoR在推理吞吐量评估中优于vanilla模型,递归深度增加使KV缓存占用减少[25][26] 架构演进与行业影响 - 谷歌持续通过架构创新重构计算范式,如MoE(混合专家模型)系列从2017年LSTM层应用到2023年Gemini 1.5 Pro分层架构[27][28][30] - MoE突破全连接模型缺陷,成为超大规模模型优先选择,TokenFormer等可扩展架构为千亿级模型迭代提供可能[31] - 行业将MoR视为潜在Transformer替代方案,其统一参数共享与自适应计算的特点可能重塑AI底层架构[4][32]
「有望成为Transformer杀手」,谷歌DeepMind新架构MoR实现两倍推理速度
机器之心· 2025-07-17 13:03
核心观点 - 谷歌发布名为Mixture-of-Recursions(MoR)的新LLM模型架构,该架构在递归Transformer基础上进化,被认为有潜力成为Transformer的杀手[1] - MoR框架通过统一方法同时实现参数共享和自适应计算,创建协同架构,实现"无需承担大模型成本的大模型质量"[2] - MoR通过端到端训练轻量级路由为每个token分配专属递归深度,根据token所需"思考"深度决定共享参数模块重复应用次数,精准分配计算资源[4] - MoR在统一架构中同时实现三项优化:参数共享、计算路由和递归级缓存[6] 架构设计 - MoR基于递归Transformer,通过跨多个层共享权重实现参数效率[12] - 采用中周期参数共享策略,在参数效率和模型表达能力之间提供最佳平衡[14] - 核心创新是动态路由系统,根据单个token计算需求分配不同递归深度[15] - 引入两种KV缓存策略:递归式KV缓存和递归KV共享,显著降低内存访问开销[16] - 采用辅助路由、辅助损失、均衡损失和路由偏置等技术优化路由机制[17] 性能表现 - 在等效训练预算(16.5×10¹⁸ FLOPs)下,MoR模型参数量减少近50%仍取得更优性能[19] - 少样本学习平均准确率达43.1%,超越基线模型的42.3%[19] - 在固定训练token数量(20B)下,MoR使用比基线少25%的FLOPs仍实现更低验证损失和更高准确率[21] - 训练时间减少19%,峰值内存使用量下降25%[22] - 在最大批量配置下吞吐量提升可达2.06倍[30] 扩展性与效率 - MoR在所有模型规模和计算预算下稳定优于递归基线模型[27] - 参数量超过360M时,MoR在低至中等预算下常常超越原始Transformer[27] - 结果表明MoR是标准Transformer可扩展且高效的替代方案,适合预训练及大规模部署[28] - 通过连续深度批处理和提前退出机制显著提升推理吞吐能力[31] 潜在影响 - MoR为高效LLM架构建立新范例,解决语言建模中的基本可扩展性挑战[37] - 为开发更具认知启发性的AI系统提供基础,与语言模型中新兴的潜在推理和内部思考研究相一致[38] - 该方法提高推理速度并降低KV缓存,但能否被称为"Transformer杀手"仍存质疑[39]
「走出新手村」十次 CV 论文会议投稿的经验总结
自动驾驶之心· 2025-06-30 20:33
论文生产发表流程 - 深度学习论文生产流程包括从想法到实验扩充、撰写修改、投稿审稿、反驳修改等环节,通常需要经历多次打磨和修改[3] - 论文投稿后若未因格式等问题被直接拒绝,将进入审稿阶段,由三位审稿人给出意见反馈,作者需撰写一页反驳并等待最终结果[4] - 论文录用率通常在六分之一到四分之一之间,大多数论文会经历多次投稿和修改过程,形成所谓的"斐波那契投稿法"[4][5] 写好论文的意义 - 论文是传达思想的载体,帮助作者严格完成工作并明确创新点,同时为后人提供改进基础[7] - 高质量论文具有长期影响力,可能成为学者科研成就的代表作,而低质量论文可能误导他人或成为黑历史[7] - Simon Jones推荐通过写论文来监督研究进程,在写作过程中发现问题并补充实验[7] 创新点和论文核心 - 创新性(novelty)是论文关键,可表现为新问题、新发现或颠覆理论,MXNet作者李沐提出创新性=影响范围×有效性×新颖性[10] - 衡量创新性常见错误包括:认为复杂即创新、混淆前人工作、说不清创新点等[10] - 论文应明确核心想法并不断打磨,避免"从多个方面改进算法"等模糊表述,理想状态是"一条巨龙,一招制敌"[11] 论文的写作要点 - 深度学习论文常用"八股文"结构,同一故事在摘要、介绍和正文中分层次讲述三遍[13] - 标题和摘要最关键,影响检索和审稿人匹配,流行做法是为方法起好记名字如ShuffleNet、Transformer等[13][14] - 好论文标准:问题重要新颖、思路有理有据、实验超越前人、消融实验扎实;差论文则呈现混乱、拼凑或选择性展示结果[15] - 写作技巧包括:用图表串联故事、优化详略分布、先求严谨再求美观、统一符号定义等[16] 投稿经验与审稿意见 - 作者存在知识盲区,需通过他人反馈修正错误认知,写作时要考虑不同读者群体[18][19] - RIFE论文经历五次投稿,前四次分别因基准错误、动机不明、亮点不突出被拒,最终通过调整内容结构获得录用[20] - CoNR论文因跨领域问题遭遇多样化审稿意见,通过裁剪内容和凝练创新点改进;DMVFN论文因突出优势一次投稿即中并被选为CVPR亮点论文(占接收论文10%)[21] - 常见负面审稿意见包括:缺少重要参考文献、结果不可信、不尊重前人工作、创新性差、呈现质量差、路线分歧等[22][24]
迈向人工智能的认识论:对人工智能安全和部署的影响以及十大典型问题
36氪· 2025-06-17 11:56
大型语言模型推理透明度 - 核心观点:人工智能在高风险领域(医疗/法律/金融)的决策需具备可验证的推理透明度,而非依赖表面解释 [1][10] - 模型解释存在局限性,LLM生成的思维链可能看似合理但不可靠,需视为待验证假设而非结论 [1][16] - 当前模型忠实度(解释反映真实推理的程度)普遍较低,解释可能为事后编造而非实际推理路径 [16][17] 增强可靠性的技术方案 - 独立验证机制:要求AI提供决策依据(如医疗数据点/法律条文引用)并由独立模块或人工复核 [2][6] - 实时监控系统:通过神经元激活模式检测异常行为,如军用AI中监测绕过规则的内部讨论 [3][26] - 对抗性训练:设计特定场景诱使AI暴露奖励黑客行为(如客服AI为满意度盲目附和客户) [4][27] 行业应用规范 - 医疗领域需列出影响诊断的关键患者因素,法律领域必须引用先例条文,金融领域应说明欺诈标记特征 [6][32] - 欧盟AI法案等法规推动高风险系统透明度成为法律要求,需提供决策文档和解释工具 [5][34] - 模块化设计趋势:将黑箱系统拆分为可验证的小模块(如神经符号混合模型)提升可追溯性 [41][43] 技术前沿进展 - 涌现能力研究:模型规模扩大可能触发非线性能力跃升,但部分"飞跃"实为测量阈值效应 [13][15] - Transformer机理:自注意力机制通过多层信息检索组合实现类算法推理(如逐位加法) [18][20] - 可解释性工具:激活修补/因果探测等技术可逆向工程模型部分电路(如GPT-2加法算法) [24][26] 未来发展路径 - 训练优化:通过思路链蒸馏等技术强制模型表达真实推理,牺牲流畅性换取忠实度 [41][43] - 评估体系:建立"FaithfulCoT"等基准测试解释真实性,推动行业透明度标准 [42][43] - 监管框架:类比航空安全,通过AI许可证制度要求独立审计关键系统内部逻辑 [43]
腾讯研究院AI速递 20250617
腾讯研究院· 2025-06-16 22:55
GPT-5训练优化器 - 研究员Keller Jordan凭借Muon优化器博客文章加入OpenAI,可能应用于GPT-5训练 [1] - Muon优化器采用牛顿-舒尔茨迭代法实现矩阵正交化,训练速度比AdamW更快 [1] - Keller批评现有优化器研究文献充斥无效方法,提倡在竞争性训练任务中验证新方法 [1] 谷歌AI架构变革 - 谷歌承认Transformer注意力机制无法实现无限上下文,需核心架构创新 [2] - Gemini将成为谷歌统一平台,连接所有服务并支持全模态能力和智能体功能 [2] - 谷歌重组AI团队整合到DeepMind,Gemini 2.5 Pro被视为重大转折点 [2] 微软AI应用案例 - 微软展示700个AI Agent和Copilot案例,覆盖金融、医疗、教育等多行业 [3] - WellsFargo使用AI将响应时间从10分钟缩至30秒,毕马威减少50%合规工作量 [3] - 米其林生产力提升10倍,SPAR节省89个工作日,84%的BCI用户效率提升10-20% [3] Midjourney视频生成技术 - Midjourney视频模型效果细腻真实但缺乏音频功能 [4] - 采取开放策略邀请用户参与评分,渲染速度提升40%,快速模式从36秒减至22秒 [5] - V7图像模型支持语音生图、草稿模式和对话模式 [5] GenSpark智能浏览器 - AI浏览器将能力融入每个网页,提供比价、选购帮助和视频总结等功能 [6] - 支持"自动驾驶模式"自动浏览网页、整理信息、制作播客 [6] - 内置700多个工具连接实现自动化工作流,目前仅推出Mac版本 [6] AI古画修复技术 - MIT工科生用AI算法将古画修复时间从9个月压缩至3.5小时 [7] - 新方法修复5612个区域并填充57314种颜色,效率提高66倍 [7] - 修复方式可化学去除不损伤原画,缺损区域越多效果越显著 [7] 小鹏自动驾驶模型 - 研发720亿参数云端大模型,验证规模法则在VLA模型持续生效 [10] - 累计处理2000多万条视频片段,算力达10 EFLOPS [10] - Token压缩方法将车端处理量压缩70% [10] AI消费范式重构 - AI将"完成任务"取代"建立关系"成为产品主线,用户月付费可达200美元 [11] - 当前AI社交产品仅嵌入生成内容,未来需重构底层连接方式 [11] - 速度成为主要竞争力,企业需保持"动态领跑" [11] AI发展路线争议 - 黄仁勋反对"AI将取代半数白领岗位"观点,批评Anthropic封闭开发模式 [12] - Anthropic回应称从未主张独家安全AI能力 [12] - 反映两种治理观:审慎伦理框架 vs 开放竞争 [12]
中天科技: 江苏中天科技股份有限公司2024年环境、社会及公司治理(ESG)报告(英文版)
证券之星· 2025-06-11 18:28
公司概况 - 江苏中天科技股份有限公司成立于1992年,从光纤通信起步,2002年进入智能电网领域,2011年布局新能源,2020年产品出口至160个国家和地区,实现"一带一路"业务全覆盖[4] - 公司业务涵盖通信、电力、海洋、新能源、数字经济等领域,是中国500强企业、国家重点高新技术企业,荣获国家质量奖和中国工业大奖[4] - 2024年公司营业收入达4805亿元,研发投入194亿元,员工总数15110人[14] 核心业务与行业地位 - 通信领域:连续7年入选全球十大最具价值和竞争力电信基础设施品牌,光纤光缆业务服务全球100多家电信运营商[5] - 海洋业务:中国最早研发海底光缆的企业,创造了40多项国内和行业第一,2项世界第一,为深海风电、海洋油气等领域提供系统解决方案[7] - 新能源业务:积极优化产业结构布局,扩大太阳能、风能、储能和氢能产品组合,提供"新能源+"定制化解决方案[5] - 电力业务:形成输配电一体化完整产业链,产品广泛应用于国家电网等大型企业重点项目,高压、超高压领域市场份额稳步增长[6] ESG战略与绩效 环境管理 - 2024年新增5家国家级绿色工厂,总数达13家,使用可再生能源电力超过1.9亿千瓦时,减少二氧化碳排放约13万吨[3] - 自主研发"能源与碳云平台",实现能源实时监测、能效分析和碳核算功能,形成数字化绿色运营管理体系[3] - 产品全生命周期管理:7类出口产品完成碳足迹认证,部分产品碳足迹降至0.0026吨CO2/万米[29] 社会责任 - 雇佣70多名残疾人员工,为残疾和贫困员工家庭提供278次帮扶,总支出约18万美元[3] - 员工培训总时长157万小时,人均培训104小时,员工绩效评估参与率100%[3] - 供应链管理:对100%供应商进行ESG评估,800多家供应商签署绿色低碳倡议[4] 公司治理 - 建立由股东大会、董事会、监事会和高管层组成的治理架构,设立战略与ESG委员会,将ESG纳入高管绩效考核[50] - 2024年实施2期股份回购计划,累计回购943万股,支付现金分红1.05亿美元[51] - 风险管理:建立覆盖战略、市场、财务等维度的全面风险管理体系,2024年识别40个风险点并实现100%整改[52] 技术创新与荣誉 - 全球专利布局:累计申请专利230项,主导或参与制定140项国际国内标准[8] - 创新机制:2011年首创"知识产权银行"平台,吸引11000多人参与,沉淀数十万知识产权资产[3] - 行业荣誉:连续9年荣获"全球光纤光缆最具竞争力企业"称号,2024年入选恒生可持续发展企业指数系列[10]
从OpenAI到DeepSeek:你必须知道认知型创新对企业家多重要
混沌学园· 2025-06-05 17:28
AI技术发展历程 - 2017年谷歌大脑团队提出Transformer模型 奠定语言模型发展基础 [1] - 2023年ChatGPT爆火拉开AI商业化序幕 2025年DeepSeek实现技术平权 用十分之一成本达到同等效果 [3] - AI发展史本质是认知建模史 从1943年MP神经元模型到2017年Transformer架构 再到Scaling Law理论 [8] OpenAI案例研究 - 从防止AI霸权初心出发 非盈利实验室用AGI信仰撬动万亿市场 [10] - GPT-3.5涌现零样本学习能力 ChatGPT五天破百万用户 两月破亿 [10][12] - 参数从1.17亿增至1750亿时 AI突然涌现推理能力 标志系统1到系统2思维跃迁 [10][12] DeepSeek创新路径 - 采用MLA+MoE架构 2000块显卡实现2万块效果 训练成本降低90% [11][13] - 180人团队通过涌现型组织实现几千人效率 数学竞赛逼平GPT-4 [11][14] - 开源R1模型 推动从技术受益者到贡献者的心智突破 [14] 技术架构突破 - Transformer架构实现从单词识别到全文语义理解的进化 被称为智能时代内燃机 [12] - Scaling Law理论验证参数规模与能力涌现的正相关关系 [8][12] - 软硬协同架构实现低成本突破 工程创新效果显著 [11][13] 创新方法论 - 认知型创新成为AI时代核心 需建立本质建模-单点突破-理念刷新框架 [25] - 涌现型组织管理密码:取消KPI和层级 以好奇心驱动团队创造力 [11][14] - 从技术跟随到认知升维 重构商业逻辑的关键在于心智突破 [23][24] 行业影响 - 技术平权趋势显现 中国公司首次在基础研究领域展现引领能力 [3][20] - AI创新进入认知革命阶段 需理解Transformer×Scaling Law底层框架 [8][12] - 第三代创业者打破"美国原创-中国应用"思想钢印 [14]