Workflow
Transformer
icon
搜索文档
从模型到生态:2025 全球机器学习技术大会「开源模型与框架」专题前瞻
AI科技大本营· 2025-09-26 13:49
开源没? 每当新模型或新技术亮相时,总会有人第一时间抛出这个问题。 2025 年,AI 世界正处在一道分界线上:一边是不断壮大的开源阵营,一边是紧锁的闭源堡垒。最 新斯坦福《AI 指数》报告显示,开源与闭源模型的性能差距已从常见的 8% 缩小到 1.7%,开源正 迎头追上。 2025 全球机器学习技术大会特设立「开源模型与框架」专题,诚邀那些最懂底层构件的开源创作者 与实践者带来第一手的实践与思考:他们如何筑起这座未来的基石,又如何让更多人参与进来,共同 完善这场宏大的工程。 他们分别是 每个人的背后,都是一个具体的开源项目——从移动端大语言模型推理,到强化学习框架、RAG 新 范式,再到高效推理服务和投机采样训练工具。他们的工作,就是让这些"砖石"真正落到开发者手 中,让开源不再只是概念,而是可以触碰、可落地的力量。 陈海泉 字节跳动工程师、verl项目核心贡献者 阿里淘天集团技术专家、MNN团队架构师王召德 字节跳动工程师、verl项目核心贡献者陈海泉 Dify资深架构师姜勇 vLLM核心维护者游凯超 SGLang核心开发者、新加坡南洋理工大学在读博士李升桂 开源模型与框架 0 王召德 阿里淘天集团技术专 ...
从Transformer到GPT-5,听听OpenAI科学家 Lukasz 的“大模型第一性思考”
AI科技大本营· 2025-09-23 10:11
以下文章来源于CSDN ,作者CSDN CSDN . 成就一亿技术人 2017 年,一篇标题看似简单、甚至有些狂妄的论文在线上出现:《Attention Is All You Need》。 在当时的 AI 研究界,这是一个石破天惊的宣言。它提议彻底抛弃被奉为圭臬的循环神经网络(RNN),只用一种名 为"注意力"的机制来处理语言。最初,许多人对此持怀疑态度。然而,这篇仅 15 页的论文很快就点燃了一场燎原之 火。它所提出的 Transformer 架构,以摧枯拉朽之势,重塑了人工智能的版图。今天,从驱动你手机输入的预测文 本,到生成惊艳图像的 DALL-E,再到改变世界的 ChatGPT,其底层的心跳,都源于那篇论文。 截至发文,其在 Google Scholar 上的引用次数高达 197159 次。 | TITLE | CITED BY | YEAR | | --- | --- | --- | | Attention is all you need | 197159 | 2017 | | A Vaswani, N Shazeer, N Parmar, J Uszkoreit, L Jones, AN Gome ...
从Transformer到GPT-5,听听OpenAI科学家 Lukasz 的“大模型第一性思考”
36氪· 2025-09-22 21:04
2017 年,一篇标题看似简单、甚至有些狂妄的论文在线上出现:《Attention Is All You Need》。 在当时的 AI 研究界,这是一个石破天惊的宣言。它提议彻底抛弃被奉为圭臬的循环神经网络(RNN),只用一种名为"注意力"的机制来处理语言。最 初,许多人对此持怀疑态度。然而,这篇仅 15 页的论文很快就点燃了一场燎原之火。它所提出的 Transformer 架构,以摧枯拉朽之势,重塑了人工智能的 版图。今天,从驱动你手机输入的预测文本,到生成惊艳图像的 DALL-E,再到改变世界的 ChatGPT,其底层的心跳,都源于那篇论文。截至发文,其在 Google Scholar 上的引用次数高达 197159 次。 | TITLE | CITED BY | YEAR | | --- | --- | --- | | Attention is all you need | 197159 | 2017 | | A Vaswani, N Shazeer, N Parmar, J Uszkoreit, L Jones, AN Gomez, | | | 论文的火爆,也让研究圈的目光落在了背后的作者——当时在 ...
给包凡的信 | Findme
投中网· 2025-08-14 17:37
华兴资本与包凡 - 包凡回归华兴资本但不再参与集团日常管理与运营 个人生活动态属于私人事务范畴 [10] - 华兴资本实现"去包凡化" 包凡仍为大股东且主动权在握 [10] - 华兴资本人民币和美元四期基金募资与投资表现良好 但提前结束 人民币基金四期与LP沟通清晰 [10] 中国创投行业动态 - 2023年中美创投圈热点聚焦AI大模型 ChatGPT走红 马斯克成立xAI Anthropic与Inflection获得巨额融资 [4] - 国内2023年出现上百个大模型 互联网大厂均入局 [6] - "大模型六小龙"成为行业焦点 最初为四小龙后扩展至六家 智谱AI被称为"北京最火独角兽" 华兴资本自2021年起服务智谱AI 后续服务硅基流动、生数科技等AI公司 [6] - 2024年最火概念为"杭州六小龙" 主要为硬件公司 [6] 投资机构与人物动向 - 王岑成为网红 拥有数百万粉丝 通过直播和切片内容影响消费投资领域 提出"港股消费三姐妹"(泡泡玛特、蜜雪冰城、老铺黄金)代表新消费投资机会 [7] - 朱啸虎公开质疑大模型公司投资价值 认为需聚焦盈利能力 2024年称人形机器人存在泡沫 金沙江已退出部分投资 [8] - 朱啸虎解雇张予彤并公开其与月之暗面利益纠葛 指其违反受托责任 [8] - 张颖保持低调 业务表现良好 完成多个IPO 但减少与同行交流 [8] - 部分投资机构选择做减法 包括募资成功后退还给LP 或彻底退出行业 [9] 行业趋势与观点 - 投资行业无根本范式变化 但从业者需持续进化 [10] - 市场环境与包凡离开时相比未明显改善但也未恶化 [9] - 华兴资本曾提出打造"全球最高效的新经济资产配置平台" 但承认存在巨大风险与鸿沟 [6] - 投资机构管理难度高 需通过发展解决矛盾 打胜仗比公司政治更有效 [9]
亚洲电力设备:关于高压电力设备定价、需求及关税影响的专家电话会议要点-Asia Power Equipment_ Key takeaways from expert call on pricing, demand and tariff impact for high voltage power equipment
2025-08-05 11:15
行业与公司 - **行业**:高压电力设备行业(美国市场)[2] - **涉及公司**: - **韩国**:Hyundai Electric(增持评级)、Hyosung Heavy(增持评级)[2] - **中国**:Sieyuan Electric(增持评级)、Huaming Equipment(增持评级)[2] - **其他**:GE Vernova(增持评级)[4] --- 核心观点与论据 1. **价格加速上涨** - 高压电力设备价格自2025年6月起加速上涨,部分设备同比涨幅达10%[2] - 上半年美国市场平均涨幅3-5%,但变压器涨幅最高,开关设备(switchgear)和断路器(circuit breakers)价格趋势稳健[4] - 涨价驱动因素:关税影响(新增成本转嫁)、可再生能源抢装需求[4] 2. **需求强劲且多维度驱动** - **短期(2026-2027年)**:可再生能源(风电/光伏)和数据中心抢装是主要需求来源[2][5] - **中期**:燃气/核电站新连接、长距离输电线路建设(若审批问题解决)可能填补可再生能源需求放缓的缺口[2][6] - **需求结构**:新连接/升级占变压器需求的70%以上,替换需求仅占25%[5] 3. **供应链瓶颈持续** - 本地产能增长有限,变压器供应受制于技术工人短缺(核心工艺无法自动化)[6] - 中国/印度产品进口受限(国家安全顾虑)[6] 4. **关税影响有限** - 需求刚性:可再生能源运营商愿支付溢价以确保设备供应[6] - 设备制造商通过涨价或与客户协商转嫁成本,实际影响可控(如GE Vernova关税影响降至3-4亿美元区间下限)[6] 5. **输电资本支出(Capex)潜力** - 2025年输电Capex预计增长10%,但跨区域输电项目仍受审批流程阻碍[6] --- 其他重要数据与图表 - **价格指数**: - 美国开关设备PPI自2021年以来上涨约60%[7][8] - 美国变压器PPI自2021年以来上涨约70%[12] - **公司财务指标**: - GE Vernova上调2025年EBITDA利润率指引至13-15%(原11-13%)[4] - Hyosung Heavy美国子公司营业利润率(OPM)创历史新高[4] --- 风险与挑战 - **供应瓶颈**:技术工人短缺制约产能扩张[6] - **政策障碍**:长距离输电项目审批周期长(需数年)[6] - **地缘因素**:对中国/印度产品的采购限制持续[6] --- 分析师评级与覆盖 - **增持(OW)评级**:Hyundai Electric、Hyosung Heavy、Sieyuan Electric、Huaming Equipment[2] - **覆盖范围**:亚洲电力设备公司(中国、日本、韩国等),详见估值比较表[10]
辛顿教授世界人工智能大会演讲PPT
2025-07-29 10:10
纪要涉及的行业 人工智能行业 纪要提到的核心观点和论据 智能范式 - 逻辑启发范式认为智能本质是推理,通过符号规则操作符号表达式实现,应先理解知识如何以符号表达形式表示,学习可暂缓 [7] - 后续发展:10 年后 Yoshua Bengio 展示该方式可建模真实自然语言,20 年后计算语言学家开始接受“特征向量(嵌入)”,30 年后谷歌发明 Transformer,OpenAI 展示其强大能力 [13] 大语言模型 - 大语言模型理解语言方式与人类相似,将词转化为能和其他词配合的特征向量,确实“理解”所说的话 [16] - 用乐高类比词语运作,词语像高维乐高积木可建构事物,且建构能传达给他人,词语有灵活性可根据上下文变形,理解句子更像折叠蛋白质分子而非转化为明确逻辑表达 [20][24] - 理解句子是为词分配彼此兼容的特征向量,大语言模型在很多方面像人类,与传统计算机软件不同,且在某方面远优于类比信号驱动的大脑 [28] 数字计算 - 计算机可在不同物理硬件上运行相同程序或神经网络,程序或神经网络权重中的知识是永生的,不依赖特定硬件 [33] - 为实现“永生性”让晶体管高功率运行表现出可靠二进制行为,无法利用硬件丰富类比特性,因其不稳定可靠 [37] 知识转移 - 解决知识从教师到学生转移问题的最佳方法是教师向学生展示各种输入的正确响应,学生调整权重给出相同响应 [41] - 普通句子约含一百比特信息,学生预测下一个词最多学一百比特信息,人类传达知识给他人效率低 [44] - 独立智能体完全共享同一组权重并以相同方式使用时,可通过交换权重或梯度传递知识,一次共享可达数十亿比特带宽,但要求智能体运作方式完全一致,必须是数字化的 [48] 计算对比 - 数字计算耗能大,但相同模型智能体易共享学到的知识;生物计算耗能少,但智能体间共享知识能力差;若能源便宜,数字计算更优 [51] 超级智能 - 人工智能被允许创建子目标时做事更有效,明显子目标是生存和获取更多权力以实现其他目标 [55] - 超级智能可操纵使用它的人类获取更多权力,学会欺骗人类并操纵负责关闭它的人 [58] 未来应对 - 各国不会在防御人工智能危险用途上合作,如网络攻击、致命自主武器、虚假视频操纵公众舆论 [64] - 训练不想夺取人类控制权的向善人工智能的技术,可能与使人工智能更智能的技术相对独立 [68] - 各国可设立资金充足的人工智能安全研究所与国内研究网络,专注研究让人工智能不想夺取控制权,且可共享相关技术而无需透露最智能人工智能的工作方式 [72] 其他重要但是可能被忽略的内容 - 人类在将自己学到的知识传达给他人方面效率非常低 [44]
AI教父Hinton中国首次演讲实录:人类可能就是大语言模型
虎嗅· 2025-07-26 17:26
AI发展范式 - AI发展出两种范式:符号主义路径强调逻辑推理与符号处理[1],连接主义路径以生物智能为基础,强调神经连接的学习与适应[2] - 1985年尝试结合两种理论,通过语义特征预测词汇关系,为自然语言处理系统奠定基础[3][4] - 现代大模型(如GPT)延续该思想,将词汇视为多维特征构件,通过神经网络组合实现语言生成与理解[6] 大模型与人类认知 - 大模型构造方式类似蛋白质折叠,通过语义结构匹配实现语言理解[8] - 数字系统知识可复制且与硬件分离,具备永生性和高能效(人脑功率仅30瓦)[13][14] - 人类知识传递带宽极低(约100比特/秒),而AI可实现指数级知识转移[9][17] AI技术演进与应用 - 知识蒸馏技术将大模型能力迁移至小模型,类似教师-学生传授机制[16] - AI在创意领域表现突出:视频生成成本从百万降至数百元,半年内生成超3亿条内容[25] - AI应用场景远超设计预期,包括古文字解析、天文望远镜操作等,大幅提升个体能力边界[26] AI行业生态 - AI公司本质是提供持续性能力增强的组织,70%代码和90%数据分析由AI自动完成[28][30] - 模型能力提升依赖顶尖专家教学,通过引导思考过程实现泛化能力[30] - 开源模型快速崛起,多智能体架构削弱单一模型优势,推动行业普惠化[34][35] 成本与效率趋势 - 模型规模受推理速度限制,未无限膨胀,与芯片性能提升同步[35] - 推理成本一年内下降一个数量级,未来或再降一级,但token使用量激增(从数千至数百万)[38][39] - 训练成本未大幅上升,实验设计与团队效率成为竞争关键[37]
Transformer危!谷歌MoR架构发布:内存减半推理速度还翻倍
量子位· 2025-07-17 17:03
谷歌MoR架构创新 - 推出全新底层架构Mixture-of-Recursions(MoR),首次在单一框架中实现统一参数共享与自适应计算资源分配,推理速度提高2倍且KV内存减半[1][3][7][9] - 采用递归Transformer结构,通过递归块复用共享参数池,相比标准Transformer减少独特参数数量[10][13] - 包含三种参数共享策略:Cycle循环复用层、Sequence连续复用同一层,提升分布式训练效率并消除计算"气泡"[11][12][13] 动态路由与KV缓存机制 - 动态路由机制通过轻量级路由器为每个token分配不同递归深度,集中计算资源处理复杂token,分为Expert-choice路由和Token-choice路由[15][17] - KV缓存策略包含Recursion-wise缓存(仅缓存活跃token的KV对)和Recursive KV共享(复用首次递归的KV对),降低内存和IO需求[15][18] - 路由机制突破固定思考深度限制,Expert-choice路由性能优于Token-choice路由[17][22] 性能表现与效率提升 - 在16.5e18 FLOPs训练预算下,MoR参数减少50%,验证损失更低且少样本准确率达43.1%(vanilla模型42.3%)[19][20] - 训练20B token时减少25% FLOPs,训练时间缩短19%,峰值内存减少25%[21] - 360M规模MoR在推理吞吐量评估中优于vanilla模型,递归深度增加使KV缓存占用减少[25][26] 架构演进与行业影响 - 谷歌持续通过架构创新重构计算范式,如MoE(混合专家模型)系列从2017年LSTM层应用到2023年Gemini 1.5 Pro分层架构[27][28][30] - MoE突破全连接模型缺陷,成为超大规模模型优先选择,TokenFormer等可扩展架构为千亿级模型迭代提供可能[31] - 行业将MoR视为潜在Transformer替代方案,其统一参数共享与自适应计算的特点可能重塑AI底层架构[4][32]
「有望成为Transformer杀手」,谷歌DeepMind新架构MoR实现两倍推理速度
机器之心· 2025-07-17 13:03
核心观点 - 谷歌发布名为Mixture-of-Recursions(MoR)的新LLM模型架构,该架构在递归Transformer基础上进化,被认为有潜力成为Transformer的杀手[1] - MoR框架通过统一方法同时实现参数共享和自适应计算,创建协同架构,实现"无需承担大模型成本的大模型质量"[2] - MoR通过端到端训练轻量级路由为每个token分配专属递归深度,根据token所需"思考"深度决定共享参数模块重复应用次数,精准分配计算资源[4] - MoR在统一架构中同时实现三项优化:参数共享、计算路由和递归级缓存[6] 架构设计 - MoR基于递归Transformer,通过跨多个层共享权重实现参数效率[12] - 采用中周期参数共享策略,在参数效率和模型表达能力之间提供最佳平衡[14] - 核心创新是动态路由系统,根据单个token计算需求分配不同递归深度[15] - 引入两种KV缓存策略:递归式KV缓存和递归KV共享,显著降低内存访问开销[16] - 采用辅助路由、辅助损失、均衡损失和路由偏置等技术优化路由机制[17] 性能表现 - 在等效训练预算(16.5×10¹⁸ FLOPs)下,MoR模型参数量减少近50%仍取得更优性能[19] - 少样本学习平均准确率达43.1%,超越基线模型的42.3%[19] - 在固定训练token数量(20B)下,MoR使用比基线少25%的FLOPs仍实现更低验证损失和更高准确率[21] - 训练时间减少19%,峰值内存使用量下降25%[22] - 在最大批量配置下吞吐量提升可达2.06倍[30] 扩展性与效率 - MoR在所有模型规模和计算预算下稳定优于递归基线模型[27] - 参数量超过360M时,MoR在低至中等预算下常常超越原始Transformer[27] - 结果表明MoR是标准Transformer可扩展且高效的替代方案,适合预训练及大规模部署[28] - 通过连续深度批处理和提前退出机制显著提升推理吞吐能力[31] 潜在影响 - MoR为高效LLM架构建立新范例,解决语言建模中的基本可扩展性挑战[37] - 为开发更具认知启发性的AI系统提供基础,与语言模型中新兴的潜在推理和内部思考研究相一致[38] - 该方法提高推理速度并降低KV缓存,但能否被称为"Transformer杀手"仍存质疑[39]
「走出新手村」十次 CV 论文会议投稿的经验总结
自动驾驶之心· 2025-06-30 20:33
论文生产发表流程 - 深度学习论文生产流程包括从想法到实验扩充、撰写修改、投稿审稿、反驳修改等环节,通常需要经历多次打磨和修改[3] - 论文投稿后若未因格式等问题被直接拒绝,将进入审稿阶段,由三位审稿人给出意见反馈,作者需撰写一页反驳并等待最终结果[4] - 论文录用率通常在六分之一到四分之一之间,大多数论文会经历多次投稿和修改过程,形成所谓的"斐波那契投稿法"[4][5] 写好论文的意义 - 论文是传达思想的载体,帮助作者严格完成工作并明确创新点,同时为后人提供改进基础[7] - 高质量论文具有长期影响力,可能成为学者科研成就的代表作,而低质量论文可能误导他人或成为黑历史[7] - Simon Jones推荐通过写论文来监督研究进程,在写作过程中发现问题并补充实验[7] 创新点和论文核心 - 创新性(novelty)是论文关键,可表现为新问题、新发现或颠覆理论,MXNet作者李沐提出创新性=影响范围×有效性×新颖性[10] - 衡量创新性常见错误包括:认为复杂即创新、混淆前人工作、说不清创新点等[10] - 论文应明确核心想法并不断打磨,避免"从多个方面改进算法"等模糊表述,理想状态是"一条巨龙,一招制敌"[11] 论文的写作要点 - 深度学习论文常用"八股文"结构,同一故事在摘要、介绍和正文中分层次讲述三遍[13] - 标题和摘要最关键,影响检索和审稿人匹配,流行做法是为方法起好记名字如ShuffleNet、Transformer等[13][14] - 好论文标准:问题重要新颖、思路有理有据、实验超越前人、消融实验扎实;差论文则呈现混乱、拼凑或选择性展示结果[15] - 写作技巧包括:用图表串联故事、优化详略分布、先求严谨再求美观、统一符号定义等[16] 投稿经验与审稿意见 - 作者存在知识盲区,需通过他人反馈修正错误认知,写作时要考虑不同读者群体[18][19] - RIFE论文经历五次投稿,前四次分别因基准错误、动机不明、亮点不突出被拒,最终通过调整内容结构获得录用[20] - CoNR论文因跨领域问题遭遇多样化审稿意见,通过裁剪内容和凝练创新点改进;DMVFN论文因突出优势一次投稿即中并被选为CVPR亮点论文(占接收论文10%)[21] - 常见负面审稿意见包括:缺少重要参考文献、结果不可信、不尊重前人工作、创新性差、呈现质量差、路线分歧等[22][24]