Transformer架构
搜索文档
Kimi开源新线性注意力架构,人工智能AIETF(515070)持仓股三六零盘中涨超7%
每日经济新闻· 2025-11-03 10:54
市场表现 - A股三大指数低开且跌幅扩大,创业板指跌幅扩大至1% [1] - 人工智能AIETF(515070)下跌1.53% [1] - 其持仓股表现分化,三七互娱涨停,三六零盘中上涨7.1%,而石头科技下跌5.2%,澜起科技下跌4.98%,恒玄科技下跌3.77%,浪潮信息下跌3.51% [1] 行业板块动态 - 海南、游戏、光热发电、影视院线等板块涨幅居前 [1] - 贵金属、芬太尼、电池等板块跌幅居前 [1] AI技术进展 - 月之暗面开源混合线性注意力架构Kimi Linear,其核心创新为"Kimi Delta Attention",是对Gated DeltaNet的优化升级 [1] - 该架构在短上下文、长上下文、强化学习扩展机制等各种场景中超越了Transformer架构的全注意力机制 [1] - 在处理1M token场景下,Kimi Linear的KV cache占用量减少75%,解码吞吐量最高提升6倍,TPOT训练速度相较于传统MLA实现6.3倍加速 [1] AI行业发展趋势 - AI大模型发展重心正从参数规模竞赛转向追求更高的"能力密度"和更优的架构效率 [2] - 未来竞争力将更取决于如何在更小参数规模下实现更强性能,受脑科学启发的算法创新以及多模态与推理能力的深度融合成为关键 [2] - 这一转变有望降低算力门槛,使广大中小企业能以更低成本接入AI技术,从而催生更广泛的产业应用和投资机会 [2] AIETF产品信息 - 人工智能AIETF(515070)跟踪CS人工智能主题指数(930713),成分股选取为人工智能提供技术、基础资源以及应用端的个股 [2] - 该ETF聚集人工智能产业链上中游,前十大权重股包括中际旭创、新易盛、寒武纪-U、中科曙光、科大讯飞等国内科技龙头 [2]
根据细胞的“邻里结构”预测分子特性,AI模型助力绘制最精细小鼠脑图
科技日报· 2025-10-13 08:54
核心观点 - 美国加州大学旧金山分校与艾伦研究所团队联合开发出名为CellTransformer的AI模型 绘制出包含1300个脑区及亚区的目前最精细小鼠脑图 为探索大脑工作机制开辟新方向 [1] 技术原理与创新 - 模型核心采用Transformer架构 该架构与ChatGPT等大模型技术原理相同 擅长理解上下文关系 [3] - CellTransformer通过分析空间中相邻细胞之间的关系 根据细胞的“邻里结构”来预测其分子特性 从而构建精细大脑组织图谱 [3] - 新图谱完全依托数据生成 边界由细胞和分子特征自动界定 而非依赖人工经验判断 是迄今动物脑中最精确、最复杂的数据驱动型图谱之一 [3] 研究成果与意义 - 图谱以前所未有的精细度揭示大脑结构 使科学家能将功能、行为和疾病状态与更小、更具体的细胞区域相对应 [1] - 模型不仅能准确再现海马体等已知脑区 还能在中脑网状核等理解不足的区域中发现新的、更细分的亚区 [3] - 全新脑区划分基于数据而非人工标注 揭示了大量未知区域 这些区域很可能对应着尚未探索的脑功能 [4] 应用潜力与前景 - CellTransformer的算法具有组织通用性 可应用于其他器官系统甚至癌组织 [4] - 模型可借助空间转录组学数据揭示健康与疾病中的生物机制 为药物开发和疾病治疗提供新工具 [4]
宜信好望角:AI深度赋能,将如何改变创业格局
金投网· 2025-10-10 09:34
B端市场投资与机遇 - B端商业模式成熟且付费逻辑清晰,当前真实需求集中在降本增效领域,投资更倾向AI基础设施与具身智能项目[1] - 工业与智能制造领域的AI提效项目落地速度与效果超预期,尤其值得关注[1] - 针对大型企业复杂场景,通过定制化研发构建技术壁垒是可行策略,因Transformer架构泛化能力强但精准度不足[2] - SaaS模式被预测为短期内最易商业化的路径,AI硬件将在1-2年内爆发,具身智能有望在十年内融入生活[2] C端市场潜力与创新方向 - C端市场面临收费难挑战,但需求需通过持续观察与快速迭代挖掘,结合国内产品人才与工程实力有望打造全球爆款[1] - 陪伴类应用与AI Agent创作平台是已布局方向,观察到AI重塑现有工作流程的创新尝试以及Agent间交互的新生态苗头[1] 全球化战略与出海优势 - 更快的成长机会集中在海外,中国产品经理的全球化能力是核心优势[2] - 星动纪元具身智能业务海外客户占比超50%,2025年作为商业化元年重点拓展全球市场[2] - 生数科技视频生成产品Vidu全球化定位明确,商业化8个月实现ARR突破2000万美元,累计生成视频超3亿条[2] - 中国企业出海优势在于强大的AI技术能力与完备的供应链体系双重支撑,端侧大模型与硬件供应链结合可打造高性价比智能设备抢占全球AGI入口[2] - 只要产品能提供明确生产力价值,国内用户付费意愿并不逊色于海外[2] 机构孵化与创业支持模式 - 创新工场近五年孵化半数投资项目,通过提前1.5-2年布局稀缺方向降低风险[3] - 金浦投资采用产业方加资本方联合模式,为团队提供技术、渠道等全维度支持[3] - 创业者应关注退出端变化,优先对接产业资源丰富的投资机构[3]
刚刚,DeepSeek开源V3.2-Exp,公开新稀疏注意力机制DSA
机器之心· 2025-09-29 18:29
DeepSeek-V3.2-Exp 开源发布 - DeepSeek 在假期前发布实验版本 DeepSeek-V3.2-Exp 并开源 [1][3] - 模型参数量为 685B [3] - 同步公开论文及稀疏注意力机制技术细节 [3][5] 稀疏注意力机制架构创新 - DeepSeek 稀疏注意力机制(DSA)是 3.2 版本唯一架构改进 [6] - DSA 实现细粒度稀疏注意力 显著提升长上下文训练和推理效率 [9] - 在 MLA 架构下实例化 DSA [8] - 该机制代表对更高效 Transformer 架构的持续研究 特别注重扩展文本序列处理的计算效率 [10] 模型性能基准测试 - DeepSeek-V3.2-Exp 训练配置与 V3.1-Terminus 严格对比 [9] - 在公开基准测试中表现相当 例如 MMLU-Pro 均保持 85.0 [9][11] - 部分领域存在微小波动 如 GPQA-Diamond 从 80.7 降至 79.9 而 AIME 2025 从 88.4 升至 89.3 [11] - Codeforces 评分从 2046 提升至 2121 [11] - Agentic Tool Use 方面 BrowseComp-zh 从 45.0 升至 47.9 [11] 行业竞争动态 - 智谱 GLM-4.6 即将发布 GLM-4.5 被标识为上一代旗舰模型 [12]
人工智能产业“十四五”复盘与“十五五”展望:“两个变局”下的AI要素化跃
搜狐财经· 2025-09-27 01:47
文章核心观点 - 人工智能产业在“十四五”期间完成了从“技术”向“要素”的五大质变跃迁,为“十五五”期间AI要素的“量价齐升”奠定了坚实基础 [8] - “十五五”期间,AI Agent将成为核心载体,驱动AI要素通过价格发现、规模交易和跨境输出实现全面跃迁,并与实体经济深度融合 [8] - AI产业投资可遵循算力基础设施、AI Agent与MaaS服务、智能终端与机器人、AI+绿色低碳四大主线 [8] 技术演进 - Transformer架构统一了AIGC赛道,成为通用引擎,其自注意力机制提供了无与伦比的灵活性和可扩展性 [12][14][18] - 大模型参数量实现跨越式增长,从2018年GPT-2的15亿参数跃升至2024年GPT-4的1.76万亿参数,参数规模突破临界触发“涌现能力”,奠定通用智能雏形 [2][12][21] - 技术发展呈现“高参数量+轻量化”并行分化态势,超大参数模型处理复杂任务,轻量级模型适用于移动端和实时性要求高的场景 [21] - 视觉技术红利在“十四五”初期终结,ImageNet-1K精度逼近理论天花板,模型参数与算力投入的边际收益急剧递减 [11][13][45] 算力硬件 - GPU在算力硬件中占据主导地位,英伟达市场份额约为70%,同时ASIC、FPGA等异构芯片加速发展 [2] - 国产AI芯片奋起直追,华为昇腾910b、寒武纪思元370等产品单卡算力不断提升,能效比与海外差距逐级收敛 [8][26][32] - 数据中心形态由IDC向AIDC演进,功率密度和散热要求大幅提升,液冷等高效散热方案加速普及 [2][25][27] - 国家通过“东数西算”和“算力券”等机制介入算力定价,使算力具备公共事业属性 [25][28][29] 产业生态与数据要素 - AI要素化进程加快,数据经历资源化、资产化、资本化阶段,数据确权、定价、交易体系逐步完善 [2] - 公共数据完成“政务共享→授权运营→资产入表→财政分成”的跃迁,成为可交易、可分成的财政要素 [8][33][35] - 2024年《企业数据资源相关会计处理暂行规定》正式施行,截至2025年中报,110家A股上市公司数据资源入表总金额达26.52亿元 [33][42][44] - 智能体生态崛起,文心智能体平台、腾讯元器KUNLUN等开发平台涌现,通过调用制、订阅制、结果分成制实现价值捕获 [2][8] 应用场景与市场表现 - 企业服务因ROI明确、数据基础好成为AI优先落地领域,金融风控、制造供应链等场景逐步渗透,医疗、教育等领域探索深化 [2] - “十四五”期间视觉安防市场陷入红海,以海康威视、大华股份为代表的企业传统业务增速放缓,行业面临转型 [45][47][50] - 国内SaaS企业估值经历压缩,云计算SaaS的PS从高双位数回落,行业等待生成式AI原生等下一代平台技术带来反弹 [56][57] - “十四五”期间AI产业营收稳步增长,2025年上半年部分企业营收超900亿元,毛利率维持在42%-45%区间 [2] 政策支持 - 中央顶层设计完成“攻关-筑基-应用-变革”四段跳,AI首次写入社会治理层面,定位由“产业工具”升级为“转型引擎” [8][58][63] - 2024年《政府工作报告》首次在“社会治理”段落提及人工智能,2025年《关于深入实施“人工智能+”行动的意见》设定了2027/2030/2035三阶段量化目标 [63] - 政策体系强调场景落地、产业规模、安全治理三位一体,通过专项基金、税收优惠、政府采购等多措并举支持产业发展 [63][64] 未来展望与投资主线 - “十五五”期间AI Agent将驱动交互范式移至CUI,收费基准从Token计价转向“增量收益分成”,使AI部门由成本中心转为利润中心 [8] - 国产全栈闭环有望实现,通过Agent专用芯片、框架层标准定义和数据层资产化,取得要素定价权并实现规模化交易 [8] - 全球南方市场为AI出海提供广阔空间,其总人口超45亿,占世界总人口近60%,数字经济增长率远超传统经济 [8] - 投资建议聚焦四大主线:算力基础设施、AI Agent与MaaS服务、智能终端与机器人、AI+绿色低碳 [8]
专访中昊芯英CTO郑瀚寻:国产AI芯片也将兼容不同平台
21世纪经济报道· 2025-09-25 06:22
AI芯片市场趋势 - 旺盛的AI智算需求驱动GPU路线之外的AI芯片获得更多市场关注,例如博通因云服务厂商寻求英伟达替代方案而订单量水涨船高、股价大涨 [1] - 以谷歌TPU和Groq的LPU为代表的非GPU芯片路线受到市场关注 [1] - 定制化ASIC芯片备受关注,博通近期获得百亿美元订单,谷歌持续演进自研TPU芯片 [3] ASIC芯片发展 - 立足于ASIC定制芯片的国内厂商正在快速发展 [2] - 产业界持续追求更高费效比的路径,可能向某个方向收敛 [2] - 随着专用芯片发展,其成本不再高昂,越来越多厂商愿意借力自研专用芯片架构推进个性化AI能力落地 [2] TPU/GPTPU技术优势 - 中昊芯英选择与谷歌类似的GPTPU路线 [4] - 自英伟达Tesla V100加入Tensor Core以来,其对Tensor Core的每次迭代都有新亮点,而对CUDA Core功能实现没有太大变化 [4] - 在大模型时代,每多N倍数据传输量,张量运算单元能完成N²的计算量,实现相对划算的计算效果 [4] - TPU类比3D打印机,能够把计算任务一次性打印成型,而GPU是多人共同运算,CPU是处理复杂题目的博士生但数量极少 [4] 集群互联挑战 - 大模型发展对底层AI算力集群提出更高要求,如何把“单点能效”放大到“集群能效”是国产XPU芯片的挑战 [5] - 未来数据传输是AI基础设施的瓶颈之一,Tensor Core优势在于传输N倍数据量完成N²计算量 [5] - 谷歌第三代TPU产品支持多达千片芯片规模的片间互联 [5] - 中昊芯英支持千卡集群内1024片芯片直接光模块高速片间互联,并探索OCS全光互联等新技术方案 [6] 互联协议竞争 - 英伟达通过InfiniBand高速互联协议构建护城河,该协议被认为更适合大规模数据中心集群部署 [6] - 因英伟达相对封闭,竞争对手更积极推进以太网协议,这是多数国产AI芯片厂商的选择方向 [6] - 头部AI芯片厂商积极构建以太网联盟,该技术路线物理介质和带宽能力大幅提升,已具竞争力 [6] - 特斯拉基于以太网推出TTPoE连接协议实现很低延迟,中昊芯英宣称其互联延迟表现比特斯拉更好 [6] 软件生态与模型架构 - 国产AI芯片平台需自主建设软件栈和工具链,以应对英伟达闭源CUDA生态 [6] - 未来国产AI芯片将通过持续工具链完善,实现不同平台间的兼容与流畅体验,类比安卓系统起步时国产手机的优化过程 [7] - 目前绝大多数大语言模型本质上仍脱胎于Transformer架构,整体结构未出现根本性变化 [7]
中昊芯英CTO郑瀚寻:国产AI芯片也将兼容不同平台
21世纪经济报道· 2025-09-24 18:41
AI芯片市场趋势 - 旺盛的AI智算需求驱动GPU路线之外的AI芯片获得更多市场关注,如博通因云服务厂商寻求英伟达替代方案而订单量和股价大涨 [1] - 以谷歌TPU和Groq的LPU为代表的定制化ASIC芯片正受到更大关注,显示出市场对GPU替代方案的需求 [1][2] - 产业界持续追求更高费效比,随着专用芯片成本降低,越来越多厂商愿意借力自研专用芯片架构推进个性化AI能力落地 [1] 技术路线比较 - 硅谷芯片新玩家如Groq、SambaNova和Cerebras致力于通过架构创新实现性能和能效突破,而非选择GPU或类似GPU架构 [2] - 英伟达GPU的成功很大程度上源于其深厚的工程化实验团队积累,这难以被后来者直接复制 [2] - TPU架构类似新能源车调整传统传动装置,在同样算力数量级下可实现更好的数据迁移和存储表现及更低能耗 [4] - TPU对计算效率和能耗带来突破性变化,在深度学习、AI for science和科学模拟等领域受益于Tensor Core架构 [4] 张量计算单元优势 - 自英伟达Tesla V100加入Tensor Core后,其迭代重点在于Tensor Core的数量和功能提升,而非CUDA Core [3] - 在大模型时代,张量计算单元投资划算,每多N倍数据传输量就能完成N的计算量,实现更优计算效果 [3] - TPU类比3D打印机能将计算任务一次性成型,相比传统CPU(博士生)和GPU(大学生解题)更高效 [3] 集群互联挑战与方案 - 大模型发展对底层AI算力集群提出更高要求,将“单点能效”放大到“集群能效”是国产XPU芯片的挑战 [5] - 未来数据传输是AI基础设施瓶颈之一,Tensor Core优势在于传输N倍数据量完成N的计算量 [5] - 谷歌TPU第三代产品支持多达千片芯片规模的片间互联,中昊芯英支持千卡集群内1024片芯片直接光模块高速互联 [5] - 英伟达通过InfiniBand协议构建护城河,但竞争对手更积极推进以太网协议,后者物理介质和带宽能力已大幅提升 [6] - 特斯拉基于以太网的TTPoE协议可实现很低延迟,中昊芯英宣称其互联延迟表现优于特斯拉 [6] 软件生态与模型架构 - 英伟达闭源的CUDA生态建设十余年,国产芯片平台需自主建设软件栈和工具链 [6] - 国产AI芯片将通过持续工具链完善,实现不同平台间的兼容与流畅体验,类似安卓系统早期优化过程 [6] - 当前绝大多数大语言模型仍基于Transformer架构,整体结构未出现根本性变化,这为AI芯片厂商提供了按1-2年周期有序推进研发的机会 [7]
AI解数学题只靠最后一个token
量子位· 2025-09-14 13:05
研究核心发现 - 大语言模型在心算任务中,几乎所有实际数学计算都集中在序列最后一个token上完成,而非分散在所有token中[1] - 模型内部形成名为“人人为我”的稀疏子图,通过最少的计算层和最有限的信息传递高效完成运算[4][5] - 该过程将任务通用型计算与输入特定型计算分开,表明在特定任务中全局信息访问并非必需[1][10] 研究方法与实验设计 - 研究采用上下文感知平均消融和基于注意力的窥视技术对Llama-3-8B等Transformer模型进行消融实验[2][20] - 实验通过三阶段操作:在初始层抑制token针对特定输入的计算,在少数层限制跨token信息传递,最后强制所有计算在最后一个token上发生[15][18][19] - 在Llama-3-8B的A+B+C任务中,只需前14层做任务通用计算,然后通过2层信息传输让最后token获取全局信息,剩余层仅进行最后token自计算[24] 模型性能表现 - AF1_llama子图在八个算术任务中总体表现出高忠实度,其中A+B+C任务忠实度达0.995,A-B-C任务达0.995[28][29] - 仅少数注意力头对算术计算关键,移除近60个头部后模型仍能保持约95%准确率,表明大部分注意力头冗余[30] - 在Pythia和GPT-J模型中也发现类似AF1子图,但等待期更短、信息传输层更长,且性能边界不如Llama清晰[35] 任务适用性与局限性 - AF1_llama在不含额外语义上下文的直接算术任务中保持高准确率,但在需要语义理解的应用题和Python代码任务上完全失败[33][34] - 该方法聚焦于心算任务,即涉及两个或三个操作数的算术问题,可通过单个token输出解决而无需链式思维推理[11] - 研究方法论具有创新性,可服务于算术任务之外的更广泛应用,为理解大语言模型中的算术推理机制做出贡献[37]
当导师让我去看多模态感知研究方向后......
自动驾驶之心· 2025-09-08 07:34
自动驾驶多模态感知融合技术发展现状 - 激光雷达在自动驾驶感知中具有核心优势:提供超长感知距离的安全冗余、高帧率实时感知、恶劣环境抗干扰保障和三维空间认知能力 [1] - 多传感器融合是国内高端智能驾驶量产的主流范式 激光雷达与视觉感知结合构成可靠工作能力 [1] - 多模态感知融合技术正从传统融合向端到端融合和Transformer架构演进 [1] 多模态融合技术架构演进 - 传统融合分为三种方式:早期融合(输入端拼接原始数据 计算量巨大) 中期融合(传感器特征提取后融合 当前主流方案) 后融合(决策层结果融合 可解释性强但难以解决信息冲突) [2] - 基于Transformer的端到端融合成为最前沿方向:通过跨模态注意力机制学习不同模态深层关系 实现高效鲁棒的特征交互 [2] - 端到端训练减少中间模块误差累积 直接从原始传感器数据输出3D目标框 提升动态信息捕捉能力和整体性能 [2] 多模态融合科研培训课程体系 - 课程设计为期14周:包含12周在线小组科研 2周论文指导和10周论文维护期 [10][21] - 招生规模为6人/期 至多8人 采用"2+1"式师资配置(名校教授+行业导师+科研班主任) [5][11] - 硬件要求最低2张4090显卡 推荐4张4090或以上性能设备 支持云服务器租赁 [11] 课程技术内容体系 - 覆盖多模态融合全技术栈:从传统模块化感知系统到BEV视角融合 再到基于Transformer的端到端融合 [15] - 提供完整科研支持:包括公开数据集(nuScenes、KITTI、Waymo Open Dataset)、Baseline代码和论文idea [12][13][14] - 重点讲解激光-视觉深度融合和雷达-视觉-激光三元融合技术 涵盖多任务多传感器融合方案 [15][16] 学术产出与培养目标 - 学员将产出论文初稿 获得结业证书和推荐信(根据优秀程度) [11] - 培养体系解决三大问题:知识体系碎片化 动手能力不足 论文写作投稿困难 [5] - 课程包含完整论文方法论:从选题方法、实验方法到写作方法和投稿建议 [4][10]
晚点独家丨理想自研智驾芯片上车路测,部分计算性能超英伟达 Thor-U
晚点LatePost· 2025-08-28 14:09
核心观点 - 理想汽车自研智驾芯片M100取得关键进展 预计明年量产上车 其采用软硬结合研发策略 目标是通过软件调度提升硬件算力利用率 在性能上实现对竞争对手的降维打击 [4][6][7] 芯片研发进展 - M100于今年一季度样片回片 完成功能测试和性能测试后已小批量上样车做道路测试 [4] - 在处理大语言模型计算任务时 1颗M100有效算力相当于2颗英伟达Thor-U 在处理传统视觉任务时 1颗M100有效算力可对标3颗英伟达Thor-U [4] - 芯片研发耗资巨大 项目规划资金预算达数十亿美元 [6] 技术战略 - 采用软硬结合研发策略 通过软件调度能力提升芯片硬件算力利用率 [6] - 研发工作包括NPU SoC等硬件以及软件开发与适配 是一个多层次的解决方案 [6] - 智驾芯片设计与Transformer架构密切相关 需要原生高效支持FP4 FP6等超低精度优化 [7] 产品策略 - 采取两条腿走路策略 一方面用外部方案确保当下市场竞争力 另一方面用自研芯片谋求未来核心优势 [7] - 纯电车型倾向于搭载英伟达高算力芯片 如MEGA i8全系搭载英伟达Thor-U i6也有意全系搭载 [7] - L系列增程车型根据AD Max和AD Pro版本分别搭载英伟达Thor-U或地平线征程6M [8] 研发背景 - 理想汽车CTO谢炎主要推动软硬结合研发策略 其拥有编译器技术背景 曾任AliOS首席架构师 华为终端OS部部长等职 [6] - 自研智驾芯片核心原因是作为专用芯片能够针对公司算法进行特定优化 性价比和效率都很高 [8] - 目前仍使用英伟达芯片是因为其对新的算子支持较好 算力充足 且算法仍处于迭代过程中 [8]