Transformer架构
搜索文档
具身智能无共识,就是最好的共识
36氪· 2025-11-26 07:32
文章核心观点 - 具身智能行业在2025年末仍处于技术探索早期,尚未形成统一的技术发展共识,但这种“无共识”状态被视作具有积极意义,它打破了单一技术路线的垄断,为不同背景的团队提供了平等的试错空间,并为技术创新预留了弹性空间 [1][3] - 行业认为,真正的具身智能并非源于一条预设的完美路径,而是通过模型、数据和架构领域的持续试错、冲突与调和“雕刻”而成,当前的不完美状态恰恰是领域生命力的体现 [1][14] 技术路线与模型发展 - **世界模型价值与局限**:世界模型的核心价值在于“预测”物理交互,对机器人底层控制至关重要,但其短板突出,难以成为万能方案,主要问题包括:训练数据多依赖人类行为视频,与机器人身体结构差异大,帮助有限;在真实复杂场景(如做饭、装配)中预测精度仍不足 [4][5] - **专属模型需求**:行业共识认为需要打造平行于大语言模型的具身专属模型,例如以“动作”为核心的“Large Action Model”,或能同时控制动作和预测物理规律的“物理世界基础模型”,因为物理世界的精细交互(如摩擦、力反馈)无法用语言准确描述 [6] - **架构革新探索**:Transformer架构在具身智能领域的适用性受到质疑,因其以语言为核心的处理逻辑与物理世界“视觉-动作”直接交互的操作逻辑相悖,硅谷头部团队已在探索“Vision First”或“Vision Action First”的新架构,以减少语言中介的损耗 [7][8] 数据策略与需求演变 - **数据来源的适配选择**:行业没有统一的数据使用答案,普遍采取多源融合、按需选择的策略:1) **真机数据**:保真度高,是精细操作场景的首选和高质量数据的来源,被视为构建数据飞轮的起点 [9];2) **仿真数据**:成本低、可规模化,是底层控制训练和生成极端场景数据的主力 [9];3) **视频数据**:包含时空、因果等多维度信息,能大规模获取,是训练基座模型、认识世界的重要补充,但缺乏力反馈、触觉等精细信息 [10] - **数据需求全方位升级**:行业对数据的需求在“数量”、“质量”和“种类”上均提出更高要求:1) **数量**:期待“互联网级别”或“具身智能互联网”级别的海量数据,当前业内构建的27万小时真机数据集仍远未达到海量标准,不足以引发质变 [11];2) **质量**:高质量数据比海量低质数据更有价值,在具身场景中,数据质量比总量更能拉开量级差距,金字塔顶尖的真机数据虽少但至关重要 [13];3) **种类**:需丰富多模态数据(如触觉、力反馈),当前能力多承袭基座模型的视觉与语言,真正物理交互的模态数据稀缺,未来数据采集需全面记录机器人动作、环境变化、交互反馈及人类需求 [13][14] 产业发展态势 - **“无共识”的产业利好**:共识缺失对产业有三重利好:1) 打破单一技术路线垄断,避免路径依赖,让不同技术理念和学科背景的团队获得平等试错空间 [3];2) 降低准入壁垒,为中小企业、初创团队及跨界玩家提供弯道超车的机会 [3];3) 在技术基础快速迭代的早期,避免过早形成共识固化技术路径,为向更高维度突破预留“弹性空间” [3] - **发展路径展望**:短期突破依赖仿真模拟与合成数据以加速探索,长期发展则依赖于现实世界中“机器人人口”规模的持续快速扩张,通过能力提升与数据积累相互推动,才能催生真正强大的具身大模型 [8][11]
月之暗面估值或达40亿美元,或于明年下半年IPO
搜狐财经· 2025-11-24 15:42
融资动态 - 公司正与IDG资本、腾讯等机构洽谈新一轮美元融资,融资规模预计达6亿美元,投前估值约40亿美元 [2] - 本轮融资由IDG资本领投,腾讯、五源资本、今日资本等原有股东参与跟投 [2] - 若融资顺利,这将是公司继2024年8月3亿美元融资后的又一里程碑 [2] 上市计划 - 市场传闻公司计划在完成本轮融资后,于2026年下半年启动IPO [2] - 公司官方否认了“明年下半年IPO”的具体时间表,但有知情人士表明其上市筹备已在进行中,正在评估纽交所、港交所双重上市的可能性 [3] 技术实力与产品 - 公司发布的Kimi K2 Thinking模型训练成本为460万美元,刷新了DeepSeek的训练成本记录,并在一些开源模型排行榜上超越了GPT-5 [2] - 斯坦福大学AI实验室评测显示,Kimi在复杂多轮对话中的连贯性得分比GPT-5低18个百分点 [2] 财务与估值对比 - 公司2023年营收约2.1亿元人民币,营收主要来自B端API调用与定制化解决方案 [3] - 公司40亿美元的估值上限,相当于其美国同行OpenAI(5000亿美元估值)的1/125 [3] - 纵向对比国内同行,其38亿美元的投前估值已超过大多数垂直领域独角兽,跻身中国AI赛道第一梯队 [3] - 此轮融资后,公司将成继MiniMax和智谱后第三家估值超300亿元人民币的国产大模型厂商 [3] 行业背景 - 同为中国“AI四小龙”之一的MiniMax已于7月秘密提交港股招股书,智谱AI亦在遴选承销商,预示中国AI新晋独角兽或将逐步开启上市潮 [3] - 公司站在40亿美元估值的新起点,其IPO征程在中美科技博弈的关键时刻,每一步动向都将牵动全球AI产业的神经 [3]
Kimi开源新线性注意力架构,人工智能AIETF(515070)持仓股三六零盘中涨超7%
每日经济新闻· 2025-11-03 10:54
市场表现 - A股三大指数低开且跌幅扩大,创业板指跌幅扩大至1% [1] - 人工智能AIETF(515070)下跌1.53% [1] - 其持仓股表现分化,三七互娱涨停,三六零盘中上涨7.1%,而石头科技下跌5.2%,澜起科技下跌4.98%,恒玄科技下跌3.77%,浪潮信息下跌3.51% [1] 行业板块动态 - 海南、游戏、光热发电、影视院线等板块涨幅居前 [1] - 贵金属、芬太尼、电池等板块跌幅居前 [1] AI技术进展 - 月之暗面开源混合线性注意力架构Kimi Linear,其核心创新为"Kimi Delta Attention",是对Gated DeltaNet的优化升级 [1] - 该架构在短上下文、长上下文、强化学习扩展机制等各种场景中超越了Transformer架构的全注意力机制 [1] - 在处理1M token场景下,Kimi Linear的KV cache占用量减少75%,解码吞吐量最高提升6倍,TPOT训练速度相较于传统MLA实现6.3倍加速 [1] AI行业发展趋势 - AI大模型发展重心正从参数规模竞赛转向追求更高的"能力密度"和更优的架构效率 [2] - 未来竞争力将更取决于如何在更小参数规模下实现更强性能,受脑科学启发的算法创新以及多模态与推理能力的深度融合成为关键 [2] - 这一转变有望降低算力门槛,使广大中小企业能以更低成本接入AI技术,从而催生更广泛的产业应用和投资机会 [2] AIETF产品信息 - 人工智能AIETF(515070)跟踪CS人工智能主题指数(930713),成分股选取为人工智能提供技术、基础资源以及应用端的个股 [2] - 该ETF聚集人工智能产业链上中游,前十大权重股包括中际旭创、新易盛、寒武纪-U、中科曙光、科大讯飞等国内科技龙头 [2]
根据细胞的“邻里结构”预测分子特性,AI模型助力绘制最精细小鼠脑图
科技日报· 2025-10-13 08:54
核心观点 - 美国加州大学旧金山分校与艾伦研究所团队联合开发出名为CellTransformer的AI模型 绘制出包含1300个脑区及亚区的目前最精细小鼠脑图 为探索大脑工作机制开辟新方向 [1] 技术原理与创新 - 模型核心采用Transformer架构 该架构与ChatGPT等大模型技术原理相同 擅长理解上下文关系 [3] - CellTransformer通过分析空间中相邻细胞之间的关系 根据细胞的“邻里结构”来预测其分子特性 从而构建精细大脑组织图谱 [3] - 新图谱完全依托数据生成 边界由细胞和分子特征自动界定 而非依赖人工经验判断 是迄今动物脑中最精确、最复杂的数据驱动型图谱之一 [3] 研究成果与意义 - 图谱以前所未有的精细度揭示大脑结构 使科学家能将功能、行为和疾病状态与更小、更具体的细胞区域相对应 [1] - 模型不仅能准确再现海马体等已知脑区 还能在中脑网状核等理解不足的区域中发现新的、更细分的亚区 [3] - 全新脑区划分基于数据而非人工标注 揭示了大量未知区域 这些区域很可能对应着尚未探索的脑功能 [4] 应用潜力与前景 - CellTransformer的算法具有组织通用性 可应用于其他器官系统甚至癌组织 [4] - 模型可借助空间转录组学数据揭示健康与疾病中的生物机制 为药物开发和疾病治疗提供新工具 [4]
宜信好望角:AI深度赋能,将如何改变创业格局
金投网· 2025-10-10 09:34
B端市场投资与机遇 - B端商业模式成熟且付费逻辑清晰,当前真实需求集中在降本增效领域,投资更倾向AI基础设施与具身智能项目[1] - 工业与智能制造领域的AI提效项目落地速度与效果超预期,尤其值得关注[1] - 针对大型企业复杂场景,通过定制化研发构建技术壁垒是可行策略,因Transformer架构泛化能力强但精准度不足[2] - SaaS模式被预测为短期内最易商业化的路径,AI硬件将在1-2年内爆发,具身智能有望在十年内融入生活[2] C端市场潜力与创新方向 - C端市场面临收费难挑战,但需求需通过持续观察与快速迭代挖掘,结合国内产品人才与工程实力有望打造全球爆款[1] - 陪伴类应用与AI Agent创作平台是已布局方向,观察到AI重塑现有工作流程的创新尝试以及Agent间交互的新生态苗头[1] 全球化战略与出海优势 - 更快的成长机会集中在海外,中国产品经理的全球化能力是核心优势[2] - 星动纪元具身智能业务海外客户占比超50%,2025年作为商业化元年重点拓展全球市场[2] - 生数科技视频生成产品Vidu全球化定位明确,商业化8个月实现ARR突破2000万美元,累计生成视频超3亿条[2] - 中国企业出海优势在于强大的AI技术能力与完备的供应链体系双重支撑,端侧大模型与硬件供应链结合可打造高性价比智能设备抢占全球AGI入口[2] - 只要产品能提供明确生产力价值,国内用户付费意愿并不逊色于海外[2] 机构孵化与创业支持模式 - 创新工场近五年孵化半数投资项目,通过提前1.5-2年布局稀缺方向降低风险[3] - 金浦投资采用产业方加资本方联合模式,为团队提供技术、渠道等全维度支持[3] - 创业者应关注退出端变化,优先对接产业资源丰富的投资机构[3]
刚刚,DeepSeek开源V3.2-Exp,公开新稀疏注意力机制DSA
机器之心· 2025-09-29 18:29
DeepSeek-V3.2-Exp 开源发布 - DeepSeek 在假期前发布实验版本 DeepSeek-V3.2-Exp 并开源 [1][3] - 模型参数量为 685B [3] - 同步公开论文及稀疏注意力机制技术细节 [3][5] 稀疏注意力机制架构创新 - DeepSeek 稀疏注意力机制(DSA)是 3.2 版本唯一架构改进 [6] - DSA 实现细粒度稀疏注意力 显著提升长上下文训练和推理效率 [9] - 在 MLA 架构下实例化 DSA [8] - 该机制代表对更高效 Transformer 架构的持续研究 特别注重扩展文本序列处理的计算效率 [10] 模型性能基准测试 - DeepSeek-V3.2-Exp 训练配置与 V3.1-Terminus 严格对比 [9] - 在公开基准测试中表现相当 例如 MMLU-Pro 均保持 85.0 [9][11] - 部分领域存在微小波动 如 GPQA-Diamond 从 80.7 降至 79.9 而 AIME 2025 从 88.4 升至 89.3 [11] - Codeforces 评分从 2046 提升至 2121 [11] - Agentic Tool Use 方面 BrowseComp-zh 从 45.0 升至 47.9 [11] 行业竞争动态 - 智谱 GLM-4.6 即将发布 GLM-4.5 被标识为上一代旗舰模型 [12]
人工智能产业“十四五”复盘与“十五五”展望:“两个变局”下的AI要素化跃
搜狐财经· 2025-09-27 01:47
文章核心观点 - 人工智能产业在“十四五”期间完成了从“技术”向“要素”的五大质变跃迁,为“十五五”期间AI要素的“量价齐升”奠定了坚实基础 [8] - “十五五”期间,AI Agent将成为核心载体,驱动AI要素通过价格发现、规模交易和跨境输出实现全面跃迁,并与实体经济深度融合 [8] - AI产业投资可遵循算力基础设施、AI Agent与MaaS服务、智能终端与机器人、AI+绿色低碳四大主线 [8] 技术演进 - Transformer架构统一了AIGC赛道,成为通用引擎,其自注意力机制提供了无与伦比的灵活性和可扩展性 [12][14][18] - 大模型参数量实现跨越式增长,从2018年GPT-2的15亿参数跃升至2024年GPT-4的1.76万亿参数,参数规模突破临界触发“涌现能力”,奠定通用智能雏形 [2][12][21] - 技术发展呈现“高参数量+轻量化”并行分化态势,超大参数模型处理复杂任务,轻量级模型适用于移动端和实时性要求高的场景 [21] - 视觉技术红利在“十四五”初期终结,ImageNet-1K精度逼近理论天花板,模型参数与算力投入的边际收益急剧递减 [11][13][45] 算力硬件 - GPU在算力硬件中占据主导地位,英伟达市场份额约为70%,同时ASIC、FPGA等异构芯片加速发展 [2] - 国产AI芯片奋起直追,华为昇腾910b、寒武纪思元370等产品单卡算力不断提升,能效比与海外差距逐级收敛 [8][26][32] - 数据中心形态由IDC向AIDC演进,功率密度和散热要求大幅提升,液冷等高效散热方案加速普及 [2][25][27] - 国家通过“东数西算”和“算力券”等机制介入算力定价,使算力具备公共事业属性 [25][28][29] 产业生态与数据要素 - AI要素化进程加快,数据经历资源化、资产化、资本化阶段,数据确权、定价、交易体系逐步完善 [2] - 公共数据完成“政务共享→授权运营→资产入表→财政分成”的跃迁,成为可交易、可分成的财政要素 [8][33][35] - 2024年《企业数据资源相关会计处理暂行规定》正式施行,截至2025年中报,110家A股上市公司数据资源入表总金额达26.52亿元 [33][42][44] - 智能体生态崛起,文心智能体平台、腾讯元器KUNLUN等开发平台涌现,通过调用制、订阅制、结果分成制实现价值捕获 [2][8] 应用场景与市场表现 - 企业服务因ROI明确、数据基础好成为AI优先落地领域,金融风控、制造供应链等场景逐步渗透,医疗、教育等领域探索深化 [2] - “十四五”期间视觉安防市场陷入红海,以海康威视、大华股份为代表的企业传统业务增速放缓,行业面临转型 [45][47][50] - 国内SaaS企业估值经历压缩,云计算SaaS的PS从高双位数回落,行业等待生成式AI原生等下一代平台技术带来反弹 [56][57] - “十四五”期间AI产业营收稳步增长,2025年上半年部分企业营收超900亿元,毛利率维持在42%-45%区间 [2] 政策支持 - 中央顶层设计完成“攻关-筑基-应用-变革”四段跳,AI首次写入社会治理层面,定位由“产业工具”升级为“转型引擎” [8][58][63] - 2024年《政府工作报告》首次在“社会治理”段落提及人工智能,2025年《关于深入实施“人工智能+”行动的意见》设定了2027/2030/2035三阶段量化目标 [63] - 政策体系强调场景落地、产业规模、安全治理三位一体,通过专项基金、税收优惠、政府采购等多措并举支持产业发展 [63][64] 未来展望与投资主线 - “十五五”期间AI Agent将驱动交互范式移至CUI,收费基准从Token计价转向“增量收益分成”,使AI部门由成本中心转为利润中心 [8] - 国产全栈闭环有望实现,通过Agent专用芯片、框架层标准定义和数据层资产化,取得要素定价权并实现规模化交易 [8] - 全球南方市场为AI出海提供广阔空间,其总人口超45亿,占世界总人口近60%,数字经济增长率远超传统经济 [8] - 投资建议聚焦四大主线:算力基础设施、AI Agent与MaaS服务、智能终端与机器人、AI+绿色低碳 [8]
专访中昊芯英CTO郑瀚寻:国产AI芯片也将兼容不同平台
21世纪经济报道· 2025-09-25 06:22
AI芯片市场趋势 - 旺盛的AI智算需求驱动GPU路线之外的AI芯片获得更多市场关注,例如博通因云服务厂商寻求英伟达替代方案而订单量水涨船高、股价大涨 [1] - 以谷歌TPU和Groq的LPU为代表的非GPU芯片路线受到市场关注 [1] - 定制化ASIC芯片备受关注,博通近期获得百亿美元订单,谷歌持续演进自研TPU芯片 [3] ASIC芯片发展 - 立足于ASIC定制芯片的国内厂商正在快速发展 [2] - 产业界持续追求更高费效比的路径,可能向某个方向收敛 [2] - 随着专用芯片发展,其成本不再高昂,越来越多厂商愿意借力自研专用芯片架构推进个性化AI能力落地 [2] TPU/GPTPU技术优势 - 中昊芯英选择与谷歌类似的GPTPU路线 [4] - 自英伟达Tesla V100加入Tensor Core以来,其对Tensor Core的每次迭代都有新亮点,而对CUDA Core功能实现没有太大变化 [4] - 在大模型时代,每多N倍数据传输量,张量运算单元能完成N²的计算量,实现相对划算的计算效果 [4] - TPU类比3D打印机,能够把计算任务一次性打印成型,而GPU是多人共同运算,CPU是处理复杂题目的博士生但数量极少 [4] 集群互联挑战 - 大模型发展对底层AI算力集群提出更高要求,如何把“单点能效”放大到“集群能效”是国产XPU芯片的挑战 [5] - 未来数据传输是AI基础设施的瓶颈之一,Tensor Core优势在于传输N倍数据量完成N²计算量 [5] - 谷歌第三代TPU产品支持多达千片芯片规模的片间互联 [5] - 中昊芯英支持千卡集群内1024片芯片直接光模块高速片间互联,并探索OCS全光互联等新技术方案 [6] 互联协议竞争 - 英伟达通过InfiniBand高速互联协议构建护城河,该协议被认为更适合大规模数据中心集群部署 [6] - 因英伟达相对封闭,竞争对手更积极推进以太网协议,这是多数国产AI芯片厂商的选择方向 [6] - 头部AI芯片厂商积极构建以太网联盟,该技术路线物理介质和带宽能力大幅提升,已具竞争力 [6] - 特斯拉基于以太网推出TTPoE连接协议实现很低延迟,中昊芯英宣称其互联延迟表现比特斯拉更好 [6] 软件生态与模型架构 - 国产AI芯片平台需自主建设软件栈和工具链,以应对英伟达闭源CUDA生态 [6] - 未来国产AI芯片将通过持续工具链完善,实现不同平台间的兼容与流畅体验,类比安卓系统起步时国产手机的优化过程 [7] - 目前绝大多数大语言模型本质上仍脱胎于Transformer架构,整体结构未出现根本性变化 [7]
中昊芯英CTO郑瀚寻:国产AI芯片也将兼容不同平台
21世纪经济报道· 2025-09-24 18:41
AI芯片市场趋势 - 旺盛的AI智算需求驱动GPU路线之外的AI芯片获得更多市场关注,如博通因云服务厂商寻求英伟达替代方案而订单量和股价大涨 [1] - 以谷歌TPU和Groq的LPU为代表的定制化ASIC芯片正受到更大关注,显示出市场对GPU替代方案的需求 [1][2] - 产业界持续追求更高费效比,随着专用芯片成本降低,越来越多厂商愿意借力自研专用芯片架构推进个性化AI能力落地 [1] 技术路线比较 - 硅谷芯片新玩家如Groq、SambaNova和Cerebras致力于通过架构创新实现性能和能效突破,而非选择GPU或类似GPU架构 [2] - 英伟达GPU的成功很大程度上源于其深厚的工程化实验团队积累,这难以被后来者直接复制 [2] - TPU架构类似新能源车调整传统传动装置,在同样算力数量级下可实现更好的数据迁移和存储表现及更低能耗 [4] - TPU对计算效率和能耗带来突破性变化,在深度学习、AI for science和科学模拟等领域受益于Tensor Core架构 [4] 张量计算单元优势 - 自英伟达Tesla V100加入Tensor Core后,其迭代重点在于Tensor Core的数量和功能提升,而非CUDA Core [3] - 在大模型时代,张量计算单元投资划算,每多N倍数据传输量就能完成N的计算量,实现更优计算效果 [3] - TPU类比3D打印机能将计算任务一次性成型,相比传统CPU(博士生)和GPU(大学生解题)更高效 [3] 集群互联挑战与方案 - 大模型发展对底层AI算力集群提出更高要求,将“单点能效”放大到“集群能效”是国产XPU芯片的挑战 [5] - 未来数据传输是AI基础设施瓶颈之一,Tensor Core优势在于传输N倍数据量完成N的计算量 [5] - 谷歌TPU第三代产品支持多达千片芯片规模的片间互联,中昊芯英支持千卡集群内1024片芯片直接光模块高速互联 [5] - 英伟达通过InfiniBand协议构建护城河,但竞争对手更积极推进以太网协议,后者物理介质和带宽能力已大幅提升 [6] - 特斯拉基于以太网的TTPoE协议可实现很低延迟,中昊芯英宣称其互联延迟表现优于特斯拉 [6] 软件生态与模型架构 - 英伟达闭源的CUDA生态建设十余年,国产芯片平台需自主建设软件栈和工具链 [6] - 国产AI芯片将通过持续工具链完善,实现不同平台间的兼容与流畅体验,类似安卓系统早期优化过程 [6] - 当前绝大多数大语言模型仍基于Transformer架构,整体结构未出现根本性变化,这为AI芯片厂商提供了按1-2年周期有序推进研发的机会 [7]
AI解数学题只靠最后一个token
量子位· 2025-09-14 13:05
研究核心发现 - 大语言模型在心算任务中,几乎所有实际数学计算都集中在序列最后一个token上完成,而非分散在所有token中[1] - 模型内部形成名为“人人为我”的稀疏子图,通过最少的计算层和最有限的信息传递高效完成运算[4][5] - 该过程将任务通用型计算与输入特定型计算分开,表明在特定任务中全局信息访问并非必需[1][10] 研究方法与实验设计 - 研究采用上下文感知平均消融和基于注意力的窥视技术对Llama-3-8B等Transformer模型进行消融实验[2][20] - 实验通过三阶段操作:在初始层抑制token针对特定输入的计算,在少数层限制跨token信息传递,最后强制所有计算在最后一个token上发生[15][18][19] - 在Llama-3-8B的A+B+C任务中,只需前14层做任务通用计算,然后通过2层信息传输让最后token获取全局信息,剩余层仅进行最后token自计算[24] 模型性能表现 - AF1_llama子图在八个算术任务中总体表现出高忠实度,其中A+B+C任务忠实度达0.995,A-B-C任务达0.995[28][29] - 仅少数注意力头对算术计算关键,移除近60个头部后模型仍能保持约95%准确率,表明大部分注意力头冗余[30] - 在Pythia和GPT-J模型中也发现类似AF1子图,但等待期更短、信息传输层更长,且性能边界不如Llama清晰[35] 任务适用性与局限性 - AF1_llama在不含额外语义上下文的直接算术任务中保持高准确率,但在需要语义理解的应用题和Python代码任务上完全失败[33][34] - 该方法聚焦于心算任务,即涉及两个或三个操作数的算术问题,可通过单个token输出解决而无需链式思维推理[11] - 研究方法论具有创新性,可服务于算术任务之外的更广泛应用,为理解大语言模型中的算术推理机制做出贡献[37]