非Transformer架构 - 财报，业绩电话会，研报，新闻

非Transformer架构

搜索文档

量子位· 2025-07-30 10:29

核心观点 - AI行业热度空前，WAIC展会呈现十大核心趋势，展现中国AI产业的快速发展和创新活力 [2][3][5] 十大核心趋势趋势一：中国AI因DeepSeek而不同 - DeepSeek带来观念改变，AGI在中国被真正相信，中国人可能率先实现AGI [6] - DeepSeek-R1让普通人不再认为AI是"智障"，唤醒中国AI创始人直接瞄准AGI [7] - 前谷歌CEO施密特等国际专家认可中国AI实力 [6] 趋势二：基础大模型综合实力比拼 - 基础大模型竞逐重点从SOTA转向推理、多模态和低成本 [8][9] - 阶跃星辰Step-3模型总参数321B，具备多模态推理能力，联合千里科技和吉利汽车落地智能座舱 [12] - 商汤日日新V6.5在多模态推理能力上表现优异，部分指标超过Gemini 2.5 Pro和Claude 4-Sonnet [14][15] - 讯飞深度推理X1升级版在幻觉治理、综合能力等方面有提升 [15] 趋势三：开源大模型进入中国时间 - 开源成为中国大模型领域的标配，通义千问是开源旗手 [17][18][21] - 阿里通义千问系列模型和通义万相2.2全部开源 [18][20] - 中国开源模型方阵蔚为壮观，包括基础大模型和垂直模型 [23][24][26] - 开源共识形成，中国可能成为AI时代的"安卓" [28][31] 趋势四：国产化AI生态闭环 - 国产芯片与国产大模型协同构建生态 [32][33] - 摩尔线程实现100token/s跑满血DeepSeek，推动AI训练向万卡级规模演进 [37] - 后摩智能发布能效比最高的存算一体AI芯片M50，功耗仅10W [39] - 中昊芯英发布中国首枚TPU架构高性能AI芯片"刹那®"和计算集群"泰则®" [41] - 联想、燧原科技等推出国产算力+国产模型的大模型一体机 [44][46] 趋势五：AI基建与垂直行业应用 - 华为展示昇腾384超节点真机，支持万张算力卡的数据中心 [51] - 中国电信展出五大技术体系，包括智传网、算网一体服务等 [53] - PPIO发布国内首个Agentic AI基础设施服务平台 [56] - 国家电网和南方电网展示电力行业大模型"大瓦特"，机器人代人率达80% [60] - 蚂蚁数科推出金融大模型Agentar-Fin-R1，在金融基准测试中表现优异 [62] - 百度展示数字人技术NOVA，曾支撑罗永浩数字人直播间创5500万GMV [64] 趋势六：ToC创新与AI Agent - C端产品创新开始，AI Agent成为新风口 [66][67] - WPS发布原生Office办公智能体，通过自然语言完成文档创作等 [76] - 钛动发布全球营销AI Agent，赋能营销全链路 [77] - 深势科技发布通用科学智能体SciMaster，提供专家级科研助手 [79] - Agent被视为AI时代的软件形态产品，将革新各领域应用 [82][83] 趋势七：商业化AI终端 - 汽车、耳机和眼镜成为第一批商业化AI终端 [86][87] - 特斯拉、吉利等车企展示AI能力，座舱领域创新打开新增长空间 [88][90][94] - 讯飞AI耳机iFLYBUDS Pro 3和Air 2主打商务办公场景 [99][100] - AI眼镜备受关注，Rokid预定量达25万台，Halliday中国首秀 [104][105][107] - 夸克发布AI眼镜，集成阿里和支付宝生态 [109][110] 趋势八：具身智能机器人 - 具身智能机器人赛道白热化，今年实现大飞跃 [112][113] - 智元、银河通用、北京人形机器人创新中心等展示能走能动的机器人 [117][119][121] - 宇树科技通过"机器人打拳击"展示灵活运动能力 [129] - 戴盟聚焦触觉感知技术，展示精细化操作能力 [135][137][139] - 行业开始向人形收敛，VLA和世界模型成为共识 [133] 趋势九：非Transformer架构 - 非Transformer架构从学术研究进入产业应用 [144][145] - RockAI展示自研非Transformer架构驱动的机器狗和灵巧手 [146] - RWKV元我智能公开RWKV-7s架构，KV cache仅为MLA的1/9大小 [146] 趋势十：中国与硅谷AI差距 - 中国与硅谷AI差距缩短至6个月，集中在大模型先进技术层面 [154] - 发展目标转向AGI实现，而非追赶硅谷 [155] - 中国拥有发展AI的宝贵资源——人才和用户基础 [157][158]

每个人的AI科学助手！全球首个通用科学智能体来了，全网资源+1.7亿学术文献让科研效率狂飙

量子位· 2025-07-29 11:43

通用科研智能体SciMaster发布 - 全球首个通用科研智能体SciMaster在WAIC未来发展论坛发布，由上海交大青年博导张林峰与深势科技创始人张林峰共同推出[1] - SciMaster具备专家级深度调研能力，基于通用科学基座大模型Innovator，拥有多模态能力[5] - 可结合全网资源和1.7亿科学文献进行科研辅助，并能以科研思维解决日常问题[2][3] - 主要功能免费开放，发布后迅速引发用户求邀请码热潮[4] 核心功能与技术特点 - 提供"通用助手"和"深度调研"两种模式，前者适合快速了解问题，后者可生成更翔实的报告并附参考文献[22] - 集成多种科学专用工具，支持主动调用和自动调用两种方式[24][28] - 检索方式包括WebSearch、WebParse、PaperSearch三种，覆盖全域互联网和1.7亿科学文献[7] - 支持用户干预检索方案，可随时暂停并编辑搜索策略[8] - 具备自动优化搜索能力，如不满意初次检索结果会自动调整关键词进行二次搜索[10] 实际应用案例 - 在AI前沿领域调研中，成功识别出Mamba、GNN等有前景的非Transformer架构，发现Mamba在长序列处理上效率是Transformer的5倍[15][17] - 在生物信息学领域，证实GNN在单细胞转录组学中可替代Transformer且计算资源消耗更少[18] - 在表格数据处理方面，发现传统MLP在某些情况下表现优于Transformer架构[19] - 生活场景中可提供科学开空调方案，根据不同关注点(舒适/健康/节能)给出最优解[29][30] - 商业场景中可帮助投资人发现具身智能领域有潜力的中国初创企业，并提供亮点和风险分析[37][39] 开发背景与行业影响 - 由上海交大与深势科技合作开发，是AI for Science(AI4S)领域的校企合作标杆成果[42] - 深势科技已推出科学大模型体系、药物计算平台等AI4S产品，并与40余所高校达成合作[43][44] - 数据来源于深势科技的玻尔科研空间站，并接入DeepModeling开源社区，已孕育上千款工具和数百个应用[43][46] - 目标是打造"AI4S领域的Hugging Face"，推动重塑高校科研范式，改变传统"教、学、研、用"体系[45][47] - 作为通用科学智能体，将促进信息世界与物理世界融合，推动AI与传统学科的深度结合[48]

搜狐财经· 2025-06-06 19:38

大模型架构创新研究核心观点 - Transformer架构目前仍占据行业绝对主导地位，但面临二次计算复杂度高、长序列处理效率低、端侧部署受限等局限性 [1][9][16] - 行业正从两条路径突破：Transformer架构改进（Attention机制、FFN层优化）和非Transformer架构探索（新型RNN/CNN） [1][7][18] - 技术发展呈现混合架构趋势，如Mamba+MoE等组合，兼顾性能与效率 [2][9][18] - 2023年后进入架构创新密集期，学术界聚焦理论突破，工业界加速工程验证 [2][14] Transformer架构现状与挑战 - 当前占据大模型架构90%以上市场份额，通用性和可扩展性优势明显 [9][10] - 核心问题：计算复杂度O(n²)导致算力消耗激增，GPT-4推理成本达GPT-3的7倍 [16] - 长序列处理效率低下，KV缓存内存占用限制端侧部署 [16] - 预训练+微调范式见顶，效果提升边际递减（Grok3资源增10倍效果仅提升2%） [16] Transformer架构改进路径 Attention机制优化 - 稀疏注意力：采用局部窗口/块状计算降低复杂度至O(n log n)，代表技术有Sliding Window、MoBA [24][25][26] - 动态注意力：NSA等新技术实现可学习动态路径，替代预定义结构 [27][28][32] - 线性注意力：将点积计算线性化降为O(n)复杂度 [24] FFN层改进 - 从Dense结构演进为MoE混合专家系统，提升稀疏连接效率 [1][21] - 持续探索动态化、稀疏化下一代技术 [21][23] 其他改进 - 位置编码优化：LongRoPE增强长序列建模 [1] - 归一化层与残差连接改进 [22] 非Transformer架构探索 - 新型RNN：RWKV通过广义Delta Rule优化状态演化，Mamba利用状态空间模型提升训练效率 [1][14] - 新型CNN：Hyena Hierarchy等架构尝试 [1] - 混合架构：2025年MiniMax-01实现456B参数工业级落地，采用Transformer+Mamba组合 [9][14] 行业发展趋势 - 混合架构成为主流选择，字节跳动、阿里等企业加速布局 [2][10] - 研究方向聚焦：算力适配（FP8混合精度）、多模态融合、端侧部署能力 [2][18] - 参数规模持续突破，2025年出现万亿级非Transformer架构 [9][14] - 训练范式革新：从预训练转向多阶段训练、RL优化等后训练技术 [16][18]