Workflow
非Transformer架构
icon
搜索文档
我在WAIC看见的十大趋势
量子位· 2025-07-30 10:29
核心观点 - AI行业热度空前,WAIC展会呈现十大核心趋势,展现中国AI产业的快速发展和创新活力 [2][3][5] 十大核心趋势 趋势一:中国AI因DeepSeek而不同 - DeepSeek带来观念改变,AGI在中国被真正相信,中国人可能率先实现AGI [6] - DeepSeek-R1让普通人不再认为AI是"智障",唤醒中国AI创始人直接瞄准AGI [7] - 前谷歌CEO施密特等国际专家认可中国AI实力 [6] 趋势二:基础大模型综合实力比拼 - 基础大模型竞逐重点从SOTA转向推理、多模态和低成本 [8][9] - 阶跃星辰Step-3模型总参数321B,具备多模态推理能力,联合千里科技和吉利汽车落地智能座舱 [12] - 商汤日日新V6.5在多模态推理能力上表现优异,部分指标超过Gemini 2.5 Pro和Claude 4-Sonnet [14][15] - 讯飞深度推理X1升级版在幻觉治理、综合能力等方面有提升 [15] 趋势三:开源大模型进入中国时间 - 开源成为中国大模型领域的标配,通义千问是开源旗手 [17][18][21] - 阿里通义千问系列模型和通义万相2.2全部开源 [18][20] - 中国开源模型方阵蔚为壮观,包括基础大模型和垂直模型 [23][24][26] - 开源共识形成,中国可能成为AI时代的"安卓" [28][31] 趋势四:国产化AI生态闭环 - 国产芯片与国产大模型协同构建生态 [32][33] - 摩尔线程实现100token/s跑满血DeepSeek,推动AI训练向万卡级规模演进 [37] - 后摩智能发布能效比最高的存算一体AI芯片M50,功耗仅10W [39] - 中昊芯英发布中国首枚TPU架构高性能AI芯片"刹那®"和计算集群"泰则®" [41] - 联想、燧原科技等推出国产算力+国产模型的大模型一体机 [44][46] 趋势五:AI基建与垂直行业应用 - 华为展示昇腾384超节点真机,支持万张算力卡的数据中心 [51] - 中国电信展出五大技术体系,包括智传网、算网一体服务等 [53] - PPIO发布国内首个Agentic AI基础设施服务平台 [56] - 国家电网和南方电网展示电力行业大模型"大瓦特",机器人代人率达80% [60] - 蚂蚁数科推出金融大模型Agentar-Fin-R1,在金融基准测试中表现优异 [62] - 百度展示数字人技术NOVA,曾支撑罗永浩数字人直播间创5500万GMV [64] 趋势六:ToC创新与AI Agent - C端产品创新开始,AI Agent成为新风口 [66][67] - WPS发布原生Office办公智能体,通过自然语言完成文档创作等 [76] - 钛动发布全球营销AI Agent,赋能营销全链路 [77] - 深势科技发布通用科学智能体SciMaster,提供专家级科研助手 [79] - Agent被视为AI时代的软件形态产品,将革新各领域应用 [82][83] 趋势七:商业化AI终端 - 汽车、耳机和眼镜成为第一批商业化AI终端 [86][87] - 特斯拉、吉利等车企展示AI能力,座舱领域创新打开新增长空间 [88][90][94] - 讯飞AI耳机iFLYBUDS Pro 3和Air 2主打商务办公场景 [99][100] - AI眼镜备受关注,Rokid预定量达25万台,Halliday中国首秀 [104][105][107] - 夸克发布AI眼镜,集成阿里和支付宝生态 [109][110] 趋势八:具身智能机器人 - 具身智能机器人赛道白热化,今年实现大飞跃 [112][113] - 智元、银河通用、北京人形机器人创新中心等展示能走能动的机器人 [117][119][121] - 宇树科技通过"机器人打拳击"展示灵活运动能力 [129] - 戴盟聚焦触觉感知技术,展示精细化操作能力 [135][137][139] - 行业开始向人形收敛,VLA和世界模型成为共识 [133] 趋势九:非Transformer架构 - 非Transformer架构从学术研究进入产业应用 [144][145] - RockAI展示自研非Transformer架构驱动的机器狗和灵巧手 [146] - RWKV元我智能公开RWKV-7s架构,KV cache仅为MLA的1/9大小 [146] 趋势十:中国与硅谷AI差距 - 中国与硅谷AI差距缩短至6个月,集中在大模型先进技术层面 [154] - 发展目标转向AGI实现,而非追赶硅谷 [155] - 中国拥有发展AI的宝贵资源——人才和用户基础 [157][158]
每个人的AI科学助手!全球首个通用科学智能体来了,全网资源+1.7亿学术文献让科研效率狂飙
量子位· 2025-07-29 11:43
通用科研智能体SciMaster发布 - 全球首个通用科研智能体SciMaster在WAIC未来发展论坛发布,由上海交大青年博导张林峰与深势科技创始人张林峰共同推出[1] - SciMaster具备专家级深度调研能力,基于通用科学基座大模型Innovator,拥有多模态能力[5] - 可结合全网资源和1.7亿科学文献进行科研辅助,并能以科研思维解决日常问题[2][3] - 主要功能免费开放,发布后迅速引发用户求邀请码热潮[4] 核心功能与技术特点 - 提供"通用助手"和"深度调研"两种模式,前者适合快速了解问题,后者可生成更翔实的报告并附参考文献[22] - 集成多种科学专用工具,支持主动调用和自动调用两种方式[24][28] - 检索方式包括WebSearch、WebParse、PaperSearch三种,覆盖全域互联网和1.7亿科学文献[7] - 支持用户干预检索方案,可随时暂停并编辑搜索策略[8] - 具备自动优化搜索能力,如不满意初次检索结果会自动调整关键词进行二次搜索[10] 实际应用案例 - 在AI前沿领域调研中,成功识别出Mamba、GNN等有前景的非Transformer架构,发现Mamba在长序列处理上效率是Transformer的5倍[15][17] - 在生物信息学领域,证实GNN在单细胞转录组学中可替代Transformer且计算资源消耗更少[18] - 在表格数据处理方面,发现传统MLP在某些情况下表现优于Transformer架构[19] - 生活场景中可提供科学开空调方案,根据不同关注点(舒适/健康/节能)给出最优解[29][30] - 商业场景中可帮助投资人发现具身智能领域有潜力的中国初创企业,并提供亮点和风险分析[37][39] 开发背景与行业影响 - 由上海交大与深势科技合作开发,是AI for Science(AI4S)领域的校企合作标杆成果[42] - 深势科技已推出科学大模型体系、药物计算平台等AI4S产品,并与40余所高校达成合作[43][44] - 数据来源于深势科技的玻尔科研空间站,并接入DeepModeling开源社区,已孕育上千款工具和数百个应用[43][46] - 目标是打造"AI4S领域的Hugging Face",推动重塑高校科研范式,改变传统"教、学、研、用"体系[45][47] - 作为通用科学智能体,将促进信息世界与物理世界融合,推动AI与传统学科的深度结合[48]
大模型专题:大模型架构创新研究报告
搜狐财经· 2025-06-06 19:38
大模型架构创新研究核心观点 - Transformer架构目前仍占据行业绝对主导地位,但面临二次计算复杂度高、长序列处理效率低、端侧部署受限等局限性 [1][9][16] - 行业正从两条路径突破:Transformer架构改进(Attention机制、FFN层优化)和非Transformer架构探索(新型RNN/CNN) [1][7][18] - 技术发展呈现混合架构趋势,如Mamba+MoE等组合,兼顾性能与效率 [2][9][18] - 2023年后进入架构创新密集期,学术界聚焦理论突破,工业界加速工程验证 [2][14] Transformer架构现状与挑战 - 当前占据大模型架构90%以上市场份额,通用性和可扩展性优势明显 [9][10] - 核心问题:计算复杂度O(n²)导致算力消耗激增,GPT-4推理成本达GPT-3的7倍 [16] - 长序列处理效率低下,KV缓存内存占用限制端侧部署 [16] - 预训练+微调范式见顶,效果提升边际递减(Grok3资源增10倍效果仅提升2%) [16] Transformer架构改进路径 Attention机制优化 - 稀疏注意力:采用局部窗口/块状计算降低复杂度至O(n log n),代表技术有Sliding Window、MoBA [24][25][26] - 动态注意力:NSA等新技术实现可学习动态路径,替代预定义结构 [27][28][32] - 线性注意力:将点积计算线性化降为O(n)复杂度 [24] FFN层改进 - 从Dense结构演进为MoE混合专家系统,提升稀疏连接效率 [1][21] - 持续探索动态化、稀疏化下一代技术 [21][23] 其他改进 - 位置编码优化:LongRoPE增强长序列建模 [1] - 归一化层与残差连接改进 [22] 非Transformer架构探索 - 新型RNN:RWKV通过广义Delta Rule优化状态演化,Mamba利用状态空间模型提升训练效率 [1][14] - 新型CNN:Hyena Hierarchy等架构尝试 [1] - 混合架构:2025年MiniMax-01实现456B参数工业级落地,采用Transformer+Mamba组合 [9][14] 行业发展趋势 - 混合架构成为主流选择,字节跳动、阿里等企业加速布局 [2][10] - 研究方向聚焦:算力适配(FP8混合精度)、多模态融合、端侧部署能力 [2][18] - 参数规模持续突破,2025年出现万亿级非Transformer架构 [9][14] - 训练范式革新:从预训练转向多阶段训练、RL优化等后训练技术 [16][18]