大语言模型
搜索文档
ICLR 2026|早于DeepSeek Engram,STEM已重构Transformer「记忆」
机器之心· 2026-03-09 10:50
文章核心观点 - 大语言模型的研究重点正从参数规模扩张转向参数组织方式的创新,旨在提升记忆存储与访问的效率、可编辑性和系统性能[2] - STEM模型架构通过将Transformer FFN中的动态“算地址”机制替换为静态“查地址”的查表式记忆,实现了记忆容量与每token计算量的解耦,并在多个维度带来显著提升[5][8][13] - 这种简洁、稳定且工程友好的设计思路,为下一代基座模型的演进提供了一条重要路径,表明通过优化参数组织方式而非单纯增加规模,同样能获得显著能力提升[29][30] STEM模型的核心机制与设计 - **核心直觉与设计**:STEM的关键洞察在于质疑FFN中地址向量需由输入动态生成的必要性,选择用静态的、按token索引的embedding表直接查表获取向量,取代传统的up-projection密集矩阵乘法[5][8][9] - **结构变化**:该设计仅替换了FFN中的up-projection子模块,完整保留了gate与down-projection用于上下文调制与压缩,使模型结构发生了本质变化[11][12][13] STEM模型带来的优势与影响 - **可编辑性提升**:由于存在显式的token-参数对应关系,研究者可直接替换特定token的STEM向量来改变模型在相关事实上的输出行为,为知识编辑和模型理解提供了新思路[16][18][19] - **训练稳定性增强**:作为一种静态稀疏结构,STEM避免了MoE等动态路由方案中常见的负载倾斜和损失尖峰问题[20] - **记忆空间更高效**:使用token索引embedding改变了FFN输入向量的几何分布,使向量间呈现更大的角度散布、更接近正交,有效减少了参数间干扰,在相同或更低计算成本下维持了更多可寻址的记忆槽位[22][23] - **计算与系统效率优化**:移除up-projection节省了约 d⋅d_ff 级别的矩阵乘法开销,且大规模embedding表可离载到CPU,通过异步预取与缓存策略访问,降低了FLOPs与IO开销[24] 实验结果与工程落地 - **性能表现**:在350M与1B模型规模上,STEM相比稠密基线整体平均性能提升约3–4%,部分知识类任务提升幅度可达9–10%[26][36] - **长上下文优势**:在Needle-in-a-Haystack与LongBench等长上下文评测中,STEM的优势随着上下文长度增加而扩大[36] - **工程实现关键**:仅替换up-projection是关键,盲目替换gate-projection会破坏上下文调制能力;embedding表可CPU离载,训练时需将梯度回写到对应的优化器状态;可采用部分层替换或混合变体来平衡参数占比与显存压力[36]
“世界模型”到底是什么?
虎嗅APP· 2026-03-08 11:04
文章核心观点 - AI当前缺乏理解、预测和推演世界的能力,为解决此问题,OpenAI、谷歌、微软等大公司及顶尖学者正集中研究“世界模型”,这被视为通往AGI的关键一步[4][6] - 世界模型旨在让AI从“只会回答问题”的语言机器,转变为能够“观察、推理、行动”的真正智能体,其核心特质包括表示世界、预测未来以及在世界中规划和行动[24][26] - 当前世界模型的研究呈现多条技术路线并行的局面,主要包括视频生成、3D空间生成、在虚拟世界训练智能体以及直接学习世界抽象结构等,这些路线共同指向让AI理解并能在世界中行动的终极目标[48][101][134] - 世界模型若发展成熟,预计将对机器人、自动驾驶、穿戴式设备、内容生成与游戏、AI Agent等多个关键行业产生颠覆性影响,从效率提升转向范式级改变[106][117][121] 一、什么是世界模型? - **概念起源与目标**:世界模型的概念源于对人类心智模型的研究,旨在让机器像人类一样,在内部构建一个“世界如何运作”的模型,以进行预测和行动规划[8][9][10] - **理论发展**:在AI和强化学习早期研究中,Dyna架构首次明确将“世界模型”确立为智能体的基础能力,其核心是智能体学习“采取动作后世界如何变化”[12] - **现代框架**:2018年Google Brain的论文《World Models》提出了一个精炼化的理解框架:世界模型 = 观察世界(视觉模块V)+ 预测世界(记忆模块M)+ 在内部世界中学习行动(控制模块C)[17] - **核心特质**:研究者普遍认为世界模型应具备三大特质:1) 表示世界(理解环境中的物体与关系);2) 预测未来(模拟事件变化);3) 在世界里规划和行动(基于预测采取行动)[24] 二、为什么要研究世界模型? - **与大语言模型的区别**: - **任务与目标**:大语言模型预测下一个词/Token,世界模型预测下一帧画面、下一步状态变化[29] - **数据与输出**:大语言模型主要依赖静态文本数据,输出语言或图像;世界模型主要依赖动态时序数据(如视频),输出对未来状态的预测和可执行方案[29] - **学习方式**:大语言模型通过语言间接理解世界,是世界模型的补充;世界模型通过交互和推演直接理解世界,并能进行预测和干预[28][30] - **大语言模型的瓶颈**:部分顶尖学者认为大语言模型路线存在根本性瓶颈,例如Yann LeCun认为其只是在拟合语言统计相关性,对现实世界缺乏直接建模能力,若继续“堆量”难以实现真正的智能[33][37] - **研究驱动力**:1) 大模型的原生能力遇到天花板;2) 多模态时代到来,海量视觉/动作数据、强大算力等条件成熟,使得训练“真正的世界模型”成为可能[44][46] 三、当前推进世界模型的主要路线 - **三层结构框架**:可将世界模型领域拆解为三层:1) 底层思想与范式(抽象、预测、规划);2) 中间表现形式(世界如何被生成出来);3) 顶层目的层(智能体训练,让AI在世界中行动)[49][50][52] - **行业现状**:目前产业界的尝试多集中在第二层“世界生成”,这是整个领域最活跃的部分,也是世界模型体系的入口和根基[54][56] 四、世界模型的表现形式:世界生成 - **视频生成路线**: - **目标与代表**:让AI生成一个能随时间连续演化、动起来的世界,代表模型包括OpenAI Sora、谷歌Genie等[56][59] - **优势**:结果“看得见”,易于观察和评估;训练数据(互联网视频)易获得;对Scaling Law敏感,规模越大效果越好;能快速商业化落地[65][67] - **局限**:对世界的理解是“隐式”的,藏在模型权重中,难以直接读取或迁移到机器人等决策系统[67][69] - **3D生成(空间智能)路线**: - **目标与代表**:不是“画”出世界,而是“建”出世界的三维结构,关注几何关系与可操作性,代表是李飞飞的World Labs及其模型Marble[57][70][72] - **优势**:生成显式的3D结构信息,更利于物理模拟、规划和控制;在游戏、影视、室内设计等场景有商业转化优势[72][75] - **挑战**:高质量3D训练数据稀缺;几何结构建模难度大;对算力需求远超2D模型[76] 五、世界模型的目的:智能体训练 - **基于虚拟世界训练路线**:代表是Google SIMA,将AI放入游戏等虚拟生成的世界中训练,使其学会可迁移到真实世界的行动能力,最新版本SIMA 2展现出复杂任务理解、自主规划和强大泛化能力[84][86][87] 1. **直接学习世界抽象结构路线**:代表是Yann LeCun提出的JEPA架构,其核心是不生成具体画面,而是将世界压缩成抽象的高维潜在表示,并在此空间中预测未来的关键结构,优势是计算成本低、更易捕捉因果关系、输出信息更利于机器人行动[90][92][97][98] 六、世界模型会改写哪些关键行业? - **机器人**:世界模型让机器人拥有“世界的内部模型”,能进行预测和模拟,从而具备跨环境、跨任务的迁移和泛化能力,这将改变机器人行业过去每项新任务都需重新编程工程的范式[106][107][109] - **自动驾驶**:世界模型能让系统学习“世界如何运转”,进行高质量仿真和多种决策路径推演,从而获得接近人类的预判能力,被认为是推动自动驾驶走向大规模商业化的核心技术之一[110][113] - **穿戴式设备**:世界模型能让设备真正理解用户所处的3D环境并进行预测规划,使其从“信息终端”进化为随身的“世界理解引擎”和“数字伙伴”[114][116] - **内容生成、游戏与影视制作**:世界模型能根据简单设定自动生成并演化整个虚拟世界,将内容创作从“制作”变为“生成”,彻底改变叙事和创作方式,例如游戏世界可以即时生成和进化[117][118][120] - **AI Agent**:世界模型为AI Agent提供了一个可训练、可试错、接近真实的“内在世界”,解决了其与真实环境交互训练昂贵且危险的核心问题,是决定AI Agent能否走向现实世界的关键[121][122][124]
哔哩哔哩(BILI):广告动能强劲
中信证券· 2026-03-06 20:45
报告投资评级 - 报告未明确给出独立的投资评级,但指出其观点与中信里昂研究在2026年3月6日发布的题为《Robust ad momentum》的报告一致 [3][4] 核心观点 - 哔哩哔哩2025年第四季度业绩超预期,总收入同比增长8%至83亿元人民币,调整后净利润同比增长94%至8.78亿元人民币 [4] - 业绩超预期主要得益于广告收入强劲增长,同比增长27% [4] - 分析预计广告增长动能将持续强劲 [4] 财务业绩与业务分析 - **总收入与利润**:2025年第四季度总收入为83亿元人民币,调整后净利润为8.78亿元人民币 [4] - **移动游戏收入**:同比下降14%至15亿元人民币,符合预期,主要因缺乏新爆款且去年同期《三国志》上线形成高基数 [5] - **广告收入**:同比增长27%至30亿元人民币,增速加快 [6] - **增值服务收入**:同比增长6%至33亿元人民币 [7] 各业务板块详细表现 - **移动游戏**: - 旗舰游戏《三国志》2025年第四季度流水同比下降46%至4.74亿元人民币,但降幅较第三季度的约70%有所收窄 [5] - 游戏计划在2026年登陆小程序、PC、Steam及网页端,并启动全球化发行,已于2026年1月22日在中国港澳台地区上线,预计2026年下半年登陆日韩市场 [5] - 即将上市的游戏包括《逃离鸭科夫》手游、《闪耀吧!噜咪》(2026年全球上线)和《三国志:N卡》(春节后测试) [5] - **广告业务**: - 增长得益于广告产品优化、投放效率提升及广告基建与投放能力持续增强 [6] - 游戏广告需求保持强劲,AI应用推广大幅增加,此趋势有望在2026年延续 [6] - 前五大广告垂类为游戏、电子产品、互联网服务、电商和汽车 [6] - 广告加载率维持约7%,未来仍有提升空间 [6] - OTT广告收入同比增长三倍 [6] - **增值服务**: - 增长主要受直播和充电计划稳健增长驱动 [7] - 拥有1万+/10万+/100万+粉丝的创作者数量同比增长20% [7] - 获得收入的创作者数量达300万(第三季度为250万),创作者收入同比增长21% [7] 收入结构 - 增值服务收入占比41.0% [11] - 广告收入占比30.5% [11] - 移动游戏收入占比20.9% [11] - IP衍生品及其他收入占比7.6% [11] - 收入100%来自亚洲地区 [11] 公司股价与市场数据 - 股价(截至2026年3月4日):27.5美元 [11] - 12个月最高/最低价:35.92美元 / 14.88美元 [11] - 市值:116.10亿美元 [11] - 3个月日均成交额:68.23百万美元 [11] - 市场共识目标价(路孚特):30.14美元 [11] 公司股权结构 - 主要股东:陈睿(14.20%)、腾讯(12.40%) [11] 行业催化因素 - 游戏版号审批常态化 [8] - 与电商平台合作深化 [8] - 故事模式广告货币化加速 [8] 公司概况 - 哔哩哔哩公司提供在线娱乐服务,运营覆盖多元内容形式与题材的平台,包括视频、直播、手游、动漫及漫画,主要服务于中国市场 [10]
金工专题报告:OpenClaw深度测评与应用指南
东吴证券· 2026-03-06 16:24
量化模型与构建方式 1. **模型名称**: 股债风险平价策略 * **模型构建思路**: 该策略旨在构建一个投资组合,使得股票和债券两类资产对组合整体风险的贡献度相等,从而实现更优的风险分散效果[82]。 * **模型具体构建过程**: 报告未详细描述该风险平价策略的具体数学构建过程、权重计算公式及回测参数设置。其构建是通过向OpenClaw下达自然语言指令完成的,OpenClaw自主设计了合适的工作流,匹配底层数据并生成了完整的策略代码与结果文件[82]。 * **模型评价**: 报告未对该模型进行定性评价。 量化因子与构建方式 1. **因子名称**: 基于调研的情绪分析与未来股价预期打分 * **因子构建思路**: 通过定期自动读取基金经理调研纪要等文本资料,分析其中的市场情绪,并对未来股价走势进行预期打分[86]。 * **因子具体构建过程**: 报告未提供该情绪因子的具体计算方法和量化公式。其构建是通过OpenClaw的定时任务功能实现的,设定AI每周自动读取指定路径下的调研资料,基于内容完成情绪分析与未来股价预期打分[86]。 模型的回测效果 (报告未提供任何量化模型的回测效果指标数据,如年化收益率、夏普比率、最大回撤等。) 因子的回测效果 (报告未提供任何量化因子的测试结果数据,如IC值、IR、多空收益等。)
FlashAttention-4正式发布:算法流水线大改,矩阵乘法级速度
机器之心· 2026-03-06 12:31
文章核心观点 - FlashAttention-4 作为深度学习底层优化技术的重要更新,通过算法与内核的协同设计,针对新一代 Blackwell GPU 架构进行了优化,显著提升了注意力机制的计算效率 [1] - 在 Blackwell B200 GPU 上,FlashAttention-4 使注意力机制的执行速度几乎与矩阵乘法一样快,前向传播最高可达 1605 TFLOPs/s,利用率为 71% [1][10] - 该技术解决了由硬件非对称扩展带来的新瓶颈,并通过利用 Blackwell 的新硬件特性、新型流水线设计和调度优化实现了性能突破 [5][11] - FlashAttention-4 的发布被视为一个里程碑,其性能提升将直接惠及所有前沿大模型,带来更长的有效上下文窗口、更低的推理成本和更强的规模化推理能力 [28] FlashAttention-4 的技术背景与挑战 - **硬件趋势与瓶颈转移**: AI 行业正迅速转向部署 Blackwell 架构系统,现代加速器延续了“硬件非对称扩展”趋势,即张量核心吞吐量增长远快于共享内存带宽、特殊函数单元等其他资源 [5][6] - 从 Hopper H100 到 Blackwell B200,BF16 张量核心吞吐量增加了 2.25倍 (从 1 到 2.25 PFLOPs),但 SFU 数量和共享内存带宽基本保持不变 [6] - 这种扩展不对称性对像注意力这样的复杂内核优化产生了深远影响,性能瓶颈已从张量核心转移至其他部分 [7][10] - **注意力机制的复杂性**: 注意力机制的核心包含两个通用矩阵乘法,中间夹着 softmax,但在实践中还涉及大量辅助工作,如数据搬运、同步、布局转换等 [8][9] - 传统观点认为注意力性能由 GEMM 速度决定,但在 B200 上分析显示,主要瓶颈在于前向传播中的 SFU 单元和反向传播中的共享内存流量 [10][14] FlashAttention-4 的核心设计与优化 - **协同设计思路**: 通过最大化矩阵乘法与其他瓶颈资源之间的重叠来提升性能 [10] - **利用 Blackwell 新硬件特性**: - **张量内存**: 每个 SM 配备 256 KB 的 TMEM,与张量核心直接连接,用于存储中间结果 [12] - **完全异步的第五代张量核心**: 支持异步执行并将结果存储在 TMEM 中,单个 CTA 可使用的最大 UMMA tile 约为 Hopper 架构的 2 倍,减轻了寄存器压力并支持更深流水线 [12] - **2-CTA MMA**: 支持一对 CTA 共同执行一个 UMMA 运算,可将 MMA 的 tile 尺寸扩展到 256×256×16,减少冗余数据传输并降低每个 CTA 的资源占用 [13] - **新型流水线设计**: - **前向传播**: 在 FMA 单元上通过多项式近似实现指数函数的软件仿真以提升吞吐量;引入条件式 softmax 重缩放,跳过 90% 不必要的重缩放操作,缓解 SFU 瓶颈 [1][14] - **反向传播**: 利用 TMEM 存储中间结果以缓解共享内存流量压力;结合 2-CTA MMA 模式进一步降低共享内存访问,并将 atomic reduction 次数减少一半;支持确定性执行模式 [14] - **调度优化**: 引入新的 tile 调度器,解决因果掩码和变长序列导致的负载不均衡问题 [14] 性能表现与行业影响 - **性能基准测试**: 在 B200 上的测试显示,FlashAttention-4 性能显著优于其他实现 [19] - **前向传播**: 比 cuDNN 9.13 快 1.1–1.3 倍,比 Triton 实现快 2.1–2.7 倍 [19] - **反向传播**: 在长序列长度场景下,表现始终优于其他基准模型 [19] - 相比 FlashAttention-3,性能提升了 2–3 倍 [28] - **框架集成与行业反响**: - PyTorch 官方宣布其 FlexAttention 现已支持 FlashAttention-4 后端,使研究人员无需在“灵活性”和“高性能”之间做选择 [24][27] - 在算力受限的工作负载下,相比 Triton,FlexAttention 使用 FlashAttention-4 后端仍可实现 1.2 倍到 3.2 倍的性能提升 [27] - 该技术被认为将直接惠及所有前沿大模型,因为更快的注意力意味着更长的有效上下文窗口、更低的推理成本和更强的规模化推理能力 [28] 实现与工具 - **编程语言与框架**: FlashAttention-4 完全使用 CuTe-DSL 实现,这是 CUTLASS 提供的 Python 内核 DSL,可将编译时间缩短约 20–30 倍,使安装/编译只需几秒钟而非几分钟/几小时 [17]
新一代AI推理芯片
2026-03-06 10:02
电话会议纪要关键要点总结 **涉及的行业与公司** * 行业:AI芯片、半导体、数据中心基础设施 * 公司:英伟达、Grok、谷歌、AMD、英特尔、台积电 一、 AI芯片架构趋势与竞争格局 核心观点:GPU与LPU从替代转向互补协同 * GPU擅长Prefill阶段的大规模并行预处理,LPU在Decode阶段的连续token生成具备低延迟优势,二者协同可显著改善P95/P99尾部延迟[1] * 更优组合是GPU+LPU的互补协作,而非替代关系[2][3] * 英伟达可能推出包含64集群LPU组合并搭配GPU的打包式机架级方案,以整体解决方案交付[2][3] 各类处理单元的定位与差异 * **GPU**:以英伟达H100为代表,核心仍是以大硅片、高算力承担AI训练与推理,依赖集群规模效应和强并行计算能力[2];CUDA与Tensor相关的软件生态成熟,普适性与兼容性强[2] * **LPU**:定位为面向大语言模型的语言处理单元,聚焦语言文本相关处理,核心优势在于低延迟[1][4];单独部署时效率或边际效益与成本表现并不突出[2] * **TPU**:以谷歌等云厂商自研为代表,深度绑定自身软件栈,在自家云环境内效果最好,但跨平台通用性与适配成本较高[2] * **NPU**:更适配强调场景化、实时性与低功耗的任务,如视频会议中的背景模糊、语音降噪等[13] LPU无法取代GPU核心组件 * LPU不具备取代Tensor Core的条件与必要性,两者分工不同、面向负载不同,属于互补关系[4] * LPU并不承担并行计算、图形渲染等通用负载,无法替代Tensor Core在AI训练推理(覆盖FP16到FP64等多精度计算)、并行计算与通用生态中的作用[1][4] * 在万亿级参数大模型训练、万卡集群等场景,仍需要依赖GPU与Tensor Core提供的计算密度与生态支撑[5] 二、 技术实现与核心支撑 3D堆叠封装是LPU实现低延迟的关键 * LPU通过片上SRAM/DRAM与计算核心垂直堆叠,缩短访问链路,实现极低访问延迟,系推理提速关键[1][7] * 3D封装的本质是将原本平面排列的存储单元走向立体堆叠,以应对制程进入纳米甚至埃米阶段后,摩尔定律边际效应下降、晶体管密度扩展受限以及漏电等约束[7] * 该技术并非新生事物,在存储领域(如固态存储)和计算侧(英特尔至强系列)已有多年应用和落地[7] 3D堆叠的容量特点与价值 * LPU集成的DRAM容量并不大,目前公开信息口径为"几百兆",远低于HBM那种可扩展到TB级别的容量上限[8] * 其优势不在于总容量,而在于与主芯片封装在一起后具备极低的访问延迟,从而带来更高的系统效率[8] * 3D堆叠的核心价值在于,在芯片占用的平面面积不变的情况下,通过垂直方向的堆叠显著提升可集成的晶体管数量或存储单元数量,从而实现容量与规模的扩展[8] 异构集成成为先进制程瓶颈下的必然选择 * 在2nm等节点良率受限背景下,通过Chiplet将不同制程的CPU、GPU、NPU集成,可有效降低TCO并提升系统能效[1] * Chiplet与异构集成允许不同模块采用不同制程组合,例如关键计算单元采用更先进制程,总线等采用成熟制程(如7nm),以降低成本并提升良率[8][9] 三、 应用场景与性能表现 LPU与GPU在推理流程中的具体分工 * **Prefill阶段(GPU负责)**:将输入内容拆分为token单元并进行并行处理,完成后生成矩阵并输出初始推理状态[6][11] * **Decode阶段(LPU负责)**:接收GPU输出的初始状态,通过静态调度进行串行token生成,对前序上下文依赖更强[6][12];主要用于该阶段提速并降低卡顿感,重点改善P95、P99等尾部延迟指标[4] * 整体分工原则是让不同核心承担其最擅长的任务:低延迟诉求更适合由具备片上内存结构优势的LPU承接[12] LPU适合推理而非训练的原因 * **存储限制**:LPU采用片上SRAM,容量仅为"几百兆"量级,而GPU的HBM可达TB量级,面对数百B参数规模的训练负载难以支撑[14] * **算力与架构**:LPU设计初衷面向端到端低延迟与更确定性的任务负载,而非大规模并行训练[14] * **精度要求**:GPU覆盖从半精到全精等多种精度,而LPU精度相对更低,主要为Llama推理优化,难以满足训练对精度体系的要求[14] * **软件生态**:GPU的CUDA与Tensor生态成熟,LPU单独做训练缺乏成熟的优化与适配基础[14] 多模态推理芯片现状 * 目前尚未看到明确"某一款芯片在多模态推理上显著更强"的确定结论,多模态能力的提升更多集中在模型与算法优化路径[19] * 多模态与LPU并非同一路径,但未来多模态算力也可能走向"通用芯片+专用芯片拆解协同"的形态[19][20] 四、 基础设施挑战与演进 高功耗驱动散热与供电变革 * 单芯片功耗逼近2000W,将倒逼数据中心从风冷转向冷板式或全浸没液冷[2][16] * 传统风冷可能难以覆盖该功耗密度,在更高热密度下,可能需要全浸没式液冷等方式[16] * 服务器供电体系需要升级以匹配分区级动态功耗调度,原有12V、18V供电方案在发热与线路损耗等约束下可能难以适配[2][16] 软硬件协同与调度成为关键挑战 * 随着芯片异构化程度提升,单芯片内部划分为多个独立计算分区,功耗调度算法本身会成为新增的系统挑战[16] * 必须打通软件生态,通过软件层实现对多颗高功耗芯片的高效调度与协同执行,生态与调度能力将直接影响整体系统可用性与效率[16][18] * LPU与GPU的融合协同在工程实现上存在较大难度,调度机制与系统工程能力可能构成厂商当前的主要攻关方向[17] 五、 成本与经济性优化 降低推理成本的策略 * **专用算力替代部分通用算力**:通过异构方式实现更细颗粒度的分工协作,使每颗芯片更聚焦"重要的事"并尽可能跑满,从硬件侧提高利用率与效率[18] * **存储侧成本优化**:通过数据分层,将PB级数据按冷热属性划分,并据此配置不同存储介质以降低总体成本[18] * **评估核心是TCO**:数据中心对3D技术等封装形式的接受度本质上取决于其对TCO改善的贡献[10];能效提升带来的功耗下降即便只有"单路降低50W"这样的量级,在规模放大后对总体成本影响也会非常显著[10] 专用芯片兴起的逻辑 * 专用芯片本质是"针对特定负载做优化"的算力形态,近几年因大语言模型热度提升,专用算力需求被显著放大[17] * 相较于通用GPU为兼顾多场景而存在的冗余设计,专用芯片有机会提升特定任务的算力利用率,从而减少在低利用率状态下的算力与功耗浪费[17]
AIGC兴起的时代背景:技术牵引驱动产业变革,政策落地加速产业转化
人民网财经研究院· 2026-03-05 14:41
报告行业投资评级 - 报告未明确给出具体的行业投资评级(如买入、增持等),但其通篇基调高度积极,将AIGC定位为推动经济社会高质量发展的“未来产业基建”和“关键力量”,并认为其正迎来从试验走向规模化的关键节点 [8][10] 报告的核心观点 - AIGC正从单纯的创作工具演化为全面渗透千行百业的重要生态,成为推动产业升级与社会系统变革的“智能画笔” [8][10] - 在技术突破与政策体系成熟的双轮驱动下,中国AIGC产业已形成覆盖底层硬件到上层应用的完整生态闭环,国产模型在性能、开源、出海等方面展现出全球竞争力 [9][31][40] - AIGC通过技术普惠与全链条渗透,不仅为各行业带来“降本-增效-创新”的良性循环,更将作为社会引擎,在教育、医疗、文化保护等领域释放巨大的外溢价值 [10][89][94] 根据相关目录分别进行总结 第一章 启幕时代:AIGC产业发展的现状 - **时代背景**:AIGC兴起是AI大模型突破性进展的产物,技术进步呈现“大模型多模态融合”与“生成能力不断提升”两条主线,2024年起全球智能应用爆发式增长,2025年进入“智能体”时代,驱动产业深度变革 [13][14] - **政策环境**:国家层面以《生成式人工智能服务管理暂行办法》确立“发展与安全并重”基调;地方政策在产业生态、算力基建、核心技术、场景落地等方面各有侧重,形成政策-技术-商业的联动反馈闭环,加速产业转化 [16][17][22] - **产业格局**:全球产业链分为上游(算法/芯片/数据)、中游(云平台/API)、下游(行业应用),中美占据主要优势,美国在上游算法与架构占优,中国在下游应用创新与场景落地方面表现突出 [31] - **国产进程**:截至2025年6月,全国已完成**433款**大模型备案并上线服务,产业进入规模化应用新阶段 [34] - **产业业态**:形成三类主要业态:面向C端用户(如DeepSeek、可灵AI),截至2025年3月AI原生APP活跃用户达**2.7亿**,同比增长**536%**;面向B端企业(如通义点金、京东云言犀);面向P端专业创作者(Prosumer),如可灵AI的P端订阅会员贡献了**70%**的营业收入 [35][36] - **国产模型创新**:国产大模型全球竞争力实现历史性跨越,阿里“通义千问Qwen2.5-Omni”登顶Hugging Face开源下载榜,深度求索DeepSeek R1与谷歌Gemini 2.5Pro、OpenAI o4并列全球第一梯队,其训练成本仅为GPT-4o的**1/27** [40] - **创新驱动力**:2024年全球新公开生成式AI专利约**4.5万件**,中国贡献**2.7万件**,占比**61.5%**,位居世界首位;开源生态繁荣,中国成为全球开源软件项目第二大供应国 [41] - **出海战略**:中国AI企业出海呈现“技术普惠+生态融合”特征,如DeepSeek通过完全开源和极低成本策略推广;可灵AI自2024年6月发布至2025年第一季度,全球用户突破**2200万**,验证了“用户规模”与“场景深度”的差异化优势 [43][44] 第二章 赋能场景:AIGC在千行百业的典型应用案例 - **内容创作与媒体**:极大降低生产门槛,截至2024年12月,中国生成式AI产品用户规模达**2.49亿人**,占整体人口**17.7%**;杭州电视台启用AI数字人主播;可灵AI系列模型全球用户超**2200万**,访问量份额超**30.7%** [50][54] - **编程与软件工程**:AIGC从辅助工具演化为“开发伙伴”,重构开发流程与分工模式,推动向“人机共创、智能驱动”转型 [60][61] - **零售与电子商务**:京东云言犀数字人在2024年618期间携手**5000个**品牌开播,累计时长超**40万小时**,AI覆盖**80%**常见问题,响应速度压缩至**3秒内**,降低人力成本超**30%** [63] - **银行与金融**:AIGC重塑金融服务价值链,如中国农业银行Chat ABC大模型提升客户响应速度**30%**、满意度超**90%** [67] - **影视工业**:AIGC解锁创作新可能,如可灵AI制作微短剧《山海奇境之劈波斩浪》,将制作周期从常规的**3-6个月**压缩至**2个月**,成本降幅超**75%** [69][70] - **游戏娱乐**:AIGC重构内容生产与交互体验,如腾讯混元AI美术工作流使角色设计交付周期从**5天级**压缩至**2小时级**,生产效率提升**300%**;网易《逆水寒》驱动**3000名**NPC实现动态人格演化 [72][73] - **医疗健康**:AIGC推动诊疗协同到科研创新的系统性跃迁,如浙江大学医学院附属第二医院的AI系统运行一周精准锁定**118例**高风险患者并成功召回**60例**;AI驱动药物研发管线超**30条** [75][76] - **创意设计**:AIGC驱动效率革命与创意范式重构,如可灵AI与Lovart合作,使植物奶品牌视觉设计全流程耗时从**72小时**压缩至**45分钟**,效率提升超**5倍**,设计成本降低约**70%** [81][82] - **文旅产业**:AIGC带来从体验重构到生态升级的路径创新,如人民网“AI之眼”提供智能导览;可灵AI生成的文化地标虚拟形象引发话题曝光量超**10亿次**,年轻用户参与率提升**40%** [87][88] - **中小企业数字化转型**:AIGC带来技术普惠与全链条升级,中国人工智能企业数量突破**4700家**,核心产业规模接近**6000亿元**;中国移动OneBase平台的“零代码+AI”模式使开发周期缩短**80%**、成本降低**70%** [90] 第三章 共生之境:机遇与挑战并存 - **发展机遇-技术突破**:多模态融合、小样本/零样本学习(如MoE、LoRA等方法)、模型可解释性与可控性大幅提升,为AIGC在垂直场景和边缘设备落地提供了可行路径,并使其适用于医疗、法律等高信任度场景 [99][104][105] - **发展机遇-内容刚需**:数字社会内容需求激增,全球网民日均在线超**7小时**,近半时间用于内容消费与互动;**90%**的品牌主认为内容需求增速超过团队响应能力;AIGC成为解决“内容供需失衡”的关键,如可灵AI可将短视频营销素材成本降低**60%-70%** [107][108] - **发展机遇-商业生态成熟**:大模型平台开放加速AI能力商品化,降低接入门槛;用户习惯快速养成,社会接受度持续提升;全球资本持续投入,形成“锁定效应”,加速生态成熟 [114][115][116] 第四章 未来已来:从智能工具迈向社会引擎 - **未来趋势**:AIGC将从点状落地走向网状联动,推动系统性效率变革;催生新职业与重构工作流;使人机协同成为主流,重塑创作生态 [6] - **社会价值**:AIGC将作为基础设施式的生产力工具,在扩大优质医疗资源覆盖、加速教育普及、助力环境治理、促进文化保护、填平数字鸿沟等方面释放巨大外溢效应 [6]
房地产行业深度报告:基于量化分析与大模型的房地产股票AI选股系统
东吴证券· 2026-03-05 14:29
行业投资评级 - 房地产行业评级为“增持”(维持)[1] 报告核心观点 - 报告介绍了一套基于量化分析与大语言模型(LLM)的房地产股票AI选股系统,旨在为投资者提供高效、全面、及时的股票评级服务 [4][9] - 该系统是业内首个将大语言模型深度融入房地产股票选股流程的智能评级系统,核心创新在于利用三模型融合架构的联网搜索能力,使AI能实时感知最新政策和市场动态,解决传统量化模型无法及时反映政策变化的痛点 [4][9] - 系统内置两套独立评级模型,覆盖A股、港股、美股三大市场共61只房地产相关股票,并具备灵活可扩展的架构,支持用户自定义选股策略 [4][10][17][19] 系统架构与核心能力 - **双模型评级体系**:系统内置“量化AI选股”和“东吴地产选股”两套独立模型,分别面向偏好技术分析和基本面分析的投资者,用户可一键切换对比 [4][10][19] - **三大市场覆盖**:系统支持A股、港股、美股三大市场的房地产相关股票,截至2026年3月3日,共覆盖61只标的 [10][17][19] - **AI实时联网分析**:系统采用DeepSeek V3.2+GLM-5+Kimi K2.5三模型并行融合架构,在评分时开启联网搜索功能,能实时获取最新政策文件、行业新闻、公司公告,确保评级结果反映最新市场信息 [4][10][44][63] - **多源数据保障**:采用四层数据降级架构(iFinD → AKShare → 腾讯财经 → 新浪财经),确保在任何网络环境下都能获取有效数据,系统7×24小时稳定运行 [4][10][61] - **灵活可扩展架构**:系统采用前后端分离架构,模型层与数据层解耦,支持快速扩展自定义选股模型、调整评分权重、编写个性化AI Prompt,并可迁移至其他行业 [4][66][84][85][86][87] 模型一:量化AI选股模型详解 - **综合评分公式**:量化技术评分 × 25% + 情绪因子评分 × 10% + iFinD基本面评分 × 15% + AI大模型评分 × 50% [25] - **设计理念**:以AI为核心(占50%最高权重),量化技术为基础,基本面数据做验证,AI能理解政策含义、行业趋势和市场情绪 [25][43] - **量化技术评分(满分100分)**:包含6个加权维度:趋势评分(权重22%)、动量评分(18%)、波动率评分(12%)、成交量评分(18%)、价值评分(18%)、情绪评分(12%)[27][30] - **iFinD基本面评分(满分100分)**:包含5大维度:核心估值(50分)、资金面(20分)、市场情绪(10分)、盈利能力(10分)、交易活跃度(10分)[41][42] - **AI大模型评分**:采用三模型并行融合架构(DeepSeek V3.2权重0.40, GLM-5权重0.35, Kimi K2.5权重0.25),通过联网搜索获取最新信息,按照四大维度分析:政策资讯影响(权重35%)、公司基本面(30%)、技术面与资金面(25%)、风险评估(10%)[44][45][50][51] - **降级策略**:当部分数据源不可用时,系统自动调整权重,例如基本面不可用时,权重调整为量化30% + 情绪12% + AI58% [26] 模型二:东吴地产选股模型详解 - **综合评分公式**:iFinD基本面评分 × 50% + AI大模型评分 × 50% [54] - **设计理念**:参考东吴证券地产研究团队框架,聚焦行业基本面和政策,适合偏好价值投资的投资者,完全不使用量化技术分析 [54][56] - **东吴基本面评分(满分100分)**:聚焦房地产行业特有标准,包含四个维度:三道红线与财务健康(30分)、估值安全边际(30分)、盈利质量(20分)、技术趋势(20分),其中PB估值(市净率)是核心选股条件 [56] - **东吴AI评分**:使用独立的系统提示词,模拟东吴证券地产研究团队视角,分析框架包含四大维度:宏观环境评估(权重25%)、行业政策面(30%)、个股基本面(30%)、估值安全边际(15%)[57][58][59] - **降级策略**:AI不可用时退化为100%基本面评分;若基本面也不可用,则该股票不评级 [54][60] 数据采集与处理 - **四层数据降级架构**:第一层为同花顺iFinD HTTP API(专业级),第二层为AKShare,第三层为腾讯财经API,第四层为新浪财经API作为兜底 [4][61] - **智能数据源管理**:连续失败超过3次的数据源自动降低优先级,恢复后自动提升,无需人工干预 [4][62] - **数据覆盖与补算**:iFinD覆盖历史行情、实时行情(80+指标)、估值、财务、资金流向和公司公告等全维度数据,针对港股/美股可能缺失的指标,系统自动基于历史行情数据补算 [4][42][61][62] 系统功能与部署 - **每日自动评级**:系统每天上午9:00自动对所有61只股票执行双模型评级,单次全量评级耗时约30-50分钟,用户打开系统即可查看最新结果 [10][19] - **评级映射标准**:两套模型采用统一的评级映射,综合评分0-100分映射为四个等级:≥65分为“优选”,50~64分为“关注”,35~49分为“中性”,<35分为“谨慎”[20][60] - **核心功能模块**:包括AI评级仪表盘、股票详情面板(展示估值、资金流、AI分析等)、自选股票池与AI操作建议、地产行业要闻、市场点评与研究报告等 [88][89][95][100][102] - **部署方式**:支持Docker一键部署,采用多阶段构建,最低配置要求2核4GB内存,推荐4核8GB内存 [70][79][80] - **开源与扩展**:项目已在GitHub开源,采用MIT协议,用户可基于此进行二次开发、扩展自定义选股策略或迁移至其他行业 [9][66]
榜单更新,字节Seed2.0表现亮眼,我们还测了爆火的龙虾 |xbench 月报
红杉汇· 2026-03-04 10:49
xBench评测体系更新与行业采用 - 春节期间,xBench对多家公司发布的最新模型进行了评测,并更新了Leaderboard榜单 [1] - xBench最新发布的多模态理解评测集BabyVision,已被近期发布的多款模型产品纳入评测体系,包括Seed-2.0、Qwen3.5、Kimi K2.5等,在其公开发布的技术报告中均有引用,体现了社区对该评测集的广泛关注与采用 [1][14] - xBench采用长青评估机制,持续汇报最新模型的能力表现,更多榜单将陆续更新 [1] ScienceQA榜单模型表现 - 在ScienceQA榜单上,头部模型竞争激烈,分差相对紧凑 [5] - **字节跳动Doubao-Seed-2.0-pro (high)**:以69.2的平均分位列国产模型第一,仅次于Google的Gemini 3 Pro(71.6分),其BoN(Best of N,N=5)分数为85.0分 [3][5] - 该模型输出token成本为每百万token 2.28美元,仅为Gemini 3 Pro(12美元)的约四分之一,性价比突出 [3][5] - 其BoN分数(85.0)与平均分(69.2)的差距在2.0阶段明显缩小,表明模型单次推理稳定性提升,高分不再主要依赖多次采样 [5] - **阿里巴巴Qwen3.5-plus**:以65.6分位列第三,较其上一代模型Qwen3-235B-A22B-Thinking-2507的55.0分提升了10.6分,BoN分数保持在77.0,显示出平均表现上的明显跃升 [3][7] - **智谱AI GLM-5**:以65.0分位列第六,较上一版本GLM-4.7的60.8分提升了4.2分,在提升表现的同时,平均响应时间没有明显变化,保持了较高的推理效率 [3][8][9] DeepSearch榜单模型表现 - 在DeepSearch榜单中,**Google Gemini Pro**以53分位列第二,同时每道题平均耗时约1.8分钟,在头部产品中响应效率突出,但token成本也极高,完成100题的成本约为249.99美元 [11] - **OpenAI ChatGPT-5-Pro**以79分位列第一,完成100题的成本约为8.5美元,平均每道题耗时约6.1分钟 [11] BabyVision榜单模型表现 - 在BabyVision多模态理解榜单中,**字节跳动Doubao-Seed-2.0-pro**以62.60%的得分位列第一,大幅领先第二名Google Gemini 3.1 Pro(51.50%)11.10个百分点 [13] - **Google Gemini 3.1 Pro**以51.50%位列第二,较Gemini 3 Pro(49.70%)有小幅提升 [13] - **阿里巴巴Qwen3.5-397B-A17B**以43.3%位列第三,较其上一代模型Qwen3-VL-235B-Thinking(22.20%)显著提升了21.1个百分点 [13] - 该模型采用原生多模态路线,通过早期文本-视觉融合以及扩展的视觉/视频数据训练,实现了更强的多模态理解能力 [13] 重点模型能力与产品迭代方向 - 近期模型迭代呈现出三个清晰方向:全训练阶段的多模态增强、竞争从单点基准测试扩展到更真实长程的Agent任务、构建高效稳定的异步Agent强化学习基础设施 [28] - **字节跳动Seed2.0**:在VLMsAreBiased、VLMsAreBlind、BabyVision等多个多模态基准测试中取得了业界最高分,表明其面对不同类型视觉输入时,能保持准确且可信的感知和判断能力 [15][16] - 其视觉感知能力进一步升级,对复杂文档、表格、图形、视频内容的解析水平显著提升 [29][30] - **阿里巴巴Qwen3.5**:引入混合注意力机制和极致稀疏的MoE架构,以Qwen3.5-Plus为例,总参数量高达3970亿,但推理时仅激活最相关的170亿参数,相比此前的万亿参数Qwen3-Max,部署显存占用降低60%,最大推理吞吐量提升至19倍 [33] - **智谱AI GLM-5**:支持200K长上下文,其突破在于引领AI从Vibe Coding演进到Agentic Engineering,具备极强的全自动代码生成和复杂系统重构能力,能够在极少人工干预下自主完成跨越多个阶段的复杂任务 [34] OpenClaw生态与云端产品化趋势 - OpenClaw在年初迅速出圈,其核心是一套完整的结构化交互范式,用户通过一组可维护的文本文件持续塑造Agent的人格、偏好、工具配置与长期记忆 [21] - 围绕OpenClaw的扩展生态(如ClawHub技能库,包含5000+ skills)进一步放大了其吸引力 [20][21] - **月之暗面Kimi Claw**与**MiniMax MaxClaw**的主要贡献是将OpenClaw从本地极客玩具推向云端产品化,降低了普通用户的技术门槛 [21] - Kimi Claw基于Kimi K2.5模型,定价199元/月,MaxClaw基于MiniMax M2.5模型,定价39元/月 [20] - 当前阶段,云端Claw产品的实际体验差异更多来自产品策略和底层模型能力,而非Claw架构本身 [23] - 评测发现,当前OpenClaw生态在安全架构、权限确认机制、回滚和错误隔离等方面仍存在缺口,更像是一个被舆论放大的新交互范式演示,而非成熟的生产力基础设施 [24] - 安全测试案例显示,不同Claw产品在应对Prompt注入攻击时表现不一,底座模型的安全对齐和平台的结构化防护策略需同时建立以确保安全 [25][26][27]
阿里千问大模型换将,32岁林俊旸官宣告别
量子位· 2026-03-04 09:33
核心事件:关键人员离职 - 阿里巴巴通义千问大模型负责人、高级算法专家林俊旸宣布离开千问团队[1][2] - 紧随其后,Qwen3.5/VL/Coder核心贡献者Kaixin Li以及通义实验室科学家Binyuan Hui也相继发文告别团队[7][8] - 目前几位关键人员的去向尚未明确[9] 事件背景与时间点 - 林俊旸宣布离职前一日,其团队刚刚重磅发布了Qwen3.5轻量化模型,包含0.8B、2B、4B、9B四个版本,且均开源可商用[3] - 团队的工作成果在发布后获得了埃隆·马斯克的公开称赞,林俊旸本人也曾回应感谢[5][7] 关键人物背景:林俊旸 - 林俊旸出生于1993年,2019年从北京大学硕士毕业后即加入阿里巴巴,是公司大模型领域的核心技术人才[13][14] - 其早期研究聚焦于搜索推荐场景的自然语言处理与多模态建模,2020年(时年27岁)开始投身大规模预训练模型的研究与部署[16][17] - 他是超大规模预训练模型M6项目的共同一作[23][24] - M6项目于2020年6月启动,2021年5月发布万亿参数模型并投入应用,同年10月升级为全球首个10万亿参数的多模态大模型,达到世界顶尖水平[24] - 2022年后,他转向通用大模型方向,在Qwen项目成立后担任技术负责人,带领团队打造并开源了Qwen系列大语言与多模态模型[26][27] - 根据其个人网站,研究兴趣涵盖大语言模型、AI智能体、多模态、长程推理、世界模型、强化学习六大领域[18] - 其谷歌学术被引量超过4万次,作为主要作者的技术报告(如Qwen3、Qwen、Qwen3-VL等)引用量从3701次到8798次不等[28][29] 事件相关细节 - 林俊旸在X平台发布的告别动态获得了大量关注,数据显示其帖子有超过7.6千条转发和111.9百万次浏览[7] - 同为千问团队成员的Chen Cheng在转帖中透露,林俊旸的离开似乎并非其本人意愿[11] - 林俊旸的个人主页介绍暂未更新[9]