Workflow
机器学习
icon
搜索文档
“学海拾珠”系列之二百三十八:高维环境下的最优因子择时
华安证券· 2025-06-12 18:40
根据研报内容,以下是量化模型与因子的详细总结: 量化模型与构建方式 1. **模型名称**:最优因子择时投资组合模型 **模型构建思路**:通过整合大量因子与预测变量构建择时策略,利用收缩技术防止过拟合[3] **模型具体构建过程**: - 使用Ledoit-Wolf协方差矩阵收缩估计量,计算最优收缩强度[25] - 采用Kozak-Nagel-Santosh收缩方法变体估计权重,公式为: $$\hat{W}_{t}=\left(\hat{\Sigma}_{t}+\hat{\overline{t}}_{t}\left[\begin{array}{cc}0&0\\ 0&\hat{D}_{t}\end{array}\right]\right)^{-1}\hat{\mu}_{t}$$ 其中前K个元素为原始因子平均收益,剩余为因子-预测变量组合收益[27] - 权重重新缩放使原始因子绝对权重之和为1[30] **模型评价**:收缩机制有效避免高维环境下的虚假择时信号[2] 2. **因子名称**:因子择时投资组合因子 **因子构建思路**:将因子收益与滞后预测变量交互形成择时信号[19] **因子具体构建过程**: - 定义标准化预测变量$X_{t-1}$和因子收益$F_t$ - 构建叉积因子:$$G_{t}=X_{t-1}F_{t}$$ 当$X_{t-1}$为正时做多因子,为负时做空[19] - 期望收益取决于预测变量与因子收益的协方差:$$E\left[G_{t}\right]=\mathrm{Cov}\left(X_{t-1},F_{t}\right)$$[21] **因子评价**:将时间序列预测转化为横截面组合优化问题[23] 模型的回测效果 1. **Fama-French因子择时模型**: - 年化收益4.71%,波动率5.81%,夏普比率0.81[40] - 评估比率0.79,最差12月收益-5.62%[41] - 60个月滚动夏普比率持续优于静态组合[46] 2. **Jensen因子择时模型(小预测集)**: - 年化收益2.97%,波动率2.01%,夏普比率1.48[64] - 扣除交易成本后夏普比率1.35[78] 3. **Jensen因子择时模型(大预测集)**: - 年化收益2.73%,波动率1.91%,夏普比率1.43[71] - 无收缩时夏普比率降至0.81[71] 量化因子与构建方式 1. **宏观预测因子**: - 包含实际1年期收益率、收益率曲线斜率(5y-1y)、Baa级债券与国债利差等6个变量[38] - 标准化为z值后与因子收益交互[36] 2. **因子特定预测因子**: - 基础变量:3个月收益、12个月收益、3个月日波动率[38] - 特征价差:B/M价差、资产增长价差、盈利能力价差[38] - 对Jensen因子集扩展至128个特征价差[38] 因子的回测效果 1. **收益率曲线斜率交互因子**: - 在Fama-French组合中权重排名第一[52] - 与盈利能力因子组合贡献显著超额收益[52] 2. **3个月市场收益交互因子**: - 与规模因子组合权重排名第二[52] - 捕捉市场动量对规模因子的预测效果[52] 3. **盈利能力价差因子**: - 在Jensen因子集中出现频率最高[68] - 与宏观变量组合形成稳定择时信号[68] 注:所有结果均基于1965-2022年月度数据,采用滚动窗口验证方法[31][32]
传统NPU供应商,碰壁了!
半导体行业观察· 2025-06-12 08:41
NPU技术发展现状 - 当前NPU赛道发展迅猛,传统和新兴厂商均在布局,但主流方案仍采用传统核心+硬连线加速器的架构[1][2] - 行业普遍通过微调指令集和提供矩阵加速器来应对早期ML基准测试(如Resnet、Mobilenet),但仅能覆盖约20个图运算符[1] 传统IP厂商的技术困境 - 五年前CPU/DSP/GPU IP厂商为保持竞争力,选择附加外部矩阵加速器的短期方案,而非开发专用可编程NPU[4][5] - 该架构需对算法进行分区运行,在Transformer等新模型出现后暴露缺陷,加速器无法有效支持新算子(如自注意力机制)[4][5] - 厂商陷入创新者窘境:既需维护传统IP核价值,又需投入资源开发竞争性新架构,导致连续两代加速器设计重复相同缺陷[5] 技术路线对比 - 理想方案应为矩阵计算与通用计算深度集成的统一架构,而非物理分离的加速器模块[1] - 专用可编程NPU需支持2000+图形运算符,但开发周期长且技术风险高,传统厂商因既有利益束缚难以转型[4][5] 行业影响 - 客户被迫承担硅片重新流片的高成本,因加速器无法适应快速演进的AI算子需求[4] - Transformer模型的出现成为技术分水岭,原有架构性能骤降,倒逼IP厂商重新评估技术路线[4][5]
合成生物学三大支柱!中科院苏州医工所马富强团队最新进展
# SynBio团队 | 中科院苏州医工所马富强 在人工生命体精准编程的"黄金时代",合成生物学作为融合工程学、计算机科学与分子生物学的交叉学科, 正通过"设计-构建-测试"的循环模式重塑生物制造范式。这一领域不仅被列为全球科技竞争的战略高地,更在 医药研发、碳中和、农业升级等关乎国计民生的赛道上展现出颠覆性潜力。 其核心突破点聚焦 三大支柱 : 三大支柱技术如同精密咬合的齿轮,共同决定了细胞合成工厂的效率 。 【SynBioCon】 获 悉,近日, 苏州医工所马富强研究团队 围绕上述合成生物学三大支柱技术开展了系统工 作: 图2. 利用深度学习辅助生成新型启动子的两种方法 : 左 图 , 通过对现有启动子引入突变或随机生成新序列 来创建新的序列。这些新生成的序列通过启动子识别模型进行筛选,以验证其功能 ;右 图 , 使用扩散模型 或生成对抗网络(GANs)来生成新的启动子。扩散模型通过添加高斯噪声逐步生成启动子序列。GANs 由生 成器和判别器组成,生成器负责生成假样本,而判别器用于区分真实样本和生成的假样本。通过训练过程不 断优化生成器的性能,使其能够生成更逼真的启动子序列。 工作1 : 新型酶资源 的 ...
汽车大芯片,太难了
半导体芯闻· 2025-06-11 18:08
让各种功率器件、闪存、显示驱动器和电子控制单元达到汽车级质量水平(缺陷率低于百万分之 一,DPPM)是一项艰巨的任务。这需要测试设计和测试团队的大量创新。 proteanTecs业务发展高级总监 Nir Sever 表示:"最大的挑战是源于安全标准的质量要求,这意味 着要追求'零 DPPM' 。没有其他行业对如此复杂的设备规模化生产有如此高的质量要求。此外, 对更长使用寿命的要求远超其他商用设备,这要求更高的裕度,这再次对测试方法提出了挑战。" 除了零DPPM目标外,芯片制造商还面临着持续的压力,需要保持较低的测试成本,以确保足够的 毛利率。在制造领先节点的芯片、模块和系统时,质量/测试覆盖率与成本之间的微妙平衡变得越 来越难以把握。 如果您希望可以时常见面,欢迎标星收藏哦~ 来源:内容 编译自 semiengineering 。 汽车行业生产的汽车具有越来越高的实时决策水平,这得益于数千个集成电路、传感器和多芯片 封装,但确保这些系统在预期使用寿命内完美运行正是一项日益严峻的挑战。 传统上,汽车芯片的开发周期通常为五到七年,采用成熟的工艺节点,但过去五年发生了很大变 化。机械系统已被高级驾驶辅助系统 ( A ...
AI赋能,顶刊不愁:机器学习分析代谢组/蛋白组/宏基因/16S/网络药理学/转录组
生物世界· 2025-06-11 12:01
课程核心内容 - 零基础R语言编程从入门到实战 快速打造生信分析基本功 [1] - AI赋能+CNS文献精读 拆解多组学科研经典范式与创新思路 [1] - 全面覆盖代谢组 蛋白组 微生物组 转录组等热门方向 [1] - 集成xgboost lasso 随机森林等多种机器学习模型 打造智能化分析能力 [3] - 每节课精选CNS文章源代码 手把手复现高水平研究 [3] - 独家一对一指导+包教包会教学模式 [3] - 直播授课+课后录屏 搭配完整资料包 [3] - 课后持续答疑服务 课程结束答疑不结束 [3] 课程模块设计 AI+多组学论文解读 - Deepseek高效阅读多组学CNS生信文章 [2] - AI整理代谢组 蛋白组 宏基因组数据分析流程 [2] - 从文献中快速总结多组学数据分析方法 [2] - 评价文章思路创新性和数据分析可行性 [2] 多组学课题设计 - Deepseek辅助代谢组 蛋白组 宏基因组联合分析策略 [2] - AI指导多组学交叉验证思路 [2] - 汇总生信论文模板设计要点 [2] - 构建公共数据库联合验证策略 [2] 编程基础 - R和Rstudio安装与环境配置 [2] - R语言语法及常见命令 [2] - 以Cell/Nature文章学习R包安装与使用 [2] - 向量 矩阵 数据框和列表的创建与索引 [2] - 自定义Function函数构建 [2] - 云服务器使用方法 [2] 机器学习组学分析 代谢组学 - 三大代谢物库:HMDB METLIN KEGG [4] - 无监督式机器学习应用 [4] - 三种回归分析:线性 Logistic Cox [4] - PLS-DA算法:决策树 随机森林 贝叶斯网络 [4] - Nature子刊源代码复现 [4] 蛋白组学 - 无监督聚一致性聚类 [4] - PPI蛋白互作网络构建 [4] - 通路富集网络构建 [4] - WGCNA加权基因共表达网络 [4] - Nature Medicine源代码复现 [4] 宏基因组 - 物种相关性网络分析 [6] - Alpha/Beta多样性分析 [6] - 随机森林筛选群落Biomarker [6] - Science文章源代码复现 [6] 转录组 - 随机效应模型差异基因meta分析 [12] - 转录因子富集构建调控网络 [12] - GSEA GSVA富集分析 [12] - CIBERSORT免疫浸润 [12] - CELL主刊源代码复现 [12] 多组学联合分析 - 主成分分析代谢组学和蛋白组学变量差异 [14] - 共表达网络和调控网络探索多组学数据 [14] - 多组学3D数据可视化 [14] - Metscape使用 [14] - 多组学联合分析三维多层网络 [14] - Nature Aging源代码复现 [14] 教学团队 - 主讲老师华哥 中山大学博士 东京大学医学人工智能研究员 [16] - 深耕单细胞多组学与机器学习6年 培养学员3万余人 [16] - 指导学员发表CNS主刊8篇 一区及子刊90余篇 [16] - 参与国自然重点 国家重大专项等项目申报 [16] - 发表SCI论文21篇 包括PNAS Cell Rep Med等顶刊 [16] 教学成果 - 学员发表Cell Nature Science主刊10篇 子刊及一区90余篇 [20] - 深入剖析20多篇CNS文章分析思路和方法 [22] - 中国抗癌协会肿瘤标志物学术大会开设培训专场 [23] - 广东省生信学会年会设立培训专场 [26] - 广东省中医院举办生物信息学理论培训班 [29] 课程服务 - 配备往期视频预习 免费再学机会 [32] - 课后一对一指导服务 解决所有问题 [33] - 指导无时间限制 课程结束答疑不结束 [33] - 六年前老学员仍保持联系 [33] 课程安排 - 线上线下结合 腾讯会议直播 广州线下举办 [34] - 每批只招30人 保证培训质量 [34] - 主办单位:华哥生信科研平台 [34] - 承办单位:广州百奥信息科技 广州华哥信息科技 [34]
SPS Commerce (SPSC) FY Conference Transcript
2025-06-11 04:40
纪要涉及的公司 SPS Commerce (SPSC) 核心观点和论据 1. **公司业务模式** - **业务内容**:运营云网络连接零售商与供应商,实现供应链信息交换,主要涉及订单流程 [4] - **价值主张**:为零售商提供数字交互方式,使其了解库存和供应商交付时间;为供应商简化与零售商的交互,无需单独管理与各零售商的关系 [4][5] 2. **网络扩张与客户获取** - **社区驱动模式**:与零售商合作,获取其供应商名单,进行推广,为零售商带来效率提升,为公司提供潜在客户 [6][7] - **客户增长驱动因素**:新客户获取和现有客户平均收入增加,取决于与不同零售商合作的社区项目类型。与新零售商合作易带来新客户,与老零售商合作则更多提升现有客户收入 [11][12] 3. **市场规模与客户细分** - **TAM更新**:将TAM更新为110亿美元,基于潜在供应商数量和平均客户收入计算,全球潜在客户约27.5万,美国占14.7万 [14][15] - **客户细分**:产品适用于不同规模客户,美国市场65亿美元机会中,小、中、大型供应商数量和平均收入不同,小型数量多但平均收入低,大型平均收入高 [18][19][20] 4. **定价模式** - **核心EDI定价**:基于网络连接数量收取固定费用,占客户支付的80%,另有基于文档交换的小部分可变费用,收入模式可预测 [21][22][23] 5. **研发投入** - **投入方向**:主要用于增强现有产品、投资内部工具技术和构建规则手册,可利用AI提升效率,目前AI投资侧重内部 [24][25][27] 6. **新产品开发** - **制造供应链套件**:针对制造商和共包装商,解决供应链上游问题,提供交叉销售机会,技术实现成本低,但销售和实施需投入精力 [28][29][30] - **收入恢复软件**:收购两家公司整合而成,帮助供应商处理零售商扣款问题,可获取新客户并向现有客户交叉销售,目标客户为与零售商GMV至少200万美元的供应商 [33][34][36] 7. **财务指标** - **毛利率提升**:过去几年投资客户体验,成本与收入增长相当甚至更高,未来投资速度放缓,毛利率将逐步提高 [43][44][45] - **长期目标**:调整后EBITDA利润率目标至少35%,目前为20%多,主要通过提升毛利率实现,目标毛利率为70% - 75% [47][48] - **收入增长**:通过社区营销、渠道销售、交叉销售和收购实现,各方式贡献因年份而异 [49][50] 8. **国际增长** - **现状与战略**:过去国际业务依赖美国零售商社区项目,两年前收购公司在欧洲建立业务,正转型直接销售和服务客户,启动欧洲社区营销 [51][52] 9. **收购策略** - **历史收购**:过去十年进行网络扩张和技术互补收购,整合竞争对手客户,提升ERP集成能力 [67][68][70] - **未来方向**:继续寻找网络扩张机会,但数量可能减少;关注如收入恢复软件等有强ROI和可向现有客户交叉销售的软件类别 [69][71] 10. **数据 monetization**:基于网络交易数据,可提供需求规划和预测等洞察,未来有更多 monetization 机会 [73] 其他重要但可能被忽略的内容 1. **收入恢复软件定价**:收购的两家公司定价和服务模式不同,正在整合为通用模式,客户可选择平台订阅或白手套服务(按回收收入比例收费) [35][40][42] 2. **客户ARPU提升机会**:各客户细分市场中80%客户低于平均水平,主要因客户与零售商连接未完全整合到公司网络,机会在于提高渗透率 [63][64][66]
Revvity (RVTY) FY Conference Transcript
2025-06-10 21:00
纪要涉及的公司 Revvity(RVTY),前身是PerkinElmer 纪要提到的核心观点和论据 1. **公司业务转型成果显著** - 核心观点:公司从PerkinElmer转型为Revvity后,业务组合和产品结构发生巨大变化,增长和盈利算法显著改善 [7] - 论据:70%的现有产品组合和收入在约七年前并不存在;如今超80%的收入来自经常性业务,此前为55%;LRP预计在6 - 8%,高于市场200个基点,此前为3 - 5%;目前运营利润率达28%,此前为18 - 20%;60%的收入来自诊断和软件业务,已处于LRP范围内 [7][8] 2. **有机增长指引合理** - 核心观点:公司对今年3% - 5%的有机增长指引有信心,误差范围可控 [10][12] - 论据:60%的诊断和软件业务表现稳定,差异主要在生命科学和诊断方面,公司在制定指引时已考虑市场不确定性和动态性 3. **各业务板块具备应对挑战的能力** - **生命科学板块** - 核心观点:产品组合具有差异化,能在当前环境中抵御挑战 [14][15] - 论据:创新不能停止,临床前发现业务的耗材产品具有粘性;公司每年推出近2000种新耗材,以满足研究人员需求 - **仪器业务** - 核心观点:资本支出压力缓解后,业务有一定运营杠杆和适度的利润率提升空间 [19][21] - 论据:生命科学业务的仪器、软件和耗材三部分中,耗材利润率在30%以上,软件居中,仪器较低,但整体仍为高利润率业务,且仪器产品具有差异化 - **试剂耗材业务** - 核心观点:试剂产品组合具有开放性和粘性,能推动长期稳定增长 [22][24] - 论据:试剂产品用于长期项目,如GLP - 1项目;过去三到四个季度,即使在市场低迷环境下,业务表现依然良好 - **软件业务** - 核心观点:软件业务独特,能驱动客户粘性,已成为公司重要收入来源 [26][28] - 论据:软件业务独立于仪器,是研究人员的ERP系统;48家全球前50的制药公司使用该软件;软件业务占公司收入的8% - 9% - **诊断业务** - **免疫诊断业务** - 核心观点:美国市场有较大增长空间,是公司重要增长机会 [30][31] - 论据:免疫诊断业务在美国市场的占比为15% - 20%,历史上应达35% - 40% - **生殖健康业务** - 核心观点:在中国市场可通过菜单扩展实现增长,全球市场可向罕见病检测领域拓展 [38][39] - 论据:中国部分省份可检测的疾病种类有限;公司在罕见病检测方面有良好转型,如与Genomics England合作 4. **不同地区业务发展策略与挑战应对** - **中国市场** - 核心观点:凭借差异化产品组合应对竞争,维持业务增长和盈利 [36] - 论据:公司提供具有知识产权的复杂疾病检测试剂,如针对肾病和神经自身免疫疾病的检测 - **学术和政府市场** - 核心观点:通过创新产品应对需求下降挑战,维持业务曝光度 [47] - 论据:公司专注于提供提高效率和自动化的仪器产品,如在体内成像中应用机器学习技术 5. **财务状况与前景** - **运营利润率** - 核心观点:在正常市场环境下,公司运营利润率有望达到30%以上 [54] - 论据:目前运营利润率虽因关税等因素有小幅下降,但仍处于同行前列,且公司业务组合有提升利润率的潜力 - **资本配置** - 核心观点:当前优先考虑股票回购,同时关注有协同效应的并购机会 [64][66] - 论据:公司对现有业务组合满意,认为当前市场环境下股票回购是有吸引力的投资机会;过去七年已投入70 - 80亿美元进行并购,目前仍有活跃的并购管道 其他重要但是可能被忽略的内容 1. 公司在第一季度电话会议中提到,若关税缩减,仍会继续灵活制造计划,且可能不更新利润率指引 [53] 2. 公司在过去22个月内进行了13次收购,部分收购如BioLegend、Horizon、EUROIMMUN取得了成功,但也有个别收购如结核病业务面临挑战 [59][61][62] 3. 公司在第四季度、第一季度和第二季度分别进行了1.5亿美元的股票回购 [65]
掌控我们生活的算法
搜狐财经· 2025-06-10 10:36
什么是算法? 今天,"算法"这个词已为越来越多的人所熟知。从微信上传递文件和图片,到百度、谷歌等搜索引擎上 的网页排名,再到收发电子邮件,我们几乎没有一天不与算法打交道。 脸书很少公开谈论其算法的具体运作方式。事实上,在单个用户的层面上,它自己也不知道是怎么运作 的。算法产生的结果对每个用户来说都是独一无二的,就像他们的指纹一样。 那么,什么是算法呢? 如果你去问计算机科学家,他们会告诉你:算法就是用计算机语言编写的一串指令,它接受输入,对输 入的信息执行一些可重复的运算,然后提供输出。 一个简单的例子是冒泡排序算法(或许你在学计算机语言的时候,自己就编过这样的程序),你向它输入 一串数字,让它按从小到大的顺序重新排列。它首先比较前两个数字。如果前一个大于后一个,就将它 们对调。否则,就换到下一对。它会一次又一次地循环,直到不需要任何交换为止,这时它就会输出一 个排好序的数字列表。如果你在网上购物时按价格从低到高筛选产品,那么冒泡排序算法就会在幕后启 动。 不过,"算法"一词的流行用法正在发生变化:它越来越多地被用来描述计算机所完成的几乎任何事情。 这也包括人工智能(AI)和机器学习领域,在这些领域,算法的步 ...
中国全球海洋融合数据集面向国际公开发布
快讯· 2025-06-10 07:05
中国全球海洋融合数据集1.0发布 - 中国国家海洋信息中心在第三届联合国海洋大会期间发布中国全球海洋融合数据集1.0(CGOF1.0) [1] - 数据集整合了国内外40多种数据来源并融入中国自主海洋观测数据 [1] - 数据时间跨度长达60年且空间分辨率达到10公里 [1] - 采用深度学习、迁移学习、机器学习等先进AI技术提升数据精度 [1] - 数据精度较国外主流数据集有所提升 [1] 技术应用 - 数据集开发运用了AI智能技术包括深度学习、迁移学习和机器学习 [1] - 技术应用显著提升了海洋数据的处理能力和精度水平 [1] 国际合作 - 数据集发布活动由中国在联合国海洋大会期间主办 [1] - 发布活动由中国和法国、哥斯达黎加共同参与的联合国框架下进行 [1]
机器学习与因子模型双核驱动 法兴银行:量化投资王者归来
智通财经· 2025-06-09 14:39
量化股票投资复苏 - 量化股票投资在2025年表现突出 传统多空因子模型和机器学习策略均呈现复苏态势 [1][2] - 法国兴业银行全球自下而上股票因子策略2025年上涨超过9% 成功抵御4月市场波动 [2] - 自上而下因子指数实现稳健增长 价值型和动量型策略(尤其美国以外地区)引领涨势 [2] 地区与策略差异 - 欧洲价值策略在相对和绝对回报方面表现最佳 但估值差距已显著缩小 [3] - 机器学习模型表现强劲 新推出的每周均值回归策略回报率达4.1% 超越基础反转模型 [3] - 机器学习模型自2017年部署以来持续表现出色 在美国市场尤为突出 [3] 投资主题表现 - 防御性股票收益策略表现优异 优质收益指数专注于高派息率公司(公用事业/电信/能源) [4] - 美国小型股价值(除垃圾股)策略超越基准指数 在廉价信贷消失背景下受重视 [4] - "强弱资产负债表"交易保持正增长 紧密跟随信贷利差走势且避免传统对冲成本 [4] 下半年展望 - 欧洲价值策略引领量化投资回归 但下半年展望趋于谨慎 因估值利差接近历史正常水平 [5] - 更倾向采用稳定策略 如优质收益策略和小型股价值(除垃圾股)策略 [5] - 欧洲价值股轻松收益阶段可能结束 因地缘政治不确定性和盈利风险增加 [5] 行业整体表现 - 2025年量化投资实现实质性回归 不仅是简单贝塔效应驱动 [6] - 从机器学习逆转策略到严谨因子分析 系统性投资者迎来胜利之年 [6] - 结构化股票选择在当前复杂政策环境下取得显著成效 [6]