数据集概述 - 资料名称为“2024-2011年上市公司企业渐进式创新数据、渐进式创新锁定数据”,旨在量化中国上市公司的渐进式创新程度 [1] - 数据覆盖2011年至2024年,包含超过6万个样本,涉及5300多家企业 [1] - 数据集提供原始数据、计算代码及最终计算结果,可供验证 [1] 核心测算方法 - 渐进式创新的核心特征是当前创新活动与往期创新在内容上具有连续性,采用当期与往期专利的内容重叠度作为衡量指标 [1] - 测算基于海量专利摘要,通过文本分析计算专利间的内容相似度,以反映企业在“双元创新”中更倾向于渐进式创新的程度 [1] - 摒弃了依赖关键词频率的传统方法,采用基于机器学习和深度学习的文本挖掘技术,通过嵌入模型将非结构化专利文本转换为数值向量,以提升测度准确性 [1] - 具体方法分为三步:首先对专利摘要进行文本向量化,采用TF-IDF加权生成专利文本特征向量;其次,计算每项专利与本公司近三年内其他专利的余弦相似度;最后,在企业层面加总平均相似度,得出企业渐进式创新程度指标 [1][2] 数据指标与示例 - 最终指标为企业层面的“渐进式创新程度”,计算公式为IC_it = (1/N) * Σ Sim(P_s, P_k),其中Sim为专利间的余弦相似度 [2] - 数据以“股票代码-年份-渐进式创新程度”的格式呈现,例如股票代码000001在2024年的渐进式创新程度为0.0499,000016在2022年(原文显示为202:,推测为2022年)的值为1.0185 [3] - 指标值范围从0到超过1,数值越高代表企业越倾向于在现有技术轨道上进行渐进式创新 [3] 学术依据 - 测算方法主要参考孙雅慧等人于2024年发表在《经济研究》的论文《研发补贴与渐进式创新锁定:基于机器学习的专利文本分析》 [1] - 方法也借鉴了刘青和肖柏高(2023)、Arts et al.(2021)、Hain et al.(2022)以及陈强远等(2022)的研究 [1]
2024-2011年上市公司企业渐进式创新数据、渐进式创新锁定数据
搜狐财经·2026-01-04 11:16