报告行业投资评级 未提及相关内容 报告的核心观点 - 单元情境模型在小区域贫困估计中存在偏差,主要源于无法充分捕捉区域层面的全部福利变异性,虽可能实现对均值转换福利的无偏估计,但无法复制区域内真实福利分布,导致贫困和福利估计出现偏差 [47] - 单元上下文模型解释力有限,仅依赖区域层面协变量,忽略家庭层面变异,增加协变量可能过拟合并导致进一步偏差 [48] - 单元情境模型在国家层面可匹配福利总体经验变异,但在区域层面失效,导致部分区域福利高估或低估,贫困估计出现系统性偏差 [49][51] - 贫困估计偏差程度与模型模拟的福利总体经验变异和地区真实福利变异的匹配程度直接相关,匹配度接近1的地区偏差轻微,不匹配地区偏差更大 [51] 根据相关目录分别进行总结 1 引言 - 家庭调查在衡量人口生活水平时缺乏代表性且有遗漏风险,小区域估计技术可提升估计精度,基于模型的方法利用“借用力量”概念,包括单元级模型和区域级模型 [7] - 单元级模型在调查和普查数据年份不同时存在局限,区域级模型是可行替代,单元 - 情境模型先预测福利分布再确定贫困比例,但会导致有偏估计 [8] - 单元 - 情境模型偏差与Würz等人提及的转换偏差相关,与该模型解释能力不足有关,模拟表明预测福利方差与区域真实福利方差一致的区域偏差最小 [10][11] 2 小区域估计 - 小区估计算法依赖假设模型,嵌套误差模型最初用于作物种植面积估算,在贫困与福利估算中,假设福利与特征向量呈线性关系 [13] - 模型误差服从正态分布,通过拟合观测样本数据得到参数估计量向量,进而计算经验最佳区域效应和区域效应方差 [16] - 利用模型估计参数计算家庭福利值,区域层面贫困估计偏差取决于真实方差和模拟方差的差异,单元 - 情境模型解释力低,无法正确近似区域层面经验标准差,导致模拟福利差异与真实总体不匹配 [18][22] 3 模拟数据 - 模拟数据样本量为500,000,分配在100个区域,每个区域有20个集群,每个集群250个观测值,采用简单随机样本,样本保持固定 [27] - 生成人口数据的模型包含聚类效应、区域效应和家庭特定残差,协变量由随机变量生成,单元上下文模型使用PSU级均值作为协变量 [27] - 采用包含99个贫困标准的网格,生成1,000个人口,计算每个区域的真实贫困指标、人口普查EB估计值和单位 - 上下文普查EB估计量,平均差异代表经验偏差 [29] 4 结果 - 单元上下文模型偏差存在于所有线条中,但在某些区域和百分位数上较低,解释变量真实变异范围为0.374 - 0.861,单元上下文模型范围小,平均来看因变量总经验变异与单元上下文模型匹配 [36][37][38] - 单元上下文模型存在偏差,因为假设福利不依赖单元层面特征导致模型拟合不良,绝对偏差随模型解释方差与真实方差比值接近1而减少,福利绝对偏差也有类似规律 [40][42][43] 5 结论 - 单元情境模型在小区域贫困估计中偏差源于无法捕捉区域福利变异性,虽可实现均值转换福利无偏估计,但无法复制真实福利分布 [47] - 模拟结果表明单元上下文模型解释力有限,在区域层面无法匹配福利变异,导致贫困估计偏差,偏差程度与福利变异匹配程度相关 [48][51] - 单元 - 情境模型有实际优势,但使用时应考虑其局限性,区域级模型优于单元 - 情境模型,未来可探索改进方法和开发诊断工具 [51][52]
当聚合出现误导时
世界银行·2025-05-02 07:10