截断 Stata软件对截断和删失数据处理方法介绍

本文由中国科学软件网翻译整理
截断和删除是完全不同的现象,会导致样本不完整。这些现象出现在医学、工程、社会科学等研究领域。如果忽略截断和删除,当我们分析数据时,我们对总体参数的估计将是不一致的。
在处理样本的过程中会出现截断和删除,那么我们先来定义左截断和左删除:
当样本中不存在低于阈值的个体时,我们的数据属于左截断。例如,我们想研究一些鱼的大小。以渔网为样本,鱼比渔网小,所以在我们的样本中不存在。
我们的数据从k中删除,如果样本中存在每个单独的值,并且低于k,但是实际值未知。例如,当我们有一个测量仪器不能检测到低于某个水平的值时,就会发生这种情况。
我们主要讨论左截断和左擦除,但是我们讨论的概念可以应用到所有的截断和擦除:右截断、右擦除和区间。
在估计截断或删除的数据时,我们需要使用一些工具来解释这些不完整的数据。对于截断线性回归,我们可以使用truncreg命令;对于删失线性回归,我们可以使用intreg和tobit命令。
在本文中,我们将分析截断数据和删除数据的特点,并讨论使用truncreg命令和tobit命令来解释不完整的数据。
【截断 Stata软件对截断和删失数据处理方法介绍】截断数据
案例:皇家海军陆战队
Fogel等人(1978)公布了皇家海军陆战队人员的身高数据集,可以延长到两个世纪。可以用来确定英国男性不同时期的平均身高。Trussell和Bloom (1979)指出,由于新兵最小身高的限制,样本被切掉了。数据被截断(未删除),因为样本中没有出现身高低于最低限制的个体。考虑到这一事实,他们拟合了1800年至1809年皇家海军陆战队高度的截断分布。
由于Trussell和Bloom提到的问题,我们使用了人工数据集。我们假设总体数据服从正态分布μ=65和σ=3.5,并且它们都被左截断到64。
我们使用直方图来总结我们的数据:

我们可以将样本直方图与忽略截断后的正态分布进行比较,并将这些值视为总体均值和标准差的估计。


平均值和标准偏差估计分别为1.68和2.4,而实际参数为ln(5) =1.61和2.5。
托比特账户审计
我们估计均值和标准差分布,用ll期权的tobit考虑左删失值(如果审计限值随观测值变化,可以用intreg代替)。

潜在未审计分布的估计平均值为1.62,标准偏差为2.49。我们将未经审计的分布叠加到直方图中:

截断 Stata软件对截断和删失数据处理方法介绍


文章图片

潜在的未经审计的分布与直方图的一部分相匹配,并且左尾部补偿审查点的峰值。
总结
在采样数据中,删除和截断是两种不同的现象。截断高斯抽样中的潜在总体参数可以用truncreg估计。截尾高斯样本中的潜在总体参数应该用intreg或tobit估计。
标签
我们讨论了删除和截断的概念,并用例子说明了这两个概念的含义。与本次讨论相关的要点如下:
这个讨论是基于高斯模型,但主要概念可以扩展到任意分布。上述例子适合没有协变量的回归模型,因此我们可以更好地可视化截尾和截断分布的形状。但这些概念很容易推广到协变量的回归框架,具体观测值的期望值是协变函数。
我们已经讨论了使用truncreg和tobit来处理删除和截断的数据。但是,这些命令也可以应用于未删除和未截断的数据,只要这些数据是特定分布的总体样本。

    推荐阅读