截断 Stata软件对截断和删失数据处理方法介绍

本文由中国科学软件网翻译整理
截断和删除是完全不同的现象，会导致样本不完整。这些现象出现在医学、工程、社会科学等研究领域。如果忽略截断和删除，当我们分析数据时，我们对总体参数的估计将是不一致的。
在处理样本的过程中会出现截断和删除，那么我们先来定义左截断和左删除:
当样本中不存在低于阈值的个体时，我们的数据属于左截断。例如，我们想研究一些鱼的大小。以渔网为样本，鱼比渔网小，所以在我们的样本中不存在。
我们的数据从k中删除，如果样本中存在每个单独的值，并且低于k，但是实际值未知。例如，当我们有一个测量仪器不能检测到低于某个水平的值时，就会发生这种情况。
我们主要讨论左截断和左擦除，但是我们讨论的概念可以应用到所有的截断和擦除:右截断、右擦除和区间。
在估计截断或删除的数据时，我们需要使用一些工具来解释这些不完整的数据。对于截断线性回归，我们可以使用truncreg命令；对于删失线性回归，我们可以使用intreg和tobit命令。
在本文中，我们将分析截断数据和删除数据的特点，并讨论使用truncreg命令和tobit命令来解释不完整的数据。
【截断 Stata软件对截断和删失数据处理方法介绍】截断数据
案例:皇家海军陆战队
Fogel等人(1978)公布了皇家海军陆战队人员的身高数据集，可以延长到两个世纪。可以用来确定英国男性不同时期的平均身高。Trussell和Bloom (1979)指出，由于新兵最小身高的限制，样本被切掉了。数据被截断(未删除)，因为样本中没有出现身高低于最低限制的个体。考虑到这一事实，他们拟合了1800年至1809年皇家海军陆战队高度的截断分布。
由于Trussell和Bloom提到的问题，我们使用了人工数据集。我们假设总体数据服从正态分布μ=65和σ=3.5，并且它们都被左截断到64。
我们使用直方图来总结我们的数据:

我们可以将样本直方图与忽略截断后的正态分布进行比较，并将这些值视为总体均值和标准差的估计。

平均值和标准偏差估计分别为1.68和2.4，而实际参数为ln(5) =1.61和2.5。
托比特账户审计
我们估计均值和标准差分布，用ll期权的tobit考虑左删失值(如果审计限值随观测值变化，可以用intreg代替)。

潜在未审计分布的估计平均值为1.62，标准偏差为2.49。我们将未经审计的分布叠加到直方图中:

文章图片

潜在的未经审计的分布与直方图的一部分相匹配，并且左尾部补偿审查点的峰值。
总结
在采样数据中，删除和截断是两种不同的现象。截断高斯抽样中的潜在总体参数可以用truncreg估计。截尾高斯样本中的潜在总体参数应该用intreg或tobit估计。
标签
我们讨论了删除和截断的概念，并用例子说明了这两个概念的含义。与本次讨论相关的要点如下:
这个讨论是基于高斯模型，但主要概念可以扩展到任意分布。上述例子适合没有协变量的回归模型，因此我们可以更好地可视化截尾和截断分布的形状。但这些概念很容易推广到协变量的回归框架，具体观测值的期望值是协变函数。
我们已经讨论了使用truncreg和tobit来处理删除和截断的数据。但是，这些命令也可以应用于未删除和未截断的数据，只要这些数据是特定分布的总体样本。

截断 Stata软件对截断和删失数据处理方法介绍

推荐阅读

母亲节可以送玫瑰花吗

带手表有什么讲究

抖音指鹿为马什么梗

静安区公租房个人申请材料静安区公租房申请条件

涉外离婚的解决途径是怎样的

洋酒的种类有哪些

电视家怎么安装在电视上

多大宝宝可以喝酸奶

秦朝芈华是秦始皇的什么人大秦赋芈华是秦始皇的什么人

因为是第一次的演员

杭州的大学有哪些

小提琴什么时候学揉弦

ray佐木版是什么意思

泰剧粉色罪孽大结局

羌年是什么时候

2023石家庄低收入家庭保障房资格复核通告

揭秘无精症精液“真面目” 无精症最常见的病因

红糖发糕要二次发酵吗

输卵管通而不畅，如何才能好孕！

孕25周胎儿发育标准