非参数统计

数理统计学的一个分支。如果在一个统计问题中,其总体分布不能用有限个实参数来刻画,只能对它作一些诸如分布连续、有密度、具有某阶矩等一般性的假定,则称之为非参数统计问题。例如,检验“两个总体有相同分布”这个假设,若假定两总体的分布分别为正态分布N(μ1σ2)和N(μ2σ2),则问题只涉及三个实参数μ1μ2σ2,这是参数统计问题。若只假定两总体的分布为连续,此外一无所知,问题涉及的分布不能用有限个实参数刻画,则这是非参数统计问题。又如,估计总体分布的期望μ,若假定总体分布为正态 N(μσ2),则问题是参数性的;若只假定总体分布的期望值存在,则问题是非参数性的。不过参数统计与非参数统计之间并没有泾渭分明的界线。有的统计问题,从不同的角度,可以理解为参数性的,也可以理解为非参数性的。例如线性回归(见回归分析)问题,若关心的是估计回归系数,它只是有限个实参数,因而可以看成是参数性的。但是,如果对随机误差的分布类型没有作任何假定,则从问题的总体分布这个角度看,也可以看成是非参数性的。

重要的非参数统计方法

秩方法是基于秩统计量(见统计量)的一类重要的非参数统计方法。设有样本X1X2,…,Xn,把它们由小到大排列,若Xi在这个次序中占第Ri个位置(最小的占第1个位置), 则称Xi的秩为Ri(i=1,2,…,n)。1945年F.威尔科克森提出的"两样本秩和检验"是一个有代表性的例子。设X1X2,…,XmY1Y2,…,Yn分别是从分布为 F(x)和 F(x-θ)的总体中抽出的样本,F连续但未知,θ也未知,检验假设 H:θ=0,备择假设为θ>0(见假设检验)。记Yi在混合样本(X1X2,…,XmY1Y2,…,Yn)中的秩为Ri,且为诸秩的和,当W >C时,否定假设H,这里C决定于检验的水平。这是一个性能良好的检验。秩方法的一个早期结果是C.斯皮尔曼于1904年提出的秩相关系数。设(X1Y1),(X2Y2),…,(XnYn)是从二维总体(XY)中抽出的样本,RiXi在(X1X2,…,Xn)中的秩,QiYi在(Y1Y2,…,Yn)中的秩,定义秩相关系数为(RiQi)(i=1,2,…n)的通常的相关系数(见相关分析)。它可以作为XY之间相关程度的度量,也可用于检验关于XY独立性的假设。

次序统计量和U 统计量在非参数统计中也有重要应用。前者可用于估计总体分布的分位数(见概率分布)、检验两总体有相同的分布及构造连续总体分布的容忍限和容忍区间(见区间估计)等。后者主要用于构造总体分布的数字特征的一致最小方差无偏估计(见点估计)及基于这种估计的假设检验。

苏联数学家Α.Η.柯尔莫哥洛夫和Β.И.斯米尔诺夫在20世纪30年代的工作开辟了非参数统计的一个方面,他们的方法基于样本X1X2,…,Xn的经验分布函数Fn(x)(见样本)。柯尔莫哥洛夫考察 Fn(x)与理论分布F(x)的最大偏差墹n,当墹n超过一定限度时,否定这个理论分布F(x)。这就是柯尔莫哥洛夫检验。斯米尔诺夫则考察由两个分布为F(x)和g(x)的总体中抽出的样本X1X2,…,XmY1Y2,…,Yn计算其经验分布Fm(x)和gn(x)的最大偏差墹mn,当墹mn超过一定限度时,否定“Fg相等”这个假设。这就是斯米尔诺夫检验。

在非参数性估计方面,有关于估计分布的对称中心、概率密度函数和回归函数等比较重要的成果。

非参数统计的特点

非参数统计问题中对总体分布的假定要求的条件很宽,因而针对这种问题而构造的非参数统计方法,不致因为对总体分布的假定不当而导致重大错误,所以它往往有较好的稳健性(见稳健统计),这是一个重要特点。但因为非参数统计方法需要照顾范围很广的分布,在某些情况下会导致其效率的降低。不过,近代理论证明了:一些重要的非参数统计方法,当与相应的参数方法比较时,即使在最有利于后者的情况下,效率上的损失也很小。

由于非参数统计中对分布假定要求的条件宽,因而大样本理论(见大样本统计)占据了主导地位。第二次世界大战前,非参数统计的大样本理论已有了一些结果,从20世纪50年代直到现代,更有了显著的进展,尤其是关于秩统计量与U 统计量的大样本理论,及基于这种理论的大样本非参数方法,研究成果很多。

参考书目
  1. H.A.David,Order Statistics,2nd ed., John Wiley & Sons, New York, 1980.
  2. E.L.Lehmann,Nonparametrics:Statistical Method based on rank, Holden-Day, San Francisco, 1975.

参考文章