多元统计分析

浏览

简称多元分析。当总体的分布是多维(多元)概率分布时,处理该总体的数理统计理论和方法。数理统计学中的一个重要的分支学科。

早在19世纪就出现了处理二维正态总体(见正态分布)的一些方法,但系统地处理多维概率分布总体的统计分析问题,则开始于20世纪。人们常把1928年维夏特分布的导出作为多元分析成为一个独立学科的标志。20世纪30年代,R.A.费希尔、H.霍特林、许宝以及S.N.罗伊等人作出了一系列奠基性的工作,使多元统计分析在理论上得到了迅速的进展。40年代,多元分析在心理、教育、生物等方面获得了一些应用。由于应用时常需要大量的计算,加上第二次世界大战的影响,使其发展停滞了相当长的时间。50年代中期,随着电子计算机的发展和普及,它在地质、气象、标准化、生物、图像处理、经济分析等许多领域得到了广泛的应用,也促进了理论的发展。

多元分析发展的初期,主要讨论如何把一元正态总体的统计理论和方法推广到多元正态总体。多元正态总体的分布由两组参数,即均值向量μ(见数学期望)和协方差矩阵(简称协差阵) (见矩)所决定,记为Np(μ)(p为分布的维数,故又称p维正态分布或p 维正态总体)。设X1X2,…,Xn为来自正态总体Np(μ)的样本,则μ的无偏估计(见点估计)分别是

分别称之为样本均值向量和样本协差阵,它们是在各种多元分析问题中常用的统计量。样本相关阵R 也是一个重要的统计量,它的元素为 其中υij为样本协差阵S的元素。S的分布是维夏特分布,它是一元统计中的ⅹ2分布的推广。

另一典型问题是:假定两个多维正态分布协差阵相同,检验其均值向量是否相同。设样本X1X2,…,Xn抽自正态总体Npμ1),而Y1Y2,…,Ym抽自Npμ2),要检验假设H 0:μ1=μ2(见假设检验)。在一元统计中使用t统计量(见统计量)作检验;在多元分析中则用T2统计量,,其中·T2的分布称为T2分布。这是H.霍特林在1936年提出来的。

在上述问题中的多元与一元相应的统计量是类似的,但并非都是如此。例如,要检验k个正态总体的均值是否相等,在一元统计中是导致F统计量,但在多元分析中可导出许多统计量,最著名的有威尔克斯Λ统计量和最大相对特征根统计量。研究这些统计量的精确分布和优良性是近几十年来多元统计分析的重要理论课题。

多元统计分析有狭义与广义之分,当假定总体分布是多元正态分布时,称为狭义的,否则称为广义的。近年来,狭义多元分析的许多内容已被推广到更广的分布之中,特别是推广到一种称为椭球等高分布族之中。

按多元分析所处理的实际问题的性质分类,重要的有如下几种。

多重回归分析

简称回归分析。其特点是同时处理多个因变量。回归系数和常数的计算公式与通常的情况相仿,只是由于因变量不止一个,原来的每个回归系数在此都成为一个向量。因此,关于回归系数的检验要用T2统计量;对回归方程的显著性检验要用Λ统计量。

回归分析在地质勘探的应用中发展了一种特殊的形式,称为趋势面分析,它以各种元素的含量作为因变量,把它们对地理坐标进行回归(选用一次、二次或高次的多项式),回归方程称为趋势面,反映了含量的趋势。残差分析是趋势面分析的重点,找出正的残差异常大的点,在这些点附近,元素的含量特别高,这就有可能形成可采的矿位。这一方法在其他领域也有应用。

判别分析

k个不同总体的样本来构造判别函数,利用它来决定新的未知类别的样品属于哪一类,这是判别分析所处理的问题。它在医疗诊断、天气预报图像识别等方面有广泛的应用。例如,为了判断某人是否有心脏病,从健康的人和有心脏病的人这两个总体中分别抽取样本,对每人各测两个指标X1X2,点绘如图

图

。可用直线A将平面分成g1g2两部分,落在g1的绝大部分为健康者,落在g2的绝大部分为心脏病人,利用A的垂线方向来建立判别函数,可以求得一常数с,使 y<с 等价于(X1X2)落在g1y>с等价于(X1X2)落在g2。由此得判别规则:若,判,即此人为健康者;若,判,即此人为心脏病人;若,则为待判。此例的判别函数是线性函数,它简单方便,在实际问题中经常使用。但有时也用非线性判别函数,特别是二次判别函数。建立判别函数和判别规则有不少准则和方法,常用的有贝叶斯准则、费希尔准则、距离判别、回归方法和非参数方法等。

无论用哪一种准则或方法所建立的判别函数和判别规则,都可能产生错判,错判所占的比率用错判概率来度量。当总体间区别明显时,错判概率较小;否则错判概率较大。判别函数的选择直接影响到错判概率,故错判概率可用来比较不同方法的优劣。

变量(如上例中的X1X2)选择的好坏是使用判别分析的最重要的问题,常用逐步判别的方法来筛选出一些确有判别作用的变量。利用序贯分析的思想又产生了序贯判别分析。例如医生在诊断时,先确定是否有病,然后确定是哪个系统有病,再确定是什么性质的病等等。

聚类分析

又称数值分类。聚类分析和判别分析的区别在于,判别分析是已知有多少类和样本来自哪一类,需要判别新抽取的样本是来自哪一类;而聚类分析则既不知有几类,也不知样本中每一个来自哪一类。例如,为了制定服装标准,对 N个成年人,测量每人的身高(x1)、胸围(x2)、肩宽(x3)、上体长(x4)、手臂长(x5)、前胸(x6)、后背(x7)、腰围(x8)、臀围(x9)、下体长(x10)等部位,要将这N个人进行分类,每一类代表一个号型;为了使用和裁剪的方便,还要对这些变量(x1x2,…,x10)进行分类。聚类分析就是解决上述两种分类问题。

设已知N个观测值X1X2,…,Xn,每个观测值是一个p维向量(如上例中人的身高、胸围等)。聚类分析的思想是将每个观测值Xi看成p维空间的一个点,在p维空间中引入“距离”的概念,则可按各点间距离的远近将各点(观测值)归类。若要对 p个变量(即指标)进行分类,常定义一种“相似系数”来衡量变量之间的亲密程度,按各变量之间相似系数的大小可将变量进行分类。根据实际问题的需要和变量的类型,对距离和相似系数有不同的定义方法。

按距离或相似系数分类,有下列方法。

(1)凝聚法:它是先将每个观察值{Xi}看成一类,逐步归并,直至全部观测值并成一类为止,然后将上述并类过程画成一聚类图(或称谱系图),利用这个图可方便地得到分类。

(2)分解法:它是先将全部观测值看成一类,然后逐步将它们分解为2类、3类、…、N类,它是凝聚法的逆过程。

(3)动态聚类法:它是将观测值先粗糙地分类,然后按适当的目标函数和规定的程序逐步调整,直至不能再调为止。

若观察值X1X2,…,Xn之间的次序在分类时不允许打乱,则称为有序分类。例如在地质学中将地层进行分类,只能将互相邻接的地层分成一类,不能打乱上下的次序。用于这一类问题中的重要方法是费希尔于1958年提出的最优分割法。

聚类分析也能用于预报洪水、暴雨、地震等灾害性问题,其效果比其他统计方法好。但它在理论上还很薄弱,因为它不象其他方法那样有确切的数学模型

主成分分析

又称主分量分析,是将多个变量通过线性变换以选出较少个数重要变量的一种方法。设原来有p个变量x1x2,…,xp,为了简化问题,选一个新变量z,要求z尽可能多地反映p个变量的信息,以此来选择l1l2,…,lp,当l1l2,…,lp选定后,称zx1x2,…,xp的主成分(或主分量)。有时仅一个主成分不足以代表原来的p个变量,可用q(<p)个互不相关的呈上述形式的主成分来尽可能多地反映原p个变量的信息。用来决定诸系数的原则是,在的约束下,选择l1l2,…,lp使z的方差达到最大。

在根据样本进行主成分分析时又可分为R型分析与Q型分析。前者是用样本协差阵(或相关阵)的特征向量作为线性函数的系数来求主成分;后者是由样品之间的内积组成的内积阵来进行类似的处理,其目的是寻找出有代表性的“典型”样品,这种方法在地质结构的分析中常使用。

对应分析

这是70年代地质学家提出的方法。对非负值指标的样本资料矩阵作适当的处理后,同时进行R型与Q型的主成分分析,将结果综合在图上进行解释,可以得到指标随时间、空间位置变化的规律。它的理论正在引起多方面的重视。

因子分析

它是由样本的资料将一组变量 分解为一些公共因子f与特殊因子s的线性组合,即有常数矩阵A使уAfs。公共因子f 的客观内容有时是明确的,如在心理研究中,根据学生的测验成绩(指标)来分析他的反应快慢、理解深浅(公共因子);有时则是不明确的。为了寻求易于解释的公共因子,往往对因子轴进行旋转,旋转的方法有正交旋转,斜旋转,极大变差旋转等。

从样本协差阵或相关阵求公共因子的方法有广义最小二乘法、最大似然法与不加权的最小二乘法等。通常在应用中,最方便的是直接利用主成分分析所得的头几个主成分,它们往往是对各个指标影响都比较大的公共因子。

典型相关分析

它是寻求两组变量各自的线性函数中相关系数达到最大值的一对,这称为第一对典型变量,还可以求第二对,第三对,等等,这些成对的变量,彼此是不相关的。各对的相关系数称为典型相关系数。通过这些典型变量所代表的实际含意,可以找到这两组变量间的一些内在联系。典型相关分析虽然30年代已经出现,但至今未能广泛应用。

上述的各种方法可以看成广义多元分析的内容,在有些方法中,如加上正态性的假定,就可以讨论一些更深入的问题,例如线性模型中有关线性假设检验的问题,在正态的假定下,就有比较系统的结果。

多元分析也可按指标是离散的还是连续的来区分,离散值的多元分析实质上与列联表分析有很大部分是类似的,甚至是一样的。

非数量指标数量化的理论和方法也是广义多元分析的一个重要的研究课题。

参考书目
  1. 张尧庭、方开泰著:《多元统计分析引论》,科学出版社,北京,1982。
  2. T.W.Anderson,An Introduction to Multivariate Statistical Analysis,John Wiley & Sons, New York,1984.