聚类分析

浏览

研究变量群分类的统计技术。又称 R型聚类分析。社会研究中,一个概念往往要通过一组指标(或变量)来测量。例如,研究婚姻中的择偶标准问题,往往通过一系列的问题或变量,如年龄、文化、专业、爱好、性情、身高、人品、气质、家庭背景等等,来研究人们择偶中的价值观。这些变量不是互不相关的,有些甚至高度相关。因此,可通过聚类分析把众多变量聚合为若干类。聚类分析适合于各种层次的变量。根据聚类的准则不同,聚类分析可分作距离法和相关系数法。

距离法

通过变量间的距离来度量聚类中的相似性。距离愈短,相似性愈佳,愈可合并为一类。在距离法中,变量被看作x 维空间的一个点,常用的欧氏距离是:

公式 符号

式中dij为变量xi和变量xj的距离;xik为第k个个案在变量xi上的观测值;xjk为第k个个案在变量xj上的观测值;x为个案数。

根据计算的距离dij,常采用谱系聚类法把变量间关系理顺成谱。它的基本思想是先把 P个变量各自看作一类,然后选择距离最小的合并为一新类;再计算新类和其他类的距离;再将距离最近的合并为新的一类,这样每次减少一类,直至所有变量成为一类为止。(见图)

图 相关系数法

通过变量间的相关系数来度量聚类中的相似性。相关系数不限于定距变量的积矩相关系数 r。如果是定类变量,可采用λ系数或τ系数。根据相关系数作谱系聚类时,与距离法不同,它首先将相关系数最大的合并为一类,然后再逐步合并,直至所有变量成为一类的谱系图。

根据谱系聚类的结果,应划分为n类(或n组),一般用归类系数B来判断:

公式 符号

B应大于 1。也有的社会学家推荐B≥1.30作为分组的准则。

如果研究个案群的聚类,则称Q型聚类分析。这时只须把调查的x个个案,当作x个变量,分析方法与R型聚类分析完全相同。

参考书目
  1. 张尧庭、方开泰:《多元统计分析引论》,科学出版社,北京,1980。