数据分析

分析数据的技术和理论。

数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出。数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。在实用中,数据分析可帮助人们作判断,以便采取适当行动。例如J.开普勒通过分析行星角位置的观测数据,找出了行星运动规律。又如,一个企业的领导人要通过市场调查,分析所得数据以判定市场动向,从而制定合适的生产及销售计划。因此数据分析有着极广泛的应用范围。

数理统计学也是一门以收集和分析数据为内容的学科,它与数据分析不同之处在于数理统计学中所涉及的数据是受到随机性的影响,分析的目的是对数据所来自的总体作出推断,总体有一定的概率模型,推断的结论也往往以概率的形式表达。但在一般的数据分析中,则不包含这些要求。例如,分析20世纪以来北半球年平均气温的数据,以确定是否有变冷或变暖的趋势。从数理统计的观点,年平均温度数据应看成是从一个总体抽取的样本,这种看法在本问题中显得牵强;而数据分析则不受这些约束,它的出发点就只是数据本身,即所谓“让数据本身说话”。所以,广义地说,可以把数理统计学看成是数据分析的一部分;但一般只把那种数学模型不明显,或模型需要借助于分析已有的数据而提出,或者根本不需要模型等情况,列入数据分析的范围。

典型的数据分析工作可能包含以下几个步骤。首先,当数据刚取得时,可能只是一大堆杂乱无章的数字,不仅看不出其规律性,甚至也不知道如何着手寻找其中可能隐含的规律性,于是就通过作图、造表、用各种形式的方程拟合、计算某些特征量等手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。这一步工作叫探索性数据分析。J.W.图基在其著作《探索性数据分析》中对此进行了详细的论述。第二步是模型选定分析,在探索性分析的基础上提出了一类或几类可能的模型,然后通过进一步的分析从中挑选一定的模型。例如研究两变量xY的关系,初步分析可以用不超过三次的多项式去拟合,还要进一步确定其次数,并且估计出多项式各项的系数。又如,在一个包含多个自变量的回归问题(见回归分析)中,经判定认为具有线性关系,则进一步需要确定使用哪些自变量,如何估计方程中的系数。如果数据是来自一个统计总体,则这一步实际上是数理统计学的研究对象。最后一步是推断分析,通常使用数理统计方法对所定模型或估计的可靠程度和精确程度作出推断。例如,检验由上面所定出的模型是否可用。这一步工作完全属于数理统计学的范围,若不假定数据有一定的统计结构,则无法进行,只能将第二步所得模型付诸实用,以对所研究的现象提出一种假说或作出某种采取行动的方案,再由以后收集到的数据去检验和修正。

因此,狭义的数据分析主要是指探索性数据分析。有时根据问题的需要和现实的可能只能做到第一步,有时则必须进到模型选定分析。探索性数据分析是在尽量少的先验假定下处理数据,以表格、摘要、图示等直观的手段,探索数据的结构,及检测对于某种指定模型是否有重大偏离。它可以作为进一步分析的基础,也可据以对数据作出非正式的解释。实验者常常据此扩充或修改其实验方案,重作实验。图形由于其形象性,容易为人所理解,故作图法是探索分析的重要方法。图基在上述著作中把探索分析放在模型选定分析与推断分析之前,提高了人们对于“让数据说话”和“探索”的重要性的认识。对一、两个变量和为数不多的数据,用笔和坐标纸就可以进行探索分析。计算机及其作图设备的人机对话功能提供了充分探索的可能性,例如用不同方法看数据,进行数据变换,图示,考察残差等等。至于怎样对多变量、大批量、复杂结构的数据作合适而有效的探索分析,已引起广泛注意。

数据分析离不开外部的知识和判断,形式化的数据分析方法只是一种辅助性手段,以帮助人们进行判断或推理。在有些问题中,上述三个步骤的某一步骤可以跳过或简略地进行,而在进行过程中又可能返回前面的某一步骤。在作数据分析时,必须注意所得结果是近似的,对它的解释可能不完全正确。例如,开普勒曾发现太阳系中当时已发现的6个行星轨道的某种数据,与5种正多面体有微妙的关联,由此他解释为什么行星恰好是 6个。这一点现在知道并不正确。所以数据分析所发现的事实及其解释,最终要接受以后数据的检验。

数据及其结构、数据分析的问题及目的,都是多种多样的,来自不同的领域,具有不同的特性,从而数据分析可划分成许多课题。它尚未定型,与数学、统计学、计算机科学等学科和技术都有密切关系,正在蓬勃发展,对促进科学技术的进展有重要作用。

参考书目
  1. J.W. Tukey,Exploratory data Analysis,Addison-Wesley, Reading, Mass., 1977.

参考文章