数理统计学

数学的一个分支学科。研究怎样去有效地收集、整理和分析带有随机性的数据,以对所考察的问题作出推断或预测,直至为采取一定的决策和行动提供依据和建议。数理统计学可用于种种专门领域(物理、化学、工程、生物、经济、社会等),但只涉及其中有关带随机性的数据的分析问题,而不是以任何一种专门的知识领域为研究对象。但是,在用数理统计方法分析带随机性的数据时,从统计模型的选择、实验方案的制定、统计方法的正确作用以至所得结论的恰当解释,都离不开所论问题的专门知识。

在英语中,统计学(statistics)一词系由state(国家)衍化而来,意指由国家收集的有关国情的资料。在中国的《二十四史》和其他典籍中,可看到不少关于钱粮户口、水灾地震等数字记载,这类记载可以看成是统计学的滥觞,但还不是现代意义下的数理统计学,因为它只是有关事实的记录和整理,而没有在一定理论的指导下,作出超越数据范围之外的推断。例如,在概率论和近代数学发展起来以前,没有也不可能根据已有的人口数据,去建立一定的模型以预测人口发展的趋势,或者根据已有的地震数据,去建立一个模型以预测今后若干年内的地震。在概率论发展以前,社会调查多是采取普查的形式,不需要处理因抽样的随机性所产生的问题。常把这种收集、记录和整理数据的工作称为描述性统计。

数理统计学是伴随着概率论的发展而发展起来的,当人们认识到,必须把数据看成是来自具有一定概率分布的总体,所研究的对象是这个总体而不能局限于数据本身之日,也就是数理统计学诞生之时。这一点始自何时,在专家中没有一致的意见。从现有资料看,在19世纪中叶以前已出现了若干重要的工作,特别是C.F.高斯和 A.-M.勒让德关于观测数据误差分析和最小二乘法的研究。到19世纪末期,经过包括K.皮尔森在内的一些学者的努力,这门学科已开始形成。但数理统计学发展成一门成熟的学科,则是20世纪上半叶的事,它在很大程度上要归功于K.皮尔森、R.A.费希尔等学者的工作。特别是费希尔的贡献,对这门学科的建立起了决定性的作用。1946年H.克拉默发表的《统计学数学方法》,是第一部严谨且比较系统的数理统计著作,可以把它作为数理统计学进入成熟阶段的标志。

数理统计学一词有一种狭义的理解,即仅指有关统计方法的数学理论。在美英等国多是这样理解的。统计方法的数学理论研究中用到很多近代数学的知识,主要的如分析学与函数论、矩阵代数、组合数学,也用到泛函分析、拓扑学和抽象代数的知识。但与数理统计学关系最密切的是概率论。在很大程度上可以说:概率论是数理统计的基础,数理统计是概率论的一种应用。但是,它们是两个并列的数学分支学科,并无从属关系。

统计工作诸环节

用数理统计方法去解决一个实际问题时,一般有如下几个步骤:建立数学模型,收集整理数据,进行统计推断、预测和决策。这些环节不能截然分开,也不一定按上述次序,有时是互相交错的。例如,在建立模型时往往要参考所掌握的数据,在整理数据时,要考虑到拟作的统计推断的形式,等等。

模型的选择和建立

在数理统计学中,模型是指关于所研究问题的总体的某种假定,一般是给总体分布规定一定的类型。有的假定不直接涉及总体分布形式,如在回归分析中,常假定回归函数为线性的,称为线性回归模型。这一假定与总体分布所属类型无关。建立模型要依据概率论的知识、所研究的问题的专业知识、以往的经验以及从总体中抽取的样本(数据)。例如,依概率论的中心极限定理,在分析测量误差时,有理由选择正态分布作为模型;在电子元件的老化作用可以忽略不计的时段内,有理由假定其寿命服从指数分布;等等。在有些实际问题中,并无足够的理论根据去选择一种特定的模型,而需要利用数据。例如,把数据描在各种概率纸上,看它们在哪一种概率纸上与直线最接近,就选那种分布为模型。根据理论选定的模型,也要用数据去检验它是否符合实际,其中涉及很多理论问题。

数据的收集

有三种方式:全面观测,抽样观测和安排特定的实验。

全面观测又称普查,即对所研究的总体的每个个体都加以观测,测定所需要的指标值,如人口普查。如果不计普查过程中可能发生的重复、遗漏、误记等人为性错误,则普查结果没有随机性可言。而且,普查既然对总体的所有个体都作了观测,就不存在由所得数据去对总体作出统计性的推断的问题。因此,全面观测不属于数理统计学的研究范围。但是,全面观测所得的数据的加工整理也用到数理统计学的方法和概念。

抽样观测又称抽查,是指从一些有形的个体组成的总体中抽取一部分,测定其有关的指标值。例如,在全国人口中抽取十分之一作调查。为使抽出的这一部分个体在总体中有尽可能大的代表性,对抽样方法要作适当安排。这方面的研究内容构成数理统计的一个分支学科,叫抽样调查。一个最简单且最常见的要求是;总体中的每一个体要有同等的机会被抽出。在抽样观测中,随机性一般表现在:样本中包含哪些个体,是出自机会,而不是在抽样前预定的。有一种所谓“判断性抽样”,或称“典型抽样”,是根据抽样者的判断抽取他认为合适的若干个体作调查。在这种情况下,随机性的影响无法考虑,因而不属于数理统计学的研究范围。

安排特定实验以收集数据,可以理解为通过实验去“造出”总体中的个体(的指标)。例如,在同样的条件下重复测定一个物理常数,会得出不尽相同的数值。所有可能的测定值构成一个总体,它并非有形地存在着,而是每做一个实验,就“造出”其中一个个体。在一定的生产条件下,所能生产出的某种工业产品的质量指标构成的总体,也属于这种性质,即:每生产出一件产品并测出其质量指标时,就“造出”其中一个个体。由此可见,通过实验收集数据与抽样观测不同之处,在于前者是从一个无形且无限的总体中抽样,而在后者,总体是有形且一般是有限的。

实验需要有计划地安排。如为试制一种工业品,有几种原材料和设备可选用,生产的各种工艺因素温度、压力、反应时间等,又可各有若干个可选用的水平。因此,全部可能的搭配数很多,一般为人力物力时间所限,只能挑选一部分去做实验。所挑的一部分要有代表性,并使所得数据便于进行分析。这里面所包含的数学问题,构成数理统计学的一个分支学科实验设计法的内容。

数据整理

目的是把包含在数据中的有用信息提取出来。一种形式是制定适当的图表,以反映隐含在数据中的粗略的规律性或一般趋势。另一种形式是计算若干特征数字,以刻画样本某些方面的性质。如样本均值和样本方差分别反映了样本内各数值的平均水平及差异程度。这种特征数字在数理统计学中称为统计量,它的研究有重要的理论和实际意义,所得到的成果可用于指导数据的整理和统计推断方法的选择。

统计推断

指根据总体模型以及由总体中抽出的样本,作出有关总体分布的某种论断。数据的收集和整理是进行统计推断的必要准备,但它没有越出所观察的事物的范围,是属于前述的描述性统计的范畴,而不是统计推断。后者的特征是:推断的内容必须涉及总体。例如,从整批1万件产品中随机抽取200件作检查。算出这200件的废品率为2%。这确切描述了抽出的这200件产品的质量情况。若由此跨出一步,以2%这个数作为整批产品的废品率p 的估计,则构成一个统计推断。

统计预测

统计预测的对象,是随机变量在未来某个时刻所取的值,或设想在某种条件下对该变量进行观测时将取的值。例如,预测一种产品在未来三年内的市场销售量,武汉市明年的长江最高水位,某个10岁男孩在两年后的身高,等等。统计推断与统计预测在两个方面有相似之处:一是都要依据一定的统计模型和观测数据,二是都要越出已观察的事物的范围。不同之处在于:统计推断的对象是总体分布的某一方面,如分布中所包含的一个参数的值,它虽是未知的,但并无随机性;统计预测的对象则不仅未知,且是随机的。例如,估计由全体12岁男孩的身高构成的总体的均值,是统计推断问题;若要问一个指定的10岁男孩两年后将长到多高,则是一个统计预测问题。预测和推断也不能截然分开,在许多情况下,为了进行预测,必须先做统计推断。例如,当用线性回归方程作预测时,有必要先估计回归方程中的系数,而这属于统计推断问题。

统计决策

不少实际问题的解决,最后要落实到一定的行动。统计决策就是依据所做的统计推断或预测,并考虑到行动的后果(以经济损失的形式表示),而制定的一种行动方案。目的是使损失尽可能小,或反过来说,使收益尽可能大。例如,一个商店要决定今年内某种产品的进货数量,商店的统计学家根据抽样调查,预测该产品本店今年销售量为1000件。假定每积压一件产品损失20元,而少销售一件产品则损失10元,要据此作出关于进货数量的决策。一般,在作决策时要考虑其他方面的因素,而不完全是统计决策。但只要在决策所依据的条件中有受到偶然性影响的成分,则数理统计方法总是有用的。从广义的意义说,统计推断(或预测)也可视为一种行动。这带来一种新观点,就是把损失的概念引伸于评价所作统计推断的优劣。这种看法丰富了统计推断理论的内容,使得有可能用统一的观点去研究种种形式不同的统计推断。这正是A.瓦尔德在1950年提出统计决策理论的出发点。

分支学科

数理统计学内容庞杂,分支学科很多,难于作出一个周密而无懈可击的分类。大体可以划分为如下几类。

第一类分支学科包括前面已提到的抽样调查和实验设计。它们讨论在观测和实验数据的收集中有关的理论和方法问题,但并非与统计推断无关。因为收集数据是为了尔后作统计推断之用,在制定收集数据的方案时要以此为准绳。

第二类分支学科为数甚多,其任务都是讨论统计推断的原理和方法。各分支的形成是基于:

(1)特定的统计推断形式。例如,主要的统计推断形式有参数估计和假设检验两种,它们各自构成数理统计学中的基础性的重要分支。

(2)特定的统计观点。例如贝叶斯统计与统计决策理论,它们都是从一种基本观点出发去处理全部统计推断问题。

(3)特定的理论模型或样本结构。例如非参数统计、多元统计分析、回归分析、相关分析、序贯分析、时间序列分析和随机过程统计。其中,非参数统计之所以形成一个分支,是因为所讨论的问题有一个公共特性:其总体分布族包罗的内容很广泛,不能用有限个实参数去刻画;多元统计分析的特点则在于所讨论的统计总体必是多维的;等等。这种分支学科不是以某一种特定的统计推断形式为研究对象,而要涉及各种统计推断形式,它们既研究统计理论,也研究统计方法。这种统计方法是共性的,即可用于来自各种不同的专业领域中的实际问题,而不是以一种特定的应用领域为对象。

第三类是一些针对特殊的应用问题而发展起来的分支学科,如产品抽样检验、可靠性统计、统计质量管理等,它们都不涉及或很少涉及任何一种专门学科的知识,以此才被认为是一个统计分支。在这种分支学科中,一般都需要同时考虑数据的收集和统计推断两方面的问题。例如,产品抽样检验的任务是制定从一批产品中作随机抽样的方案,并依据由此获得的样本去决定是否接受该批产品,这里面有抽样方案的统计问题,也有使用数据作统计假设检验的问题。

还有一些分支学科,它们的任务是讨论统计方法在某一特定学科中的应用,例如生物统计、计量经济学、气象统计、地质统计等,这些分支因为涉及大量有关学科的专门知识,不好认为是数理统计学的一个分支,可以看作是一种边缘学科分支。

对上面所提的分支学科名单及其分类,也还存在某些问题。例如有的意见认为第三类中的产品抽样检验等不应列为数理统计的分支学科,只是数理统计方法的一种应用。另外,在上面提到的一些分支之间,存在着内容重复交叉以至在一定意义下有包含关系的情况。例如,时间序列分析可以认为是更一般的随机过程统计的一部分,回归分析、相关分析中的许多内容可归入多元统计分析内;假设检验中的非参数检验部分是非参数统计的主要内容。

应用

数理统计方法在工农业生产、自然科学和技术科学以及社会经济领域中都有广泛的应用,然而按其性质来说,基本上是一个辅助性的工具,它的恰当应用依赖于所论问题的专门知识、经验,以至良好的组织工作。

数理统计方法在农业中应用的一个主要方面,是对田间试验进行适当的设计和统计分析。实验设计的基本思想和方法,就是从田间试验开始发展起来的。象种子品种、施肥的种类和数量以及耕作方法的选定,都需要通过试验。农业试验由于周期长且环境因素变异性大,特别需要对试验方案作精心的设计,并使用有效的统计分析方法。数理统计方法在农业中应用的另一方面是数量遗传学的方法。例如,培育高产品种的研究中的数据分析使用了多种统计方法,如在遗传力的计算上,用了很复杂的回归和方差分量分析的方法。

数理统计方法在工业中的应用,有两个主要方面。一是在工业生产中,常有试制新产品和改进老产品、改革工艺流程、使用代用原材料和寻求适当的配方等问题。影响产品质量的因素一般很多,在进行试验时要用到各种多因素设计方法,及与之相应的统计分析方法,以判定哪些因素是重要的,哪些是次要的,并决定一组最优的生产条件。正交设计(见实验设计法)、回归设计与回归分析、方差分析、多元分析等统计方法,是处理这类问题的有用工具。另一方面是,现代工业生产多有大批量和要求高可靠的特点,为保证产品质量,需要在连续的生产过程中进行工序控制,制定成批产品的抽样验收方案,对大批生产的元件进行寿命试验,以估计元件的可靠性及包含大量各种元件的系统的可靠性。为解决这些问题发展了一些统计方法,如种种形式的质量控制图,抽样检验,可靠性统计分析,等等,它们构成统计质量管理的内容。这些方法是20世纪二三十年代开始发展起来的,几十年来的经验证明,它们起了相当大的作用。

医学是较早使用数理统计方法的领域之一。在防治一种疾病时,需要找出导致这种疾病的种种因素。统计方法在发现和验证这种因素上,是一个重要工具。例如,长时期来人们怀疑肺癌的发生与吸烟有关系,这一点得到大量统计资料的证实。另一方面的应用是,通过临床试验,用统计分析确定一种药物对治疗其种疾病是否有用,用处多大,以及比较几种药物或治疗方法的效力;对比试验、列联表、回归分析等是这方面的常用工具。统计方法在医学中应用之广,可以由在关于医药的广告中也常引用统计数字这样一个现象看出。

数理统计方法在自然科学和技术科学中的应用,有以下几个方面:在基础理论研究中,常常从一种观点出发,根据初步观察结果而提出一种学说或假说。它们是否正确,或在多大程度上正确,要诉诸大规模的实验验证,这里面就有实验的设计和数据的统计分析问题。有时,是通过统计分析发现某种规律性,然后在理论上去寻求解释。一个著名的例子是门德尔的遗传定律,门德尔通过豌豆试验发现了这个定律,以后由很多人通过进一步的试验,并用数理统计学中的“拟合优度检验法”(见假设检验)检验过。为这个定律寻求理论上的解释,是导致“基因学说”建立的一个重要原因。在应用性的研究中,常常因为对所研究的现象的规律性认识不充分,而不能不主要依靠对实验和观察数据的分析,去提出解决问题的办法。例如,统计方法用于地震、气象和水文方面的预报,都有一定的效果。在地质勘探中,人们在一个地区的若干个点(点的选择也有统计上的考虑)进行观察,对其结果用种种统计方法,如趋势面分析、对应分析(见多元统计分析)等去进行处理,去建立某种经验性质的规律,以用于指导找矿。数理统计方法在上述各领域中的作用很大,以致出版了一些阐述统计方法在这些领域中应用的专著。一般地说,无论是自然科学和技术科学,都离不开实验观察,都有处理数据的问题,因此也就有统计方法用武之地。例如,通过分析实验数据而建立经验公式,是技术科学中常用的一种方法。

数理统计方法对社会、经济领域也有重要的意义,从某些数理统计学较发达的国家看,统计方法在这些领域中的应用,比它在自然科学和技术领域中的应用更早且更广泛。

统计方法在社会领域中应用的一个重要方面是抽样调查,在人力物力时间不允许进行全面调查时,使用抽样调查可以做到节省、快速,并获得满意的结果。有时,经过精心设计和组织的抽样调查,其效果甚至比全面调查更好。因为,全面调查由于工作量太大,常不免产生一些人为性的错误。另一方面,对社会现象的研究有向定量化发展的趋势。例如人口学,确定一个合适的人口发展动态模型,需要掌握大量的数据资料,并使用包括统计方法在内的一些科学分析方法。在经济科学中,定量化的趋势比其他社会科学部门更早且程度更深,如早在20世纪二三十年代,时间序列分析方法就曾用于市场预测,现在已建立了一门边缘性质的学科──数量经济学,从简单的回归分析方法到艰深的随机过程统计方法,都在其中找到了应用。

发展简史

数理统计学的发展大致可分三个时期来叙述。

20世纪以前

这个时期又可以分成两段,大致上可以把高斯和勒让德关于最小二乘法用于观测数据的误差分析的工作作为分界线,前段属萌芽时期,总的说还没有超出描述性统计的范围。不过,这个时期在概率论方面有较多的发展,为以后数理统计学的建立作了准备。某些现在还很常用的统计方法,如直方图方法,符号检验法等,在这个时期就有人使用过。T.贝叶斯在1763年发表的《论有关机遇问题的求解》对后世统计思想起了很大的影响。这时期的后一段可算作是数理统计学的幼年阶段。其中,高斯等关于最小二乘法的工作,在20世纪初以来经过Α.Α.马尔可夫和其他学者的发展,成为数理统计学中的一个重要方法。但是,这个时期的最重要的发展,首先在于确立了这样一种观点,即数据是来自服从一定概率分布的总体,而统计问题就是用数据去推断这个分布中的未知方面。这种观点强调了推断的地位,而使统计学摆脱了单纯描述的性质。但这种观点也并非一下子就彻底建立起来的,由于高斯等的工作揭示了正态分布的重要性(人们常称正态分布为高斯分布),在相当一个时期内,学者们普遍持有这样一种观点,即在实际问题中遇见的几乎所有的连续变量,都可以满意地用正态分布去刻画。这正是“正态”一词的由来与含义。这样,连续变量的统计基本上就被看成是正态分布的统计。这种观点对20世纪统计的发展起了很大的影响,其积极的一面是关于正态分布的统计得到了深入的发展,而这在应用上有很大的重要性。但也有消极的后果,如延缓了非参数统计的发展并使它没有取得应有的地位。19世纪末期以来,一些学者,特别是K.皮尔森,开始认识到这种观点的局限性。皮尔森引进了一个现在以他的名字命名的分布族,它包含了正态分布及现在已知的一些重要的偏态分布。皮尔森认为,他所引进的分布族可以概括实用上常见的分布。统计学以后的发展并没有沿着他所设想的路线,但他的工作仍有很大的意义。特别是,他引进了一种方法──矩估计法,用来估计他所引进的分布族中的参数(见点估计),这个方法一直是一种重要的参数估计方法。

另外,德国的大地测量学者F.赫尔梅特1875年在研究正态总体的样本方差时,发现了在统计上十分重要的ⅹ2分布。F.高尔顿等关于回归分析的先驱性的工作,以及时间序列分析方面的一些工作,也是这个时期数理统计学发展史中的重要事件。

20世纪初到第二次世界大战结束

是数理统计学蓬勃发展达到成熟的时期。许多重要的基本观点和方法,以及数理统计学的主要分支学科,都是在这个时期建立和发展起来的。这个时期的成就,包含了至今仍在广泛使用的大多数统计方法,并占据了教科书中的主要篇幅。在其发展中,以英国统计学家、生物学家R.A.费希尔为代表的英国学派起了主导的作用。

K.皮尔森在1900年提出了检验拟合优度的ⅹ2统计量,并证明其极限分布(在原假设成立时)是ⅹ2分布。这个结果是大样本统计的先驱性工作,20世纪20年代费希尔又作了重要发展。

紧接着的一项重要进展,是皮尔森的学生,英国医生W.S.戈塞特(又译哥色特,笔名“学生”)1908年导出了t分布──正态总体下t统计量的精确分布,开了小样本理论的先河。在此以前,皮尔森成功地导出了一些统计量的标准差,但对统计量的抽样分布问题没有多少建树。不过,戈塞特这项成就中也有皮尔森的功劳,因为它是在 t统计量的分布属于皮尔森分布族的假定下导出的。

比皮尔森略晚的费希尔(1890~1962),对现代数理统计的形成和发展作出了最大的贡献。他是一些有重要理论和应用价值的统计分支和方法的开创者,其重要成就有:系统地发展了正态总体下种种统计量的抽样分布(20年代),这标志着相关、回归分析和多元分析等分支的初步建立;建立了以最大似然估计为中心的点估计理论(1912~1925);与F.耶茨合作创立了实验设计,并发展了与这种设计相适应的数据分析方法──方差分析法(20~30年代),这在实用上很重要。费希尔在统计学上另一项有影响的工作,是他引进的“信任推断法”(见区间估计),这种方法不是基于传统的概率思想,但对某些困难的统计问题,特别是著名的贝伦斯-费希尔问题,提供了简单可行的解法。

在数理统计学的另一个主要分支──假设检验的发展中,费希尔也起过重要的作用,但假设检验理论的系统化和深入的研究,则应归功于原籍罗马尼亚的美国学者J.奈曼与K.皮尔森的儿子、英国学者E.S.皮尔森。他们在1928~1938年期间发表了一系列文章,建立了假设检验的一种严格的数学理论。其要旨是把假设检验问题作为一个数学最优化问题来处理。在一定意义上,他们的工作是尔后瓦尔德建立的统计决策理论的先驱。奈曼对数理统计作出的另一项很重要的贡献,是他在1934~1937年间建立的置信区间估计理论。它基于概率的频率解释,并与奈曼-皮尔森的假设检验理论有密切联系。

多元统计分析是数理统计学中有重要应用价值的分支。1928年以前,费希尔已经在狭义的多元分析(多元正态总体的统计分析)方面作过一些工作。1928年J.维夏特导出了著名的“维夏特分布”。此后,狭义多元分析发展很快,作出重要贡献的学者中,包括中国著名的数理统计学家许宝。他在1940年前后的几年中,对这一领域以及线性模型的统计推断理论,都作出了奠基性的工作。此外,G.U.尤尔在1925~1930年间关于时间序列分析的工作中,引进了自回归和序列相关等重要概念,奠定了这个分支现代发展的基础。瓦尔德在第二次世界大战期间发展了序贯概率比检验的方法,不仅在实用上有重要意义,也为战后序贯分析的发展开了先声。

综合起来,以上这些成就构成了数理统计学一幅成熟而丰富多采的图景,确立了这门学科在人类文化史中的地位。前面提到的克拉默在1946年发表的著作,对这些成就的主要部分作了扼要的总结,宣告了统计学发展史上这一重要时期的结束。

战后时期

这一时期中,数理统计学在应用和理论两方面继续获得很大的发展。在应用上,由于经济和军事技术的快速发展以及电子计算机的出现,使数理统计学的应用达到了前所未有的规模。有些需要大量计算的统计方法,在战前限于条件而无法使用,这个障碍今日已不复存在。在战前,即使在统计学较发达的国家里,统计方法的使用多少还局限在一些“点”上,如今在一些国家中则逐步达到了“面”的规模。最显著的例子是在大批生产工业产品时使用统计质量管理的方法,它对日本在战后的经济恢复和发展起了不小的作用。

与战前不同,战后统计理论是沿着纵深的方向和使用更复杂的数学工具的方向发展的。在许多情况下,是把在战前已有发端的理论引向深入与完善,显著的表现是在大样本理论方面。例如,最大似然估计和非参数统计的大样本理论,在战前只有初步的结果,现已达到完善的地步。

瓦尔德在1950年创立了统计决策理论,它从人与大自然进行博弈的观点出发,企图把形形色色的统计问题归并在一个统一的模式之下,这种理论对战后数理统计各分支的发展产生了程度不等的影响。它大大地改变了参数估计这个分支的面貌,而对假设检验的影响则要小一些。但是,对于用这种观点去看待统计问题是否恰当,统计学界还存在分歧。

在战后数理统计的发展中,一个引人注目的现象是贝叶斯学派的崛起。如前所述,这个学派的思想可溯源于贝叶斯1763年的工作。但在战前,虽有一些学者,例如H.杰弗里斯,在其著作中鼓吹这一学派的思想,并对流行的、基于概率的频率解释的统计理论有所批评,但未能产生多大的影响。20世纪50年代以来,这个学派日益获得了势头,原因在于:传统的统计学发展趋于成熟并得到大量应用后,其固有的弱点开始显露并逐渐为人们所认识。贝叶斯统计在理论上的进展以及它在应用上的方便和效益,使其观点为更多的人所了解并对一些人产生吸引力。传统学派与贝叶斯学派之间的争论(见贝叶斯统计),其最后结局如何,要取决于它们在应用中的表现,这会影响到未来统计学的面貌。就目前情况而言,传统学派虽然失去了一些阵地,但在统计学中大体上仍处于支配地位。

电子计算机的广泛应用,也对战后数理统计学的发展产生不小的影响。有了计算机,过去一些停留在理论上的方法得以付诸实用,而这又反过来促进人们提出和解决一些理论上的问题。如在涉及数十个自变量的大型回归问题中,有变量选择的问题。没有计算机,这种问题只能停留在纸面上,而现在这种问题所涉及的计算已不难实现,人们就提出了很多选择标准并进行了理论上的探讨,这丰富了回归分析这个分支的内容。通过计算机模拟,可以在实际应用中避开一些难于解决的、复杂的抽样分布推导问题。另外,计算机在短时间内处理大量数据的能力,使人们有可能从各个角度对数据进行透彻的分析,从其中提出更多的信息,而不必总是依赖一定的数学模型。有的学者把这方面的工作称为“数据分析”,并认为是数理统计发展中的一个生长点。从另一面看,这在一定程度上降低了模型(即理论)的作用。有的学者已表现出忽视模型的倾向,它可能加剧在数理统计学的发展中理论与应用分家的趋势。总的说,电子计算机的广泛应用为数理统计学提供了巨大的机会,也提出了一些很有意义的研究课题。

参考书目
  1. M. Kendall and A. Stauart,The Advanced Theory of Statistics, 4th ed., Vol.1, 4th ed., Vol.2,3rd ed., Vol.3, Charles Griffin, London, 1977, 1979, 1976.
  2. 陈希孺著,《数理统计引论》,科学出版社,北京,1981。