数据的统计处理方法_自然百科

[拼音]：shuju de tongji chuli fangfa

[外文]：statistical methods in data analysis

由于测量的偶然误差以及被研究的物理现象本身的随机性质，实验观测数据是由带有偶然性的一些随机数据组成的。实验数据处理的任务是，由测得的有限个随机数据（观测值随机变量的一个样本），推断被测定物理量的数值，或物理量之间的函数关系或被研究的物理现象的其他规律性。数据处理必须应用以随机量为研究对象的统计数学方法，主要是概率论、数理统计学和随机过程理论的数学方法。在粒子物理实验中，由于物理现象本身固有的随机性质很突出，物理现象的规律性往往被所测数据表面上的偶然性所掩盖，所以选择适当的统计方法进行数据处理就更为重要。数据处理中最常用的统计方法有参量估计、假设检验、拟合以及蒙特－卡罗模拟等。

参量估计

被测定的物理量常常是观测值所服从的统计分布中的参量。例如，稳定粒子的寿命是其生存时间观测值所服从的指数分布中的参量，共振态的质量和寿命是其衰变产物系统不变质量所服从的布赖特－维格纳(Breit-Wigner)分布中的参量。由观测数据推断物理量的数值，需要应用数理统计学中的参量估计方法。

最大似然法是估计分布参量值的一个最常用的方法。若观测值x服从概率密度函数为p(x；θ)的一个统计分布，分布参量θ为待测定的物理量，进行N次独立测量得到一组观测值x₁、x₂、…、x_N，似然函数是在参量取某特定值 θ的条件下出现该组观测数据的概率，最大似然法选择使似然函数取最大值的参量值作为特定参量θ的估计值：

估计值的误差用一定置信水平下的置信区间表示（见实验数据的误差处理）。置信区间可根据估计值的分布性质用区间估计的方法定出，利用参量估计的置信分布方法，可以得到被估物理量的一个完整的概率推断，即该物理量的置信分布。通常的测量误差处理是参量估计的一个特殊情况：观测值服从正态分布，被测物理量的真值是观测值正态分布的期待值，其最大似然估计值是观测值的算术平均值，平均值左右一倍标准误差区间的置信水平为68.3％。

在被测物理量θ是一个随机变量，并且已知它的概率分布p(θ)（验前分布）的情况下，利用贝叶斯公式可以从观测值x₁、x₂、…、x_N得出关于被测物理量数值的一个更精密的推断，即该物理量的验后分布，参量θ的验后分布的概率密度为

任意区间[θ₁，θ₂]的置信水平为

。

拟合

拟合是寻求被观测物理量之间的函数关系的统计数学方法，又叫做观测数据的平滑，设y和x都是被观测的物理量，并且y是x的函数，函数关系由理论公式y＝f(x;c)表示，式中c＝(с₁，с₂，…，с_m)为m个待定的参量，拟合的任务是由测得的N对观测值、、…、推断理论公式中的未知参量c。

最常用的拟合方法是最小二乘法，在各观测值彼此独立且x 的测量误差可以忽略的情况下，最小二乘法选择使各观测点残差（y 的观测值与理论值之差）的“加权平方和最小”的参量值╦ 作为参数的估计值，即

其中σ崿为观测值y壟的方差。

最小二乘法可用于解决物理实验中各种经验公式的实验曲线的建立问题（如粒子物理实验中粒子径迹的重建）。

假设检验

参量估计和拟合方法用于由实验数据估计观测值统计分布中或被观测量间函数关系中的待定参量。但是，观测值所服从的统计分布或被观测量间函数关系的理论公式常常只是一种统计假设；这种假设是否能应用于实�榈木咛迩榭觯欠裢鄄饨峁邢灾拿埽枰霉鄄馐萦枰约煅椤Ｊ笛橹行枰煅榈耐臣萍偕杌箍梢允枪赜诠鄄庵低臣品植疾瘟渴档哪持侄涎裕偕杓煅榉椒ǔＳ糜谂卸鲜笛樘跫ɡ缫瞧髦副辏┦欠裾＃欠翊嬖诿飨缘南低澄蟛睿蛘呤笛榻峁惺欠癜殴鄄庵档耐臣品植蓟虮还鄄饬考浜叵档睦砺奂偕柚兴挥锌悸堑降男孪窒蟆＜偕杓煅榉椒ɑ箍捎糜诖恿街掷砺奂偕柚刑粞∫桓鲎羁赡艿募偕瑁绱硬煌Ｗ拥幕旌鲜校莶獾玫氖萦行У靥粞〕瞿持中枰牧Ｗ印�

假设检验的一般方法，是选择一个观测数据的函数λ(x)，叫做检验统计量，λ的数值表现了理论假设同实测数据的差异，而且在理论假设成立的条件下λ 的统计分布已知，则如果由测得数据算出的λ 值落入了表明与理论假设差异很大的某个区域之内（即在理论假设成立的条件下由λ的统计分布算得λ值落入该区域内的概率──显著水平──很小），就表明观测数据同理论假设存在显著的矛盾。

在实际问题中，应当根据具体情况选择适当的检验统计量。

一个广泛使用的检验统计量是皮尔孙 (Pearson)ⅹ²量，其定义为

式中n_i为落入区间i中观测值的个数，E_i为区间i中观测值个数的理论预期值。显然，ⅹ²值的大小表现了实验数据与理论值差异的大小；同时，如果理论假设是正确的，则ⅹ²量渐近地服从一个已知的ⅹ²分布，可以利用ⅹ²分布对差异的大小作出定量的概率估计。

在观测值统计分布中的参量θ只有两个可能值 θ₀和θ₁的情况下，对于由观测值x判断参量是否为特定值θ₀的参量检验问题，似然比是一个很有用的检验统计量，似然比的定义为

。

蒙特－卡罗模拟

见蒙特－卡罗法。

参考书目

李惕碚著：《实验的数学处理》，科学出版社，北京，1980。
A.G.Frodesen，et al.，ProBability and Statistics in particle Physics， Universitetsforlaget， Bergen，1979.