统计 | 数理统计简史(二)

这是由勒让德开启,由高斯推上顶峰的统计学发展盛宴。

最小二乘法

数理统计学的简史就是从纵横两个方向对算术平均不断深入研究的历史,纵的方面指平均值本身,伯努利及其背后众多大数律,中心极限定理,高斯的正态误差理论,横的方面指的是许多统计方法,这些方法本质都是随算术平均的发展,其中最重要的就是最小二乘法。

设对某未知量$\theta$重复做$n$次测量,结果记为$x_1,x_2,\dots,x_n$,利用这些测量值做一个估计,推理如下:设真值为a,则测量误差依次为$e_1 = x_1-a,e_2,\dots$,计算$L(a)=e_1^2+e_2^2+\dots$,令$L(a)$取最小。

这个最小值正是几个测量值的算术平均。令人惊叹

以上过程是用最小二乘来解释算法平均,我们也可以逆转这个过程。算术平均是经受住考研的方法,因此一个方法是合理的,它就应该经受住算术平均的考验,所幸最小二乘法有这样的特性。(虽然甲证明乙,乙证明甲在逻辑上不足取,但这有其现实意义)

勒让德在研究天文观测学时遇到一些数据分析问题,描述如下:有若干我们想估计的值$\theta_1 \dots \theta_k$,另有若干可以测量的量$x_0, \dots,x_k$,这些量满足线性关系

在实际求解过程中,求解这个方程要面临以下几个问题。

  • $x_0,\dots,x_k$量测可能有误差
  • 上式只是数学上的近似,可能不是完全成立,这也可以被视为一种误差。
  • 观测次数$n$往往大于变量个数$k$,在当时解决这个问题需要

解决观测数据较多的问题在历史上也经历了不同的阶段。

  • 1750年的梅耶采用的是分组形式,把数据分成$k$组,把每组内的方程相加得到新方程。分组方法是选定其中一个系数,按系数大小分组。
  • 18世纪的欧拉也研究过类似问题,但他的做法过于繁杂,缺乏基本合理性。
  • 1787年拉普拉斯采用的方法也是分$k$组并对每组内方程相加,他没有指出自己为什么这么分组,在他的分组中,每个方程被应用了不止一次。

欧拉和拉普拉斯这样的顶级数学家没解决这样看起来不难的问题,主要还是因为他们擅长解决确定性问题,勒让德的成功在于不去考虑找到那几个方程(方程个数等于未知数个数),而是考虑误差在整体上的平衡,即不使误差过分集中在几个方程内,而是让它分散开。因此它采用如下公式,具体求解可以采用求偏导的计算方式。

最下二乘法有以下优点

  • 经受住了算术平均值这一特例的考验
  • 如果观察值全部严格符合某一线性方程,那它必然是最小二乘法的解
  • 如果事后打算增删某些观察值,容易修改。

最小二乘法是针对适合线性关系的观测数据而做出的,现在统计学上把它叫做线性统计模型,当然它的含义比最初广的多。最小二乘法的地位主要由以下几点奠定。

  • 最小二乘法的在统计学中的显赫地位,主要就是因为它和线性统计模型的关系。
  • 最小二乘法有着简单的线性表达式,易于计算。
  • 在正态分布的误差假设下,它有比较完善的小样本理论,使基于它的统计推断容易操作且有关概率计算容易进行。

高斯对最小二乘法的贡献除了建立正态误差理论之外,还有非常重要的高斯-马尔科夫定理

按通常记法把线性模型写为$y_i=x_i’ \beta+e_i,i=1,2\dots,n$,$y_i$是一维向量,$x_i$是p维向量,$e_i$是独立同分布的随机误差,期望为0,方差为$\sigma^2$。用最小二乘法得到决定$\beta$的最小二乘估计$\hat{\beta}$的线性方程组

对于这个解的过程,我们又如下结论

  • 所得$\hat{\beta}$是$\beta$的线性无偏估计
  • 对$\beta$的任一个线性函数$c’\beta$,其最小二乘估计$c’\hat{\beta}$也是线性无偏估计
  • (高斯-马尔科夫定理),在一切$c’\beta$的一切线性无偏估计中,只有最小二乘估计$c’\beta$的方差达到最小。

其他方法。在收集数据时有很多误差,这里我们指的是误记这种可以避免的错误,如果一种统计方法受少量异常值的影响比较小,则称该方法具有稳健性。最小二乘法是一种稳健性很差的方法,原因在于目标函数是误差的平方,增长的比较快。

想解决这个问题,可以用比平方更慢的函数$p$去代替平方,当$p(\mu)=|\mu|$时,引出的估计是最小一乘估计,也被称为最小绝对偏差估计。进一步可推广得到M估计。

高斯分布

狄莫弗于1730-1733年之间已经从二项分布逼近的途径得到了正态密度函数,但直到1809年,高斯提出正态误差理论,它才作为概率分布引起人们的重视,并在社会、经济、遗传学等领域引导了大量工作。

有了正态就有偏态,19世纪末卡尔皮尔逊提出皮尔逊分布族,发展了偏态分布

正态分布有一维模型,也有多维模型,它的发展也经历了两个阶段,起先是作为测量误差的分布,之后才是作为其他数据的模型,之所以有那个差别,是因为在20世纪以前,观测数据统计数据是两个不同概念。前者典型例子如测某人身高,它的平均值(真正身高)是真实存在的,处理它被认为需要高等数学。后者典型例子如对一群人每个人的身高做测量,这种平均值是虚幻的,处理它被认为需要相对频率数据。

但现在我们很容易统一:测量一群人的身高$x_1,x_2,\dots,x_n$,可以把它们想像成从无穷多人组成的总体抽取的样本,相应的,这无穷总体中个体的某项指标,比如身高,可以赋予一定的总体分布,例如正态分布$N(a,\sigma^2)$,这样的话,上述测量结果无非就是群集在“实在的”值a周围一些“观测值”,从而对一个人(身高值为$a$,测量方差为$\sigma^2$)的多次重复测量值无差别。

最小二乘法必须结合误差分布理论才能确定地位,不然只是算法而已,而这一切最终都得归结在天文学上。

16世纪初,天文学家第谷做了大量观测工作,这些数据为开普勒和牛顿的工作奠定了基础。
1632年,伽利略第一次提到随机误差的概念,他针对误差提出了以下几点观点,并基于这几条提出了$|x|$的误差分布。1755年,辛普森对天文学家提出的平均值提出质疑,并想在知道误差分布的前提下,去计算平均误差的分布,并想证明$P(|\overline{e}| \leq k) >= P(|\overline{e_1}| \leq k) $辛普森使用了一个特殊的分布证明了这个事实。拉格朗日沿着这个方法进行了研究。

拉普拉斯不是先假定一种误差分布然后证明取平均值的优良性,而是直接涉及误差论基本问题,即应取怎样的分布为误差分布,以及在决定了误差分布后,如何根据未知量$\theta$的多次测量结果$X_1,X_2,\dots$去估算$\theta$。1722年,拉普拉斯根绝自己对误差的几点假设提出了拉普拉斯分布,即误差密度函数为$f(x)=\frac{m}{2}e^{-m|x|}$

关于高斯的工作请看《正态分布的前世今生》其基本思路一是令基于各测量值的误差密度函数乘积达到最大值。即极大似然估计。基本思路二是先假设平均值为估计值,倒推出分布为正态分布,并结合使误差密度概率最大的原则推出了最小二乘估计。

拉普拉斯在了解高斯工作之后,结合中心极限定理,提出如果误差可以看成许多量的叠加,那么误差应该有高斯分布,这是历史上第一次提出元误差学说,这解决了高斯在推导高斯分布时进行循环论证的问题。

19世纪,数据域正态分布拟合不好的情况逐渐被发现,从测量误差的角度,1903年格兰姆和齐勒把随机误差X的分布表示成一个级数,第一项为正态分布,以后各项视为由X的非正态性带来的修正。

卡尔皮尔逊后来研究这个问题是一种实用目的,即找到一些分布拟合从实际问题中带来的数据,以便在正态分布不适用时可供选择使用,1893年,皮尔逊开始研究偏态分布,得到$\gamma 分布族$的结果,他把这称为”正态曲线的推广形式,具有非对称的性质”

0%