统计|数理统计简史(三)

这本书后面章节已经比较难懂,想要读懂需要更基础的入门知识,而且我对那部分的内容兴趣也不大,因而不会再做更细致的总结,《数理统计学简史》一书阅读基本结束。

这是一本非常好的科普书,帮助我厘清了很多概念,让我对以前学过的知识有了更深入的理解。我还买了这本书的实体版,pdf+实体书的虚实结合阅读体验不错。之后是从最基础部分一步步入门,抑或是作为一个非科班研究者以学习其他人的总结为主,还有待评估,但总之不会结束。

一个小阵地贡献了,还有无数大的阵地,学海无涯,且行且清醒。

统计学历史

统计学(Statistics)一词本就出自意大利语,词根兼有”国家”和”情况”的含义。统计学和国家统计关系密切。在国情统计的过程中,格朗特及其《观察》扮演着重要的角色,本书出版于1662年,可被认为是统计学的起点。

这本书提出的一些主要创新思想如下

  • 数据简约(data reduction)的概念,即把大量数据整理成表格
  • 提出并举例处理了数据的可信性问题。
  • 统计比率的稳定性概念,指某种特性出现的频率,岁观察次数增加而趋于稳定。
  • 给出了现存人口年龄分布的生命表。

佩蒂于1690年出版《政治算术》遗书,采用数据来分析政治、经济、社会问题,这也是一个新的思想。阿布子诺特于1710年写了文章研究男女出生比例问题,引出了假设检验。魁特奈特所做的统计工作,大部分和人口调查有关,他引入了比例法和代表性抽样,由于这种方法的局限性,引出了数据同质性问题,即比如说比较身高,大学生和小学生放在一起比较是没意义的,因为它们是不同质的。魁特奈特认为:可以把一批数据是否能充分好地拟合一个正态分布,作为该批数据是否同质的一个判据。,但他采用的方法较繁琐,且不同质的数据有时候也能拟合高斯分布(后文介绍)。其还引入社会学上普通人的概念。

回归与相关:发现与早期发展

回归相关时一个重要的工具,它沟通了原来不相关的两个领域:误差论线性模型和统计学。代表性成果是费歇尔的方差分析。

高尔登是正态分布的坚定支持者,在各种社会数据中都成功应用了正态分布,但这个在处理遗传身高问题时遇到了逻辑漏洞。考察亲子两代身高数据,发现其遵守同一正态分布。但是按照拉普拉斯中心极限定理,正态分布是大量但每一个作用较小的因素的作用,但遗传是显著因素,按道理应该是高的孩子更高,低的更低,最终两极分化,这和亲子都是稳态分布相悖。高尔登为了解决这个问题,发现了回归。

设想一个苹果园,不同位置是显著因素(阳光多的地方长得好),在不同位置的苹果大小会呈现正态分布,所有苹果合起来也是正态分布,这是因为阳光也是由各种小正态分布合成的。高尔登设计了如下高尔顿钉板,用以模拟二项分布,进而模拟正态分布。一共有$n$排钉子,各槽内球数服从二项分布$B(n,\frac{1}{2})$

高尔登为了解决上面的问题,创造性地设计了另外外一个装置。图中每段标黑的部分可视为一个新的源,底部原先的大正态分布是各种诸如1,2,3的小正态分布的和。横板$AB$在这里可以看成是一个显著因素。

这个发现的意义是实用层面的,他把正态分布创造性地解释遗传现象,也解释了文首魁特奈特用正态拟合作为数据同质性判断提供了理论。

高尔登也解决了回归问题,即子代身高有向母代中心靠近的趋势。子代均值与母代相同可以通过对称性来解释,至于子代方差,若没有回归,子代会因为条件方差而变大,但现在由于回归使得子代均值有了收缩。相应缩小了方差,从而抵消了增长。解释图可参考下图。

0%