统计学习 | 高斯分布

工程领域很多研究问题本质上都是信息处理问题。这里可以举一个广义的例子,就自动驾驶系统的感知过程而言,环境就是信息源,传感器编码环境信息,认知算法对信息进行解码获得能完成驾驶任务的信息。

信息处理中一个经典问题是对不确定性建模,而推开不确定性的神圣青铜门,我们会发现高斯分布坐在正中间。

正态分布数学定义

正态分布对应的密度函数表达式
归一化后的密度函数表达式

正态分布产生历史
  • 由赌徒问题得到的二项分布问题,需要求解$2npqb(n,p,np)$的值,在此过程中逐渐发展出中心极限定理。即二项分布在n趋近于无穷的时候,其极限分布都有正态的性质。
  • 勒让德发明最小二乘法,用来解决线性矛盾方程组的问题。即累积误差等于观测值减去理论值之后的平方和,之后令累计误差最小来计算参数,它的优点如下:
    • 最小二乘法使得误差平方和最小,并在各个方程的误差之间建立了一种平衡,从而防止某一个极端误差取得支配地位;
    • 计算中只要求偏导后求解线性方程组,计算过程明确便捷;
    • 最小二乘法可以导出算术平均值作为估计值。
  • 误差分布有一些基本特性:
    • 观测数据存在误差;
    • 误差是对称分布
    • 大误差概率低,小误差概率大。
      基于以上特性统计学家分别发明了辛普森误差分布拉普拉斯误差分布。高斯独辟蹊径开创了一条道路。如下公式,$\theta$为真值,$e_i$为每次测量误差,$f(e)$为该误差密度函数,测量值的联合概率为n个误差的联合概率

取使$L(\theta)$最大的$\theta$为最终值,即极大似然估计。高斯的天才之处在于令算术平均值等于\theta,由此解出$f(x)$就是正态分布函数$N(0,\sigma^2)$

正态分布的推导过程

高斯让平均数等于极大似然数,计算出了高斯分布(不困难,可查),而其他领域的科学家也各自从自己所属领域独立推出了正态分布,条条大道通罗马,正态分布藏着世界关于概率的终极秘密,了解这样概率可以帮助我们进一步认识正态分布。

  • 高斯采用的是取对数、求导、求解方程的方法得出来的,过程很简单,可自行搜索。

  • 赫歇尔和麦克斯韦 基于空间几何的不变性推出了高斯分布。其考虑二维误差分布$p(x,y)$,提出的假设如下

    • x轴和y轴的误差是相互独立的,即随机误差在正交的方向上相互独立
    • 误差的概率分布在空间上具有旋转对称性,即误差的概率分布和角度没有关系
  • 电气工程师兰登通过噪声分布推导。他们的推导基于以下准则:

    • 随机噪声具有稳定的分布模式
    • 累加一个微小的随机噪声,不改变其稳定的分布模式,只改变分布的层级 (用方差度量)
      $X\sim p(x;\sigma^2), \epsilon \sim q(e), X’= X+\epsilon$,则$X’ \sim p(x;\sigma^2 + var(\epsilon))$,
      这个公式给出了自然界噪音的形成过程,这是中心极限定理的增量版本,相比中心极限定理是一次累加,这是逐次累加。另外,我们可以推断,正态分布具有相当好的稳定性;只要数据中正态的模式已经形成,他就容易继续保持正态分布
  • 基于最大熵的推导。熵可定义为$H(p) = -\int p(x)\log p(x) dx$,给定一个分布密度函数$p(x)$的均值$\mu$和方差$\sigma$,求满足熵最大的概率分布$p(x|\mu, \sigma^2)$,解出的就是正态分布。

正态分布的通用性解释
  • 正态分布之所以有这么高的地位,一个很重要的原因是随着中心极限定理发展,我们发现,随意的一个概率分布中生成的随机变量,在序列和 (或者等价的求算术平均) 的操作之下,表现出如此一致的行为,统一的规约到正态分布
  • 高尔顿钉板,这说明在自然界各种随机因素的影响下,最终会形成正态分布。而对于典型的遗传现象,我们可以认为是隔断的正态分布。
  • 正态分布具有稳定的性质,如下前三个保证正态分布一旦形成,就具有稳定的性质。后两个说明在自然庆情况下,其它分布会逐渐趋近于正态分布。
    1. 两个正态分布密度的乘积还是正态分布
    2. 两个正态分布密度的卷积还是正态分布,也就是两个独立正态分布的和还是正态分布
    3. 正态分布$N(0,\sigma^2)$的傅立叶变换正规化为密度分布后还是正态分布
    4. 中心极限定理保证了多个随机变量的求和效应将导致正态分布
    5. 正态分布和其它具有相同均值、方差的概率分布相比,具有最大熵
正态分布的其他性质
  • 二项分布 $B(n,p)$在n很大逼近正态分布 $N(np,np(1-p))$。
  • 泊松分布$Possion(\lambda)$在$\lambda$ 较大时逼近正态分布$N(\lambda,\lambda)$。
  • $\chi_{(n)}^2$在 n很大的时候逼近正态分布$N(n,2n)$。
  • t分布在 n 很大时逼近标准正态分布 $N(0,1)$。
  • 正态分布的共轭分布还是正态分布。
  • 几乎所有的极大似然估计在样本量n增大的时候都趋近于正态分布。
  • 如果 X,Y是独立随机变量,且S=X+Y是正态分布,那么X,Y也是正态分布。
  • 如果 X,Y 独立且满足正态分布$N(\mu,\sigma^2)$,那么X+Y,X-Y独立且同分布,而正态分布是唯一满足这一性质的概率分布。
  • 对于两个正态分布X,Y,如果X,Y不相关则意味着X,Y独立,而正态分布是唯一满足这性质的概率分布。
  • 现在科学界的三大分布,$\chi^2$分布,t分布,F分布都可以转换为正态分布。
0%