新成

高斯分布

June 25, 2015 | 1 Minute Read

态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。

高斯分布

一 大纲

  • 为什么我们关注高斯分布
  • 各分布概率密度分布函数的熵
  • 中心极限定理
  • 单变量高斯模型
  • 多变量高斯模型

二 Why 高斯分布

  • 在大自然中高斯分布如同阳光,空气一般的常见
  • 我们需要使用它去理解贝叶斯分类优化
  • 我们需要使用它去理解回归分析
  • 我们需要使用它去理解神经网络
  • 我们需要使用它去理解混合模型
  • 我们也可以使用它去找女朋友,哈哈哈
  • … …

三 各分布概率密度分布函数(probability density functions)的熵

3.1 信息熵

所谓信息熵,是一个数学上颇为抽象的概念,在这里不妨把信息熵理解成某种特定信息的出现概率。一般而言,当一种信息出现概率更高的时候,表明它被传播得更广泛,或者说,被引用的程度更高。我们可以认为,从信息传播的角度来看,信息熵可以表示信息的价值。这样子我们就有一个衡量信息价值高低的标准,可以做出关于知识流通问题的更多推论。

X的熵计算: boxDistributiongFormula.png

一般的如果某一分布的熵越大,那么:

  • 预测就更难
  • 压缩就更难
  • 极端更少

3.1 Box 分布

boxDistributiongFormula.png

分布概率分布函数:

boxDistributiongFormula.png

boxDistributiongFormula.png

3.2 单位方差的 Box 分布

boxDistributiongFormula.png

boxDistributiongFormula.png

3.3 单位方差的 Hat 分布

boxDistributiongFormula.png

boxDistributiongFormula.png

3.4 单位方差的 2-spikes 分布

boxDistributiongFormula.png

boxDistributiongFormula.png

3.5 单位方差的高斯分布(正态分布)

boxDistributiongFormula.png

boxDistributiongFormula.png

3.6 各分布的熵

分布
Box 1.242
Hat 1.396
2 spikes 负无穷
正态分布 1.4189

ps:正态分布是在方差为1的分布中熵最大的分布

四 中心极限定理(central limit theorem)

设随机变量序列相互独立,均具有相同的数学期望与方差,且 定义, 则当N充分大时,N近似服从均值为μ、方差为 的正态分布,即X~N(U,O)

中心极限定理也就解释了,为什么正态分布在大自然中如阳光般的常见。大自然中有很多重复例样,但又不完成相同。比如某天10个人去买彩票(事件相互独立),那么用中心极限定理就可以很容易的知道,这10个人中奖平均值是服从正态分布。生活中这样的例子简直恒河沙数。 PS:人类乃至整个宇宙当中很多事件事务都和相似或自相似。以前听一个学数学老师说分形,分形学中有这么一个观点万物都是自相似的。