高斯分布
正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
高斯分布
一 大纲
- 为什么我们关注高斯分布
- 各分布概率密度分布函数的熵
- 中心极限定理
- 单变量高斯模型
- 多变量高斯模型
二 Why 高斯分布
- 在大自然中高斯分布如同阳光,空气一般的常见
- 我们需要使用它去理解贝叶斯分类优化
- 我们需要使用它去理解回归分析
- 我们需要使用它去理解神经网络
- 我们需要使用它去理解混合模型
- 我们也可以使用它去找女朋友,哈哈哈
- … …
三 各分布概率密度分布函数(probability density functions)的熵
3.1 信息熵
所谓信息熵,是一个数学上颇为抽象的概念,在这里不妨把信息熵理解成某种特定信息的出现概率。一般而言,当一种信息出现概率更高的时候,表明它被传播得更广泛,或者说,被引用的程度更高。我们可以认为,从信息传播的角度来看,信息熵可以表示信息的价值。这样子我们就有一个衡量信息价值高低的标准,可以做出关于知识流通问题的更多推论。
X的熵计算:
一般的如果某一分布的熵越大,那么:
- 预测就更难
- 压缩就更难
- 极端更少
3.1 Box 分布
分布概率分布函数:
3.2 单位方差的 Box 分布
3.3 单位方差的 Hat 分布
3.4 单位方差的 2-spikes 分布
3.5 单位方差的高斯分布(正态分布)
3.6 各分布的熵
分布 | 熵 |
---|---|
Box | 1.242 |
Hat | 1.396 |
2 spikes | 负无穷 |
正态分布 | 1.4189 |
ps:正态分布是在方差为1的分布中熵最大的分布
四 中心极限定理(central limit theorem)
设随机变量序列相互独立,均具有相同的数学期望与方差,且 定义, 则当N充分大时,N近似服从均值为μ、方差为 的正态分布,即X~N(U,O)。
中心极限定理也就解释了,为什么正态分布在大自然中如阳光般的常见。大自然中有很多重复例样,但又不完成相同。比如某天10个人去买彩票(事件相互独立),那么用中心极限定理就可以很容易的知道,这10个人中奖平均值是服从正态分布。生活中这样的例子简直恒河沙数。 PS:人类乃至整个宇宙当中很多事件事务都和相似或自相似。以前听一个学数学老师说分形,分形学中有这么一个观点万物都是自相似的。