最近在复习,插播一下
原先的内容已经删除了,移动到here
这次也不会抄书了,没啥意思,会大部分是公式推导
Update: 20210726
概率分布
概率分布中,离散的概率分布叫概率质量函数,连续的叫概率密度函数
边缘概率
边缘概率也就是知道一个联合概率$P(x,y)$,求$P(x)$的过程,其实就是对另一个变量求和
连续的自然积分就可以
条件概率
条件概率公式就是,联合概率,除上单个随机变量的概率
链式法则
公式
那么这个是什么,那就是提出来一个$P(\textup{x}^{(1)})$之后,所有变量都要以$\textup{x}^{(1)}$和其之前的所有变量为条件的概率之积。
因为在逐步累乘的过程中,先前的所有都是已经发生的事实,因此直接乘上条件概率即可。
换一个思路,从条件概率公式入手的话,就会发现,如果把所有的条件概率都去掉,变成上下两个联合概率的形式,其实就是前一项的分母和后一项分子是相同的,越到最后其实就剩下了一个所有变量的联合概率了。
这个比较常用的就是联合概率的分解了比如$P(a,b,c)=P(a|b,c)P(b|c)P(c)$
独立性和条件独立性
如果两个随机变量的联合概率等于各自概率的乘积,那么两个变量独立,即
特殊的,如果有个条件变量,那么则变成
期望、方差、协方差
期望反映的是随机变量的平均值
方差反映的是对随机变量采样时,随便变量的函数值呈现的差异
协方差反映的是两个变量线性相关性的前度及变量的尺度
期望的公式
期望是线性的
概率论中的方差公式,注意这里外层的期望,其实就是随机变量与其均值之差平方的平均值(最后这个平均值值得注意一下,其实是有两个均值的)
统计中的方差公式,其实就是离散的情况
协方差公式
协方差矩阵是一个$n\times n$的矩阵
特殊的,
常见的概率分布
这里就不过多赘述了,一般表述的时候$p(x;a,b)$中,分号后面的$a,b$表示的是参数
Bernoulli分布
定义
性质
Multinoulli分布
也叫多项式分布,就是Bernoulli分布的扩展
Gasussian分布
也叫高斯分布、正态分布
标准正态分布中,$\mu=0,\sigma=1$
一种常用的替换方法是$\beta^{-1}=\sigma^2$,便于控制参数
挖个坑,求正态分布的积分,和后面提到的先验知识量最小
根据中心极限定理,正态分布更贴近真实的分布
另外,在具有相同方差的所有可能的概率分布中,正态分布在实数上具有最大的不确定性,因此,我们可以认为正态分布是对模型加入的先验知识量最小的分布
多维正态分布
参考
- 《深度学习》,Ian Goodfellow,Yoshua Bengio,Aaron Courville,人民邮电出版社