深度学习数学基础

概率

贝叶斯

贝叶斯公式

$$p(Y|X)=\\frac{p(X|Y)p(Y)}{p(X)}$$

先验:$p(Y)$,后验:$p(Y|X)$,似然:$p(X|Y)$

$p(X)$可以看做是归一化的量,也可以写成

$$\\int\_Y P(X|Y)p(Y)\\mathrm{d}Y$$

极大似然估计,极大后验估计可以看这个

期望与方差

条件期望

$$E(X|Y=y)=\\sum\_{x\\in \\mathcal X} x P(X=x|Y=y)$$

方差与期望的关系

$$\\mathrm{var}(X)=E(X^2)-E(X)^2$$

两个变量的协方差:

$$\\mathrm{cov}(X,Y)=E\_{x,y}\[(X-E(X))(Y-E(Y))\]$$

协方差反映两个变量的相关程度,正相关则协方差为正,独立则协方为零。

两个向量$\bm X=(X_1,\cdots,X_n)^T,\bm Y=(Y_1,\cdots,Y_n)^T$的协方差矩阵

$$\\mathrm{cov}(\\bm X,\\bm Y)=\\Big(\\mathrm{cov}(X\_i,Y\_j)\\Big)\_{n\\times n}$$

正态分布

参数为$\mu,\sigma$的正态分布的密度函数,

$$N(x|\\mu,\\sigma^2)=\\frac{1}{\\sqrt{2\\pi}\\sigma}\\exp\\left(-\\frac{1}{2\\sigma^2}(x-\\mu)^2\\right)$$

正态分布均值为$\mu$,方差为$\sigma^2$。

高维正态分布

$\bm x$是一个$D$维向量,$\bm \mu$是均值,$\bm \Sigma$是协方差矩阵,密度函数如下

$$N(\\bm x|\\bm \\mu,\\bm \\Sigma)=\\frac{1}{(2\\pi)^{D/2}}\\frac{1}{|\\bm \\Sigma|^{1/2}}\\exp\\left(-\\frac{1}{2}(\\bm x-\\bm \\mu)\\bm \\Sigma^{-1}(\\bm x-\\bm \\mu)\\right)$$

正态分布的极大似然解

假设我们对一个变量$x$有$n$次独立的观察$\bm x=(x_1,\cdots,x_n)$,极大似然就是要最大化

$$p(\\bm x|\\mu,\\sigma^2)=\\prod\_{i=1}^n N(x\_n|\\mu,\\sigma^2)$$

取对数,

$$\\ln p(\\bm x|\\mu,\\sigma^2)=-\\frac{1}{2\\sigma^2}\\sum\_{i=1}^n(x\_i-\\mu)^2-\\frac{n}{2}\\ln \\sigma^2-\\frac{n}{2}\\ln(2\\pi)$$

不难解得最值点为

$$\\mu\_{ML}=\\frac{1}{n}\\sum\_{i=1}^n x\_i\\qquad\\sigma^2\_{ML}=\\frac{1}{n}\\sum\_{i=1}^n(x\_i-\\mu\_{ML})^2$$

信息论

自信息

$$I(A)=-\\log P(A)$$

事件$A$发生的概率越大,那么自信息就越小。

自信息也称信息量

香农熵

随机变量$X$的香农熵就是其自信息的期望,即

$$H(X)=E\_{x\\sim P}\[I(x)\]=-E\_{x\\sim P}\[\\log P(x)\]=\\int -P(x)\\log P(x)\\mathrm{d} x$$

$x\sim P$指按概率密度函数$P(x)$计算期望。

若对数的底数取为$2$,那么香农熵就是对$X$进行哈夫曼编码的期望长度。

KL散度

KL散度可以衡量两个分布$P(x)$和$Q(x)$的相似程度

$$D\_{KL}(P||Q)=E\_{x\\sim P}\\left\[\\log\\frac{P(x)}{Q(x)}\\right\]=E\_{x\\sim P}\[\\log P(x)-\\log Q(x)\]$$

KL散度又称相对熵。KL散度是非负的,且是一种不对称的衡量。

KL散度的非负性

(吉布斯不等式)若$\sum_{i=1}^n p_i=\sum_{i=1}^n q_i=1$,且$p_i,q_i\in (0,1]$,则有

$$-\\sum\_{i=1}^n p\_i\\log p\_i\\le -\\sum\_{i=1}p\_i\\log q\_i$$

等号成立当且仅当$p_i=q_i$。

证明:

$\log_a x$是$\ln x$的常数倍,不妨只考虑$\ln$的情况,由于$\ln x\le x-1$,

$$\\sum\_{i=1}^n p\_i\\ln\\left(\\frac{q\_i}{p\_i}\\right)\\le \\sum\_{i=1}^n p\_i\\left(\\frac{p\_i}{q\_i}-1\\right)=0$$

证毕

KL散度的不对称性

注意到$D_{KL}(P||Q)$与$D_{KL}(Q||P)$并不相等。

假设给定分布$P$,需要求一个服从特定分布(例如正态分布)的$Q$,使得$P$和$Q$尽量“相近”,那么就有两种方式:

  1. $Q^* = \argmin_Q D_{KL}(P||Q)$

  2. $Q^* = \argmin_Q D_{KL}(Q||P)$

第一种偏向于“$P$高$Q$高”,第二种倾向于“$P$低$Q$低”,如图。

交叉熵

$$H(P,Q)=-E\_{x\\sim P}\[\\log Q(x)\]$$

可以注意到交叉熵就是香农熵和KL散度的和,即

$$H(P,Q)=H(P)+D\_{KL}(P||Q)$$

交叉熵表示基于分布$Q$(往往是人们猜测or估计的)对一个服从分布$P$(往往是真实但不可知的)的变量进行编码的期望长度。

那么KL散度就可以理解为用错误分布进行编码耗费的额外长度。

如何通俗的解释交叉熵与相对熵? - erwin的回答 - 知乎

Licensed under CC BY-NC-SA 4.0
Built with Hugo
Theme Stack designed by Jimmy