1. 联合熵

<aside> 📖 定义

联合熵是一个集合中的变量之间不确定性的衡量手段


对于两个离散的随机变量$X$和$Y$,联合熵的定义为

$$ H(X,Y)=-\sum_x{\sum_y{P(x,y)\log_2[P(x,y)]}} $$

若 $P(x,y) = 0$,则定义 $P(x,y)\log_2[P(x,y)]$ 的值为 0.

</aside>

<aside> 📖 联合熵性质

  1. 在一个集合中,所有变量的联合熵大于或等于这个集合中任意一个变量的独立熵

$$ H(X,Y)\geq\max{[H(X),H(Y)]} $$


  1. 在一个集合中,所有变量的联合熵小于或等于这个集合中变量的独立熵之和

    $$ H(X,Y)\leq H(X)+H(Y) $$

    这是次可加性的一个例子。该不等式有且只有在X和Y均为统计独立的时候相等。

</aside>

2. 条件熵

<aside> 📖 定义

条件熵量化了在已知一个随机变量$X$的条件下,描述未知的随机变量$Y$所需的信息

$$ \begin{aligned} H(Y|X) &= -\sum_x{p(x)H(Y|X=x)} \\ &= -\sum_{x,y}{p(x,y)\log\frac{p(x,y)}{p(x)}} \\ &= \sum_{x,y}{p(x,y)\log\frac{p(x)}{p(x,y)}}\end{aligned} $$

</aside>

<aside> 📖 条件熵的性质

  1. 条件熵等于零:
  2. 条件熵相互独立:
  3. 链式法则:
  4. 贝叶斯规则:

3. 相对熵

<aside> 📖 定义

相对熵 (Relative Entropy) 又称为 KL 散度 (Kullback-Leibler Divergence, KLD),信息散度(Information Divergence),信表增益 (Information Gain),

是两个概率分布差别的非对称性的度量。


设$P(x),Q(x)$是随机变量$X$上的两个概率分布,

对于离散型随机变量:

$$ D_{KL}(P||Q)=-\sum{P(i)\log\frac {Q(i)}{P(i)}} $$

对于连续型随机变量:

$$ D_{KL}(P||Q)=-\int_{-\infty}^{+\infty}p(x)\log\frac{q(x)}{p(x)}dx $$

</aside>

<aside> 📖 相对熵的性质

  1. 非负性

  2. 不对称性

    $$ \text{Let}D(P,Q)=\frac{[D_{KL}(P||Q)+D_{KL}(Q||P)]}{2} $$

</aside>

4. 交叉熵

<aside> 📖 定义

在信息论中,基于相同事件测度的两个概率分布的交叉熵是指,当基于一个“非自然”(相对于“真实”分布而言)的概率分布进行编码时,在事件集合中唯一标识一个事件所需要的平均比特数 (bit)


基于概率分布$P$和$Q$的交叉熵定义为

$$ H(p,q)=E_p[-\log{q}]=H(p)+D_{KL}(P||Q) $$

对于离散型随机变量:

$$ H(p,q)=-\sum{p(x)\log{q(x)}} $$

</aside>

<aside> 📖 交叉熵性质

  1. 不对称性