<aside> 📖 定义
联合熵是一个集合中的变量之间不确定性的衡量手段
对于两个离散的随机变量$X$和$Y$,联合熵的定义为
$$ H(X,Y)=-\sum_x{\sum_y{P(x,y)\log_2[P(x,y)]}} $$
若 $P(x,y) = 0$,则定义 $P(x,y)\log_2[P(x,y)]$ 的值为 0.
</aside>
<aside> 📖 联合熵性质
$$ H(X,Y)\geq\max{[H(X),H(Y)]} $$
在一个集合中,所有变量的联合熵小于或等于这个集合中变量的独立熵之和
$$ H(X,Y)\leq H(X)+H(Y) $$
这是次可加性的一个例子。该不等式有且只有在X和Y均为统计独立的时候相等。
</aside>
<aside> 📖 定义
条件熵量化了在已知一个随机变量$X$的条件下,描述未知的随机变量$Y$所需的信息
$$ \begin{aligned} H(Y|X) &= -\sum_x{p(x)H(Y|X=x)} \\ &= -\sum_{x,y}{p(x,y)\log\frac{p(x,y)}{p(x)}} \\ &= \sum_{x,y}{p(x,y)\log\frac{p(x)}{p(x,y)}}\end{aligned} $$
</aside>
<aside> 📖 条件熵的性质
<aside> 📖 定义
相对熵 (Relative Entropy) 又称为 KL 散度 (Kullback-Leibler Divergence, KLD),信息散度(Information Divergence),信表增益 (Information Gain),
是两个概率分布差别的非对称性的度量。
设$P(x),Q(x)$是随机变量$X$上的两个概率分布,
对于离散型随机变量:
$$ D_{KL}(P||Q)=-\sum{P(i)\log\frac {Q(i)}{P(i)}} $$
对于连续型随机变量:
$$ D_{KL}(P||Q)=-\int_{-\infty}^{+\infty}p(x)\log\frac{q(x)}{p(x)}dx $$
</aside>
<aside> 📖 相对熵的性质
非负性
不对称性
$$ \text{Let}D(P,Q)=\frac{[D_{KL}(P||Q)+D_{KL}(Q||P)]}{2} $$
</aside>
<aside> 📖 定义
在信息论中,基于相同事件测度的两个概率分布的交叉熵是指,当基于一个“非自然”(相对于“真实”分布而言)的概率分布进行编码时,在事件集合中唯一标识一个事件所需要的平均比特数 (bit)
基于概率分布$P$和$Q$的交叉熵定义为
$$ H(p,q)=E_p[-\log{q}]=H(p)+D_{KL}(P||Q) $$
对于离散型随机变量:
$$ H(p,q)=-\sum{p(x)\log{q(x)}} $$
</aside>
<aside> 📖 交叉熵性质