1. 互信息

<aside> 📖 定义

对两个离散随机事件集$X$和$Y$,事件$y_j$的出现给出关于$x_i$的信息量,即为互信息量。

在概率论和信息论中,两个随机变量的互信息(Mutual Information,简称MI)或转移信息(trans-information)是变量间相互依赖性的量度。

互信息是点间互信息(PMI)的期望值。互信息最常用的单位是bit。


两个离散随机变量X和Y的互信息定义为:

$$ I(X;Y)=-\sum\sum p(x,y)\log(\frac{p(x)p(y)}{p(x,y)}) $$

</aside>

<aside> 📖 互信息的性质

Information diagram

Information diagram

  1. 非负性

  2. 对称性

  3. 可被等价表示为:

    $$ \begin{aligned} I(X;Y) &= H(X)-H(X|Y) \\&=H(Y)-H(Y|X) \\ &=H(X)+H(Y)-H(X,Y) \\ &= H(X,Y) - H(X|Y) - H(Y|X)\end{aligned} $$

</aside>

2. 信息增益

<aside> 📖 定义

在信息增益中,衡量标准是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。对一个特征而言,系统有它和没它时信息量将发生变化,而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息量,就是熵。


如果$\mu$是集合$X$上的任何测度,即有 $p=\frac{dP}{d\mu}$ 和 $q=\frac{dQ}{d\mu}$ 存在,那么从P到Q的信息增益可定义为:

$$ Gain(P,Q)=-\int_Xp\ln{\frac qp}d\mu $$


特征T给聚类C或分类C带来的信息增益为 $IG(T) = H(C) - H(C|T)$

</aside>

<aside> 📖 信息增益率

信息增益率是指属性的信息增益量相对于该属性熵值的比值

$$ GainRatio(T,P)=\frac{Gain(T,P)}{Entropy(T,P)} $$

</aside>

3. 基尼系数

<aside> 📖 定义

基尼指数是另外一种数据的不纯度的度量方法,其定义如下:

$$ Gini(D)=1-\sum^m_{i=1}p_i^2 $$

其中的 $m$ 仍然表示数据集$D$中类别$C$的个数,$p_i$ 表示$D$中任意一个记录属于$C_i$的概率。

</aside>