信息论基础

信息熵
一个离散型随机变量X的信息上定义为\[H(X) = -\sum_i p_i\log p_i.\]这里\(p_i = Pr(X=x_i).\)若对数以2为底,其单位是比特;若以e为底,单位是奈特。
信息熵的本质是信息量\(I(X) = -\log P(X)\)的数学期望,是对随机变量不确定性的度量,H(X)越大表征X的不确定性越大。当X为固定值时, H(X)=0;当X为均匀随机变量时, H(X)最大。

对于两个离散型随机变量X和Y,其联合熵定义为\[H(X,Y) = -\sum_i\sum_j p_{i,j}\log p_{i,j}.\]这里\(p_{i,j}=Pr(X=x_i,Y=y_j).\)联合熵是对二元随机变量的直接推广。

条件熵
给定\(Y=y\)时,X的条件熵定义为\[H(X|Y=y)=-\sum_X P(X|Y=y)\log P(X|Y=y).\]
性质:
(1) \(H(X|Y)\le H(X).\)
(2) \(H(X, Y) = H(X) + H(Y|X) = H(Y) + H(X|Y).\)
(3) \(I(X; Y) + H(X, Y) = H(X) + H(Y).\)

交叉熵与KL散度
交叉熵常用作神经网络与逻辑回归的代价函数。设\(P(X)\)为X的真实分布,\(Q(X)\)为X的预测分布,交叉熵常用于衡量P(X)与Q(X)的相似性。
交叉熵的定义为\[CEH(P,Q) =- \sum_i p_i\log q_i.\] 这里\(p_i = Pr(P(X)=x_i), q_i=Pr(Q(X)=x_i).\)

KL散度又称相对熵,其定义为\[D_{KL}(P||Q) = E_P[\log\frac{P(x)}{Q(x)}]=\sum_i p_i\log\frac{p_i}{q_i}.\]
性质:
(1) \(CEH(P,Q) = H(p) + D_{KL}(P||Q).\) 当P确定时,二者仅相差一个常数。
(2) \(D_{KL}(P||Q)\ge 0.\) 等号成立当且仅当二者分布相同。

    所属分类:机器学习     发表于2022-02-05