交叉熵
定义公式
-
针对离散变量x的概率分布 p ( x ) p(x) p(x) , q ( x ) q(x) q(x)
x 1 x_1 x1 x 2 x_2 x2 x 3 x_3 x3 x 4 x_4 x4 … x n x_n xn p( x 1 x_1 x1) p( x 2 x_2 x2) p( x 3 x_3 x3) p( x 4 x_4 x4) … p( x n x_n xn) q( x 1 x_1 x1) q( x 2 x_2 x2) q( x 3 x_3 x3) q( x 4 x_4 x4) … q( x 5 x_5 x5) 其
交叉熵
定义为:
H ( P , Q ) = ∑ i = 1 n p ( x i ) log 1 q ( x i ) = − ∑ i = 1 n p ( x i ) log q ( x i ) \begin{aligned} H(P,Q) &= \sum\limits_{i=1}^np(x_i)\log \frac{1}{q(x_i)} \\ &= -\sum\limits_{i=1}^n p(x_i) \log q(x_i) \end{aligned} H(P,Q)=i=1∑np(xi)logq(xi)1=−i=1∑np(xi)logq(xi) -
交叉熵
可解释为:用基于p的编码去编码来自Q的样本,所需要的比特个数
性质
-
如果连个概率分布完全相等,交叉熵退化为熵
-
交叉熵不是距离,不具有对称性,也不满足三角不等式
-
当两个概率分布相等时,交叉熵有极小值
-
交叉熵与相对熵的关系,都反映了两个概率分布的差异程度。