欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 科技 > IT业 > 深入简出:KL散度、交叉熵、熵、信息量简介、交叉熵损失

深入简出:KL散度、交叉熵、熵、信息量简介、交叉熵损失

2025/4/19 14:25:40 来源:https://blog.csdn.net/qq_44846964/article/details/147337754  浏览:    关键词:深入简出:KL散度、交叉熵、熵、信息量简介、交叉熵损失

学习这些的最终目的

1、量化两个概率分布的差异

2、推导交叉熵损失

一、KL散度

KL散度就是用来量化两个概论分布的差异,如何量化?

计算真实概论分布P信息量估计概论分布为Q,但实际概率分布为P信息量的差值

那么设,概率分布为P时的信息量为H(P),估计概论分布为Q,但实际概率分布为q时的信息量为H(P,Q)

那么两个概率分布差异的量化为:D(P,Q) = H(P) - H(P,Q),注意D(P,Q) 不等于 D(Q,P)

Q估计P的信息量可以用交叉熵(H(P,Q))来计算,P本身信息量可以用熵(H(P))来计算

二、交叉熵

交叉熵是用于,使用“估计分布”下,对真实分布的期望信息量估计

如何估计?

设,每个事件,真实发生概率为pi = x,对应的估计事件的信息量为Ii

那么交叉熵H(P,Q) = \sumpi * Ii,就是用每个事件真实的概率 乘上 估计概率分布对应事件的信息量代表估计概率分布q对真实概率分布q的期望信息量估计

三、熵

熵表示一个概率分布下的期望信息量

设,每个事件,真实发生概率为pi = x,对应的事件的信息量为Ii

H(P) = \sumpi * Ii

到此,我们可以发现,如果估计概率分布和真实概率分布一致,那么D(P,Q)应该为0

四、信息量

现在只差如何定义信息量了

在信息论中,某个事件的信息量(self-information)定义为

I(x)=log(\frac{1}{p(x)}),p为事件x发生的概率,即事件发生的概率越低,它带来的信息量越大

下图是I(X)的函数图像,x属于[0,1],I属于[0,+00]

举个例子来说

小明不中彩票,带来的信息量很小,因为这是很正常的一件事

但如果小明中了彩票,就带来了较大的信息量,因为这是小概率事件

五、交叉熵损失

对于模型的预测,以分类为例,模型会给出每个类别的概率,可以认为是概率分布Q,真实分布为P,那么P和Q差异的量化就是D(P,Q),对D(P,Q)求梯度,就得到了交叉熵损失

六、结语

表述可能不准确,大家意会

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com