博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
交叉熵与相对熵
阅读量:6252 次
发布时间:2019-06-22

本文共 1032 字,大约阅读时间需要 3 分钟。

    熵的本质是香农信息量(
log\frac{1}{p})的期望。

 

    现有关于样本集的2个概率分布p和q,其中p为真实分布,q非真实分布。

    按照真实分布p来衡量识别一个样本的所需要的编码长度的期望(即平均编码长度)为:H(p)=\sum_{i}^{} p(i)*log\frac{1}{p(i)}

    如果使用错误分布q来表示来自真实分布p的平均编码长度,则应该是:H(p,q)=\sum_{i}^{} p(i)*log\frac{1}{q(i)}因为用q来编码的样本来自分布p,所以期望H(p,q)中概率是p(i)。H(p,q)我们称之为“交叉熵”。

 

    比如含有4个字母(A,B,C,D)的数据集中,真实分布p=(1/2, 1/2, 0, 0),即A和B出现的概率均为1/2,C和D出现的概率都为0。计算H(p)为1,即只需要1位编码即可识别A和B。如果使用分布Q=(1/4, 1/4, 1/4, 1/4)来编码则得到

H(p,q)=2,即需要2位编码来识别A和B(当然还有C和D,尽管C和D并不会出现,因为真实分布p中C和D出现的概率为0,这里就钦定概率为0的事件不会发生啦)。

    

    可以看到上例中根据非真实分布q得到的平均编码长度H(p,q)大于根据真实分布p得到的平均编码长度H(p)。事实上,根据可知,H(p,q)>=H(p)恒成立,当q为真实分布p时取等号我们将由q得到的平均编码长度比由p得到的平均编码长度多出的bit数称为“相对熵”:D(p||q)=H(p,q)-H(p)=\sum_{i}^{} p(i)*log\frac{p(i)}{q(i)},其又被称为KL散度(Kullback–Leibler divergence,KLD) 。它表示2个函数或概率分布的差异性:差

 

异越大则相对熵越大,差异越小则相对熵越小,特别地,若2者相同则熵为0。注意,KL散度的非对称性。

 

    比如TD-IDF算法就可以理解为相对熵的应用:词频在整个语料库的分布与词频在具体文档中分布之间的差异性。

 

    交叉熵可在神经网络(机器学习)中作为损失函数,p表示真实标记的分布,q则为训练后的模型的预测标记分布,交叉熵损失函数可以衡量p与q的相似性。交叉熵作为损失函数还有一个好处是使用sigmoid函数在梯度下降时能避

 

免均方误差损失函数学习速率降低的问题,因为学习速率可以被输出的误差所控制。

 
    PS:通常“相对熵”也可称为“交叉熵”,因为真实分布p是固定的,D(p||q)由H(p,q)决定。当然也有特殊情况,彼时2者须区别对待。

转载于:https://www.cnblogs.com/Libo-Master/p/7597710.html

你可能感兴趣的文章
qt 学习之路2
查看>>
算法分析-快速排序QUICK-SORT
查看>>
线上应用故障排查之二:高内存占用
查看>>
第四次作业
查看>>
异常处理汇总 ~ 修正果带着你的Code飞奔吧!
查看>>
百度地图需要的效果-有感
查看>>
BZOJ 1853: [Scoi2010]幸运数字
查看>>
BFS --- 素数环
查看>>
PCIE_DMA:xapp1052学习笔记
查看>>
给报表增加页眉
查看>>
python ----字符串基础练习题30道
查看>>
K 班1-7,alpha,beta 作业成绩汇总
查看>>
uva-10879-因数分解
查看>>
python 调用aiohttp
查看>>
Spring Boot中使用MyBatis注解配置详解
查看>>
linux下文件的一些文件颜色的含义
查看>>
跨域iframe高度自适应(兼容IE/FF/OP/Chrome)
查看>>
基于WinDbg的内存泄漏分析
查看>>
如何花更少的时间学习更多的知识
查看>>
学习鸟哥的Linux私房菜笔记(8)——文件查找与文件管理2
查看>>