信息论 | Notion

<aside> 🔑 定义：信息论是很多工科领域的基础，在机器学习中信息论主要用于描述概率分布或者量化概率分布之间的相似性

</aside>

基本思想：

一个不太可能发生的事情居然发生，要比一个非常可能发生的事情发生提供更多的信息。

如：**“今天早上有太阳”这句话的信息相对“今天早上有日食”**这句话的信息要少很多。

满足的性质：

定义一个事件 x = x 的的自信息为（单位为1奈特）：

$$ I(x)=-logP(x) $$

自信息只处理单个输出，而香农熵可以对整个概率分布中的不确定性总量进行量化：

$$ H(x)=-E_{x\sim P}[logP(x)] $$

<aside> 🔑

一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量。

</aside>

在二项随机变量中（如上图），当p 接近于1 时，分布也几乎是确定的，因为随机变量几乎总是1，当 p 接近于0 时，同理，分布几乎是确定的，因为随机变量几乎总是0。当**$p=0.5$**时，熵是最大的，因为分布在两个结果（0和1）上是均匀的。