第2章 信源与信息熵
信源的分类与数学模型
无记忆信源
发出单个符号的无记忆信源
- 每次只发出一个符号代表一个信息的信源
$$ A=\{a_1,a_2,\cdots,a_n\}, X\in A $$
$$ \begin{bmatrix} \mathbf{X}\\ P \end{bmatrix}= \begin{bmatrix} a_1 & a_2 & \cdots & a_n\\ p(a_1) & p(a_2) & \cdots & p(a_n) \end{bmatrix} $$
$$ p(a_i)\geqslant0, \sum_{i=1}^{n}p(a_i)=1 $$
发出单个符号的连续无记忆信源
- 发出的消息也是单个符号,但消息数量是无限的,如测量干电池的电压值,取值为\([0,1.5]\)之间的所有实数,测量值随机
$$ \begin {bmatrix} X\\P \end {bmatrix}= \begin {bmatrix} (a,b)\\p_X(x) \end {bmatrix}或 \begin {bmatrix} \mathbf{R}\\p_X(x) \end {bmatrix} $$
$$ p_X(x)\geqslant0, \int_a^bp_X(x)\mathrm{dx}=1或\int_\mathbf{R}p_X(x)\mathrm{dx}=1 $$
发出符号序列的无记忆信源
- 每次发出一组含2个或以上符号的序号序列来代表一个消息,需要用随机矢量来描述\[\mathbf{X}=(X_1,X_2,\cdots,X_L)\]\[p(X_1,X_2,\cdots,X_L)=p(X_1)p(X_2)\cdots p(X_L)\]
- \(L=2\)时,信源的联合概率分布为
$$ \begin{bmatrix} \mathbf{X}\\ P \end{bmatrix}= \begin{bmatrix} a_1,a_1 & a_1,a_2 & \cdots & a_n,a_n\\ p(a_1,a_1) & p(a_1,a_2) & \cdots & p(a_n,a_n) \end{bmatrix} $$
$$ p(a_i,a_j)\geqslant0,\sum_{i,j=1}^np(a_i,a_j)=1 $$
平稳信源
定义
- 信源发出的序列的统计性质和时间的推移无关
分类
强平稳信源
- 信源输出序列的各维概率分布都不随时间推移而发生变化
弱平稳信源
- 输出序列均值与起始时刻无关而仅与时间间隔有关
离散平稳无记忆信源
(独立同分布)- 信源输出的每个符号都统计独立,且具有相同的概率空间
有记忆信源
定义
- 信源在不同时刻发出的符号之间是相互依赖的(既有记忆的,前后相互关联和影响)
数学模型
- 需引入条件概率来反映各个符号间的记忆特征
$$ p(x_1,x_2,x_3,\cdots,x_L)=p(x_L|X^{L-1})p(X^{L-1})=p(x_{L-1}|X^{L-2})p(X^{L-2})=\cdots $$
马尔可夫信源
定义
当信源的记忆长度为\(m+1\)时,该时刻发出的符号与前\(m\)个符号有关联性,而与更前面的符号无关,这样的有记忆信源称为\(m\)阶马尔可夫信源
- 注意:信源的记忆长度应该是阶数+1,如2阶马尔可夫信源的记忆长度应该是3,某时刻发出的符号与前2个符号有关
- 稳定马尔可夫信源:概率分布特性不随时间推移改变的马尔可夫信源,发出稳定马尔科夫链
- 齐次马尔可夫信源:转移概率(条件概率)不随时间推移而改变,发出序列为齐次马尔科夫链
数学模型
整体描述:可用马尔科夫链来进行描述
$$ \begin {align} p(x_1,x_2,x_3,\cdots,x_L)&=p(x_L|x_1,x_2,x_3,\cdots,x_{L-1})p(x_1,x_2,x_3,\cdots,x_{L-1})\\ &=p(x_L|x_{L-m},\cdots,x_{L-1})p(x_1,x_2,x_3,\cdots,x_{L-1})\\&=\cdots\cdots \end {align} $$
- 某时刻前出现的m个符号组成的序列,称状态;\( s_i\)代表一种状态,可以表示以上描述条件概率中的条件,共有\(Q=n^m\)种取值\[
s_i=(x_{i_1},x_{i_2},\cdots,x_{i_m}), x_{i_m}\in{A}=(a_1,a_2,\cdots,a_n)
\] - 符号条件概率:表示信源在某时刻出现符号\(x_j\)的概率与信源此时所处的状态\(s_i\)有关\[
p(x_j|s_i),i=1,2,\cdots,Q;j=1,2,\cdots,n
\] 状态转移概率:表示从\(s_i\)状态变换到\(s_j\)状态的概率
$$ p(s_j|s_i),i,j=1,2,\cdots,Q $$
更一般地,系统从\(m\)时刻的状态\(s_i\)转移到\(n\)时刻的状态\(s_j\)(经过\(n-m\)步)的概率可以表示为
$$ p_{ij}(m,n)=P\{s_j|s_i\},i,j\in S $$
通常特别关心\(n-m=1\)的情况,此时的状态转移概率称为基本转移概率,也称为一步转移概率
$$ p_{ij}(m,m+1)记为p_{ij}(m)=P\{S_{m+1}=j|S_m=i\}=p_{ij} $$
- 从而有\(k\)步转移概率为\[
p_{ij}^{(k)}(m)=P(S_{m+k}=j|S_m=i)=p_{ij}^{(k)}
\] 转移概率矩阵(一步)
$$ \mathbf{{P}}=\{p_{ij},i,j\in S\}= \begin{bmatrix} p_{11} & p_{12} & \cdots & p_{1Q} \\ p_{21} & p_{22} & \cdots & p_{2Q} \\ \vdots & \vdots & \ddots & \vdots \\ p_{Q1} & p_{Q2} & \cdots & p_{QQ} \\ \end{bmatrix} $$
- 行数对应\(i\),列数对应\(j\),每个元素\(p_{ij}\)表示从状态\(s_i\)转移到状态\(s_j\)的概率
- 每行之和为1,每列不一定为1
- 符号条件概率矩阵≠状态转移概率矩阵
稳态分布概率,满足\[
\sum_iW_ip_{ij}=W_j,\sum_iW_i=1
\]- 计算稳态分布概率时需满足的条件:遍历性,不可约性,非周期性
- 计算方法:利用矩阵点乘、解方程即可得出各稳态概率
香农线图(马尔可夫状态图)
- 在各圆圈中写上各状态的代号,箭头指从一个状态转移到另一个状态,上面的数字表示转移概率
- 箭头出发的状态表示初始状态(条件),指向的状态表示到达的状态(目标)
离散信源熵和互信息
自信息量
定义
具有概率\(p(x_i)\)的符号\(x_i\)的自信息量为
$$ I(x_i)=-\mathrm{log}p(x_i) $$
联合自信息量:
$$ I(x_i,y_j)=-\mathrm{log}p(x_i,y_j) $$
条件自信息量:表示在给定\(y_j\)条件符号下\(x_i\)出现时收信者得到的信息量
$$ I(x_i|y_j)=-\mathrm{log}p(x_i|y_j) $$
单位
- 对数底为2,单位为比特(\(bit\))
- 对数底为e,单位为奈特(\(nat\))
- 对数底为10,单位为笛特(\(det\))
理解
- 自信息量表示该符号出现后,提供给收信者的信息量是多少,一个量化的值
- 不确定度:也可理解成信源符号在发出前所存在的不确定度,出现概率越小,自信息量越大,发生的可能性小,不确定度越大;概率越接近1,说明发生的可能性特别大,很容易猜测是否发生,自信息量很小,不确定度也很小
性质
-\[
p(x_i)=1,I(x_i)=0;p(x_i)=0,I(x_i)=\infty
\]- 非负性:概率总是在\([0,1]\)区间内,因此自信息量一定大于0,不会是负数
单调递减性:
$$ 若p(x_1)<p(x_2),则I(x_1)>I(x_2) $$
可加性:若\(x_i,y_j\)相互独立,则
$$ p(x_i,y_j)=p(x_i)p(y_j),I(x_i,y_j)=I(x_i)+I(y_j) $$
离散信源熵
定义
- 总体平均意义上的信源不确定度,称为信源熵,是在平均意义上来表征信源总体特性的量
用信源中各符号自信息量的数学期望表示
$$ H(X)=E(I(X))=\sum_ip(x_i)I(x_i)=-\sum_ip(x_i)\mathrm{log}(p(x_i)) $$
条件熵:条件自信息量的联合概率加权均值
$$ H(X|Y)=-\sum_{i,j}p(x_i,y_j)\mathrm{log}p(x_i|y_j) $$
联合熵:每个元素对的自信息量的加权均值
$$ H(X,Y)=-\sum_{i,j}p(x_i,y_j)\mathrm{log}p(x_i,y_j) $$
满足关系
$$ \begin {matrix} H(X,Y)=H(X)+H(Y|X)\\ H(X,Y)=H(Y)+H(X|Y) \end {matrix} $$
单位:
$$ bit/sig $$
理解
- 与热熵相似,表征一个系统/信源的混乱程度,即所含有的不确定程度
性质
- 当信源给定,概率空间也随之确定,信源熵也相应是一个确定的值,不同概率空间熵值不同
- 因为概率处于\([0,1]\)区间,因此信源熵也是非负的
- 当某一符号的概率为0时,规定此时其在熵计算公式中的贡献也为0
- 当信源只包含一个符号时,则其概率确定,始终为1,此时信源熵为0,是确定性信源(区别于概率为0的情况)
互信息
定义
先验与后验
- 先验概率:从原因的角度看结果,如掷骰子掷到某个点数的概率\(p(x)\)
- 后验概率:从结果的角度看原因,如信源接收到符号\(y\)时信源发出\(x\)的概率(与条件概率区别)
接收者通过信道传输收到的信源\(X\)的信息量,即通过信道传输后不确定度的减少量
$$ \begin {matrix} \begin {align} I(X;Y)&=H(X)-H(X|Y)\\ &=\sum_{i,j}p(x_i,y_j)\mathrm{log}\frac{p(x_i|y_j)}{p(x_i)}\\ &=\sum_{i,j}p(x_i,y_j)\mathrm{log}\frac{p(y_j|x_i)}{p(y_j)}=I(Y;X) \end {align} \end {matrix} $$
互信息在集合\(X\)上的统计平均为
$$ I(X|y_j)=\sum_ip(x_i|y_j)I(x_i|y_j)=\sum_ip(x_i|y_j)\mathrm{log}\frac{p(x_i|y_j)}{p(x_i)} $$
平均互信息可定义为互信息在\(X\)上的统计平均值再在\(Y\)集合上的概率加权统计平均值
$$ I(X;Y)=\sum_jp(y_j)I(X;y_j)=\sum_{i,j}p(x_i,y_j)\mathrm{log}\frac{p(x_i|y_j)}{p(x_i)} $$
性质
- 统计平均意义上的互信息一定大于0,满足关系\(0\leqslant I(X;Y)\leqslant H(X)\)
- 当\(p(x_i)\)一定时,\(I\)是关于\(p(y_j|x_i)\)的\(\cup\)型函数,有极小值
- 当\(p(y_j|x_i)\)一定时,\(I\)是关于\(p(x_i)\)的\(\cap\)型函数,有极大值
理解
- \(H(X)\)一定大于\(H(Y|X)\),加入条件会使得熵(即不确定度)降低,在已知\(Y\)后,\(X\)的不确定度减少
单个符号之间的互信息可以定义为符号后验概率与先验概率比值的对数,该值可正可负
$$ I(x_i,y_j)=\mathrm{log}\frac {p(y_j|x_i)}{p(x_i)} $$
物理意义
- \(H(X)\)是符号\(X\)的熵或不确定度
\(H(X|Y)\)是当\(Y\)已知时\(X\)的不确定度
- 可以看作由于信道上存在干扰和噪声而损失掉的平均信息量
- 也可以看作由于信道上存在干扰和噪声使接收端获得\(Y\)后还剩余的对信源符号\(X\)的平均不确定度,称为疑异度
\(H(Y|X)\)是当信源发出符号已知时需要确定接收符号\(Y\)所需的平均信息量
- 可以看作唯一地确定信道噪声所需要的平均信息量,称为噪声熵或散布度
- \(I(X;Y)=H(X)-H(X|Y)\)是\(Y\)已知后所获得的关于\(X\)的信息量
互信息反映出的关系
- \(I(X;Y)=H(X)\):已知\(Y\)就能完全解除\(X\)的不确定度,是最理想的情况,信道为理想信道/无扰信道
- \(I(X;Y)>0\):正相关,信宿获得信息
- \(I(X;Y)=0\):不相关,信源信宿相互独立,信道为全损信道
- \(I(X;Y)<0\):负相关,误导信宿
拓展
- 三变量情况下单符号与符号对之间的互信息为\[
I(x_i;y_j,z_k)=\mathrm{log}\frac{p(x_i|y_j,z_k)}{p(x_i)}=I(x_i;z_k)+I(x_i;y_j|z_k)
\] 三变量下的条件互信息量
$$ I(x_i;y_j|z_k)=\mathrm{log}\frac{p(x_i|y_j,z_k)}{p(x_i|z_k)} $$
- 表明一个联合事件\((y_j,z_k)\)出现后所提供的有关\(x_i\)的信息量\(I(x_i;y_j,z_k)\)等于\(z_k\)事件出现后所提供的有关\(x_i\)的信息量\(I(x_i;z_k)\)加上在给定\(z_k\)条件下再出现\(y_j\)事件后所提供的有关\(x_i\)的信息量\(I(x_i;y_j|z_k)\)
三变量互信息量满足关系
$$ I(X;Y|Z)=H(X|Z)-H(X|Z,Y)=H(Y|Z)-H(Y|Z,X) $$
$$ I(X;Y,Z)=I(X;Y)+I(X;Z|Y) $$
- 三变量情况下单符号与符号对之间的互信息为\[
数据处理中信息的变化
- 当消息通过多级处理器时,随着处理器数目的增多,输入消息与输出消息之间的平均互信息量趋于变小。
- 信息不增性:数据处理过程中只会失掉信息,绝不会出现新的信息。任何信息处理过程中总会失掉信息,最多保持原来的信息,且信息一旦丢失,用任何手段都不可能再恢复。
相对熵(交叉熵,cross entropy)
定义
- \(p\)相对于\(q\)的相对熵为
$$ D(p//q)=\sum_ip_i\mathrm{log}\frac{p_i}{q_i} $$
理解
- 用来衡量概率分布\(p_i\)与\(q_i\)之间的差异
- 是两个概率测度之间的“距离”
- \(p_i\)=\(q_i\)时,相对熵为0
- 也可理解为度量真实分布为\(p\)而假定分布为\(q\)时的无效性
- 互信息可理解为联合分布\(p(x,y)\)与乘积分布\(p(x)p(y)\)之间的相对熵
性质
- 非负性
- 不对称性
熵的性质
非负性(等号当且仅当\(p_i=1\)时取得)
$$ H(X)=H(p_1,p_2,\cdots,p_n)\geqslant0 $$
确定性
$$ H(0,1)=H(1,0,\cdots,0)=0 $$
- 只要信源符号中有一个符号的出现概率为1,则该信源的信源熵就为0,因为在概率空间中,如果有两个基本事件,一个为必然事件的话,另外一个就是不可能事件,由此可推断到n维概率空间
对称性:熵函数所有变元可以互换,不影响函数值
$$ H(p_1,p_2,\cdots,p_n)=H(p_2,p_1,\cdots,p_n) $$
香农辅助定理
$$ H(p_1,p_2,\cdots,p_n)=-\sum_{i=1}^np_i\mathrm{log}p_i\leqslant-\sum_{i=1}^np_i\mathrm{log}q_i $$
- 对于任意概率分布\(p_i\),它对其他概率分布\(q_i\)的自信息量取数学期望时,必大于\(p_i\)本身的熵
- 该不等式也称为吉布斯不等式
最大熵定理
$$ H(X)\leqslant H(\frac{1}{M},\frac{1}{M},\cdots,\frac{1}{M})=\mathrm{log}M $$
- 当且仅当离散无记忆信源输出的各符号等概率时,信源熵最大。可以理解为每种符号出现的可能性相等,很难确定哪个符号出现,不确定性大
条件熵小于无穷熵
$$ H(Y|X)\leqslant H(Y) $$
上式当且仅当\(y\)和\(x\)相互独立时取等号
$$ H(Z|X,Y)\leqslant H(Z|Y) $$
上式当且仅当\(p(z|x,y)=p(z|y)\)时取等号
$$ H(X,Y)\leqslant H(X)+H(Y) $$
- 上式当且仅当两集合相互独立时取等号
- 扩展性
$$ \lim_{\epsilon \to0}H_{n+1}(p_1,\cdots,p_n-\epsilon,\epsilon)=H_n(p_1,p_2,\cdots,p_n) $$
- 可加性
$$ H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y) $$
递增性
$$ \begin {align} &H_{n-m+1}(p_1,p_2,\cdots,p_{n-1},q_1,q_2,\cdots,q_m)\\ &=H_n(p_1,p_2,\cdots,p_{n-1},p_n)+p_nH_m(\frac{q_1}{p_n},\frac{q_2}{p_n},\cdots,\frac{q_m}{p_n}) \end {align} $$
- 若信源\(X\)中有一元素被划分成\(m\)个元素(符号),而这\(m\)个元素的概率之和等于原元素的概率,则新信源的熵会增加,增加是源自于划分而产生的不确定性
离散序列信源的熵
离散无记忆信源的序列熵
定义
此时信源输出是一个序列,用矢量表示
$$ \mathbf{X}=(X_1,X_2,\cdots,X_l,\cdots,X_L),X_l\in \{x_1,x_2,\cdots,x_n\},l=1,2,\cdots,L $$
随机序列的概率
$$ \begin {align} p(\mathbf{X=x_i})&=p(X_1=x_{i_1},X_2=x_{i_2},\cdots,X_L=x_{i_L}),i=1,2,\cdots,n^L;i_l=1,2,\cdots,n\\ &=p(x_{i_1})p(x_{i_2}|x_{i_1})p(x_{i_3}|x_{i_1},x_{i_2})\cdots p(x_{i_L}|x_{i_1},x_{i_2},\cdots,x_{i_{L-1}})\\ &=p(x_{i_1})p(x_{i_2}|x_{i_1})p(x_{i_3}|x_{i_1}^2)\cdots p(x_{i_L}|x_{i_1}^{L-1}) \end{align} $$
信源序列熵为
$$ H(\mathbf{X})=-\sum_{i=1}^{n^L}p(\mathbf{x_i})\mathrm{log}p(\mathbf{x_i})=-\sum_{i_1=1}^n\sum_{i_2=1}^n\cdots\sum_{i_L=1}^np(x_{i_1},x_{i_2},\cdots,x_{i_L})\mathrm{log}p(x_{i_1},x_{i_2},\cdots,x_{i_L}) $$
无记忆情况下
$$ \begin {align} &p(\mathbf{x_i})=p(x_{i_1},x_{i_2},\cdots,x_{i_L})=p(x_{i_1})p(x_{i_2})p(x_{i_3})\cdots p(x_{i_L})\\ &H(\mathbf{X})=-\sum_{i_1=1}^n\sum_{i_2=1}^n\cdots\sum_{i_L=1}^np(x_{i_1})p(x_{i_2})p(x_{i_3})\cdots p(x_{i_L})[\mathrm{log}p(x_{i_1})+\cdots+\mathrm{log}p(x_{i_L})]=\sum_{l=1}^LH(X_l) \end {align} $$
平均符号熵
$$ H_L(\mathbf{X})=\frac {1} {L}H(\mathbf{X}) $$
平稳情况下
$$ H(X_1)=H(X_2)=\cdots=H(X_L),H(\mathbf{X})=LH(X_l) $$
离散有记忆信源的序列熵
- 定义
$$ \begin {align} H(\mathbf{X})&=H(X_1,X_2,\cdots,X_L)\\&=H(X_1)+H(X_2|X_1)+\cdots+H(X_L|X_1,X_2,\cdots,X_{L-1})\\ &=H(X_L)=\sum_{l=1}^LH(X_l|X^{L-l}) \end {align} $$
- 其他结论与定义与无记忆信源的完全一致
- 无记忆信源是有记忆信源的一个特例
离散平稳信源满足的几个结论
结论1
$$ H(X_L|X^{L-1})是L的单调非增函数 $$
- 随着L的增大,该值减小或与前值相等
- 条件熵始终小于或等于无条件熵,条件较多的熵小于或等于减少一些条件的熵,因此满足单调非增(要么小于,要么等于,不是严格的递减)
结论2
$$ H_L(\mathbf{X})\geqslant H(X_L|X^{L-1}) $$
- 由平均值的定义可以推出,一组数的平均值一定大于这组数中的最小值,结合结论1可得到该结论
结论3
\(H_L(\mathbf{X})\)是\(L\)的单调非增函数,满足:
$$ \begin {matrix} LH_L(\mathbf{X})=(L-1)H_{L-1}(\mathbf{X})+H(X_L|X^{L-1})\\ \because H_L(\mathbf{X})\geqslant H(X_L|X^{L-1})\\ \therefore \cdots H_{L-1}(\mathbf{X})\geqslant H_{L}(\mathbf{X})\geqslant H_{L+1}(\mathbf{X})\cdots\\ \end {matrix} $$
- 随着L的增大,总熵值中增加项的值就越来越小(由结论1得),从而导致整体得平均值减小或不变。例如\((4,3,2)\)的平均值是3,当增加一个更小的数\((4,3,2,1)\),平均值仍是3(对应不变的情况),而\((4,3,2,0.5)\)的平均值是2.375<3(对应减小的情况),因此使得总平均值单调非增
结论4
$$ L\to\infty时,H_\infty(\mathbf{X})=\lim_{L\to \infty}H_L(\mathbf{X})=\lim_{L\to\infty}H(X_L|X^{L-1}) $$
- 极限信息熵才能最真实地反映信源的实际情况
马尔可夫信源的熵用极限熵表示
$$ \begin {align} H_\infty(\mathbf{X})&=\sum_ip(s_i)H(X|s_i)\\ &=-\sum_ip(s_i)H(X|s_i)\sum_jp(x_j|s_i)\mathrm{log}p(x_j|s_i) \end {align} $$
- \(p(s_i)\)表示马尔可夫链的稳态概率
- \(H(X|s_i)\)表示信源处于某一状态si时发出一个消息符号的平均不确定性
连续信源的熵和互信息
幅度连续的单个符号信源熵
定义
$$ H(X)=\lim_{n\to \infty}H_n(X)=-\int_a^bp_X(x_i)\log p_X(x_i)\mathrm d x-\lim_{\Delta x \to 0}\log \Delta x $$
第二项为无穷大,舍弃,于是得到微分熵表达式
$$ H_c(X)=-\int_{-\infty}^{\infty}p_X(x)\mathrm{log}p_X(x)\mathrm{d}x $$
联合熵
$$ H_c(X,Y)=-\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}p_{X,Y}(x,y)\log p_{X,Y}(x,y)\mathrm{d}x\mathrm{d}y $$
条件熵
$$ H_c(Y|X)=-\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}p_X(x)p_Y(y|x)\log p_Y(y|x)\mathrm d x \mathrm d y $$
理解
- 连续信源熵的形式和离散信源熵相同,但物理意义不同。理论上来说连续信源的不确定度应该为无穷大,因其可当作一个不可数的无限多个幅度值的信源,需要无数个二进制数来表示,熵无穷
实际问题中可以采用上式来定义连续信源的熵,因为常遇到的是求熵之间的差的问题,如互信息
$$ I(X;Y)=H_c(X)-H_c(X|Y)=H_c(Y)-H_c(Y|X) $$
性质
- 相对性:连续信源的熵具有相对性,在取两熵肢健的差值时才具有信息的特性
可加性
$$ H_c(X,Y)=H_c(X)+H_c(Y|X)=H_c(Y)+H_c(X|Y) $$
波形信源的熵
定义
平稳随机矢量的连续熵
$$ H_c(\mathbf X)=H_c(X_1,X_2,\cdots,X_L)=-\int_\mathbf{R}p_X(\mathbf{x})\log p_X(\mathbf{x})\mathrm d x $$
条件熵
$$ H_c(\mathbf{Y|X})=H_c(Y_1,Y_2,\cdots,Y_L|X_1,X_2,\cdots,X_L)=-\int_{\mathbf R}\int_{\mathbf R}p_\mathbf{X}(\mathbf {x,y})\log p_\mathrm Y(\mathbf{y|x})\mathrm d \mathbf x \mathrm d \mathbf y $$
限频限时的平稳随机过程(采样后)的熵
$$ H_c(\mathbf X)=H_c(X_1,X_2,\cdots,X_L)=\sum_{l=1}^LH_c(X_l|X^{L-l})\leqslant H_c(X_1)+H_c(X_2)+\cdots+H_c(X_L) $$
理解
- 实际过程中信源的输入和输出都是幅值连续、时间或频率连续的波形,可以用两个平稳随机过程\(x(t)\)和\(y(t)\)来表示,而平稳随机过程可以通过采样变换成时间或频率上离散、幅值连续的平稳随机序列,因而平稳随机过程的熵可以理解为平稳随机序列的熵
- 定义中的公式只有在平稳、各变量统计独立时成立
最大熵定理
限峰功率最大熵定理
- 对于定义域为有限的随机变量\(X\),当它满足均匀分布时,具有最大熵,该结论与离散信源在以等概率出现时达到最大熵的结论相似
数学表示为当
$$ p_X(x)=\left \{\begin {matrix} \frac 1 {b-a}, &a\leqslant x\leqslant b \\ 0, &其他 \end {matrix} \right. $$
时,信源达到最大熵
$$ H_c(X)=\log(b-a) $$
限平均功率最大熵定理
- 对于相关矩阵一定的随机变量X,当它满足正态分布时具有最大熵
数学表示为当\(X\)满足概率分布
$$ p_X(x)=\frac 1 {\sqrt{2\pi \sigma^2}} e^{\frac {-(x-m)^2}{2\sigma^2}} $$
时连续熵可写作
$$ H_c(X)=\frac 1 2 \log(2\pi e\sigma^2) $$
仅与\(\sigma^2\)有关
- 理解为当信源概率密度符合正态分布时,其连续熵仅与随机变量的方差\(\sigma^2\)有关,从物理意义上来说,方差\(\sigma^2\)表示信号的交流功率。因此在限制信号平均功率的条件下,正态分布的信源可以输出最大连续熵如上式所示,随平均功率增加而增加
- 拓展:如果噪声满足正态分布,则噪声熵最大,因此高斯白噪声是最有害的干扰,因此在通信系统的各种设计中,都以高斯白噪声作为标准,不仅是为了简化分析,更是为了保证系统效果
信息冗余度
定义
信息效率
$$ \eta=\frac {H_\infty(X)} {H_m(X)} $$
冗余度
$$ \gamma = 1-\eta =1-\frac {H_\infty(X)} {H_m(X)} $$
理解
- 冗余度也叫多余度或剩余度,表示给定信源在实际发出信息时所包含的多余信息
- 如果一个消息所包含的符号比表达这个消息所需要的符号多,那么这样的消息就存在冗余度
- 信息效率表示不肯定性的程度,表示用能传送\(H_m(X)\)的手段取传送具有\(H_\infty (X)\)的信源的效率(这是一种很不经济的行为)
- 冗余度则表示肯定性的程度,既然是肯定的,那就不能为我们提供有效的信息量,因此是多余的,其计算式为\(1-\eta\),即多出来的我们不需要的部分的比重
是测定\(m\)维分布后所能得到的信息,若所有维分布都能测定,即\(m=\infty\),这一部分就无需再传送了,即对应了冗余度公式中的分子
$$ H_O(X)-H_m(X)\geqslant 0 $$
来源
- 信源符号间得相关性:信源输出符号间的依赖关系使得信源熵减小,即信源的相关性。相关程度越大,信源熵越小,趋于极限熵;相关程度越小,实际熵就越大
- 信源符号分布的不均匀性:由之前的推导可得,当信源符号等概率分布时信源熵最大,而在实际问题中更多的是不均匀分布,使得实际熵减小。当信源输出符号间彼此不存在依赖关系且为等概率分布时,信源实际熵将趋于最大熵\(H_0(X)\)
应用
当只知道信源符号有\(n\)个可能的取值,而对其概率特性一无所知时,可以通过假设\(n\)个取值等概而求出其熵的最大值
$$ H_O(X)=\log n $$
- 信源的编码和解码即压缩和恢复冗余度的过程,前者是为了让传输过程更加高效,后者是为了服务信宿,让信宿更好理解