2.1.4 互信息量
1. 互信息
定义2-8 一个事件yj所给出关于另一个事件xi的信息定义为互信息,用I(xi; yj)表示,为xi的后验概率与先验概率比值的对数,即
同理,可以定义xi对yj的互信息量为
考虑关系式
得
互信息量的单位与自信息量的单位一样取决于对数的底。当对数底为2时,互信息量的单位为比特。式(2-22)中由于无法确定p(xi/yj)和p(xi)的大小关系,所以I(xi; yj)不一定大于或等于零。
定义2-9 联合集XYZ中,在给定zk条件下,xi与yj之间的互信息量定义为条件互信息量,用I(xi; yj/zk)表示,其定义式为
2. 平均互信息量
互信息表示某一事件给出的关于另一事件的信息,它随xi和yj的变化而变化,为了从整体上表示一个随机变量Y所给出关于另一个随机变量X的信息量,引入平均互信息。
定义2-10 互信息量I(xi; yj)在XY的联合概率空间中的统计平均值为平均互信息量,用I(X; Y)表示,即
称I(X; Y)是Y对X的平均互信息量。
同理,X对Y的平均互信息量定义为
根据
可推出
前面给出了平均互信息的3种不同形式的表达式,下面将从3种不同的角度出发,阐述平均互信息的物理意义。
(1)由式(2-26)推出
Y关于X的平均互信息表示接收到输出Y前、后关于X的平均不确定度减少的量,也就是从Y获得的关于X的平均信息量。
(2)由式(2-27)推出
表示发出信源X前、后关于Y的平均不确定度减少的量。
(3)由式(2-28)推出
表示通信前后整个系统不确定度减少的量。
【例2-7】 把已知信源
接到图2-2所示的信道上,求在该信道上传输的平均互信息量 I(X;Y)、信道疑义度 H(X/Y)、噪声熵 H(Y/X)和联合熵H(XY)。
图2-2信道范例
解 (1)由p(xiyj)=p(xi)p(yj/xi),求出联合概率
p(x1y1)=p(x1)p(y1/x1)=0.5×0.98=0.49
p(x1y2)=p(x1)p(y2/x1)=0.5×0.02=0.01
p(x2y1)=p(x2)p(y1/x2)=0.5×0.20=0.10
p(x2y2)=p(x2)p(y2/x2)=0.5×0.80=0.40
(2)由
得
p(y2)=1-p(y1)=1-0.59=0.41
(3)由
得
p(x2/y1)=1-p(x1/y1)=0.169
同样可推出
p(x1/y2)=0.024
p(x2/y2)=0.976
(4)
=-0.49log20.49-0.01log20.01-0.10log20.10-0.40log2 0.40
=1.43(比特/符号)
(5)平均互信息
I(X;Y)=H(X)+H(Y)-H(XY)=1+0.98-1.43=0.55 (比特/符号)
(6)信道疑义度 H(X/Y)=H(X)-I(X;Y)=1-0.55=0.45 (比特/符号)
(7)噪声熵 H(Y/X)=H(Y)-I(X;Y)=0.98-0.55=0.43 (比特/符号)
3. 性质
(1)非负性
当且仅当X和Y相互独立时,即p(xiyj)=p(xi)p(yj)对所有i,j都成立时,式中等号成立。
证明 由式(2-29)可知
I(X; Y)=H(X) -H(X/Y)
由香农辅助定理推出H(X/Y)≤H(X),当X和Y相互独立时,等号成立。所以I(X; Y)≥0。
非负性说明给定随机变量Y后,一般来说总能消除一部分关于X的不确定性。也可以说从一个事件提取关于另一个事件的信息,最坏的情况是 0,不会由于知道了一个事件反而使另一个事件的不确定度增加。
(2)对称性
证明 按定义
对称性表示从Y获得关于X的信息量等于从X中获得关于Y的信息量。
(3)极值性
证明 由于
根据H(X/Y)定义式,得H(X/Y)≥0,同理H(Y/X)≥0,而I(X; Y),H(X),H(Y),是非负的,又
I(X; Y)=H(X) -H(X/Y)=H(Y) -H(Y/X)
所以
I(X; Y)≤H(X),I(X; Y)≤H(Y)
当随机变量X和Y是确定的意义对应关系时,从数学上来说
此时条件熵
则
I (X;Y)=H(X)
极值性说明从一个事件获得的关于另一个事件的信息量至多只能是另一个事件的平均自信息量,不会超过另一事件本身所含的信息量。
(4)凸函数性
由平均互信息量的定义
显然平均互信息量是p(xi) 和p(yj/xi) 的函数,即
若信道固定,则
若信源固定,则
定理2-3 当条件概率分布p(yj/xi)给定时,I(X; Y)是输入信源概率分布p(xi)的严格上凸函数。
证明 所谓上凸函数,是指同一信源集合{x1, x2, …, xn},对应两个不同的概率分布{p1(xi), i=1, 2, …, n}和{p2(xi), i=1, 2, …, n},若有小于1的正数0<α<1, α+β=1,使不等式
成立,则称函数f为{p(xi), i=1, 2, …, n}的上凸函数。如果式(2-40)中仅有大于号成立,则称f为严格上凸函数。
给定信道及其转移概率分布p(yj/xi),考虑两个输入随机变量X1,X2,其概率分布为p1(xi),p2(xi),输入随机变量X,其概率分布p(xi)=α p1(xi)+β p2(xi),α, β≥ 0,且α+β=1。
若定理成立, 根据上凸函数的定义,需要证明
其中Y1,Y2,Y是与X1,X2,X对应的输出。
αI(X1;Y1)+βI(X2;Y2)-I(X;Y)
=αlog21+βlog2 1
=0
这就证明了平均互信息量是输入信源概率分布p(xi)的严格上凸函数。
由上凸函数的定义可知,当条件概率分布p(yj/xi)给定时,平均互信息I(X; Y)是输入分布p(xi)的上凸函数。如果把条件概率分布p(yj/xi)看成信道的转移概率分布,那么存在一个最佳信道输入分布p(xi)使I(X; Y)的值最大。
定理2-4对于固定的输入分布p(xi),I(X; Y)是条件概率分布p(yj/xi)的严格下凸函数。
证明 给定信道输入的概率分布 p(xi),考虑两组信道转移概率分布 p1(y/x),p2(y/x)和信道转移概率分布p(y/x)=αp1(y/x)+βp2(y/x),α, β≥0,α+β=1时定理成立,即
其中 Y,Y1,Y2是对应转移概率分布 p(y/x),p1(y/x),p2(y/x)的输出。下凸函数的证明与上凸函数类似,此处不再赘述。
由下凸函数的定义可知,在给定输入分布的情况下,平均互信息I(X; Y)是输入分布p(yj/xi)的下凸函数。如果把条件概率分布p(yj/xi)看成信道的转移概率分布,那么对于给定的输入分布,必存在一种最差的信道,此信道的干扰最大,收信者获得的信息量最小。定理2-3是研究信道容量的理论基础,定理2-4是研究信源的信息率失真函数的理论基础。
(5)数据处理定理
为了表述数据处理定理,需要引入三元随机变量X,Y,Z的平均条件互信息量和平均联合互信息量。
定义2-11 平均条件互信息量为
它表示随机变量Z给定后,从随机变量Y所得到的关于随机变量X的信息量。
定义2-12 平均联合互信息为
它表示从二维随机变量YZ所得到的关于随机变量X的信息量。
可以证明
同理
定理2-5 如果随机变量X,Y,Z构成一个马尔可夫链,则有以下关系成立
等号成立的条件是对于任意的x,y,z,有p(x/yz)=p(x/z)和p(z/xy)=p(z/x)。
证明 当X,Y,Z构成一个马尔可夫链,Y值给定后,X,Z可以认为是互相独立的。所以
I(X;Z/Y)=0
又因为
I(X;YZ)=I(X;Y)+I(X;Z/Y)=I(X;Z)+I(X;Y/Z)
并且I(X; Y/Z)≥0,所以I(X; Z)≤I(X; Y)。
当p(x/yz)=p(x/z)时,Z值给定后,X和Y相互独立,所以I(X; Y/Z)=0。因此I(X; Z)=I(X; Y)。这时p(x/yz)=p(x/z)=p(x/y),Y,Z为确定关系时显然满足该条件。
同理可以证明I(X; Z)≤I(Y; Z),并且当p(z/xy)=p(z/x)时,等号成立。
I(X; Z)≤I(X; Y)表明Z所得到的关于X的信息量小于等于从Y所得到的关于X的信息量。如果把 Y→Z 看作数据处理系统,那么通过数据处理后,虽然可以满足我们的某种具体要求,但是从信息量来看,处理后会损失一部分信息,最多保持原有的信息,也就是说,对接收到的数据Y进行处理后,决不会减少关于X的不确定性。这个定理称为数据处理定理。数据处理定理与日常生活中的经验是一致的。比如,通过别人转述一段话或多或少会有一些失真,通过书本得到的间接经验总不如直接经验来得详实。图2-3的两级串联信道可直观表明该定理的含义。
图2-3 两级串联信道的情况
数据处理定理再一次说明,在任何信息传输系统中,最后获得的信息至多是信源所提供的信息,一旦在某一过程中丢失一些信息,以后的系统不管如何处理,如不触及丢失信息的输入端,就不能再恢复已丢失的信息,这就是信息不增性定理。