信息论

研究信息传输和信息处理系统中一般规律的新兴学科。核心问题是信息传输的有效性和可靠性以及两者间的关系。学科内容包括信息熵、信源编码、信道编码、信道容量、信息失真率理论、信号检测和估计等。

形成和发展

信息论形成一门独立的学科,公认是以1948年美国数学家C.E.香农发表著名论文《通信的数学理论》为标志的。香农用负熵作为信息的度量,成功地解决了信息传输的基本问题,为信息论奠定了基础。50年代,人们一方面在理论上阐明和推广香农的研究成果,把信息论置于严谨的数学基础上,另一方面发展了纠错码的理论和应用。60年代,在此基础上进一步发展,建立了信源编码的失真率理论,研究了最优信号集,发明了卷积码的序列译码和维特比译码技术。70年代,卫星通信计算机技术的迅速发展给信息论以新的动力。各种多用户通信模型的信息传输理论获得了迅速发展。信息论已经发展成为一门拥有众多分支的新兴学科。

信息量

信息的度量是信息论研究的基本问题之一。对于应用范围如此广泛的信息提出一个统一的度量是困难的。美国数学家C.E.香农在1948年提出信息熵作为信息量的测度。根据人们的实践经验,一个事件给予人们的信息量多少,与这一事件发生的概率(可能性)大小有关。一个小概率事件的发生,如“唐山发生七级以上大地震”使人们感到意外,它给人们的信息量就很多。相反一个大概率事件的出现,如“12月15日北京未下雪”给人们的信息量就很少。因此,用I(A)=-logP(A)〔P(A)表示事件A发生的概率〕来度量事件A给出的信息量,称为事件A的自信息量。若一次试验有M个可能结果(事件),或一个信源可能产生M个消息(事件),它们出现的概率分别为p1,p2,…,pM ,则用来度量一次试验或一个消息所给出的平均信息量。当对数取 2为底时,单位为比特;当对数取e为底时,则单位为奈特。H的表达式与熵的表达式差一个负号,故称负熵或信息熵。

信息传输模型

信息传输系统主要由信源、信道和信宿组成,下图为信息传输系统的基本模型。信源是产生消息的系统。信宿是接受消息的系统,信道则是传输消息的通道。图中编码器、译码器的作用是把消息变换成便于传输的形式。

图 信源编码

信源是产生消息(包括消息序列)的源。消息通常是符号序列或时间函数。例如电报系统中的消息是由文字、符号、数字组成的报文(符号序列),称为离散消息。电话系统中的消息是语声波形(时间函数),称为连续消息。消息取值服从一定的统计规律。因此,信源的数学模型是一个在信源符号集中取值的随机变量序列或随机过程。信源编码器将消息变换为一个数字序列(通常为二进制数字序列)。在离散情形,若信源产生M个可能消息,它们出现的概率分别为p1,p2,…,pM,每个消息由N个信源符号组成,便可取信源编码与数字序列一一对应。第i个消息对应的数字序列长(数字个数)为li,li相等的称等长编码,否则称变长编码。定义为编码速率,它表征平均每个信源符号要用多少个数字来表示。若取信源译码器为信源编码器的逆变换器,则在无噪信道(信源编码器的输出即为信源译码器的输入)情况下,消息可以正确无误地传送。这时信源编码问题是要找出最小的速率R及其相应的编码。已经证明,对于相当广泛的信源类,当N可以任意大时这个最小极限速率称为信源的熵率,是信源的一个重要参数。对于固定的N,最优编码就是赫夫曼编码。在连续消息的情形,信息编码器不可能使消息与数字序列一一对应,因此译码也不是编码的逆变换。通常的方法是先对连续消息进行采样和量化,变为离散消息,再将离散消息变换为数字序列。信源译码器先将数字序列逆变换为离散消息,再用内插法求得连续消息。这样一来,即使在无噪信道的情况下,发送消息与接收消息之间也会产生误差,称为消息失真。可以用一个非负函数d(u,v)来度量消息u,v之间的失真大小。这时信源编码问题是在保证平均失真不超过给定允许极限D 的条件下找出最小速率R 及其相应编码。求解这一问题导致熵推广到失真率函数,信源编码的失真率理论因而得到发展。

信道编码

信道是传输信息的媒质或通道,如架空明线、同轴电缆、射频波束、光导纤维等。有时为研究方便将发送端和接收端的一部分如调制解调器也划归信道。信息论把信息传送过程中受各种干扰的影响都归入信道中考虑。根据干扰的统计特性,信道有多种模型。最简单的是离散无记忆恒参信道,它可以用信道入口符号集X、出口符号集Y和一组条件概率P(y|x)(xX,yY)来描述。若信道输入信号x=(x1,x2,…,xN),则相应的输出(受扰)信号y=(y1,y2,…,yN)出现的概率为P(y|x)= 信道编码器将数字序列每K个一组变换为字长N 的信号(码字),称为分组编码。若数字和信道符号都是二进制的(可用0,1表示),则RK/N 定义为编码速率,它表明每个信道符号表示多少个数字。N-K 称为编码冗余度。信道编码(纠错编码)的基本思想就是增加冗余度以提高可靠性。更确切地说,信道译码器可以利用编码冗余度将受扰信号变换为正确的发送数字序列。重复编码乃一简例。信道编码器将输入数字重复三次, 如将01011变换为000111000111111。信道译码器可用门限译码,即先将输入译码器的信道符号每三个一组地相加,再将结果逐个与阈值 2比较,小于阈值2的译为0,否则译为1。这样若受扰信号010110100011011虽然错了 5个符号,但译码仍为01011与发送数字序列完全相同。信息论得出的重要结论是:对于一个有噪信道,只要在信道编码中引入足够而有限的冗余度,或等价地说编码速率足够小,就能通过信道渐近无误地传送消息。更确切地说,对充分长的数字序列,其接收错误概率可以任意小。信道编码问题是要找出使信道渐近无误地传输消息所能达到的最大编码速率R和相应的编码。已经证明,对于离散无记忆恒参信道,这个最大极限编码速率为,它是对X上一切概率分布 p取极大值。p为信道转移概率(条件概率),

称为交互信息;C 称为信道容量,是信道的重要参数。

信息传输定理

对图中的信息传输系统,若啛/TSC/TC,其中啛为信源的熵率,C为信道容量,TSTC分别为信源符号和信道符号的持续时间,则一定存在编码和译码使消息可通过信道渐近无误地传送。反之,若啛/TSC/TC,则不存在这样的编码和译码。

信息论研究的主流始终是围绕这个基本定理展开的,只是信源和信道的模型更复杂而已。上述定理是实际存在的,但没有给出实现这一理想传输的具体编码方法。寻找实现这一理想传输的编码和译码方法则是编码理论研究的目标。虽然这一目标至今尚未达到,但信息论的研究成果对设计新通信系统的作用是人们所肯定的。

信息论的应用

信息论的意义和应用范围已超出通信的领域。自然界和社会中有许多现象和问题,如生物神经的感知系统、遗传信息的传递等,均与信息论中研究的信息传输和信息处理系统相类似。因此信息论的思想对许多学科如物理学生物学遗传学控制论计算机科学、数理统计学、语言学心理学教育学、经济管理、保密学研究等都有一定的影响和作用。另一方面,由于借助负熵定义的信息量只能反映符号出现的概率分布(不肯定性),不能反映信息的语义和语用层次。一篇重要的报告和一篇胡说乱道的文章可以具有同样的信息,这显然不符合常识。因此现阶段信息论的应用又有很大的局限性。把信息的度量推广到适合于语义信息和语用信息的情况,曾经做过许多尝试。但至今还没有显著的进展。

参考文章