剩余度

源信息率的多余程度。它是描述信源统计特性的一个物理量。直观地说,除了在传输和恢复消息时所需的最少、最必要的信息以外,其他部分都叫剩余。而剩余度则表示相对剩余,即在信源中剩余所占的比重。为了确切说明剩余度就必须引入信息熵的概念。若用H0代表无记忆等概率信源的单个消息熵,H1代表无记忆不等概率信源的单个消息熵,Hm代表记忆长度为m的信源的单个消息熵,H公式 符号代表记忆长度为无限时信源的单个消息熵,则由熵的性质可得到下列表征信源统计特性的不等式:lognH0H1H2≥…≥Hm≥…≥H≥0

因此对有记忆信源,理论上最小的单个消息熵应为H。从理论上看,仅需传送 H公式 符号即可。但实际上由于很难掌握全部信源的概率统计特性,只能多传送一些,比如传送Hm,这样Hm-H越大,也就越不经济。为了定量地描述信源的有效性,可规定信源的效率为公式 符号;规定信源的剩余度为公式 符号。正是因为信源存在着剩余,也就存在着压缩信息率的可能性。剩余越大,压缩潜力也就越大。工程上所采用的数据压缩、频带压缩均基于这个原理。以英文信源为例:英文有26个字母,加上空档共27个。于是,H0=log227=4.76比特。根据对英文字母出现概率的统计结果可算出:公式 符号比特,H2=3.32比特,H3=3.1比特,至于H,由于采用的统计逼近方法或所取样本的不同,可以有不同值,一般认为H≈1.4比特,则有公式 符号这一结论说明英文信源是可以压缩的。例如对 100页的英文书,理论上仅需传送29页。至于中文,若按常用的6700个汉字考虑,这时,H0=log26700≈13比特。对汉字频数进行统计,其工作量远大于英文。中国已有不少人作了尝试,大致估得H1≈9比特,H2≈8比特,…,H≈4比特,这些数字还有待于进一步精确化,但据估计中文剩余不比英文小。至于语声和电视信源的剩余度,人们尚未测得确切数据,但估计比文字信源还要大。