语言通信

在人与人之间或人与机器之间,借助电声设备用口语进行的信息交换。语言通信包括普通的电话通信、以电话为工具的各种信息服务,以及各种语言机器。

历史发展

1876年,电话机的发明使人类得以超越空间的限制进行交谈,开始了语言通信的新时期。1904年,电子管的发明给电话通信提供了新的手段。放大器比加感应线圈对加长通话距离更有效;载波技术使一条线路可以进行多路通信第二次世界大战后,数字化技术带来了许多新的通信方式,并产生了各种脉码调制。但是,一般的电话通信是以波形原理为基础的。这样的高频多路通信占用的频带很宽。1939年,人们发明了一种新的电话通信设备──声码器。它把语言信号加以分解,只传送描述发音器官状态的参数,并在收到参数后重新合成语言。声码器可以使语言信号电报化,所以不仅可以压缩频带,而且有可能进行保密通信。语言通信的领域从人与人之间的通信,扩展到人与机器之间的通信。70年代以后,各种语言机器相继出现。口呼数字识别的进展及计算机的口语输入和输出、自动应答设备、自动阅读设备、语言理解系统等也都从试验研究向实用化发展。此外,生理上有缺陷、丧失说话和听话能力的人,借助于助讲装置和助听装置也能参与语言通信。

语言通信的分类

利用通信设备进行语言通信,需要对语言信号进行加工处理,例如能量转换、滤波、放大、调制解调、量化、编码解码,以及各种数学变换。根据语言通信的工作原理,可以将语言通信技术分成三类(图1)。

图

波形处理

电话机输出电流强度的变化,与语音合成的空气密度的变化成正比。语言清晰度试验研究表明,语言信号的波形可允许有较大的失真而不影响可懂度。自然语言的频带是100~10000赫或更宽,而电话语言的频带是 300~3400赫。采用调制解调或时间分割等技术,可以把电话语言分配在频率域或时间域的不同位置上,形成多路语言通信。语言波形经过无限截幅,仍有很高的可懂度,从而产生了限幅单边带通信。根据采样定理,对语言信号进行采样,同时按照不同的方法加以量化,便形成了数字化语言通信(见数字通信)。

参数处理

传送语言信号的波形,需要较宽的频带或较高的数码率。电话语言占用频带300~3400赫,信噪比保持在30分贝时,要求数码率约为30000比/秒,为实现多路通信和各种语言机器,都需要大幅度地压缩电话语言的数码率,把语言信号加以分解,并提取描述发音器官状态的一套参数来加以传送。发音器官的变化是缓慢的(大约10~20次每秒),所以表示发音器官特征的参数也是缓变的。这些参数包括:

(1)激励声源的状态,是清音还是浊音,即是噪声激励还是周期脉冲激励。如果是浊音,那声带振动的基频是多少。

(2)声道的状态,用声道的面积函数或共振峰频率来表示。

语言参数处理的典型应用,就是分析合成电话,即声码器(图2)。

图

信息处理

任何一种语言,都是语音按规则组成的序列,每一种语言都有其特定的语音规则和语法规则。这些规则构成了语言的内部信息。它可以提高语言通信的抗干扰能力,这是参与通信过程的发话人和受话人所起的作用。语言机器学会这些规则,不但比参数处理能更有效地压缩数码率,而且还可以产生一些新的通信方式。语音规则和超音段特征描述了语音在语流中的相互影响和语意在语音上的体现。因此,只有考虑到这些因素,语言合成才能产生自然流畅的语言输出。语法规则决定语言的组织结构,只有进行语法分析和语意分析才能构成语言理解系统。

语言通信的应用

随着语言通信技术的发展,其应用也在不断扩大。现代语言通信已远远超出一般电话业务的范围。语言通信的应用,可以分为语言传递、语言分析合成、语言识别、语言转换及助讲助听。

语言传递

把发话人或机器发出的语言信号,经由通信设备和媒质传送给受话人或机器。在传递过程中对语言信号进行必要的处理,以提高语言通信的有效性和可靠性。从图1可以看出,采用不同的处理方法,传递语言信号所需要的数码率,大约是75~200000比/秒。为保护所传递的语言信息不被窃取,在传递过程中还可以加装保密装置。当语言信息不需要或不可能实时地传递给受话人时,可以把它存储起来,需要时立即重放出来。存储方式是磁录声和数字化存储,后者更为经济、方便。

语言分析合成

按照一定的处理方法,分析语言信号和提取必要的特征参数,并用这些参数按照语音产生的模型合成语音的技术。语言分析合成技术有多方面的应用,可以说是现代化语言通信的技术基础,其典型应用是语言分析合成电话,即声码器。它可以大幅度地压缩通信频带,并且便于实现保密通信。语言分析合成可以利用语言参数进行经济有效的存储和重放。此外,还能做成自动语言应答系统,进行自动语言信息服务,如航班、火车时刻的自动查询、市场报价等。人们可以用键盘提出询问,应答系统用语言作出回答。普通的按键电话就可以接入这种系统。语言分析合成技术还可以改善在低劣条件下的语言通信质量,如潜水员在水下作业时的通话质量。此外,利用同态处理的方法,还可以消除混响对语言信号的影响。

语言识别

包括自动语音识别、发话人鉴定和发话人辨别。自动语音识别是一个既可以接受口语输入,又能完成某种动作的系统。它可以把口语输入打印成文字材料,也可以完成其他动作,如口呼电话自动接线、口呼自动邮件分拣等。在使用自动语音识别系统进行工作之前,使用人需要对这种系统进行训练。所以它一般只适于专人应用,词汇量也还有限 (图3)。

图

发话人鉴定是根据发话人的请求,确认他是不是本人。发话人事先应把语言样品存放在识别机内。当发话人提出请求,并发出已存作样品的语音后,机器把当前的输入与已存的样品相比较,从而作出是与否的判断。发话人辨别是从已存的所有语音参考样品中,寻找出与发话人的语音最接近的样品。其处理方法是,在语音的多维特征空间中,对发话人的语音输入与N个参考样品之间,做N距离测量,以找出最接近的那个样品。发话人鉴定可以用于银行的自动信贷业务。在某些国家,发话人鉴定还用于法庭审讯。

文-语转换

把文字材料或键盘操作变换成自然语言输出。这是一种高级的语言合成系统(图4)。可以用光电输入印刷符号,也可以用键盘打字输入,机器可读出输入的内容。它与一般的语言合成不同,需要根据语音规则,把字母组合按单词读出来,并加上语调。它可用于为盲人读书报的自动阅读机和计算机的语言输出等。

图

助讲助听

为生理上有缺陷的、不能讲话和听话的人提供的辅助手段,如将按图说话图板接入文-语转换系统,可以帮助不能说话的人说话;触觉声码器可通过触觉帮助聋人听话。其他尚有人工喉和电子耳蜗等助讲和助听手段。

参考书目
  1. J.L.Flanagan,Speech Analysis,Synthesis and Perception,2nd ed.,Springer-Verlag,New York,1972.
  2. L.R.Rabiner,R.W.Schafer,Speech Digital SignalProcessing, Prentice Hall, Englewood Cliffs,N.J.,1978.