语音识别

模式识别方法提取语音信号特征并加以分类的技术。比语音识别更进一步的技术是语音理解,它在语音识别的基础上还应用语音学、句法和语义等有关知识,是人工智能的研究领域。语音识别按复杂程度的不同可分为孤立单词(或单字)识别和连续语音识别。有时把说话者识别也归入语音识别的范围。

现代语音识别的主要过程是:语音信号经传声器转换为电信号,经过取样和量化转换为数字信号,输入计算机中进行识别。计算机识别过程包括特征抽取和分类判别。

数字语音信号数据量大,不利于直接进行分类判别,需要先提取有代表性的主要特征。常用的有两种方法。

(1)线性预测系数法:取样后的语音信号是一个时间序列,可以用一定阶次的参数模型来表示,常用的是自回归模型,并用这一模型的系数组成特征向量。

(2)功率谱法:用一组不同通带的滤波器抽取一些频段的功率谱值,作为特征量。

分类判别主要采用模板匹配法,即在计算机中存入一组已知类别的标准语音的特征向量,称为样板。未知语音输入经特征抽取后,求它同各样板间的距离。同未知语音距离最小的样板所对应的类别就是识别结果。

句法模式识别方法(见结构模式识别)也可用于语音识别,特别是连续语音的识别和分析。这样就可用形式语言的理论来分析单词或句子的结构关系。

语音识别系统的性能指标主要有四项。

(1)词汇表范围:这是指机器能识别的单词或词组的范围,如不作任何限制,则可认为词汇表范围是无限的。

(2)说话人限制:是仅能识别指定发话者的语音,还是对任何发话人的语音都能识别。

(3)训练要求:使用前要不要训练,即是否让机器先“听”一下给定的语音,以及训练次数的多少。

(4)正确识别率:平均正确识别的百分数,它与前面三个指标有关。

不同人讲同一词或单字时,或同一人在不同条件下讲同一词或单字时,语音信号有很大差异,而某些不同的字或词的语音信号又很相似,因而机器很难像人一样对不同词有很高的分辨能力。此外,连续语音的字与字之间存在混叠,字在不同位置又有音调的变化,一个字或词的起点和终点也很难分清,这都给语音识别带来困难。

语音识别的应用很广泛,如音控自动电话、产品检验、邮件自动分类、语音数控机床、自动排版、说话者识别、仓库货场登记、语音打字、飞行管理、航天员演习、办公室自动化和家务机器人等。