自然语言理解

浏览

俗称人机对话。人工智能的分支学科。研究用电子计算机模拟人的语言交际过程,使计算机能理解和运用人类社会的自然语言如汉语、英语等,实现人机之间的自然语言通信,以代替人的部分脑力劳动,包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。这在当前新技术革命的浪潮中占有十分重要的地位。研制第 5代计算机的主要目标之一,就是要使计算机具有理解和运用自然语言的功能。

自然语言理解是一门新兴的边缘学科,内容涉及语言学心理学、逻辑学、声学、数学和计算机科学,而以语言学为基础。自然语言理解的研究,综合应用了现代语音学、音系学语法学语义学语用学的知识,同时也向现代语言学提出了一系列的问题和要求。本学科需要解决的中心问题是:语言究竟是怎样组织起来传输信息的?人又是怎样从一连串的语言符号中获取信息的?

自然语言理解从 20世纪 60年代初开始研究,由于N.乔姆斯基在语言学理论上的突破和此后各家理论的发展,以及计算机功能的不断提高,目前已经取得了一定的成果,分为语音理解和书面理解两个方面。

语音理解

用口语语音输入,使计算机“听懂”语音信号,用文字或语音合成输出应答。方法是先在计算机里贮存某些单词的声学模式,用它来匹配输入的语音信号,称为语音识别。这只是一个初步的基础,还不能达到语音理解的目的。因为单凭声学模式无法辨认人和人之间、同一个人先后发音之间的语音差别,也无法辩认连续语流中的语音变化;必须综合应用语言学知识,以切分音节和单词,分析句法和语义,才能理解内容,获取信息。60年代至70年代初期,研究工作一直停留在单词的语音识别上,进展不大。直到70年代中期才有所突破,建立了一些实验系统,能够理解连续语音的内容,但是还限于少数简单的语句(见自然语言语音理解系统)。

书面理解

用文字输入,使计算机“看懂”文字符号,也用文字输出应答。这方面的进展较快,70年代初期取得突破,中期以后又有所发展。目前已能在一定的词汇、句型和主题范围内查询资料,解答问题,阅读故事,解释语句等,有的系统已付诸应用。由于绝大多数语种使用的是拼音文字,计算机识别拼音字母已无问题,而输入又是按单词分别拼写,因此书面理解一般没有切分音节和单词的问题,只需直接分析词汇、句法和语义。但是汉语用的是汉字,无论是用汉字编码输入还是将来计算机能直接认识汉字,都要首先解决切分单词的问题,因为输入就是一连串汉字,词和词之间没有空隔。

书面理解的基本方法是:在计算机里贮存一定的词汇、句法规则、语义规则、推理规则和主题知识。语句输入后,计算机自左至右逐词扫描,根据词典辨认每个单词的词义和用法;根据句法规则确定短语和句子的组合;根据语义规则和推理规则获取输入句的含义;查询知识库,根据主题知识和语句生成规则组织应答输出。目前已建成的书面理解系统应用了各种不同的语法理论和分析方法,如生成语法、系统语法格语法、语义语法等等,都取得了一定的成效。

目前存在的问题有两个方面:一方面,迄今为止的语法都限于分析一个孤立的句子,上下文关系和谈话环境对本句的约束和影响还缺乏系统的研究,因此分析歧义、词语省略、代词所指、同一句话在不同场合或由不同的人说出来所具有的不同含义等问题,尚无明确规律可循,需要加强语用学的研究才能逐步解决。另一方面,人理解一个句子不是单凭语法,还运用了大量的有关知识,包括生活知识和专门知识,这些知识无法全部贮存在计算机里。因此一个书面理解系统只能建立在有限的词汇、句型和特定的主题范围内;计算机的贮存量和运转速度大大提高之后,才有可能适当扩大范围(见自然语言书面理解系统)。

参考书目
  1. 范继淹,徐志敏:《人工智能和语言学》,载《中国语文》1980,第4期。
  2. A. Barr and E. A. Feigenbaum, The Hɑndbook ofArtificiɑl Intelliɡence, Pitman, London, 1981.