中文信息处理

浏览

在语言学、计算机科学、数学、心理学和自动化技术等学科的基础上形成的一门边缘学科,研究电子计算机对中文书面和口语信息进行各种加工的问题。

中文信息处理不等同于汉字信息处理。汉字信息处理系统是中文信息处理系统中非常关键的一部分,可以说是中文信息处理系统借以建立的工具。但是汉字信息处理系统的研制成功,一般只解决了汉字的编码、输入、存储、编辑和输出问题,至于加工或处理什么,如何加工,那是中文信息处理的内容。中文信息处理系统(纯口语的系统和拼音文字的系统除外)以汉字信息处理系统作为自己的必备部件,同时还带有为不同目的服务的各种应用软件。中文信息处理系统的另一特点是以词而不是以单个汉字作为加工的基本单位。中文信息处理和中国少数民族语言文字的信息处理都是自然语言处理的一部分(见应用语言学)。

在中文信息处理领域内,计算语言学工作者所研究的只是它的一般理论和方法,以及与语文信息加工有关的基础性工作。例如,汉字如何编码才能输入计算机,如何切分词,哪些是常用词和常用词组,如何进行语音识别与合成,等等。

中文信息处理研究项目

目前已经开展的有以下10项:

(1)汉字信息处理:这是一项最关键的语言工程,汉字如不能进入计算机,图书情报工作自动化、印刷出版现代化 、办公室事务自动化都将化为空谈。 近10年来,汉字信息处理研究得到很大发展。曾设计了 400多种汉字编码方案(见汉字编码),其中上机通过试验或已被采用作为输入方式的,已达数十种之多。研制了上百种汉字信息处理系统和设备。这些系统主要采用两种类型的键盘:一是笔触式大键盘,另一是小键盘。前一种除整体输入外,一般还有利用部件组合汉字的能力;后一种有的可兼容多种编码方案,有的还带有计算机引导的智能。

汉字信息处理除了在汉字编码方面进行研究外,还制成了若干种汉字输入输出专用设备,其中有各种类型的汉字输入键盘、汉字字库、汉字显示终端、汉字图形兼容终端、汉字印字机。成套的汉字信息处理系统(包括汉字编码法、通用中外文键盘、通用中外文显示器、汉字打印设备、汉字库和系统软件等)已研制成功,并安排批量生产。一种最新式的编辑排版系统──计算机激光汉字照排系统也已研制成功。中国的字模生产有良好的基础,1985年5月国家标准局公布了《信息交换用汉字15×16点阵字模集及数据集》和《信息交换用汉字24×24点阵字模集及数据集》两项标准,为各种设备的设计和推广提供了有利条件。

为了使人们摆脱繁重的编码输入工作,汉字的光电自动识别研究提上了日程。近年来有越来越多的单位从事手写体和印刷体的识别研究。邮电部数据所和北京邮电学院提出了象限端点和转动惯量特征识别法,沈阳自动化研究所提出了文字线长度识别法,上海公用事业研究所研制出数字条形识别系统,电子工业部第52研究所设计了提取汉字笔划特征的划分映射法,清华大学研制了有限制性手写体汉字识别系统。

为了使各种系统之间的信息交换有共同性,也为了使各种输入输出设备的设计有统一的根据,1981年国家标准局公布了《信息交换用汉字编码字符集基本集》(简称《汉字标准交换码》)。这个标准是根据汉字使用频度制定的,共分两级,一级3755个字,二级3008个字,共6763个字。为了满足少数用字量超过基本集的用户和台湾、香港等地的需要,正在制定《信息交换用汉字编码字符集辅助集》,辅助集将根据使用频度高低分作第一辅助集和第二辅助集,各收8000余字。

(2)机器翻译:计算机和语言的最早结合开始于机器翻译。1956年,机器翻译被列入中国科学工作的发展规划。1957年,机器翻译研究工作正式开始进行。这可以说是中文信息处理的第一项工程。首先研究的是俄汉机器翻译,并于1959年成功地进行了试验,译文输出是代码,而不是汉字,因为当时没有汉字输出装置。1958年底至1960年初,又研制了一套英汉机器翻译规则系统。1966~1975年工作处于停顿状态。近年来,先后上机试验了英汉、俄汉、法汉、日汉和汉外(英、法、德、俄、日)机器翻译系统十余个。有的输出汉字译文。有的输出拼音译文。

语言的对比研究是机器翻译的语言学基础。在外汉机器翻译系统中调整词序是一个中心任务。词序的调整,首先必须分清层次和确定轴心。为了调整词序,有的系统还建立了一套特殊的成分体系,即中介成分体系。介词、连词和标点是机器翻译研究中的难点,对它们的正确分析是解决词序调整问题的关键。当结构分析发生困难时,需要进行语义分析。

(3)中文情报检索:为了提供标引和检索蓝本,1979年中国科学技术情报研究所编辑出版了10卷本的《汉语主题词表》。目前,中国已有上百个单位开展电子计算机情报检索的试验研究,其中十几个单位已进入定题情报服务 (SDI)的应用阶段。不少单位正在建立各种汉字文献数据库,同时还在考虑联机网络问题。

情报检索系统中的关键问题是情报检索语言的建立(见计算机情报检索)。除一般的词汇语法问题外,中文情报检索系统中还有一个特殊问题,就是词的切分,因为检索是以词(关键词)为基础的。

(4)言语统计:中国利用电子计算机进行言语统计是机器翻译工作者开始的。1978年语言研究所和计算技术研究所在合作研究 ECMT-78英汉机器翻译系统的过程中曾编制一个排序统计程序,加工过一些外文资料和汉语拼音资料。1981年北京语言学院等单位开始对人工调查统计的词汇进行计算机处理。1985年完成了《汉语词汇的统计与分析》,在52万多字的汉字语料中统计出18177个不同的词, 这些词出现的总和是374654次,出现最多的单音节词是“的”, 出现最多的双音节词是“我们”。1986年6月又完成了《现代汉语频率词典》。1982年北京航空学院等单位开始更大规模的汉语统计工作,要在2000万字的语料中进行字频和词频统计。部分字频统计结果已经得出,从1977~1982年的1200多万字的语料中统计出8969个不同的汉字,并提供了这些汉字根据不同学科分类的26种使用频度表。

由于词的自动切分问题尚未解决,因而现在的词频统计都是在人工调查统计或人工分词的基础上进行的。

另外,中国文字改革委员会 和武汉大学利用计算机对《辞海》1.6 万多个汉字的部件进行了统计分析,以研究汉字的结构特点。为了研究人名用字的使用情况,中国文字改革委员会和山西大学根据人口调查材料对人的姓名分别进行了统计。很多省份“王”为大姓,而福建省“陈”、“林”为大姓。

(5)汉语理解系统:最近几年,随着人工智能的进展,语言研究所、心理研究所、自动化研究所和一些大学开展了汉语理解系统(人机对话)的研究。目前只限于书面语言理解,而且主要是问答型的。输入方式采用汉语拼音。上机试验结果表明,有的系统已有识别30多种句型的能力(见汉语书面理解系统)。汉语语音理解系统的研制正在酝酿之中。

(6)计算机辅助语言教学:近年来很多人关心这一课题。华东师范大学现代化教育技术研究所、哈尔滨工业大学、上海交通大学等单位已研制出语言教学软件多种(见计算机辅助语言教学)。

(7)语音识别和言语合成:语音打字的任务早在1958年便已提出。1964年实现了“元音识别机”,1970年前后又实现了10个口呼汉语数字的识别机。但利用电子计算机进行识别研究,则始于 1972年。 声学研究所利用语音图样匹配方法在一定范围内实现了单呼语言的识别,正确率达99.5%以上。哈尔滨工业大学利用音素分析法进行汉语识别,正确率达90%以上。

汉语合成的研究已在一些单位进行,一般尚处于研究实验阶段。清华大学自动化系最近试制成功一种会说话的中文计算机,机器里存有汉语声韵母等语言数据,计算机会自动根据拼音规则实现拼接,合成语音。

(8)方言研究:国外有人曾将汉语方言资料输入计算机,让计算机提供各个方言声母、韵母、声调的出现频率,以及鼻化、腭化现象分布的百分比。这些数据不仅有利于方言的共时描写和比较,而且还有利于检验各种历史构拟假说的正确性。目前,中国已开始利用计算机进行方言研究和绘制方言地图。

(9)索引、词表和词典的编制:1980年武汉大学开始语言自动处理工作,主要是编制逐字索引,同时提供汉字统计数据。他们计划编辑《现代汉语语言资料索引》23辑,收录现代著名作家9人的作品共33部,总字数500多万。前 5部作品(《骆驼祥子》、《倪焕之》、《雷雨》、《日出》和《北京人》)的逐字索引和统计资料已相继印出。最近,他们又与山东省社会科学院合作,完成了《论衡》的语词索引和统计资料。其他一些书籍的索引工作也在进行之中。

(10)修辞学研究:武汉大学等单位利用现有的语料库开始进行风格学研究,随着语料的扩充和统计方法的改进,将会提供不同作家的风格特点和各种风格对比研究的成果。

利用计算机编制词表、词典也已提上日程。语言研究所正在编制《多语对照语言学词汇(英、法、德、俄、中)》。机编词典除能加快辞书的编辑出版过程外,还可以随时扩充、修改,保持词典的先进性。

中文信息处理研究方兴未艾。随着研究手段的改善和研究工作的深入,还将有更多更新的项目涌现。

参考书目
  1. 张寿萱 、徐建毅 、张建生:《中文信息的计算机处理》,宇航出版社,上海,1984。
  2. 涌泉:《中国的语言工程》,载《中文信息》,1985,第1期。