机器翻译

浏览

电子计算机根据一定程序进行的翻译,也叫自动化翻译。

历史

1946年电子计算机问世后,美国工程师W.韦弗和A.D.布思在讨论电子计算机应用范围时,便提出了利用计算机进行语言自动翻译的想法。1949年,韦弗发表了一份以《翻译》为题的备忘录,正式提出了机器翻译设想。1954年,美国乔治敦大学在国际商业机器(IBM)公司的协同下,用IBM-701 计算机进行了世界上第一次机器翻译试验。此后,苏联、英国、日本、中国等国也相继进行了机器翻译试验。1966年11月,美国科学院语言自动加工咨询委员会公布了一个题为《语言与机器》的报告,对机器翻译采取否定态度,致使机器翻译研究转入低潮。 70年代初, 由于现实的需要及技术的进步,机器翻译又重新兴旺起来。美国、加拿大、法国、日本都先后建立了一批翻译能力较强的系统。例如,美国的SYSTRAN系统,提供一些单位进行俄英、德英、法英、英法等语言的翻译,翻译速度相当快,每小时能译30万词,但需译后加工。为了提高翻译质量,近年来又出现了一些机助翻译系统。

中国进行机器翻译开始于1957年。1959年成功地进行了俄汉机器翻译试验,是世界上第五个进行机器翻译试验的国家。60年代中期以后一度中断,70年代中期以来有了进步,先后上机试验了英汉、俄汉、法汉、日汉、德汉和汉外系统十多个机器翻译系统。目前,正处于向试用过渡阶段。

原理

机器翻译是语言学、数学、计算技术、自动化等学科相结合的产物。语言学家提供适合于计算机进行加工的词典和语法,数学家把语言学家提供的材料代码化和程序化,计算技术专家研制便于进行翻译的计算机,自动化专家解决光电输入装置等设备问题。机器翻译的实现,有赖于这几方面的共同努力。

机器翻译是对人工翻译的模拟。整个机器翻译过程可以分为原语分析、原语译语转换和译语生成3 个阶段。根据不同方案的目的和要求,可以采用3 种不同方式来建立翻译系统:

(1)将原语分析与转换两个阶段结合起来,而把译语生成阶段独立起来,建立相关分析独立生成系统。在这样的系统中,分析原语时要考虑译语的特点,而生成译语时则不需考虑原语特点。由多种语言译为一种语言时,宜采用这种系统。

(2)将原语分析阶段独立起来,而把转换和译语生成两个阶段结合起来,建立独立分析相关生成系统。在这样的系统中,分析原语时不考虑译语的特点,而生成译语时要考虑原语的特点。由一种语言译为多种语言时, 宜采用这种系统。

(3)将原语分析、原语译语转换和译语生成3个阶段分别独立开来, 建立独立分析独立生成系统。在这样的系统中,分析原语时不考虑译语的特点,生成译语时也不考虑原语的特点,而原语向译语的转换则通过一套独立的转换软件 (或媒介语)来完成。由多种语言译成多种语言时,宜采用这种系统。

无论哪种类型的系统,都必须具备合用的词典和语法。词典和语法的规模大小和完善与否直接影响机器翻译的效能。词典提供原始数据,如每个词的词类、词义和其他特征,同时对同形词进行判别,对多义词进行分析,以及对固定词组和固定结构进行处理。语法是在词典给出初始数据的基础上进行推导和演算。它不仅要对动词、名词等实词进行重点分析,而且要对介词、连词、标点等虚词进行详尽分析。同时还要进行句法分析以找出句中各个词之间的关系。句法分析不能解决的歧义问题,要根据语义参数加以确定。通过一系列的分析和加工,为原语向译语的转换以及译语的生成提供了可靠的依据。

尽管机器翻译的核心问题是语言学问题,但软件也不容忽视。程序设计是否合理,对于机器翻译系统和实现起着关键作用。一般采用COBOL、BASIC、LISP、PROLOG等高级语言进行程序设计,但也有采用自己设计的专用语言来建立系统的。以数学模型为基础、程序和语言数据分立、采用模块化原则、具备可扩充性是编制系统的基本要求。

翻译是情报工作的一项重要技术,在情报量急剧增长的时代,已越来越不能满足需要。随着机器翻译研究的不断发展和第五代计算机的问世,翻译机器人这个得力助手必将成为情报工作自动化流水线上的一个重要环节。