浅谈机器翻译实现的途径
本文概述了机器翻译的基础理论,它是借助计算机把源语言文本转变成目标语言文本的过程。从计算机语言学的角度阐述了实现机器翻译的技术原理主要有基于语法分析和基于语料库两大途径;分析了这两条途径翻译过程中的优势和缺陷,并提出解决的对策。
标签:机器翻译;语法分析;语料库
随着网络信息时代的来临,信息爆炸成为信息处理领域的瓶颈问题,不同语种之间大量的信息交流更加大了问题的严重性;同时不同语言之间的翻译工作也越来越迫切,并且工作量也越来越大。如何利用计算机高效率的信息处理能力突破不同语种之间的语言障碍,成为全人类面临的共同问题。机器翻译便是解决这个问题的有力手段之一,这也是其长期成为自然语言处理研究中心的主要原因之一。
一、机器翻译的基础理论
机器翻译的总任务可以描述为:将一种语言(源语言)的文本信息输送入计算机,通过计算机程序生成另一种语言(目标语言)的文本,且源语言文本与目标语言文本具有相同的含义。机器翻译的第一步是在不同層次上分析源语言文本,而后是目标语言文本的生成。所谓源语言分析,就是遵循一定的语言学基础,寻求源语言文本的表示形式与其对应内容之间所存在的映射关系的过程。文本内容可以用句法结构表达式、文本命题含义表达式、综合的中间语言文本描述。典型的源语言分析手段为:依据与源语言文本所表达含义相关的词汇、句法结构、单词和句子的顺序,灵活地找出目标语译文。
源语言分析涉及多个不同层次,分析过程按照复杂度递增顺序可划分为以下几个阶段: 1、形态分析:用于获取源语言词汇原形。在机译系统的研制中,两层分析法是普遍采用的形态分析理论,有时也采用不太通用但更适合于特定语言、特定任务的方法。2、句法分析:用于摘取源语言文本短语结构、句法结构的依存性,即确定输入文本中词汇的词性、短语边界及短语的内部结构。3、语义分析:利用文本含义描述语言建立知识结构,反映源语言文本的词汇、词义及相互之间所存在的语义依存关系,可消除词义歧义、介词短语修饰歧义、复合词分解歧义等等。4、语用分析:根据源语言文本元素之间所存在的各种面向应用领域和修辞的关系,建立源语言文本语义结构。源语言分析的深度不同,是造成各机译系统之间存在差异的主要因素。
二、计算语言学
计算语言学,也称为自然语言理解,是研究如何利用计算机来理解和生成自然语言的理论和方法。它是人工智能三大研究方向之一,主要包括两个组成部分: 1、 让计算机懂得自然语言文本意义的理解过程; 2、以自然语言文本来表达给
定意图或思想的生成过程。自然语言理解是一个极其复杂的研究课题,是一门自然科学和社会科学交叉的学科,特别是计算机科学、数学、语言学、心理学和哲学相互交叉的科学。所谓自然语言就是我们生活中使用的语言,如汉语、英语、日语等等。它是相对于人工设计的形式化的计算机语言如Basic等等而言的。随着社会信息化程度的提高,人们越来越重视NLU技术的研究,其研究成果已经在机器翻译、信息检索和自然语言人机接口等重要领域得到应用。
鉴于人类翻译工作的复杂性,认为机器翻译的结果能与人类翻译具有相同的质量,无疑是荒谬的。然而,很明显即使是人类翻译也很少能够达到完美的翻译。实际上翻译过程包括两个阶段:首先,是翻译出一个粗略的初步的译本,这一阶段,多数翻译问题已解决,但远非完美;其次,修订阶段,这一阶段轻则对文本复读并做出较小调整,重则对文本做重大的修改补充。因此可以说机器翻译的目标是自动完成翻译过程的第一阶段,然后人类翻译可以直接进行第二阶段,完成要求更高的雕琢修饰的修订任务。问题是现在人类翻译面对的文本不是由人脑翻译的、而是由机器翻译的,这就要求人类翻译要改变工作方法,因为机器翻译的错误和人类翻译的错误是不同的。所以有必要把机器翻译和译者的思想、判断和经验协调起来。
从计算机语言学的角度来看,实现机器翻译的技术原理主要有基于语法分析和基于语料库两大途径:基于语法分析的技术就是对源语言语句的词法、语义、语法和句法进行分析并判断和取舍,然后重新进行排列组合,最后生成目标语言。但由于计算机技术发展水平所限,这种方法还不能完全模拟人脑的思维功能和适应自然语言的灵活性、复杂性和开放性等特点,存在一定缺陷,这种方法在机译研究的初期曾占主导地位。基于语料库的技术工作原理是利用统计学和概率方法建立一个包含各种句型的双语对照语料库,在翻译时,从语料库中抽取与输入句子相类似的例句,然后模仿例句来实现源语言与目标语言的转换。采用这种技术能够得到可读性和准确性都比较好的译文,但这种方法的难点在于构建庞大语料库及其建立有效的运行机制。这种技术已越来越受到重视并已在很多产品的开发中得到应用。
利用语料库来辅助翻译主要表现在两个方面:机器翻译中的译文选择和人工翻译中词汇的查找和界定。译文选择是机器翻译中最困难的问题之一,它的目的是根据上下文选择源语言中的词在目标语言中的等价词,译文选择直接决定译文的质量。汉英两种语言差别很大,汉语词一般对应着多个英语词,英语单词也往往对应着多个汉语译文,正确地选择译文是机器翻译中的一个关键问题。有研究者采用基于语料库的统计方法,用目标语的上下文来决定源语言词汇的译文,在加上其它的方法可以使译文的准确性比传统方法提高9%左右。
语料库的另一个明显作用就是作为传统词典和语法的补充,为译者提供工具。在汉英翻译的过程中,一个棘手的问题是,有些词语由于东西方社会背景和文化传统的差异,难以在译语中找到与源语言含义相同的“对等词”。在翻译这些词时,首先要求我们研究英美文化,在英语中找出与汉语对应或对等并为英美读者或者听者在其文化背景中理解并接受的 “对等词”;其次,还需要遵循这些 “对等词”与其它词汇在搭配时所具有的特定语法规则和语用规则。通过对语料库中
的一些在英美文化中汉语对等词的系统调查和分析,就可以得出一系列英语中这类词的语用搭配规律,这对汉语文化内涵比较丰富的词的英译无疑提供了有益的参考,在某种程度上将会起到一定的指导作用。
三、小结
机器翻译实质上是一个综合的研究领域,它根植于科学和工程、基础研究和实际开发、计算机科学、语言学、人工智能及软件工程等多个领域的交叉地带,也是理论语言学、计算语言学及描述性语言学的自然应用。它是一个真正的科学与技术相结合的多学科产物,在经济发展和社会生活中日趋重要,对它的研究必将推动这些学科的迅速发展,对加速和扩展世界范围内的信息传播具有深远意义。
因篇幅问题不能全部显示,请点此查看更多更全内容