网页标记文本和存文本的翻译方法

来源：学术堂作者：姚老师
发布于：2015-01-08 共3330字

　　一、引言

　　当进行 WWW 网页文本的翻译时，翻译系统会遇到两大类型的问题：如何在翻译文本中插入 HTML标记并如何正确翻译翻译文本。第一个问题需要系统来正确处理所有的 HTML 标记，否则可能会导致无法阅读的翻译文本。而第二个问题则需要一个大型的语料库来分析文本的意义并避免歧义。如果成功地处理这个问题，系统可能会译错，这将是我们以后处理的重点。

　　本文中将设计一个机器翻译系统来进行网页的中英互译，首先处理有标记文本然后再进行非标记部分的翻译。

　　二、网页标记文本的翻译方法

　　对于 HTML 文本，显然不能将标记（tag）与文本分开，先翻译文本然后再插入相应的标记，因为中英文语言不总是一一对应。如果这样处理，图一将会变成(<p>约翰是一个<u>李老师的学生</u>)。这显然是不可接受的。因此需要换一种方式来处理这个问题。

　　需要首先标记 HTML 和文本块，然后再分别翻译纯文本和标记。然后系统会将其与目标语言的文本相比较。如果目标文本与源本完全吻合，就不存在问题。我们只需要将目标文本部分相应的地方做标记。如果目标文本与源文本不完全一致，系统必须找到相互需要标记的标记文本，然后再加入需要的 tag。

　　论文摘要

　　（一）tag 的分类

　　HTML 中有不同的 tag，而在机器翻译中可以简单地把它们分成两类：

　　第一类：void tags （VT: 无类型标记）。 VT 是指HTML 标记中不影响文本块，也不需要结束标记。这种标记的例子是图片（IMG），图二里就包括一个 IMG第二类：Real tags（RT:真实标记）。RT 是指 HTML标记中会影响文本块并需要一个结束标记（当然某些特定类型也不是必需的）。这种标记也分成几大类：

　　（1）总体 HTML 网页结构标记：这些标记对于定义 HTML 网页的整体结构是必需的。这类标记如：HTML, HEAD, TITLE 和 BODY。

　　（2）影响 HTML 页面独立的标记：这些标记会影响到 HTML 页面的完整与独立，换句话说这些标记不能被用来影响单个词和句子，这类标记如 FORM,UL, OL, SELECT。

　　（3）字符强调标记：这类标记用来强调词、部分句子甚至整个段落，如 EM, B, I 和 U。

　　（4）超文本和超链接：这类标记是将当前文本转向其他页面。WWW 上的大多数文本都是用 HTML 写的，RL主要用来描述多媒体信息的链接，比如图片。用户不仅需要阅读文本的字符串，还需要通过图片信息与强调部分来理解其内容。所有这些信息在机器翻译时都需要保留。

　　论文摘要

　　（二）HTML 标记管理器

　　网页文本同其他普通文本不一样，是通过将信息编码到 HTML 文本类型定义（DTD）中，这是 SGML（一般语言组成标准）的应用。 HTML 标记本身不需要通过机器翻译系统来翻译，但是他们必须在翻译后保留在合适的地方。在系统里有一个标记管理器（TM），它会将句子看成是一个整体而不会将其分开，因此在翻译网页时有两种方法来处理这些标记。

　　第一步：标记分离。在标记分离阶段会用到HTML 文本的信息框架和标点符号。下面是 TM 如何处理这些标记分离。

　　（1）起始与结束标记必须保留（如<A>,</A>,<TITLE>,</TITLE>）。

　　（2）如果一对标记中有好几个句子，必须通过标点符号来分离。

　　（3）一个表格块中的每一项都被当成是一个句子。

　　（4）空行后的复合名词或短语被认为是一个标题。

　　HTML 标记会被筛选出来并存储到一个外部文件中，里面包括句子数、词数、词、起始标记、结束标记以及 FI（标记信息）。完成这些操作后，系统就能正确理解不同标记并将其当成句子而不是短语来处理，以免出现误解。

　　第二步：标记恢复。如果目标词与源语言的词一一对应，就不需要恢复。但是情况并非总是如此。更一般的情况是，会碰到 1 对 N 或者 N 对 1 又或 N 对 M 的情况。这种情况下，翻译时，译者不会处理完整的标记，只需要处理词串信息。 TM 保留所有的标记，文本翻译后，TM 通过以下的方法将标记恢复到目标语信息中。

　　（1）1 对 N：源语言的词的起始和结束标记直接复制到目标语中。

　　（2）N 对 1：TM 分析源语言的起始和结束标记，然后根据序列信息确定需要保留的标记（如<A>,</A>,<TITLE>,</TITLE>）。在此过程中，内部标记如大小和颜色标记会被忽略。

　　（3）N 对 M：通常这种情况会发生在成语中。正如N 对 1 的情况，TM 分析源语言词的标记。然后 TM 会决定起始和结束标记。在此过程中，某些颜色和大小的标记可以被排除。

　　（三）标记文本的翻译

　　图三表明标记文本的不同情况。句子 1 和 2 是标记文本在源语言和目标语中都会出现的例子。句子 3是标记文本在目标语中会出现在不同的地方，而句子 4则是标记文本不会出现的例子。

　　论文摘要

　　这些句子表明必须要选择一个模型能够使电脑决定目标语文本的哪个部分需要标记。有不同的方法来完成这个模型。在我们的模型中，可以分 4 步来处理这个问题。首先我们通过机器翻译系统来翻译整个文本，然后再使用同一个系统翻译各个标记文本，之后再将全文本和标记文本相比较，因此我们可以决定哪些文本块需要标记。这样做的话，我们可能还需要将标记词分开，然后再单独翻译，这对于源语言标记文本可能会产生好几个目标语文本模块时特别必要。更有甚者，有些英语词当它是句子一部分时可能会有不同的翻译方法。

　　有时，一个句子的一个名词可能会出现好几次，翻译时，这些名词出现的次数很可能会颠倒，如：The teacher of the teacher comes (老师的老师来了).因此，为了使系统能正确处理这样的句子，必须首先处理源语言的句子为：The teacher’s teachercame。这样，标记就不会出问题了。

　　三、纯文本的翻译方法

　　至于翻译没有标记的网页纯文本，一般我们只需要利用现有的机器翻译系统。在我们的系统里使用的是基于语料库的翻译系统。首先需要一个大型的双语语料库，这一点目前已经不是问题，还需要一个域识别器（domain identifier）。我们首先需要考虑域然后再考虑翻译系统。

　　（一）域的识别

　　当处理特定域的文本时，机器翻译准备度会非常高并异常高效。因此首先需要识别文本的域以提高翻译的准确性。在我们的系统里我们收集一些平衡的网页文本来确定域。因为没有可靠的标准域范畴统计数据，我们必须收集这类文本，以下是收集标准。

　　（1）收集来的统计数据必须能反映整个 WWW的内容。

　　（2）有很多共同词的两个域能通过一个高级域融合在一起。

　　当翻译网页文本时，域识别器分配 top-one 和top-two 两个范畴，然后确定相应的域相关词典，机器翻译系统能够很好翻译特定域的文本，通过使用合适的词典，翻译时的歧义可以大量解决，并且提高翻译的质量。例如，“doctor”一词有很多意思，一旦确定翻译的域是关于学术领域，很容易就确定目标语的意思。

　　（二）基于语料库的纯文本的翻译

　　本系统的基本理念很简单：通过比对先前类似句子来翻译句子。这种理念最先由 Nagao（1984）提出。这种观点和我们常说的“一个好的翻译者是一个懒惰的翻译者”有共通之处。在我们的系统中，需要用到大量先前的翻译成果。这样做不仅能节约时间，还能提高术语和风格的一致性。

　　因为是基于语料库的机器翻译，我们首先需要一个平行的语料库。这种意义上的机器可识别的平行语料库是很容易实现的：联合国提供了一个很好的多语文本资源。当然很多 WWW 网页也提供了大量的双语或多语言文本，这同时说明了语料库可以随时进行扩展。

　　这种机器翻译系统包括以下主要部分：

　　（1）包含源语言和目标语的平行语料库。

　　（2）一个匹配法则。

　　（3）一个组合法则。

　　（4）一个转换与合成法则。

　　如要翻译这句话：Alice bought a book on comput-er.当然如果在语料库里有相同的句子就简单多了。当然这种情况不多，更常见的例子是句子只有部分是匹配的，画线部分完全包含了相应的内容。在这种情况下，我们很容易就能组合成译文“爱丽丝买了一本关于电脑的书”。

　　论文摘要

　　但是有时候很难找到完全匹配。这时就需要选择相似文本并进行翻译，至于如何确定两个部分的相关性，有以下的标准：

　　如果至少有两个段落相匹配，那么两个章节就有相关性。类似的，如果至少有一句话匹配，那么两个段落就有相关性。

　　同样的原则也适用于句子和词。

　　三、总结

　　本系统分别解决了网页中标记文本和非标记文本的翻译，至于标记文本，最重要的就是在恰当的地方重新插入标记，而对于未标记文本就简单多了，借助大型语料库直接使用普通的机器翻译系统就能解决这个问题。

　　在以后的论文中我们讨论的重点将是文本翻译时不可避免会出现的歧义的解决问题。

相关内容推荐