2.1 引言

基于语料库的莎士比亚戏剧汉译研究胡开宝著

2.1 引言

莎士比亚研究一直是西方文学研究的“显学”之一，相关著作可谓“汗牛充栋”。自20世纪初以来，莎剧的多个汉译本相继问世，其中影响较大的译本有朱生豪（1947）、梁实秋（1947）和方平（2000）等翻译的汉译本。这些译本对我国现代戏剧和文学创作产生了深远的影响，而且很大程度上丰富了汉语的表现形式。然而，莎剧汉译研究的广度和深度仍然比较有限。现阶段莎剧汉译研究局限于具体词汇或修辞手法的翻译研究，而关于句法和语篇层面的研究成果比较少见，且多为定性研究，较少进行定量研究，鲜有成果。此外，鲜有成果利用语料库方法对莎剧的汉译开展系统和深入的研究。

很显然，这与莎剧汉译本在中国文学乃至文化发展历程中的重要地位十分不相称。究其原因，主要是因为莎剧剧本多，内容博大精深，莎剧汉译研究因而费时费力。显见，建设莎士比亚戏剧英汉平行语料库，开展基于语料库的莎剧汉译研究十分重要。研究人员可以充分利用语料库储存数据大、计算机运行速度快、语料库工具能准确对大量数据进行分析的优势，系统、全面地对多个莎剧汉译本进行比较分析，通过数据分析和功能阐释相结合，获得客观可信的研究结果。

为此，我们自2005年起便开始着手建设莎士比亚戏剧英汉平行语料库。经过数年的努力，我们已建成莎士比亚戏剧英汉平行语料库，并开展了一系列前期研究。该语料库收入莎剧原著，这些戏剧的梁译本、朱译本及方译本，以及汉语原创戏剧，总库容为3068634字（词），具体情况如表2.1所示。

表2.1 莎士比亚戏剧英汉平行语料库的构成

根据表2.1，汉语原创戏剧的形符数与方译本和朱译本的形符数相当接近，与梁译本的形符数也相差不大。因而，汉语原创戏剧与莎剧的以上汉译本之间具有较为理想的可比性。

应当指出，建设平行语料库，尤其建设能够实现一个原著与三个译本句级对齐，且库容达数百万字的语料库，不仅要耗去大量的人力和物力，而且技术层面亦具有较大难度。本节拟介绍莎士比亚戏剧英汉平行语料库的创建过程。

一般而言，英汉平行语料库的创建步骤主要为：①中英文语料的选择与输入；②语料的预处理；③语料的标注和分词；④语料的平行对齐；⑤语料库出版；⑥语料库网上检索。目前，莎士比亚戏剧英汉平行语料库已完成第1至第4个步骤。至于语料库的出版和网上检索，待完成所有语料的输入和深加工，并解决相关版权问题之后方可进行。

2.2 中英文语料的选择与输入

自莎剧全集问世以来，英文版本为数众多，受到人们推崇的版本主要有牛津版（1743）、撒缪尔·约翰逊版（1765）、里德版（1803）、和河畔版（1974），以及阿登系列版本（1899，1958，1995），等等。牛津版是托马斯·汉默（Sir Thomas Hanmer）编辑的6卷本《莎士比亚作品集》，分别于1743年和1770年在牛津出版。该版本是早期版本中校勘比较仔细的。撒缪尔·约翰逊版是由《英语辞典》编撰者撒缪尔·约翰逊编辑的8卷本《莎士比亚戏剧集》，1765年在伦敦出版。该版本收入许多莎学名家的相关评论和编者所作的注释。里德版是里德主编的莎学史上规模最大的21卷本《第一集注本》（The First Variorum）。该版本收入相关莎学评论和注释，并附有词汇索引。河畔版，即伊文斯（G．Blakemore Evans）主编的一卷本《河畔本莎士比亚》（The Riverside Shakespeare）（波士顿，1974），是目前在莎士比亚课堂教学中受到师生欢迎的版本。《阿登版莎士比亚》首版主编是著名莎士比亚学者克雷格（W．J．Craig，1899——1906），后由另一著名莎士比亚学者珂斯（R．H．Case，1909——1924）继任主编。第二版又称《新阿登版莎士比亚》，主编是莎学家厄里斯-菲莫尔（UnaEllis-Fermor，1946——1958）教授，由缪修安出版公司（Methuen&Co．Ltd．）出版，收入莎士比亚37个剧本、两首长诗和所有十四行诗。第3版《阿登版莎士比亚》由伦敦勒尔宁（Thomson Learning）公司出版，共收38个剧本。经过讨论，我们选择莎剧全集的牛津版作为语料库的英文语料。牛津版是公认校勘准确的版本，而且莎剧的不同语言译本均译自该版本。本语料库拟选择梁实秋、朱生豪和方平翻译的3种莎剧全集作为中文语料，其中梁译本和朱译本都译自牛津版。此外，牛津版莎剧全集的电子版可以从互联网上免费下载，能省去英文语料输入的大量工作。

就莎剧全集的汉译本而言，比较知名的主要有曹未风译本、朱译本、梁译本和方译本。曹未风译本由贵阳文通书局于1942年至1944年之间出版，收入曹未风译的莎剧剧本11部。朱译本最早由世界书局出版（1947），后来分别由作家出版社（1954）、人民文学出版社（1978）、时代文艺出版社（1996）和译林出版社（1998）等出版，收入莎剧共37部，其中31部为朱生豪所译。梁实秋译本由台湾远东图书公司出版（1967），收入梁实秋翻译的全部莎剧剧本。1995年，内蒙古文化出版社和中国广播电视出版社同期出版梁实秋翻译的《莎士比亚全集》。方译本《新莎士比亚全集》（河北教育出版社，2000），是由方平和梁宗岱参照欧美当代备受重视的Bevington全集本（1992年）与Riverside全集本（1974年），以诗体方式译出，以更接近原作体裁和风格，重现原作的意境与情态。我们根据译本的影响及所收莎剧剧本是否齐全，最终确定了朱译本、梁译本和方译本为语料库的中文语料。

确定语料库的中英文文本之后，我们便开始进行中英文语料的输入。牛津版莎剧全集和朱译本可从网上直接下载，并直接转化成TXT格式。梁译本也可从网上下载，但其格式为PDF格式，需转换成TXT格式。方译本目前还不能从网上下载，还需要使用高速扫描仪扫描或人工输入。为保证语料库的语料质量以及研究的可靠性，我们组织人力仔细校对输入后的语料，检查语料是否有倒码、拼写错误以及具体内容与蓝本出入等现象，并及时予以更正。

2.3 语料的预处理

语料的预处理主要包括格式的统一、各种杂质的清除和中英文语料的分存等。作为中文语料的3个汉译本分别由不同出版社出版，文本格式如字体、段落编排和文档格式等各不相同，加之语料输入方法不同，语料格式问题十分突出。为此，我们首先确保3个汉译文本格式的一致。应当指出，直接从网上下载的语料，往往有多余的空格及空行、断行、多余的语言符号，以及不必要的一些图形或符号等。这些杂质对于研究而言没有什么实质意义，直接影响着英汉语料平行的质量。为去掉语料中多余的空行，我们采用word的替换功能，打开编辑菜单的“替换”对话框。在“查找内容”的输入框中单击“高级”按钮，选择特殊字符“段落标记”两次，这时输入框中会显示“^p^p”，然后在“替换为”输入框中用上面所提的方法插入一个段落标记，即一个“^p”，再点击“全部替换”，多余空行会被删除。至于空格的删除，我们采用替换功能把要删除的空格复制一行粘贴于“要替换的内容”里，下面“替换为”保持空，并按“全部替换”，便可删除多余的空格。另外，上述莎剧汉译本均附有数量不等的注释，与研究内容没有多大关联，我们均将它们删除。

在输入并校对语料，清除杂质，统一语料格式之后，我们将每部莎剧的中英文语料分存，分存的每个文件均以英语命名，以便于文件的查询和加载。文件名需交代戏剧名称和语言载体等信息，中文语料的文件名还需说明译者的姓名，如：戏剧《李尔王》英文语料文件名为King Lear_en.txt，中文语料文件名分别为King Lear_cn_liang.txt，King Lear_cn_zhu.txt和King Lear_cn_fang.txt。en意即“英语”，cn表示“汉语”，分别注明文本语言是英语还是汉语。liang，zhu和fang分别表示汉语语料的译者为梁实秋、朱生豪和方平。

2.4 语料的分词和标注

莎士比亚戏剧英汉平行语料库选用ParaConc软件对中英文语料进行平行处理，但与英语不同，汉语文字之间没有空格，国外软件不能对汉字进行识别和自动计算，常常出现倒码现象。为此，我们选用汉语词法分析软件ICTCLAS对语料进行分词处理。该软件由中国科学院计算机技术研究所开发，其分词规范采用了中国国家标准GB13715“信息处理用现代汉语分词规范”。该软件的功能主要为词汇切分和词性标注。点击该软件的图标，便出现以下窗口：

图2.1 ICTCLAS菜单选项

在图2.1中，选择“操作选项”栏目下的“词语切分”和“一级标注”或“二级标注”，以及“输出格式”栏目下的“北大标准”、“973标准”或XML格式。考虑到“北大标准”与该软件的兼容性很强，我们将“输出格式”确定为“北大标准”。然后，选中“处理文件”，上载需进行词语切分和词性标注处理的中文语料，最后选中“运行”。这样，汉语语料的分词和词性标注便可自动完成。

此外，我们还运用EmEditor软件对中英文语料进行段落标注处理。由于戏剧通常以人物名称作为段落的开始，故而将人物名称作为段落标注的开始。我们在查找栏目中输入正则表达式“n X”。“n”表示“匹配一个新行”，“X”为具体人物名称。在“替换为”栏目中依次输入“</seg>n<seg>X”。<seg>标记表示“segment”。

然后，选中“使用正则表达式”和“全部替换”，这样便完成了所有人物对话段落的标注。操作完成后的文档如图2.2所示。

图2.2 进行分词和段落标注处理的中文语料

2.5 语料的平行对齐

如前所述，英汉戏剧均以人物对话作为段落单位，我们故而运用ParaConc软件，实现英语原著和汉译本在人物对话层面的对齐，即段落对齐，之后在此基础上进一步实现英汉语料句级层面的对齐。

首先，点击ParaConc的“File”（文件）选项中的“Load Corpus Files”（加载语料库文件），便会弹出语料库文件加载对话框（见图2.3）。

在“Parallel Texts”（平行文本）选项处选择需要对齐的文本数目。本语料库旨在实现一个英语文本与3个汉译文本的对齐，故需要对齐的文本数应为4。然后分别点击“Add”（添加文本）选项，加载需要对齐的英汉语料，并将“align format”（对齐格式）设定为“start/stop tags”。ParaConc内设“start/stop tags”（标记对齐）和“delimited segment”（定界符对齐）。前者支持句与句之间的对齐，后者支持段落之间的对齐。

其次，点击“options”（选项）将段落标注的格式设定为“seg”和“/seg”，并单击“OK”。这样，ParaConc自动对英汉语料进行段落对齐处理。之后，点击“Files”（文件）菜单下的“View Corpus Alignment”，选择需要查看对齐状态的英汉语料，并点击“alignment”，便弹出语料平行对齐浏览窗口（见图2.4）。

图2.3 ParaConc语料库文件加载对话框

图2.4 ParaConc语料平行对齐浏览窗口

图2.4显示的是英汉语料段落之间的对齐，其中不同颜色表明语句之间的界限，即语句的开头和结尾。在句子的开头或结束，单击鼠标右键，便会弹出语料句级对齐处理窗口。

图2.5 ParaConc语料句级对齐处理窗口

选中“split segment”（分割对齐单位），或“merge with next/previous segment”（向下或向上合并对齐单位），对英汉语句进行拆解或合并处理，通过手工对齐的方式实现英汉语料之间句级对齐。

最后，在file（文件）菜单中选择“Save Workspace”，保存实现英汉句级对齐的英汉语料。

2.6 小结

莎士比亚戏剧英汉平行语料库的创建比较复杂，而且技术难度较大。该语料库的建设主要包括语料的选择和预处理、语料的标注和分词处理，以及一个英语原著与3个汉语译本的句级对齐。经过几年的探索和努力，我们最终掌握了英汉平行语料库的建库原则、路径和具体方法，建成了现有库容300余万字词的莎士比亚戏剧英汉平行语料库。