作者简介:苏明阳
学历:硕士研究生
研究方向:翻译语料库,计算机辅助翻译
发表期刊:《外语研究》2007 年第 5 期
摘要:翻译记忆技术应用于计算机辅助翻译,其思想可以追溯到二十世纪七十年代,而翻译记忆系统的具体实现则是在二十世纪九十年代初。经历了近二十年的发展,当今业界出现的翻译记忆系统已有数十种。本文从翻译记忆模型、翻译记忆检索和翻译编辑环境三个角度,对当前的翻译记忆系统进行了梳理和划分,描述了翻译记忆系统的现状,提出了当前翻译记忆及翻译记忆系统的局限性,总结了其发展趋势,并对我国翻译记忆研究与应用提出了建议。
Abstract: The idea of implementing translation memory (TM) in computer-aided translation (CAT) can be traced back to the 1960s, while translation memory software did not come into being until the beginning of 1990s. After nearly 20 years of development, dozens of translation memory systems are now competing in the arena of translation and localization industry. In this paper, the author first presents the overall state of the art in TM systems with categorization from the perspectives of TM architecture, TM retrieval and translation environment; then gives a brief summary on the limitation as well as its trend of development. As the conclusion, suggestions on TM research, TM system development and CAT teaching are given to better the relevant research and application in China.
关键词:计算机辅助翻译翻译记忆翻译记忆系统
1. 翻译记忆与翻译记忆系统
翻译记忆( translation memory )是计算机辅助翻译( computer-aided translation , CAT )技术之一,是译者工作站( translator's workstation )的重要组成部分。 Bowker 将翻译记忆定义为一种用于储存原文本及其译文的语言数据库 (Bowker 2002 : 93) 。其工作原理为: “ 用户利用已有的原文和译文,建立起一个或多个翻译记忆库,在翻译过程中,系统将自动搜索翻译记忆库中相同或相似的翻译资源(如句子、段落),给出参考译文,使用户避免无谓的重复劳动,只需专注于新内容的翻译。翻译记忆库同时在后台不断学习和自动储存新的翻译译文,扩大记忆量(方梦之 2004 : 341 )。 ” 对于系统提供的参考译文,译者可以完全照搬,也可以修改后使用,如果不满意可以弃之不用。
使用翻译记忆辅助译者进行翻译的系统,目前常被笼统地称作计算机辅助翻译系统。这种认识略嫌以偏概全,广义的计算机辅助翻译工具还包括电子辞典、对齐工具、术语管理系统、平行语料库等,有时还将机器翻译包括在内。因此,将主要使用翻译记忆技术的计算机辅助翻译系统命名为翻译记忆系统更为合理。
根据 Hutchins ( 1998 : 287-307 ),翻译记忆的思想最早可以追溯到 1971 年,当时供职于联邦德国国防部翻译服务处的 Krollman 提出了 “ 语言数据库 ” ( linguistic data banks )的设想,其子库之一即为 “ 翻译档案 ” ( translation archive )。七十年代后期到八十年代初, Peter Arthern 、 Martin Kay 与 Alan Melby 等人分别研究和完善了翻译记忆的理论,将其视为当时仍处于理论构想的译者工作站中的重要组件。八十年代后期,个人计算机技术的发展与普及为翻译记忆和译者工作站的实现提供了可能。第一个具备翻译记忆功能的译者工作站 ALPS ( Automated Language Processing Systems )在此期间问世。到了九十年代,翻译记忆随译者工作站系统的市场化为业界所接受,出现了包括 Trados , IBM TM/2 以及 Transit 在内的多种翻译记忆系统,应用于文本重复性强且对术语一致性和翻译效率要求较高的领域,如欧盟文件翻译和软件本地化行业等。 1990 年,本地化行业标准组织( Localization Industry Standards Association , LISA )成立,于 1998 年基于可扩展标记语言( eXtensible Markup Language , XML ),制定了中立、公开的翻译记忆交换标准 TMX ( Translation Memory eXchange ),统一了翻译记忆的存储格式。几次小幅度修订后, LISA 于 2007 年 3 月公布了 TMX 2.0 草案接受业界的评议。如今,翻译记忆技术对翻译的助益已经得到公认,翻译记忆系统的使用也不再局限于专门的语言机构和语言服务商,部分翻译公司开始要求译者用特定的翻译记忆系统进行翻译。
2. 翻译记忆系统的分类与现状
根据 Hutchins 的统计( 2007 : 126 ),截止到 2007 年 6 月,市场上的翻译记忆系统(在其文章中定义为 translation memory system/component )如下: Across, An-Nakel El-Arabi, CATALYST, DéjàVu, ESI Professional, ESTeam Translator, ForeignDesk, Heartsome TMX Editor, Heartsome XLIFF Translation Editor, LogiTerm, LogoVista X Pro, m2T, Memory Explorer, MemorySphere, MetaTexis, Multilizer, MultiTrans, ProMemoria, Sakhr Enterprise Translation, SDL ContextTM, Similis, Trados GXT, Trados TM, Tr-AID, TraNew, TranSmart, Visual Localize, WordAlign, WordFast 。(此外,还存在部分新出现或未被收录入上述列表的系统。)
翻译记忆系统的分类目前尚无定论,本文拟从记忆模型、检索方式和编辑环境的角度,对市场上的翻译系统进行梳理。
2.1 翻译记忆模型
翻译记忆模型即翻译记忆的储存方式,根据国内研究者的分类(王华伟、崔启亮 2005 : 107 ),目前翻译记忆模型共有两种:其一是数据库模型。在数据库模型下,翻译记忆以 “ 翻译单元 ” ( translation unit )的形式储存,源语言句段与目标语言句段精确对应。目前绝大多数翻译记忆系统使用的都是这一模型。另一种是引用模型。这种模型并不将源语言句段同目标语言句段成对保存为翻译单元,而是利用 “ 双语文本字符串 ” ( Character-string-in-bitext , CSB )检索技术( Gow 2004 : 34-37 )检索并引用其在文档中所出现的位置。采用这种模型的翻译记忆系统有 MultiTrans 、 LogiTrans 和 STAR Transit 等。这两种模型各有优劣:引用模型建立大型翻译记忆库时更为快捷;用户检索的任何结果都附有上下文语境;双语文本保持完整,可作为译者背景阅读材料或培训资料。而数据库模型中的数据更易于管理和维护;翻译记忆为即时更新,能够识别并处理同一文本中的重复性文本,而不像引用模型中的翻译记忆必须在当前文本翻译全部完成后才能更新为翻译记忆。此外,目前的翻译记忆交换标准 TMX 是基于数据库模型的,这使引用模型翻译记忆较难共享与交换。
2.2 翻译记忆检索
Lagoudaki 认为,翻译记忆系统之间最重要的区别在于匹配检索技术,她将当前的翻译记忆匹配检索技术归结为两类:基于字符串的匹配检索和语言学知识增强匹配检索( Lagoudaki 2006 : 4 )。基于字符串的搜索方式是翻译记忆检索的传统方式,当前的翻译记忆系统中绝大多数都是基于字符串的检索,借用自然语言处理领域中的 “ 编辑距离 ” ( edit distance )比较字符串之间的相似程度,并用一个百分比表示匹配率。这种检索方式仅考虑到语言的形式而不涉及语言的意义,检索精确度不高。曾有研究者在 Trados 中用以下三个句子进行了测试( Planas & Furuse 1999 : 331-339 ):
The wild child is destroying his new toy.
The wild chief is destroying his new tool.
The wild children are destroying their new toy.
系统给出的结果是( 2 )与( 1 )的匹配率高于( 3 )与( 1 )的匹配率,然而( 1 )与( 3 )之间仅仅是主语单复数的不同,从意义上来说更为相近。
使用语言学知识增强检索技术,是翻译记忆系统发展的新趋势,但实际应用这种技术的系统为数不多。其中, Similis 在句段切分后运用词频统计、 N-gram 模型将句段进一步切分为语块( chunk ),借助于单语字典和语法范畴识别算法进行语法标注( Planas 2005 )。而一款名为 Masterin 的翻译记忆系统据称可以根据翻译记忆库(知识库)中的例子更为灵活地切分源文本的句段,并对每个句段都进行语法信息标记,构成一个 “ 翻译模式 ” ( translation pattern )供深层检索。同时出现多个翻译记忆匹配时,系统还会结合内置字典给出的语义、使用频率和领域信息进行筛选比较。若无匹配,系统还会综合利用库中已有资源构建模糊匹配提供给译者( Gronroos 2005 )。
利用语言学知识增强的匹配检索技术目前也被非正式地称为 “ 第二代翻译记忆技术 ” ,它在匹配检索能力和匹配精度上较基于字符串的匹配检索技术有所改善。但 “ 第二代翻译记忆 ” 更依赖于特定语言的语言学知识与资源,而建立一个能有效运用于翻译的语言学知识库并非易事。
2.3 翻译编辑环境
翻译编辑环境是指译者进行翻译工作的文字处理程序环境。依翻译编辑环境不同,目前所有的翻译记忆系统可分为嵌入式和独立式两类。嵌入式系统需要借助与文字处理程序 Word 为工作界面,安装后会创建一个新的 Word 模板,借助于 Word 中的 VBA 功能增加用于翻译记忆操作的工具栏和宏命令。译者仍然在 Word 中进行文档翻译。简单的嵌入式系统(如 Wordfast )可以仅仅是一个 Word 模板文件,复杂的嵌入式系统(如 Trados )还有外部程序( workbench )同内置的 Word 模板相连接,提供更为高级的功能。独立式系统的翻译过程不使用 Word 等外部文字处理程序作为编辑器,全部翻译工作都在系统内进行。翻译之前通过各种内置过滤器( filter )将相应格式的文档中的源语言导入,在系统内部完成翻译后导出为原文档格式的译文。一些独立式系统(如 Catalyst )专门面向软件的本地化,虽属翻译记忆系统范畴,但已视为本地化工具( localization tool )。两类系统虽能实现相同的功能,但在操作方式、工作流程等方面存在较大差别,篇幅所限,在此不做详述。根据翻译编辑环境的不同,将笔者实际操作过的翻译记忆系统分类如下:
嵌入式
独立式
纯 Word 模板
Word 模板加外部程序
独立式文档翻译系统
本地化工具
MetaTexis 2003 Tr-Aid 2.0 Wordfisher 4.45 Wordfast 5.1
Trados 7.0 雅信 3.5 朗瑞 1.0 TransAssist 1.5
Across 3.5 Aidtrans 2.0 Déjà Vu 7.5 Heartsome TMX/XLIFF Editor 6.2 IBM Translation Manager 6.0 MemoQ 1.0 SDLX 2004 Similis 2.6 Transit 3.0
Catalyst 6.0 Multilizer 6.2 Passolo 6.0
3. 目前翻译记忆技术和翻译记忆系统的局限性
3.1 翻译记忆技术本身的局限
首先,翻译记忆基于以下假设:已翻译过的源语与目标语对照的文本可再利用于翻译新的源语文本,然而现实中的翻译活动大多缺乏重复性,只有在某些限定的领域中,文本的重复率才能达到一定的比率,从而能够有效地利用翻译记忆。由于语言的无限生成能力,即使翻译记忆容量再大,模糊搜索能力再强,依然无法保证在新的翻译工作时总能提供翻译记忆。
其次,两种翻译记忆的模型互不兼容且各有不足之处。两种模型各自的缺点中,有的存在互补性,如原文和译文的完整性在数据库模型下被 “ 碎片化 ” ,而在引用模型下可以得到很好的保留。有的缺点则在两种模型下均没有好的解决方案。如对语块( chunk )或亚句段单位( subsentential segment )的检索,数据库模型下的翻译记忆以句段为单位,检索无法深入到句段以下的层次;而引用模型下检索虽不受翻译单元的限制,产生的不相关结果却相对( noise )较多( Gow 2003 : 38 )。
此外,当前的翻译记忆大多不具备语言学标注,作为翻译记忆储存交换标准的 TMX ,也未针对语言学标注进行扩展或规定。翻译记忆如同语料库中的 “ 生语料 ” ,其中包含的翻译资源得不到充分挖掘,限制了其深度应用。
3.2 翻译记忆系统的局限
第一,如前所述,翻译记忆检索的算法基于语言形式而非意义,检索深度和精度不高。译者对于检索的控制性弱,检索时可配置的选项较少。同时匹配率的设置过于概括,仅使用百分制比较句子相似度不甚合理。
第二,由于商业原因,翻译记忆系统之间差异较大,在系统要求、所支持的文件格式、提供的功能、价格和售后服务等方面均不相同。专业译者有时不得不安装多个系统以解决翻译过程中出现的各种问题。此外,出于市场竞争考虑,各类翻译记忆系统虽然均支持 TMX 格式,但为增加用户粘性,都在各自系统中添加对数据(翻译记忆、术语等)更详细的描述与属性,在数据转移或系统更换时有可能会造成数据流失。
第三,使用翻译记忆系统进行翻译同译者所熟悉的传统翻译过程区别较大,需要较长时间学习并掌握。翻译记忆系统也会对翻译过程产生一些负面影响,如:译者可能会避免使用指代以迁就翻译记忆,提高匹配率( Heyn 1998 : 135 ),而以句段为翻译单位让译者容易失去语篇观念等。
此外,翻译记忆系统往往价格昂贵,前期投入较高,使不少有此需求的个人和小型单位用户望而却步。虽有少数开源系统可供自由使用,但均为纯 Word 模板类型的简单的嵌入式系统。
4. 翻译记忆技术和翻译记忆系统的发展趋势
自第一个翻译记忆系统问世至今已有近 20 年,此间,已存的翻译记忆系统升级换代,新的翻译记忆系统层出不穷。通过对可获及的翻译记忆系统进行历时与共时的研究,笔者认为,虽然现在的翻译记忆系统较过去增加了诸如对齐、项目 / 流程管理、质量保证和术语提取等多种外围功能组件,但其核心翻译记忆技术缺乏突破性进展,检索能力没有质的飞跃。展望将来,翻译记忆技术与翻译记忆系统存在如下发展趋势:
集中化趋势。将翻译记忆与术语等翻译资源集中储存在中央服务器的数据库中,不同权限的工作站通过网络连接到中央服务器进行按需检索。翻译资源的集中一方面可以使翻译记忆匹配和词语索引更全面可靠,检索和维护更简单;另一方面也可以更方便地实现对翻译资源知识产权的保护,适应信息情报保密与安全的需要。加拿大蒙特利尔大学 RALI 实验室的翻译记忆检索库 TransSearch 目前已实现商用,其经验可供借鉴。
深加工翻译记忆的趋势。翻译记忆,从某种程度上而言就是对齐后的平行语料,而目前翻译记忆所挖掘出的仅仅是译文中表层的很少一部分的知识与经验。因此,目前研究者们都在关注如何结合语料库的研究方法进一步利用并完善翻译记忆。
与机器翻译相结合的趋势。翻译记忆属于计算机辅助翻译,是研究机器翻译的过程中出现的一种折衷。高质量的、可作为双语语料库的翻译记忆可以应用于基于统计和基于实例的机器翻译系统。
5. 对我国相关研究与应用的思考与建议
5.1 翻译记忆技术研究
我国学术界对国外计算机辅助翻译技术与工具的评介早已有之,但大多局限在机器翻译和计算机辅助翻译比较上,对计算机辅助翻译的介绍过于概括,缺乏新意,具体到翻译记忆技术和翻译记忆系统的应用研究更不多见。然而,在翻译服务行业中,翻译记忆系统为大多数本地化从业者,专职翻译以及兼职翻译所熟知,并在部分从业者中得到了合理应用,提高了工作效率与翻译质量。这些实际使用者对当前国内外主流的翻译记忆系统乃至其他计算机辅助翻译工具有着丰富的使用经验,但由于缺乏理论研究氛围,或忙于本职工作无暇研究,对翻译记忆系统的认识与评价往往注重于实际操作经验,主要以技巧心得的形式在互联网上流传。这就形成了整体上 “ 言者不尽知,知者未尽言 ” 的局面,一方面诚然是由于一般文科学者缺乏信息技术敏感性所致,另一方面也是翻译理论研究与实践脱节的一种具体体现。
笔者认为,为改变这种局面,应当引介国外相关学术著作与文章,追赶同国外翻译记忆技术乃至计算机辅助翻译技术研究之间并不巨大的差距。值得注意的是,香港和台湾在计算机辅助翻译的研究和应用上起步早、应用广、同国际联系紧密,取得了不少成果。大陆研究者应当与其加强交流,相互借鉴。此外,随着翻译研究的跨学科性越来越鲜明,计算机辅助翻译研究作为信息技术和翻译研究的结合需要所有相关领域研究者的合力协作。具体到翻译记忆技术上,除了翻译研究者之外,还需要自然语言处理、语料库、软件工程学等诸多领域专家学者的共同努力,重点在翻译记忆的语块识别、翻译记忆与平行语料库建设、翻译记忆标准扩展、翻译记忆系统设计等方面加强研究与合作。 2007 年 5 月,北京大学软件与微电子学院、北京大学计算语言研究所与香港中文大学电脑辅助翻译系启动了科研与教学合作,在学术机构间交流和跨领域合作上迈出了第一步。
5.2 翻译记忆系统开发
目前我国自主开发的较为成熟的翻译记忆系统有雅信 CAT 系统,华建机器翻译系统等。其中,笔者了解并实际使用过雅信 CAT 系统。该系统采用数据库储存模型,基于字符串检索,编辑环境同 Trados 类似,为嵌入式 Word 模板加外接程序。雅信 CAT 系统的特色是针对国内译者实际需求,内置了大容量的中英专业词库,能够进行中文自动分词,并在此二者基础上具备中英机器互译功能,这是国外翻译记忆系统目前无法做到的。当然,作为国内翻译记忆系统的典型代表,雅信尚非完美,在很多方面仍需改进。
针对今后翻译记忆系统的研发,笔者建议:一、优先采用数据库模型的翻译记忆,支持 TMX 标准,同国际接轨。同时要对数据库模型的缺点有清醒的认识,寻求克服其缺点的对策,条件允许情况下可以对结合两种模型架构的系统进行探索性研究。二、顺应 “ 第二代翻译记忆 ” 的趋势,结合中文自动处理技术建立适用于中文翻译记忆检索的算法、标注体系和语言知识库。只要字符集支持,基于字符串检索的第一代检索方式可以应用于任何一种语言,包括以中文为源语或目标语的翻译。然而利用语言学知识增强翻译记忆检索的 “ 第二代翻译记忆 ” 技术则需要真正了解中文,通晓中文自动处理的国内学者的研究才能实现。三、翻译编辑环境同翻译记忆系统使用者最为密切相关。其友善性一向被用户注重,却往往容易被系统开发者忽视。据调查( Lagoudaki 2006 : 1 ),开发人员在系统设计之前很少向用户征询意见,而往往是在系统已经基本定型,开始测试时才给用户提出意见的机会,而此时的反馈很少能使开发者对系统做出相应更改。由于嵌入式系统和独立式系统差异较大,因此在翻译编辑环境的设计时,应当广泛听取使用者及潜在使用者的意见,在此基础上针对用户需求选择形式进一步完善。
5.3 翻译记忆系统的教学
在翻译教学的学历教育中增加计算机辅助翻译与翻译记忆系统应用课程,国内已有学者对此进行专门的研究与探索: “ 通过网上检索香港中文大学可以发现,其翻译专业目前的课程体系设置中列有 Computer Translation Project 、 Information Technology and Computing 、 Introduction to Computer-aided Translation 等课程。但据笔者粗略调查,大陆的高等院校,真正在翻译专业的本科和硕士阶段全面开始 CAT 课程的还基本没有,例外的是北京大学的语言信息工程系,提供计算机辅助翻译专业的硕士学位课程(徐彬 2006 : 63 )。 ” 并且首度明确提出应将计算机辅助翻译课程纳入我国翻译专业课程体系设置。非学历翻译培训方面,据笔者所知,国内目前有北京大学的 “ 计算机辅助翻译高级研修班 ” (已于 2007 年 4 月开课)以及 SDL-Trados 公司对其旗下产品的应用培训(目前已举办两期)和其他推广性培训活动。
通过将北大语言工程系计算机辅助翻译硕士专业培养方案和课程计划与香港中文大学翻译系电脑辅助翻译硕士课程简介相比较可以看出,前者的培养目标是使学生成为 “ 具备超越其他翻译师的信息技术的应用能力,掌握机器翻译和机器辅助翻译的原理和使用技巧,可自由灵活地进行系统定制,从而最大限度地提高翻译工作的效率;或直接参与语言信息处理系统和多媒体内容信息处理系统的研发工作(俞敬松 2006 ; 1 )。 ” 后者在 2005 年称 “ 课程取向将加强翻译的训练和软件的理论和应用,使课程更具实用性,也就是从 ‘ 电脑翻译 ' 趋向 ‘ 电脑辅助翻译 ' ,以适应世界潮流和社会的需要,同时配合翻译系课程专业化的目标 ” (方梓勋 2005 : 2 )。香港中文大学的这一专业通过课程的组合提供了三种修读模式:翻译实践、电脑辅助翻译、电脑科学,并于 07 年除已有的两年兼读制之外又开设了一年全日制课程供学生更为灵活的学习。可以看出,同香港中文大学应用性的培养目标与课程设置相比,北大开设的计算机辅助翻译硕士专业增加了对技术研究与系统开发的侧重,意在培养高层次的 “ 同时拥有两个领域技能的宝贵人才。 ”
然而,仅凭一所或几所高校开设计算机辅助翻译专业并不能满足市场对通晓计算机辅助翻译工具、能熟练使用翻译记忆系统进行实际工作的译员的需求。况且,高校计算机辅助翻译专业还要承担培养科研与开发人才的任务,仅培养计算机辅助翻译工具的使用者未免大材小用。计算机辅助翻译作为当今翻译实践中的一种重要手段,应该定位为译者的常备技能进行培养。 2007 年 3 月 30 日,国务院学位委员会印发了《翻译硕士专业学位设置方案》,以培养注重翻译实践能力的硕士人才。笔者认为,应该借此契机将计算机辅助翻译课程纳入翻译硕士专业课程设置,并将翻译记忆系统的应用作为笔译课程的必修科目之一。还可将计算机辅助翻译作为选修课引入本科翻译专业课程设置,向学生做一般性介绍。
Copyright @ 2005-2020 南京同传翻译公司 版权所有