独步天下的谷歌算法(10)

“谷歌新闻”不能作为算法的成果展示柜,但这个项目的中等成绩并没有使谷歌对公司的创立使命产生怀疑。“算法”在Web网页搜索方面是如此之强,即使它在执行其他任务时相对失败,也都被谷歌之外的绝大多数观察家们忽略了。谷歌就是这样享受着各种实验所带来的乐趣,而当一些实验结果不如人意时,也不必因担心形象受损而烦恼。

在将“算法”推向新领域的另一个项目中,结果比预想的要好,这就是计算机在历史上所处理的最困难、最难协调的问题――语言翻译。为了进入这个领域,谷歌在2003年初组建了一个课题小组,让他们在所谓自动翻译或机器翻译的领域奋力开拓。他们的努力结出了丰硕的果实。他们开发的“算法”能够完成――至少有时能够完成――符合语句习惯的流利的翻译,这一点令人惊叹不已。同时,它还有效地利用了较为令人失望的谷歌新闻项目中所搜集的新闻报道资料。

机器翻译是计算机先驱们在20世纪中叶首先设想出来的计算机应用领域之一。1953年,哈佛大学计算机实验室的霍华德?艾肯(Howard Aiken)用响亮的声音宣布,他希望不久就可以开始将俄语逐字地译为英语。他以为,将意义从一种语言精确地转为另一种语言会是很容易的,随着计算机功能的增强,文字上的修饰也会成为一个不难解决的问题。翌年,IBM的科学家和乔治敦大学的语言学家推出了一台能够进行俄英翻译的机器,并且开启了机器翻译领域中的一个传统:对翻译质量的过高期待和转换结果控制的力不从心。在一个只有250个单词词汇表的基础上编写的软件,竟然负载了处理政治、法律、数学、化学、冶金学、交通和军事等专业内容的期待。但是,新闻界却被要求相信这一切。

6年之后,IBM公司的Mark I型计算机正在进行原文翻译,这次又是从俄文到英文――反映出冷战中期语言翻译上的当务之急――据说达到了每分钟800个单词的速度,当时的人工翻译速度是一个工作日只有2600个单词。可译出来的文章却不是只需稍加修饰那么简单――一个关于U-2飞行员弗朗西斯·加利·鲍威尔(Francis Gary Powers)的段落的开头是这样的:“它30年/费。据它/它的所称,它是较老的空军中尉美国。”但是人们仍然对此持乐观态度,而作为“字对字”比对之补充的“句法规则”似乎被完全忽略了。国家标准局成立了一个“机器翻译小组”来研究如何增加对语义和句子结构的理解,以解决所谓“水下山羊”问题(指的是由机器翻译的俄语工程学论文经常将hydraulic ram[液压油缸]译成了“水下山羊”这一现象)。

应用语言学研究改进了机器翻译的质量。1968年,专业翻译公司Systran在巴黎创办,它将成为为其他公司提供机器翻译服务的先行者。这家公司由语言学家来解释复杂的语法。一门语言,又一门语言,公司不断增加能够实现双语互译的语言的数量,到2005年,已经实现了40对语言之间的互译。当谷歌打算提供用原文以外的其他语言显示的Web页面供用户浏览时,它便求助于Systran公司为其后台的机器翻译提供技术支持,使谷歌的网页可以根据用户的具体要求进行动态显示。当然,各语种之间的翻译水平并不平衡,在最好的情况下,它也只能转达源文件中的梗概。符合语言习惯的段落仍旧难以表述。但这个缺陷似乎是机器翻译与生俱来的:任何算法也不能代替人工翻译。

读书导航