独步天下的谷歌算法(12)

如果你所从事的是将全世界的信息组织起来的职业,那么,在某个领域学到的东西总会在另一个领域里得到实际应用。如果说谷歌的统计机器翻译项目得益于谷歌旗下其他部门的工作,那么它也以各种方式回报了这些部门的恩惠。研发单一语言的统计技术模型转过来为研发任一语言的发音监测软件提供了便利(这个软件的监测范围包括了哪怕是新近出现的名人姓名的发音),它无需经过人工编辑之手,也无需借助词典,只要给“算法”输入足够分量的公开发表的文章,就绝对可以让它掌握正确的发音。能使它做到这一步的技术保障就是对出现频率的统计分析。

谷歌使用的搜索程序也得到了由研发团队使用的计算部件的极大帮助。由该领域的许多学术研究者使用的一套数据(由语言数据联盟Linguistic Data Consortium提供)有52亿个单词。但谷歌可以处理大得多的集合,如仅仅从它所索引的网页中抽取出来的单词就达到了2×1012个。“我们没有更好的算法,”谷歌的彼得?诺维奇说,“我们只是有更多的数据。”

为了给单句找到最好的译文,谷歌的算法搜索了上百万可能的短语组合。硬盘不适合作为保留数据随时备查的中介,只有随机存取内存(RAM,random access memory)才最合适。随机存取内存存量巨大是非常必要的――谷歌供人随时查考的正是这巨大的存量。统计机器翻译很适合于分布在数千台机器中进行,而谷歌的数据中心(虽然最初是为了其他目的而建)的设备就能承受这种计算上的负荷。

有了可以处理任何规模的计算问题的计算基础设施,谷歌的研究者便拥有了一个可以傲视群雄的巨大优势。他们的程序运行之快,在2005年国家标准和技术研究所举行的机器翻译竞赛中已经得到了体现;在2006年的竞赛中,他们又占据了领先地位。在参加阿-英翻译的22个竞赛者中,谷歌的整体成绩排名第一;在参加汉-英翻译的24个竞赛者中,谷歌名列第二(被南加州大学著名的信息科学研究所险胜)。

ystran的主席兼CEO季米特里斯?沙巴塔卡基斯(Dimitris Sabatakakis)不能理解为何统计机器翻译的结果总是超过他的规则基础技术。2005年竞赛结束后,他替以规则为基础的方法作了些辩护,并建议没有雇用以汉语为母语的人员的谷歌不要再玩弄类似花招。就Systran而言,“如果我们没有中国人,我们的系统就可能出现严重的错误”。他不理解,如果没有母语为汉语的人对译文反复检验,谷歌为何能在2005年把Systran彻底打败。但他没有立即报名再次参加比赛:Systran从2006年的竞赛中消失了。2007年没有举行比赛。所以尚不清楚Systran是否已经决定永远不再与统计机器翻译直接较量。

谷歌没有声称拥有最复杂的翻译算法,但它的确拥有一些其他的机器翻译团队所不具备的东西:体量最大的训练数据。2007年,负责机器翻译研究的工程师弗朗茨·奥奇(Franz Och)说:“在自然程序领域有一种著名的说法,‘更多的数据就是更好的数据’。”为什么谷歌一直使用那些从Web网页中搜集的2×1012词汇量的文本?原因就在于:写作质量无从担保,但绝对海量的额外数据对翻译算法质量的改进却是实实在在的。

读书导航