超级“验证码”

如今,这位开着保时捷的卡内基梅隆大学计算机科学终身教授,冯·安,不仅是一位计算机科学家,还是一位教育学家、企业家、游戏设计者、市场营销人员、媒介组织者及创业者。他不仅把游戏看作娱乐,更让其服务于我们生活的方方面面。而冯·安现在所研究的,可能是他最宏伟的项目,这个项目源于他向研究生学生们问的一个问题:如何让1 亿人免费帮我们在线翻译?

这个问题,让他想到了自己在大学时有一个叫 “CAPTCHA”的发明,CAPTCHA 是“全自动区分计算机和人类的图灵测试”的简称(Completely Automated Public Turing test to tell Computers and Humans Apart)。(阿兰·图灵,计算机科学家,1980 年发明了一种实验,用于分析机器是否可以超过人)。

当年,雅虎来到卡内基梅隆大学寻求冯·安的建议,问他是否有什么方法可以阻止网络欺诈。诈骗者通常部署海量的垃圾邮件机器人程序,自动注册规模庞大的电子邮件,公司应该做点什么来对付他们。冯·安的办法非常简单又巧妙。他想出了一套系统,这种系统可以创建一个数字和字母的组合,组合很模糊,机器无法识别,但人类却可以。尽管人们使用的时候,也会因为模糊不清而咒骂。但无论如何,CAPTCHA 在数以百万的网站上都得以运用。没错,它就是今天的“验证码”。

一天,冯·安发现这样一个事实,现在网络上验证码每天的输入量大概在2 亿次。如果每人输入一个验证码的平均时间是10 秒,那人类每天浪费在验证码上的总时间就是50 万小时。于是这个事实让他决定创造一个进化版的验证码,取名reCAPTCHA。原理跟之前相同,只不过输入的来源是一些旧书。利用这种方法,我们可以从数量庞大的非生产力行为中,剥离出有意义的价值。

扫描一本旧书再将其内容电子化是一项艰苦的过程,这相当于要把书的每一页进行拍照,之后利用计算机的光学字符识别(OCR)技术,对每个字一一解码。而这种技术的错误率本身就比较高,对于旧书更是如此。这些书籍的出版年份都超过50 年,页面发黄、墨水褪色,错误率高达30%。

对此,冯·安的做法是,他首先选出了计算机无法识别的词语,之后让人们通过reCAPTCHA 帮他完成识别过程。他给人们提供两个词,一个是来自旧书的计算机无法识别的词语,另一个是计算机已经知道答案的词语。系统并不告诉用户哪个是那个。如果用户正确地输入了计算机知道答案的那个词,那么计算机判定用户为人类,于是,而且对用户输入的另一个计算机无法辨认的词也应该是正确的。如果10 个用户所输入的词都一致,那么计算机便可成功完成词语的编辑。

读书导航