超级“验证码”

反枯燥：游戏化思维开创商业及管理的“新蓝海” 亚当·L.潘恩伯格

如今，这位开着保时捷的卡内基梅隆大学计算机科学终身教授，冯·安，不仅是一位计算机科学家，还是一位教育学家、企业家、游戏设计者、市场营销人员、媒介组织者及创业者。他不仅把游戏看作娱乐，更让其服务于我们生活的方方面面。而冯·安现在所研究的，可能是他最宏伟的项目，这个项目源于他向研究生学生们问的一个问题：如何让1 亿人免费帮我们在线翻译？

这个问题，让他想到了自己在大学时有一个叫 “CAPTCHA”的发明，CAPTCHA 是“全自动区分计算机和人类的图灵测试”的简称（Completely Automated Public Turing test to tell Computers and Humans Apart）。（阿兰·图灵，计算机科学家，1980 年发明了一种实验，用于分析机器是否可以超过人）。

当年，雅虎来到卡内基梅隆大学寻求冯·安的建议，问他是否有什么方法可以阻止网络欺诈。诈骗者通常部署海量的垃圾邮件机器人程序，自动注册规模庞大的电子邮件，公司应该做点什么来对付他们。冯·安的办法非常简单又巧妙。他想出了一套系统，这种系统可以创建一个数字和字母的组合，组合很模糊，机器无法识别，但人类却可以。尽管人们使用的时候，也会因为模糊不清而咒骂。但无论如何，CAPTCHA 在数以百万的网站上都得以运用。没错，它就是今天的“验证码”。

一天，冯·安发现这样一个事实，现在网络上验证码每天的输入量大概在2 亿次。如果每人输入一个验证码的平均时间是10 秒，那人类每天浪费在验证码上的总时间就是50 万小时。于是这个事实让他决定创造一个进化版的验证码，取名reCAPTCHA。原理跟之前相同，只不过输入的来源是一些旧书。利用这种方法，我们可以从数量庞大的非生产力行为中，剥离出有意义的价值。

扫描一本旧书再将其内容电子化是一项艰苦的过程，这相当于要把书的每一页进行拍照，之后利用计算机的光学字符识别（OCR）技术，对每个字一一解码。而这种技术的错误率本身就比较高，对于旧书更是如此。这些书籍的出版年份都超过50 年，页面发黄、墨水褪色，错误率高达30%。

对此，冯·安的做法是，他首先选出了计算机无法识别的词语，之后让人们通过reCAPTCHA 帮他完成识别过程。他给人们提供两个词，一个是来自旧书的计算机无法识别的词语，另一个是计算机已经知道答案的词语。系统并不告诉用户哪个是那个。如果用户正确地输入了计算机知道答案的那个词，那么计算机判定用户为人类，于是，而且对用户输入的另一个计算机无法辨认的词也应该是正确的。如果10 个用户所输入的词都一致，那么计算机便可成功完成词语的编辑。