独步天下的谷歌算法(8)

尽管如此,如果遇到非人工因素引起的算法方面少量的简单错误时,谷歌还是允许作一点细微的调整。例如,一个关于“O’Reilly”的搜索结果仅与保守党时事评论员比尔?欧莱利(Bill ’Reilly)相关,把其他可能的结果(如名列“财富500强”的O’Reilly汽车部件公司)都排除在外。谷歌承认这是个问题,但这是由特殊情况造成的,对算法的等级排名来说是个例外。经过调整后,关于“O’Reilly”的索引结果的第一页分为三段,第一段是混杂的O’Reilly链接,第二段是O’Reilly汽车部件公司,第三段是Bill O’Reilly。布林和佩奇懂得,人工介入的调整手段,决不能频繁使用;然而他们也完全承认,人类能够充当质量管理的检察员。谷歌聘用人工评估员对算法经各式微调后所推出的结果的质量进行检查――2007年,谷歌在世界范围内与1万人签订了合同,请他们做质量评估。但他们的反馈只用于对算法本身进行调整,而不涉及单独词语的搜索结果。如果谷歌允许在搜索之后用人工对算法进行复评或对结果进行调整,那么系统必然会慢到无法接受的程度。在谷歌,对规模的追求永远是第一位的,这就要求几乎完全依赖自动化程序(另一个小小的例外是它希望用人工排除那些已经被用户举报为垃圾的链接)。雅虎无法随着Web的增长而扩展由人工编辑的目录,暴露出依赖人工的系统的局限性。谷歌要避免雅虎的错误,就必须具备与Web同步增长的能力。

谷歌的算法不能顺利地转为Web以外的信息种类,如图书和视频。Web以链接的形式提供了丰富的内部数据,算法可以利用它们来判断它所处理的信息的质量。那么,它能够掌握内部线索不相同的数据吗?谷歌最终需要改变它对公式的依赖而更多地认可人工输入吗?“社会搜索”――即用户对某个网页的关联性和有用性的评价决定该网页在搜索结果中的显示位置――能够处理更广泛的信息分类系列并且比算法做得更好吗?要认识算法模式在新领域的应用潜力及其局限性,只要近距离观察谷歌如何在新项目中扩大其领域,就可以对这个问题有比较正确的理解。

认可度较低的试验始于2002年3月,当时谷歌决定在信息分类、集合、给新闻报道划分等级等方面尝试用算法代替人工编辑。当谷歌的管理层准备引入这项服务时,公司内部对于完全依靠软件来决定哪些报道应该放在谷歌新闻网页的显著位置的做法是否明智有过不同意见。谷歌的产品管理和营销高级副总裁乔纳森?罗森伯格(Jonathan Rosenberg)建议道:“只要分一些编辑去做这项工作,我们的新闻产品在互联网界就会是最好的。”但是拉里?佩奇否决了这项提议,因为“人工方案不具规模”。

当谷歌新闻网站在2002年9月正式推出时,它引用的新闻来源有4000多个。在新闻页面的底端印有一个心血来潮的启事:“本网页在编制过程中无人受到伤害,甚至无人被利用。”在一个针对谷歌新闻提出问题的页面的顶端,公司自己的提问和回答是――问:“谷歌新闻主页的编辑是谁?有一条新闻的标题非常乱。”答:“计算机算法,没有人工介入。”谷歌骄傲地让编辑、责任编辑和执行编辑的位置空着?――决定某条新闻上头条的不是某个人,也没有政治观点或意识形态的因素掺杂在内。谷歌说,和搜索网页的运算规则一样,编辑新闻报道的运算规则“也主要依靠网站出版商的集体判断来确认哪些网站提供了最有价值又最有意义的信息”。谷歌知道,它的算法还存在着一些缺陷,所以只要读者发现了“奇怪的结果”,一个电子邮件就可以让谷歌的工程师知道,不必用人工调整结果,而只需帮助“微调一下算法”即可。

读书导航