日进斗金秘诀在哪?(5)

Google有多可怕呢?有人因Google丢掉工作,有人丢掉女朋友,有的丢掉业务。25岁外表美丽的李小姐,在一家房产中介工作,却莫名其妙被公司炒掉了。原来公司有人用Google搜了下她过去的工作经历。她曾经被怀疑勾结房虫炒房,给前公司声誉造成巨大的损失。还有人突然与女友突然提出分手,因为她的新男友Google她,发现了一张疑似她本人的不雅照片。还有的公司莫名其妙地丢掉了业务,原来有人在一些BBS大肆说这家公司的坏话,说这家公司产品质量低劣,售后服务太差。用Google搜这家公司,到处都是这些负面的信息。

有人觉得奇怪,Google是怎么得到这些信息的?Google具有强大抓取网页的能力。抓取网页的软件叫爬虫(Crawler),Google的爬虫叫Googlebot,威力极其可怕。这个爬虫非常勤奋,会定期访问各种网站,不分昼夜地把网站网页下载到自己的服务器里。

假如下载一个网页需要一秒钟,下载这 100 亿个网页则需要 317 年,1万亿个就要31700年。Google能做完这个事情,全是依靠功能强大的数据中心。

Google最初的数据中心在佩恩的宿舍与盖茨360楼。Google的第一个正式数据中心坐落在这个56平方米(7米X8米)的房间里。现在Google拥有世界最大的数据中心,Google已经成功地构建起全球最大的网络计算机Googleplex。在全球范围,Google拥有40个数据中心。每个数据中心有150个服务器集群,这意味着Google拥有的服务器数量超过数十万万台,而且每天都在增长。Google服务器 集群的规模有多大?仅在一台坐落在美国哥伦比亚河畔的服务器总共拥有8180个机架,而每个机架拥有40块Intel双核处理器。8180*80=654400!拥有超过130万颗核的计算能力。

Google目前的全球数据中心,19个在美国,12个在欧洲,3个在亚洲(北京、香港、东京),另外3个分布于俄罗斯和南美,在台湾、马来西亚、立陶宛等地也有数据中心。

亚洲数据中心分布图(图略)

在亚洲,北京、香港及日本东京有Google数据中心,位于北京的数据中心(即图中的36号)主要为Google中国()提供服务。

数据中心最密集的是北美。

Google的数据中心主要使用自己的技术。 Google的服务器是Google自己设计的,在同样大的空间内,Google的服务器比其他服务器厂商能容纳更多的CPU;如果按照服务器的年产量来计算,Google在服务器市场应该排得比较靠前。Google服务器使用的是Linux操作系统。Google的工程师按照平行计算的要求对Linux进行了优化。Google开发自有核心软件,开发语言是Java和C :Google文件系统(GFS);Google大表(Bigtable:是Google一种对于半结构化数据进行分布存储与访问的接口或服务);Mapreduce算法(它是Google开发的C 编程工具,用于大于1TB数据的大规模数据集并行运算)。构成了Google系统的核心。

下一章

读书导航