很多年前,你还是孩子时,父亲买了家里的第一辆小汽车。那时经常出现交通拥堵和剐蹭事故,为了上班不迟到,至少需要提前一个小时出发。现在,这辆自动驾驶的汽车在还没有上路时就已根据从家到公司这段路程上所有的道路状况、红绿灯时间和历史数据,提前规划好了一条最省时的路线。它贴心地提醒你,今天的车程预计为22分钟。它甚至还能与其他自动驾驶的汽车“打招呼”,与交通信号灯“交谈”,使你不会把时间浪费在堵车和等红绿灯上。
8点半,你准时到达了非凡公司。这是一家信用评级公司,你作为公司引进的首位数据科学家,已任职5年。
5年前,非凡公司的主要业务是帮助银行完善信用评级系统。过去,大多数银行对申请人进行信用评级的标准比较单一,无法对申请人做出全面评估。为了解决传统评级方式的缺陷,作为部门骨干的你与同事们通宵达旦地研究,希望建立一个全面的大数据信用评级模型。你们从各渠道搜集关于申请者的信息,例如,社交网站上的数据,用于对那些很少或者根本没有信用记录的人进行评估,还有在信用卡网站上停留的时间可以推测一个人的性格和还款诚意。你们对这些海量信息进行分析,得出了超过7万个可对申请人行为做出测量的指标,而整个信用评级过程在5秒内就能完成。
这一信用评级模型的研发和应用让非凡公司一举成名,而你也因为在这一过程中的优秀表现被提拔为部门经理。
你走进办公室,计算机桌面上已经自动筛选出了需要今天处理的信息。它就像一个贴心的秘书,使你的工作井井有条,同时又能与公司的同事、与世界各地的合作伙伴保持密切的合作。
在计算机上,你最常登录的页面不是公司主页,而是政府的数据开放网站,因为你们公司的很多预测模型都需要从这里下载数据。这个网站收录了从人口普查地图到生物物种保护等五花八门的数据集,甚至还公布了这些数据集的后设资料以及处理所需的软件工具,所有人都可以免费下载使用。一份由30万份行政区地图组成,精确到道路、建筑物、水系、行政区界线等详细资料的中国地图,是网站上被下载得最多的资料之一。你曾经在这个地图的基础上做了一款手机应用程序,实时展示本市各个社区的房价情况。这个应用程序的技术含量并不高,你所做的只不过是把不同来源的数据聚合到一起而已。但就是这个简单的应用程序在发布后广受好评,一度位列全市手机应用下载前10名。这件事情让你相当有成就感。