序
在过去的5年里,数据科学差不多对人类所有重要的研究突破领域,都产生过深远的影响。从商业到教育界,再到能源领域,当然,也包括软件与互联网产业,在全球范围内,数据科学在这些形形色色的产业中产生了巨大的价值。实际上,在2015年年初,美国总统发布了白宫的一个新职位——首席数据科学家,并且任命DJ Patil担此重任,而DJ Patil正是本书中的受访者之一。
与世界上其他的发明创造如出一辙,数据科学产业的诞生同样归功于一小群积极踊跃的人。在过去的几年里,正是他们让数据分析这一理念可以走进任何领域,慢慢从无到有,发展壮大,并最终深入人心。在本书中,你将有机会遇见这些开拓者中的一部分,聆听他们一路走来的、精彩纷呈的第一手故事,并且了解他们对于数据科学未来的发展预见。
成为数据科学家的道路并不总是一帆风顺的。当我曾经试图从实验物理学领域转向这个领域时,和如今相比,那时的资源是如此的稀缺。实际上,虽然当时公司里确实已经存在数据科学方面的岗位需求了,但这一类人却连一个正式、统一的职位名称都没有。我曾经花费大量的时间自学这个领域的知识,也在不同的产业项目中磨砺过,到头来却发现我在学术圈的朋友遇到了和我同样的挑战。
我见过许多拥有极高天分及多年科研领域经验的研究人员,由于心仪数据科学领域而选择转向其中,愿意成为与数据为伍的人,但却挣扎多年不得要领。简而言之,他们不知道如何将自身惊人的数学功底、计算天赋以及数据分析技巧用在工业界。与此同时,我在硅谷工作的时候发现,相当多的科技公司其实都急需这方面的人才。
为了填补学术界与工业界之间的鸿沟,我于2012年创建了深入理解数据科学研究(Insight Data Science Fellows Program)社群。该项目旨在组建一个帮助计量相关领域的博士从学术界向工业界转职的训练团队。在过去的几年中,我们已经帮助数百名项目成员,从诸如物理学、计算生物学、神经科学、数学以及工程学之类的科研背景转入工业界,在诸如Facebook、Arbib、LinkIn、纽约时报公司、斯隆-凯特琳癌症中心以及其他上百家企业公司中担任重要的数据科学家职位。
在我的个人过往经历中,一方面,我自己成功走进了科技产业;另一方面,我也创造了一个让更多的人走上这条路的团队社区。在此过程中,我发现对我的事业给予重要帮助的一个资源就是:更多地与那些成功完成事业转型的人沟通交流。鉴于我创建并发展了数据科学社群,我有机会与硅谷的一些最好的数据科学家沟通交流,他们绝对是业内顶尖的大师:
Jonathan Goldman创建了LinkedIn公司最初的一个数据产品,即“你可能认识的人(People You May Know)”,该产品直接促使公司改变了它的发展战略。DJ Patil将LinkedIn内部的数据科学小分队发展壮大,最终发展成了该公司一个强大的部门,并且他也是“数据科学”这个术语最初的创造人之一。Riley Newman在Airbnb公司内致力于产品开发与分析,该工作对于Airbnb的发展可谓举足轻重。Jace Kohlmeier在可汗学院领导数据团队,致力于将上百万学子的网上学习最优化。
遗憾的是,想要与这些大师面对面交流是非常难的。在数据科学研究社群中,为了尽量争取与这些大师面对面交流高质量的内容,我们每年只会选择这样一群数据科学家以及工程师中的3位进行交流访谈。
本书把与这些大师的深度交流访谈整理出版,奉献给读者。
通过阅读本书中的访谈,你应该可以从这些前辈们的过往经历中学到一些知识并用于你自己的事业中,无论你现在身在何地,从事何业。每一篇访谈都是一次深度的交流,涵盖了这些科学家最初从菜鸟阶段起步,运用各种知识武装充实自己的经验,一直到最终成为数据科学家的事业全程。
并不只是早期的数据科学先驱们才有可能在这个领域做出卓越的贡献。这个领域源源不断地有新鲜血液注入,他们中的每一个人都有机会推动这个领域前进。在我遇到本书的作者们的时候,他们都曾只是梦想成为数据科学家的大学生,一个个急切地询问着那些每一个初入门道的人都想要了解的问题。
在18个月的努力学习过后,他们跑遍各地并寻访了全球的诸位顶尖数据科学家,探询了他们的观点、意见和指导。本书就是这些访谈的最终成果,将最出类拔萃的一群数据科学家的100小时以上的智慧汇集整理成册(想象一下你去和奥巴马总统都要抢时间与之交谈的DJ Patil对话)。
通过阅读这些内容丰富且非正式的访谈,你将会坐在领域先驱DJ Patil、Jonathan Goldman和Pete Skomoroch对面,他们都是LinkedIn早期的员工,也是LinkedIn内部数据科学团队的核心成员。你将会遇到Hilary Mason与Drew Conway,他们是声名远扬的纽约数据科学社区的主要发起人及推动人。你将会听到未来的数据科学领域先锋领袖(如Diane Wu和Chris Moody)的建议,他们都曾是数据科学研究社群的成员,现在他们正分别在MetaMinds和Stitch Fix公司大放异彩。
你将会遇到那些在学术领域有巨大影响力的科学家,例如加州大学圣迭戈分校的Bradley Voytek和哈佛大学的Joe Blitzstein。你也将见到初创公司里的数据科学家,例如Mattermark的Clare Corthell和Bento Labs的Kunal Punera,他们会告诉你他们如何将数据科学作为让自己更有竞争力的武器来运用。
本书中提到过的科学家们与其他的千万同僚们一起,曾经创建了许多形形色色的对这个世界产生重大影响力的公司和企业。在本书里,他们主要讨论了那些促使他们厘清误区、不断开疆拓土的心路历程,并且分享了他们人生中那些有特别意义的挑战或成功的故事,以及他们对于自己的团队所需要的人才的想法。
我希望读者通过阅读此书,聆听他们所思,学习他们对于未来的数据科学世界的眼界,并最终找到适合自己的数据科学之路。祝愿你们在这条路上做出自己对于世界的贡献,甚至于推进这个领域的前沿发展。
深入理解数据科学研究社群、深入理解数据工程研究社群、深入理解健康
数据科学研究社群的创始人 Jake Klamka