搜索数据、社交网络,大数据时代的疫情预测与监控

【编者按】

在这次的新冠肺炎疫情的预防和治疗中,大数据起到了很重要的作用。下文摘自斯坦福大学人类生物学专业客座教授内森·沃尔夫的《病毒来袭》(The Viral Storm:the Dawn of a New Pandemic Age)一书。在书中,内森·沃尔夫阐释了现代信息和传播等各种各样的新技术,对于我们识别病毒、了解病毒进化轨迹,以及调查疫情和了解疾病传播等诸多方面提供的帮助。

一个叫作埃维的橡胶种植园,位于喀麦隆西南部我们的一个研究点内,我们在那里进行实验。这一实验展现了公共卫生领域一个令人激动的新趋势,虽然它只是基于简单的手机信息的传播。

在埃维这个大约有10万居民的橡胶园里,每当有人生病,他们就去附近的某家诊所就医。如果病得很重,他们就从诊所转到位于橡胶园中心区域的中心医院。然而,过去没有好的技术方式令中心医院可以监控那些地方诊所的情况。如今在数字流行病学领域领导我们项目的拉奇·古拉斯卡拉(Lucky Gunasekara),他是非营利组织“短信前线:医生”(FrontlineSMS:Medic)的创办人之一。几年前,他与该组织的合作伙伴们创建了一个基于手机短信的简单系统,使中心医院能够监控地方诊所里的情况。通过简单地发送一系列预置代码,诊所里大部分关键性信息能够清楚、持续而有效地在医学体系里层层上传。使用预置代码和简单的短信形式,地方诊所能够迅速地告知其他人所收治的疟疾、腹泻和其他疾病的病例数。

简单的技术可以产生重大的影响。几个简单的技术应用就让埃维的医疗情况不仅被中心医院所掌握,也能被任何一个拥有合适接入口的人通过网页界面远程了解。先进的技术让地方临床医生和病人自己可以与外界进行交流,外界因此可以累积、组织和分析信息。这样一来,一个突发卫生事件发生期间,有关事件发展进程的信息就会传播得更加快捷,实地信息也增多了。2010年海地地震就是这样的情况。地震一发生,像尤沙黑迪(Ushahidi)这样的组织就编制了简短的自由代码,供人们发送求助信息。他们随后把这些代码发给了当地音乐节目主持人,借主持人之口将这些数字公之于众。令人惊讶的是,当一切尘埃落定时,手机短信分布的统计分析图与地震灾害的高分辨率航空图像高度契合。实际上,人们的手机短信给重灾区的定位提供了很有价值的线索。对海地灾区的人们而言,更重要的是短信能救命,能将关键信息传递给空中直升机上的救援人员。

类似的系统已经在疫情暴发期间使用,例如2010年秋海地暴发的霍乱疫情就使用过该系统。我们最终希望能将疫情侦查工作实现群众外包,将患者们提供的零散信息汇集在一起,勾画出从疫情开始到随后扩散的实时画面。简短的代码只是一个开始。当越来越多的国家采用电子医疗记录时,世界各地的人都可以直接通过手机报告自己的健康问题,以此加强与医疗网络的联系。这些信息不仅将为报告身体有恙的患者提供更有效的治疗,而且当分析大量用户的信息时,健康异常现象将被更迅速、敏锐地侦查出来。发展到最后的反应系统,能够识别出标志一种流行病开始的异常的健康问题集群。至此,数字流行病学时代真正到来了。

用短信作为疾病扩散的一个早期指示标,也有人对此持异议,原因之一是:即便在最紧迫的情形下,也不是所有人都会发短信。但是手机有一些使用方法,是不需要用户进行任何操作的。

就在我写这句话的时候,世界上超过60%的人口已经被安装了自动定位信标。这些信标持续提供他们所在准确位置的最新信息。在未来5~10年内,地球上几乎每个人都将安装上自动定位信标。这不是政府阴谋,你口袋里的手机才是始作俑者。

手机不断地与信号塔进行交流,提供给电信运营商海量的数据,包括用户所在位置,用户彼此间如何联系,和需稍加解释的用户社会行为。这些所谓的呼叫数据记录为电信部门提供大量数据,使他们有机会了解客户并进行更多的服务营销。但是,大数据价值不仅仅体现在营销上,这一持续信息流貌似单调,但能够救你的命。

被手机公司搜集的数据,使我们都成了迅速侦查出重要人类事件的潜在传感器。内森·伊戈尔(Nathan Eagle)对此做了细致的研究。他是麻省理工学院媒体实验室成员,将呼叫数据记录应用于广义问题的开拓者之一。伊戈尔和同仁们合作,旨在通过挖掘呼叫数据记录了解地震情况。

伊戈尔和其研究团队在卢旺达研究呼叫模式数据达3年之久,其中包括对2008年2月3日那关键一星期的数据研究。当天基伍湖地区发生了5.9级地震。通过设立呼叫频率的基准数据,伊戈尔和其团队能够发现地震之后那段时期呼叫模式异常的蛛丝马迹。他们能够通过呼叫数达到的一个峰值,来确定地震时间,也能够利用来自手机信号塔的定位数据确定震中即呼叫量最大的位置。

利用手机数据侦查出地震时空信息的想法着实令人惊讶,它也暗示了一系列不同的手机数据应用。患者可能跟健康人有着本质上不同的呼叫模式。当一个新疫情向外扩散时,呼叫模式也可能发生改变。单单分析呼叫数据记录,可能对一个新疫情的早期侦查而言不尽完美,但结合我们和其他卫生机构组织提供的疫情资料,也许能帮助我们勾勒流行病早期的扩散趋势。

如今手机的使用越来越普遍,这可能成为疫情演变成流行病之前,迅速发现和应对疾病的利器。然而在日益发展的数字监控领域,手机并不是以技术为主的唯一解决方案。2009年我在谷歌的同仁们发表了一篇令人关注的论文,表明个人在线搜索模式也提供了人们所患传染病的信息。

通过采用谷歌保存的海量搜索数据以及美国疾控中心搜集的美国流感监控数据,研究团队能够校准监测系统,确定病患和其护理者所使用的、表明疾病出现的搜索关键词。研究团队通过搜索与流感及其症状、治疗相关的单词,建立了一个预测流感趋势的系统,比美国疾控中心提供的流感统计准确率更高。而事实上,谷歌团队做得更好:谷歌搜索数据即刻就能获得,美国疾控中心流感监测数据却有滞后的问题,因为需要时间来报告和发布。先于传统监控系统提供准确的流感趋势预测,谷歌由此击败了美国疾控中心。


谷歌搜索的流感趋势系统

谷歌流感趋势系统所提供的有关季节性流感的早期数据很有趣,并且有潜在的重要性。这一早期数据让卫生机构有时间订购药物,以满足不同病情之需。但是季节性流感的早期侦查不是我们的终极目标,我们的目标是建立一个能够发现一种新兴流行病的系统。谷歌现在正努力将疾病侦查范围从流感扩展到其他种类的疾病。当越来越多的人使用谷歌这样的搜索引擎,我们就可以获得越来越多的数据。我们所希望的是,除流感之外其他感染源的趋势分析也做得越来越好。也许有朝一日,我们仅仅谷歌搜索一下,就会发现一种流行病正在某社区兴起。

社交网络的迅猛发展,提供了另一组大数据,使我们有可能会发现即将到来的疫情信息。这些信息虽然微弱,但有潜在的价值。像英国布里斯托尔大学的计算机科学家威斯利斯·莱普(Vasileios Lampos)和奈勒·克里斯蒂亚尼尼(Nello Cristianini)已经采用与谷歌科学家们相类似的方法,对数以亿计的Twitter信息进行整理。像他们在谷歌的同仁们一样,莱普和克里斯蒂亚尼尼使用关键词观察Twitter上的流感趋势,发现其与流感统计具有相关性。这里的流感统计是指英国健康保护署(UK’s Health Protection Agency)提供的数据。

2009年在甲型H1N1流感病毒大流行时期,他们追踪Twitter中与流感相关的信息的出现频率,并将结果与官方卫生数据比对,发现准确率达到97%。与谷歌流感趋势研究团队的研究成果一样,莱普他们的研究提供了一个既快捷又具有潜在廉价性的流感研究方式,作为传统流行病数据收集的补充。这种研究方式也可能扩展到对流感以外疾病的研究。

虽然社交网络可以让我们调查到人们正在交流什么话题,但它也许还能提供一系列更为丰富和精细的应用。在最近一项引人注目的研究中,两位社会科学的领军人物尼古拉斯·克里斯塔基斯(Nicholas Christakis)和詹姆斯·福勒(James Fowler)研究了社交网络如何能为传染性疾病提供监控。

在一个设计精巧的实验里,这两位科学家追踪被分成两组的哈佛学生。第一组被试者是从哈佛学生中随机选择的,第二组被试者是从被第一组人列为朋友的人中选出来的。因为靠近社交网络中心的个人,可能比处在边缘的人更快地被传染上疾病,克里斯塔基斯和福勒就假设在一次疫情中,朋友组比随机组更快地传染上疾病,因为随机组一般比朋友组离社交中心远。实验结果令人震惊。在2009年的流感疫情中,朋友组比随机组平均早14天感染上流感病毒。

我们希望社会科学能够识别出新的“哨兵”来监控新疫情,并早点捕获它们。但是确定人与人间的朋友关系是要花时间的——我们在一所单独的学校办得到,在全国范围内也许就不行了。当前巨大的在线社交网络中自我确认的朋友,也许让这项任务更容易完成了。像Facebook这样的在线社交网络虽然不是为监控疫情之便而设计,但却创造了相对便利的监测系统,能够被用于确定疾病的出现频率,识别社会性“哨兵”,也许最终会就一种新型感染源在一个社区的扩散提供预警。

当约翰·斯诺于1854年首创地理信息系统时(约翰·斯诺,英国著名的内科医生、牧师、当代流行病学奠基人之一。在本章的开头,作者引述了1854年伦敦霍乱疫情中,约翰·斯诺通过访谈、病例识别和绘制地图的方法来找出疫情之源——编者注),他所采取的行动在我们今天看来,十分合乎逻辑且直截了当。他绘制了一张地图,标注了病人所在的位置以及可能的污染源。斯诺不可能预测到他所迈出的尝试性的第一步将最终走向何方,或者预测到今天的GIS(geographic imformation system,即地理信息系统)可使用的数据。

未来可能不会出现一种数据包打天下的局面。如果斯诺生活在今天的社会,要调查一次疫情,他会想要得到所有数据:病患在什么地方;如何通过短信或者互联网搜索能更迅速、便捷地得到数据;病例是被什么所传染,甚至是被什么特有的微生物的基因株传染;如何最大限度地使用呼叫数据,记录监控人们的流动,以便追踪疾病的流动或者孕育疾病之所;人们是如何进行社会性联系的——他应该会追踪可能的首批感染者,或者是比其他人先出现病症的人。

你可以想象一下未来的疫情GIS,或者用硅谷人更为熟悉的术语——我们的数据团队负责人拉奇·古拉斯卡拉称其为未来的疫情聚合图(mash-up):包含着层层关键信息的一幅地图——有人们所在的位置、他们的关注点、他们感染的微生物、他们流动的地方、他们联系的人。研发和持有这张结合数字化和生物学的聚合图,正是拉奇团队的奋斗目标,也是本书最后一章我们将要提到的内容。随着时间的推移,不同疫情的数据可以放在一起加以分析,使得我们在实际的疫情中考察不同因素的影响,并能够对所有的技术手段进行最优加权,使预测效力最大化。


《病毒来袭》,【美】内森·沃尔夫/著 沈捷/译,浙江人民出版社·湛庐文化 2014年4月版。

读书推荐

读书导航