上帝、数据和故事

上帝、数据和故事

  • 就人类说话的方式而言,除了数据,我们还有故事。
  • 故事和数据的不同,在于数据很大程度上是已经存在、甚至记录下来的真实信息,而故事则可能含有前者,还可以去“虚构”或是“创造”。

早些年,在读黄仁宇先生的“大历史”作品时,中国落后于西欧和日本是由于“数目字管理差”的判断,印象极其深刻。黄先生将“数目字”管理的准确和意识形态统辖的笼统,做了直接的褒贬对比。潜台词是,中国人图强发奋,跻身世界强国,当“以史为鉴”,重视数目,万万不可只是“大概”而已。在我看来,先生的如此观点,大可名冠“仁宇结论”,与史共存。

近年来,读了多本“大数据”的著作,其中涂子沛先生的《大数据》和《数据之巅》,读来令人振聋发聩。“数目字管理”在当下中国,应当是主流或主流中的重要成分,但相比于美国等强国,有着明显的距离。涂先生明言,收集数据、使用数据和开放数据,是现代国人面临的严峻挑战。大有一种历史呼应的意味,涂先生发出了新时代的“仁宇结论”,依然是民族和国家强盛的警醒之言,让人内心不由得升腾起深深的敬意。

事物总是具有两面或多面性。当我们强调某个方面时,很容易出现某种过量的渲染;而当我们过于渲染某个方面时,则必定会出现一些逻辑偏差和思想矛盾。应当说,在流行颇多的“大数据”文字里,这种偏差和矛盾是较明显的。无疑,它们不只是文字上、逻辑上和思想上的争议问题,基于“大数据”的时代功能,它们会引致出偏颇的实践经历和结果。

上帝、人和数据

这是关于“大数据”的名言:“除了上帝,任何人都必须用数据来说话。”

在汉语语法里,“除了”一词具有英文中“besides”和“except”的两重含义。“besides”表达的“除了”,是一种相加关系,如“Besides him, we all went to the movies (除了他之外,我们都去看电影了)”,其中的“他”和“我们”是都去了;而“except”的“除了”是排除性的,如“We all went to the movies except him(除了他之外,我们都去看电影了)”,这里的“他”不在看电影群体之中。那么,上面名言中的“除了”,是相加性的,还是排除在外的?

显而易见,由于上帝和人完全不同,“除了”一定是排除性的。只要你是人,就必须用数据来说话;上帝,则可以排除在“用数据说话”之外。很不幸,即便是这种解释,从主体的角度来看,上帝和人不可避免地归属到了同一个群体之中,他们只有“说话方式”的不同,但都是世界说话的主体。换言之,“除了”所排除的,只是上帝和人在用数据问题上的“必须与否”,却排除不了上帝和人同处在世界说话主体位置的共性。

就这样,一个逻辑的偏差就生成了。

如果说,上帝不等于人,将两者放在同一位置上进行“说话方式”差别的比较,就全然没有基础,也就没有比较的意义,这如同“除了动物,我们都去看电影了”一样怪异;如果说,上帝等于人,比较的基础有了,内在的逻辑冲突就出现了——因为“任何人”一旦包括上帝在内,上帝也必须“用数据来说话”,此名言前后就是自我否定的了。在这里,解决问题的办法,就是放弃用上帝做比较,仅仅说“任何人都必须用数据来说话”,便可逃离逻辑的深渊。

我理解,作者之所以要动用“上帝”做文章,在于试图以一种唯一的、绝对的、终极的方式,加大对“大数据”神奇性的渲染。不曾细想的或许是,这等说法在逻辑上的偏差,很可能反过来导致人们疑虑“大数据”的科学价值和现实功能。要知道,人们大多笃信,离上帝近的东西,离人类科学认知和现实生活会很远。

解说“大数据”名言的逻辑偏差显然不是最重要的。最重要的在于,将“大数据”的功能绝对化,会对人的主体性带来冲击和伤害。因为绝对化,大数据就成了一个新的“上帝”,人容易在如此理解里被大数据所管控,时不时地失去自我主体位置,最终导致认知和改造世界的迷惘与失误。

所谓“大数据”,即是“大量”的数据集合。它解决了以往小部分数据时,必须由局部去推测整体的困难,以及推测方法和结果的不确定性。如在大海中航行时,航行者发现冰山一角,以往必须借助于某种“算法”,去推测整个冰山的大小;在冰山的“大数据”可得到时,整个冰山的“庐山真面目”便容易掌握,航行者就不需要推测和任何的“算法”了。更紧要的是,如果数据“大”到几近无所不包,可以称之为“全量”时,人类的各种活动就能够大大地提高趋利避害的准确性。试想,当你一眼就看清全部的冰山,你自然就能够相当准确地安全航行。可见,大数据特别是“全量性”的数据具有直观、结构清晰和综合性强的特点,人类在生产和生活实践中,通过它,能够迅速把握事物的整体、相互关系和发展趋势。毫无疑问,大数据是人类一种新型的、功能强大的好工具。

“功能强大”常常是被人们夸大的基础,而夸大的最高境界就是将被夸者置于神龛之上。当大数据经拥戴走向登峰造极时,它作为人的工具的特性便急剧弱化;相应地,它被赋予了某种超越工具的特性,大有替代人作为主体的部分作用。收集数据也好,分析数据也罢,特别是使用数据,本来都是人作为数据的主宰者主动所为,数据只是一种人的工具。然而,大数据的神化,让这一切转化成了人在数据之下的被动适应——收集的数据越“大”,事物的直观性、整体性就越强,发展的趋势似乎就越容易把握,问题的解决办法似乎就越明了,数据自身的主体功能似乎就越突出,人对数据的使用就越容易被数据对人的指挥所替代;而数据的指挥越是强势,人就越是容易屈从于数据的管控,这又会刺激起人们更多地去收集“更大”的数据,进而叠加性地加固数据对人的指挥。在这样的格局之下,人退居于次位,大数据则向人的主体位置上升。

这不是一种逻辑演论和主观臆测。在现实生产和生活中开始使用“大数据”的人们,已经有了“宁可相信数据,也不相信人”的初步理念。例如,一些公司招聘新员工时,完全依赖于各种类型的考试成绩单和就读学校、学历、学位等组成的“大数据”,“准”比尔·盖茨、乔布斯类人士,肯定进入不了选择范围。在法律界,用“大数据”来分析人的犯罪倾向,并预测某些人的犯罪行为,提前给予限制或是监控,这实际上是对未来的犯罪可能而非实际犯罪行为进行惩罚,显然有损于人的尊严;犯罪学上有“犯罪性”和“犯罪”的区分,前者只是犯罪心理倾向,大量存在于人们之中,并非只有犯罪的人才有,即使用“大数据”分析预测某人的犯罪性,也不能认定犯罪行为一定发生。过于绝对地依赖和笃信数据,不仅在具体的事项里会出差错,重要的是人的主体性被侵犯和损害,不论他们是招聘者还是被招聘者,也不论他们是“犯罪”的怀疑者还是被怀疑者。

实际上,“大数据”这种人类的创造物反过来管控人,不时挤掉人主体地位的事情,人类有史以来就一直存在。西方人关于人的“异化”之说,东方人关于“自己立个菩萨自己拜”的理念,早就对此现象有过深刻的分析和批判。人类制造了机器,人就时常依附于机器;人类创造了组织、制度,人就被组织和制度统治;人类发明了货币,人便成了货币的奴隶;人类推崇宗教,信教者就有了心中的“主”而忘却了自己。在某种视角上看,人类追寻的自由和进步,不只是在改造和创造世界中获得,还要在摆脱自己创造物的控制和束缚中获得。颇为无奈的是,人类已有的深刻认识和实践,仍然无法消除对创造物的顶礼膜拜。这种根植于人性中的东西,我们能够做的,只有反复的提示和警醒。

正因为如此,大数据被极端性神化,并不是多么新鲜的事情。新鲜的,只是大数据这种新的推崇对象,还有那神化大数据的现代渲染形式——上帝类的绝对观念存在被拿来做了衬托。熟悉人类自由和进步的历史,就能够熟悉当下的大数据工具地位,人也能够在时常的迷惘中醒来,这是让人永远乐观和自信的一面。

除了数据,我们至少还有故事

关于大数据的理解,公认的说法,数据就是信息,而“大”则只是一个相对的界定,并非科学概念。由于科学技术的进步,相对于历史,现在收集数据量巨大;相对于原来的“数目字”理解,现在的数据还包括文本、图片、视频等新信息;相对于过去“数目字”主要用来做大的事项记录,如计时间、记大小、记经济交往账目等,现在的数据使用则介入到了社会生活中的方方面面,如个人健康、企业管理、宏观经济预测等。因此,“大”是游离不定的,其边界不清晰也不可能清晰。大数据就是巨大信息量的别名。

基于这样的理解,人人都必须用数据说话,是完全正确的。只要你开口,一定是带有信息量的。即使是你说的内容没有新的信息量,你在进行表达本身,也是一种新的信息,结合你说的内容,就成了新信息。例如,同一个信息,由普通民众说出和由总统说出,是不一样的。这样说来,人们用数据说话,不是“必须”与否,而是自然而然的。我们想象不出,从古到今,离开了信息交流和交往,人类还能交流和交往什么。可见,对于大数据,我们还是需要一个较为一般的界定。

多少有些遗憾的是,我没有看到关于大数据的一般概念。或许,在这个时代里,概念本身已经不重要,不重要到不必认真地去定义它。即便是将大数据分为“结构化”和“非结构化”不同数据,我们也无法准确地说,哪些信息是在“大数据”范围,哪些不在。不过,对于“数据”而言,我们通常将那些可以数量化或是进行数量化处理的信息,归列在一起,称其为“数据”,而将其他的信息另行归类,不算为此种意义上的“数据”。在读到的不少大数据著作中,这种分类是占多的,尽管作者并未明言。

其实,就人类说话的方式而言,除了数据,我们还有故事。故事和数据的不同,在于数据很大程度上是已经存在、甚至记录下来的真实信息,而故事则可能含有前者,还可以去“虚构”或是“创造”。人类社会的历史表明,人们的交流和交往,少不得数据作为媒介,也少不得故事。甚至,故事的重要,时常都在数据之上。

让我们看看人类历史记录下来的那份宝贵财富《圣经》,它就是由故事组成的,其中有数据,有他类信息,更有某种“上帝”赋予人类的精神期盼——实质是人类对于自我的认知和价值理念创设,或者说,是人类精神世界里的一种意识形态的构建。正是这样的构建,创造了西方世界的文明史基础,它的地位高度如何评说,自不待言。

华夏文明的历史又何尝不是如此。包括黄仁宇先生在内的许许多多历史学家,只能依据历史留下来的有限资料或“数据”,去分析、推测甚至想象历史的过程,构建某种历史观或是意识形态。我们当下看到的华夏文明史,当然有真实的历史记录,更多的则是历史的“故事”创造。在某种意义上讲,至少历史中的大多数细节,不是历史中人的言行自然记录(根本不可能有),一定是他人或史家的推测或是“虚构”。延续着中华数千年文明历史的传统或价值观,并不因为这些“虚构”而失色。相反,正是它们,组合成了较为清晰的文明色谱,让后人承接了文化的精髓而繁衍了强大的华夏民族。这些算不得“数据”的故事,竟然是如此地具有生命力,由不得我们不顶礼合十。

现代计算机、网络、传感和移动等技术的飞速发展,创造出大数据的时代。当下人类历史的许多细节,已经被有形和无形中存在的设施所自动记录,并且由庞大的存储系统保留下来,不再需要史家的“虚构”。但是不是技术手段的再进步,会将人类社会的一切都自动记录下来,从而消灭史家的“虚构”呢?从纯粹技术的角度讲,这是完全可能的。可以想象,当人类一切的言行,自然界的所有变化,都能够每时每刻地被传感器、移动网络和存储设备所收集时,历史本身的“大数据”就已经集合起来,“虚构”历史细节的空间就没有了。

先不说人类社会和自然界的一切信息是否都可以被收集,即使是史家完全没有必要去“虚构”历史,却无法不去“创造”由史而来的价值观、信仰,或是精神层面上完善一个民族、一个国家,甚至整个人类社会生存和延续的正向理念。现代的数据可以是很大,大到足以让人看清经历的所有细节,但它们不会自动地生成价值评说和善恶区分,更不会自动形成某种意识形态。这些由大数据组成的历史经历,有其自身的数据存在逻辑,却未必是人类走向未来的合理存在,如一味追求经济速度的发展经历,并不表明人类美好未来会在此种速度下快速到来。只有人类自身和谐、圆融地发展,与大自然和谐共存,才是人类的长久发展之道。当历史的细节不需要“虚构”时,人类历史的信仰和价值观,仍然还是需要创造的。事实上,以往史家“虚构”历史细节,当然不是就“虚构”而为,而是冲着信仰和价值观来的。

更何况,要完整无缺地收集人类社会和自然界的全部信息,那是不可能的。自然界存在至少在亿年之上,人类社会也有数千年历史,过去的信息,我们只是收集和储存了很少的部分。当今的信息,由于人类数量的增长和活动的复杂化,其产生量和收集储存量相比,仍然存在巨大的遗漏——每个人都在每分每秒里产生信息,却不是都被收集和储存了起来。事实上,从人类的所有活动都要耗费资源来说,人类不可能将全部的资源都用于信息的收集和储存,仅此一点,那些消失在自然界和人类社会里的信息,不知道要大于收集和储存的信息多少倍!所谓的大数据,相比于人类无能力收集和储存而丢失的信息,是极其渺小的,要得到所谓的“全量性”数据,也只能是南柯一梦。

一个确定无疑的结论是,在当今的大数据时代里,数据的收集、储存和使用,可以说是空前的,并将获得更加惊人的发展,但这并不能够成为消灭“故事”的理由,因为它根本消灭不了。如果我们不是从相对的视角去看待数据的“大”,不尊重和选择数据以外的其他工具,尤其是弃“故事”类工具而仅仅以数据代之,我们就可能大大地误解自然界,更误解人类社会自身,在“故事”类工具的弃用中,迷失在存在观、价值观和信仰等意识形态的缺失中,成为大数据的奴隶。虽然说,从长期来看,人类整体一定不会祭出大数据为神,但一时的迷失或部分的误解,也会大大地伤害人类的自由意志和尊严。

如何认知“大数据”

在现实社会里,将大数据作为符号者颇多,许多人已是言必称之;将大数据作为工具来服务于特定目标者,正在迅速增加。不过,一般观察而言,对于大数据似懂非懂又渴望了解者,规模最大,其中包括不少的“符号者”和少量的“工具者”。面对如此的格局,现在正是从大数据的内在规定出发,宣讲它的最佳时期。不少的大数据著作出现,大受欢迎,正是契合了时代的需要。但是,过于绝对的渲染,可能会适得其反。大数据的思想者们,必须清醒地看到这一点。

在“大数据”的认知问题上,对人的主体性的强调,始终应当是第一位的。收集、分析和使用的数据再大,大到我们甚至要言听计从地服从于数据演化生成的结论,它们也只是在人的指挥和管控之下形成的。是人,收集到了足够多的数据,有了厚实的分析基础;是人,整理、归类、理清关联、发现特征或规律,并梳理出了可使用的途径;还是人,通过使用数据实践,总结、评估、叠加分析并进一步地提供改进使用措施。即使有些人,总只是处于一般使用者的位置上,那也必须明白,这是人创造出来的东西,不能绝对化它的作用;这也是人在使用的东西,人的操控具有决定性,不可自我否定主体作用。生活中,绝对相信GPS定位的驾驶者,在明明白白走错路时,不怀疑定位器而怀疑自我之事,是时有发生的。

“大数据”之“大”的相对性,需要倍加牢记。现代社会数据的巨量增长,其计量的单位自然发生了变化,百、千、万、亿和兆类单位,已经无法表达数据量界。以二的几十次方出现的“拍、艾、泽字节”单位,它们计量的数据,大到我们无法用传统的数量概念去想象。即便如此,我们也无法用“全量”去界说“大数据”。就是在某个主题设定的前提下,如根据某种疾病的巨量信息来寻求治疗方案,我们运用最先进的技术去收集、储存和分析,并且通过无障碍的方式共享,也无法穷尽所有关联数据,更无法得到全部无遗漏的治疗良方。“大”是一种永远相对的数界,不可能是绝对的完整存在。如果绝对了,那便是终结,那种疾病根本就不可能有。在这个意义上,我们不应当期望,大数据由于其“大”,会带给我们一个绝对的整体,一个完全不需要因果分析的事物结构,一个彻头彻尾的最优解。那是人类脑海里构造的“乌托邦”,不是真实的人类社会。

我们相信人有神性之说,却无论如何也不会相信人就是神本身。既然有关大数据的一切,都还是人作为主体主宰之下的所为,那么,人具有的天性,尤其是那与生俱来的弱点,如贪婪、恐惧和懒惰等,就必定会在与大数据关联的各种过程中,得以充分地展现。由此而来的是,收集数据中无法避免造假,分析数据中无法避免差错;而使用数据,则会出现利益争夺之下,人为的效果夸张或缩减,将使用结果叠加为不真实的“新数据”而反馈到大数据群体之中。这一点说明,大数据在人类社会里,总是会包含假的、错的和人为制造出来没有用处的内容。大数据不只是不绝对地“大”,还不是绝对地有意义。

在人类社会学说的历史上,那个“量变到质变”的哲学结论是深入人心的。数据由小变到大,巨量数据时代的到来,是不是意味着某种新质的出现呢?

一定是的。那么,这种新质又是什么呢?如果说,人类并不会因为大数据的出现而改变其主体地位,也不会改变其天性,那么,由大数据带来的新质,就必定只是人的思维方式的变化,以及由此而来的社会生存和生活模式的重造。那种过往“小数据”下的传统的思维,包括生存方式选择、管理方法确定和预测模型设立,都将在大数据的冲击之下走向弱势,部分则走向终结,进而演进出现实社会生存和生活中的新景。说实话,现在还不到描绘大数据新社会景象的时候。这是因为,我们的社会,正处于历史的拐角处,传统社会的景致依然活跃,它使得我们的传统思维仍然占领了颇大的地盘,让我们一时半会儿也构想不出那个场景来。

2015年6月6日 星期六 开始动笔
2015年8月2日 星期日
(原载《读书》2015年第10期)

读书导航