大数据时代,人文学者的关怀有用吗?

如今人工智能技术越来越深入我们的生活,表面看上去,这些先进技术都是性别无涉的,不过,为什么在我们呼唤“小爱同学”或“天猫精灵”等智能音箱时,默认响起的都是甜美可人的女声呢?

如火如荼的“人工智能”的故事的另一面是,在与人工智能密切相关的大数据处理工作中,有大量的“数据劳动力”在做数据清理工作,而往往女性被认为更加细心,更擅长做诸如打标签和检查数据的工作。

南京大学艺术学院的副教授陈静注意到了这些隐藏在科技背后的性别歧视,她认为人工智能依然是人类世界的延伸,我们关于性别、种族和年龄的歧视不可避免地会被带入其中,而对数据和科技的迷信,甚至会进一步加深和固化这些已有的偏见。

澎湃新闻与陈静聊了聊一个人文艺术学者眼里的“人工智能”,发现不只是性别等偏见问题,数字劳工也是这个行业中长期被避而不谈的问题,不过,面对当前无比强大的技术逻辑和商业逻辑,人文学者的关怀有用吗?

以下是陈静的口述。

陈静

陈静

性别偏见在人工智能中的延伸

你们注意到没,我们的虚拟形象或者语音助手都是女性居多?为什么?女性一直以来被认为是服务性角色。这就是职业分工里的性别歧视,到了数字世界仍然是这样。我们希望跟一个温暖可爱的人保持一种亲近关系,而这个陪伴的角色一般被默认为女性。因此,我们用的智能设备里内置的语音助手大都有着甜美亲切的女声。

我是一个女性主义者,在我的研究中,性别视角是一以贯之的,比如关注在数据科学里社会性别是怎么被呈现的,这是一种本能。

我的博士论文是做数字文化和电子书写,之后在美国博士后工作期间开始转向数字档案和数字人文,自己开始处理数据,涉及数据研究。

在这期间,我有时会被问,女性还能懂数字技术?一般人都会问我你在做什么研究,讲完以后,有人说,“女生不太适合做编程,而你好像对数据比较敏感。”这听上去是好心夸奖,但难道这个评价不是颇有一点羞辱性吗?这种评价预设了女性不擅长数据科学。

“女性”被认为适合什么做不适合做什么,是社会建构的结果,这基本成为了常识。我在日常生活中不太会在意自己的性别,我只有在抬头选择男厕所还是女厕所的时候,才会意识到自己是女性。但换句话说,就是这种瞬间性的选择构成了我们的社会性别规范,也成为了其他人指引你做选择的依据。

不过,女性从业者数量少与大数据领域的已有偏见,并没有因果关系,性别偏见存在于大数据生产的很多环节。有人说女性工程师数量增加了不一定能改变什么。没错的,女性工程师多了,不见得能解决问题,因为女性以及女性群体内部也有性别偏见、种族偏见和年龄偏见等各种偏见。

但是,可以想见的是,从事大数据行业的女性增加以后,群体里具有明确的性别意识的人也会相应地增加。女性工程师多了,会让女性的声量变大,也会提供不同的性别视角。

最近,澎湃研究所沈虹的一篇文章中,写到在“ImageNet人类数据集中,一个穿着比基尼的女人被标注为荡妇,中年亚裔女性被标注为女仆”,沈虹提到的ImageNet数据集是由斯坦福大学的李飞飞教授和团队历经多年,通过她自己和学生们打标签,以及人们在亚马逊的众包平台上进行公众打标签所形成的。

我们日常语言的逻辑,看似“自然”“客观”,但其实都是意识形态化的。而图像训练数据集的标注,遵循的是打标人员的语言习惯,受其主体意识的影响,包括一个人的教育背景、表达能力和思维方式等。

比如沈老师所提到的ImageNet下属的“Human”数据集所体现出的偏见,体现的就是制定标注和实施标注规则的主体是如何通过看似客观的标注动作,将包含了偏见与歧视的认知“转移”到了看似科学的数据集中的。

因为这个过程是被隐藏在算法背后的,所以它的偏见性就被隐藏起来了。

而打造AI工具“ImageNet Roulette”的社会学家凯特·克劳福德(Kate Crawford)和艺术家特雷弗·格伦(Trevor Paglen)通过算法把这个隐藏起来的偏见性一层层剥开给我们看了,也让我们最终意识到,看似智能的算法背后,延续了人类社会中固有的性别偏见,甚至做得更为隐秘、更具有欺骗性。

人工智能当中的“人工问题”

还有一个我很想强调的,就是现在大家对于技术抱有一种天真的幻想,觉得轻轻松松跑一下数据,结果瞬间就能出来了,其实完全不是这回事,大数据背后隐藏了大量的人力劳动。

数据科学是一个非常消耗劳动力的产业,在一定程度上,它跟制造业其实是一样的。很多人不知道,底层数据的获取、以及数据有效性的确认很多都是靠人工的。

但现在大环境是有意去忽略、去掩盖人工智能当中的人工问题,比如人工标注的时间和偏见问题、数据降维过程中的简化问题、数据获取过程中的知识产权问题等等。

学界当然讨论过这些问题,但更多时候是在回避,原因很简单,因为它并不是成果,而是底层的东西。这就像你做产品,最后卖的是成品,没有人会去关心这个产品是什么人做的,怎么做出来的。

而这类问题是社会学、人类学和文化研究的议题,却不是数据产业的核心议题。这也很好理解,这些问题会降低人们对数字产业的热情。现在大部分情况下都在强调人工智能的优越性,人们在涉及相应的利益的时候,就会有意无意地去忽略背后负面的东西。

归根结底这还是观念问题,人工智能不是一个技术主导的世界,它依然是一个人主导的世界。

有些技术下被隐藏的偏见与歧视确实需要有人文关怀才能看到,但是我很怀疑,人文学者的关怀有用吗?业界的人永远比我们动手得早,商家已经在用各种方式获取和利用我们的数据,现在连去厕所抽一张卫生纸,都要扫一下码授权基本信息了。

另外,社会发展到现在已经远远超越可以被经济基础与上层建筑的二元论解释的时代了。现在的社会组织结构、社会生产方式是高度复杂化的,对主体和文化的影响也是复杂的。大数据产业在不断地生产数据,生产新的数据和获取数据的形式日益复杂,甚至越来越难为人所发现。

但是我们又必须要有意识地去做一些事情,技术变革的大趋势不是单纯的靠个人努力或者抵抗就可以改变的,我们只能跟它共存,然后在共存的关系当中去调整和相互影响,才能做到相互制约。

如果产业永远比我们动手得快,那还有什么办法可以约束他们?“不作恶”是基本的科技伦理。比如“黑命攸关”运动中,微软和亚马逊几家大公司以面部识别技术为筹码,声明他们不会提供给美国政府面部识别的技术,这就是不作恶。

那“科技向善”是可能的吗?“科技向善”是一个美好的乌托邦, “向善”只是说它在努力地变好,但技术并不是中性的,它的发展也并不遵循人文的逻辑,科技有科技的逻辑,甚至某些时候是忽略人的因素的。

从互联网的出现,到数字技术、人工智能,一直都有比较理想主义的想法,相信科技平权、科技民主。但这个很难,需要科技和人文双方的努力,而科技和商业的绑定远比科技和人文的结合要紧密。

人文艺术其实是起到控制阀的作用,对科技发展的方向进行调节。技术向善只有在人文艺术介入——从内部主动性地作用于科技研发和公司精英的主体或者从外部批判性地作用于企业和文化的情况下才可能发生。

如果一家公司体量已经很大了,它是需要承担一定的社会责任的,所以很多大公司都在做慈善——一个口袋来赚钱,一个口袋来花钱。许多公司都会有一个公共事务部,做慈善,也会与学界合作一些研究项目,但这不会触及他们的利益底线。我们是否能寄希望于企业自觉的“向善”?不能这么天真,社会还是需要多种要素的制约和平衡。

而人文艺术和社会科学的存在,就是做那个“说实话的小孩”。

读书推荐

读书导航