“AI发展现状反思”笔谈:预测方法对AI的限制

【主持人语:刘永谋(中国人民大学吴玉章讲席教授)】近年来,以大模型为代表的AI技术发展迅猛,掀起一波席卷全球的AI发展热潮。关注AI发展状况的人不限于AI的研发者、推广者和AI发展的评论者、人文社科研究者,更包括深感生活将被AI深刻影响的普通公众。AI发展的问题不再是纯粹技术问题,而是成为某种意义上的公共议题。在最近OpenAI发布Sora、马斯克开源Grok等一系列相关事件中,这一点表现得非常清楚。在各种相关公共讨论中,AI发展现状尤其受到关注,其中的基本问题是:当前AI发展的大方向是否有问题,未来应该朝什么方向前进。为此,组织计算机、经济学、马克思主义理论和哲学等领域的八位学者,对AI发展现状进行跨学科反思以期抛砖引玉,求教于方家。

本系列文章共8篇,转载自《科学·经济·社会》2024年第2期,本文《预测方法对AI的限制》为第6篇。在文中,邱德钧和冯霞认为大模型技术主要以预测方法为基础,而这限制了 AI的发展,使之不能建立完备的“世界模型”。

一、科学界推理为主流下预测方法的兴起

如何看待AI发展的大方向有没有问题,是不是走在正确的道路上?这个问题被细化为三点:第一,当前AI发展是否言胜于行,或者脱实向虚,甚至呈现出某种娱乐化的倾向?第二,当前AI发展在技术路线、应用战略等方面存在什么局限或问题,比如通用人工智能是不是歧路?第三,当前AI发展是否坚持了以人为本、为人民服务的根本宗旨,是不是走上了无所顾忌的唯科学主义道路?分析下来,第二点技术路线的特点和局限最为重要,弄清楚技术路线的特征,第一点和第三点也就基本清晰了,因此,以下主要来分析AI发展的技术特征,并找出其中的不足。

推理和预测在科学发展中都非常重要,尤其是逻辑推理,从古希腊的亚里士多德、盖伦,经历布尔、弗雷格,一直到希尔伯特,逻辑学的公理化方法和相关的元逻辑研究影响了许多学科,大多学科都有了广泛的公理化应用,使得人们相信依据基本概念和基本原则,再依靠推理,我们能够推出未知的真理。然而,随着Godel不完备定理等结果的出现,人们对于通过逻辑系统能否完全描述现实也产生了更为审慎的观点。但是,在基本概念、公理下建立某个领域的理论科学发展模式开始成为科学的“范式”,朱迪亚·珀尔(Judea Pearl)将这种情况称为“有理论科学”。

改变发生在近代,标志性的事件是哈雷生命表的出现。由于1462年后基督教和新教为共同对付伊比利亚半岛的摩尔人而加强合作,尤其是科学探索上的合作一直延续了下来,到1693年天文学家哈雷辗转从牛顿处得到了波兰布雷斯劳小镇的新教牧师卡斯帕·诺依曼(Caspar Neuman)对教区内新生儿出生和教区内死亡人数的记录表。诺依曼原来的研究目的是通过对人口数的记录,确认当地长期迷信的49岁、63岁和81岁的更年期迷信,哈雷对之进行插值和平滑后,开始研究生命的规律。哈雷生命表的出现有着重要的意义,它表明预测与这个时候已经成熟的古典物理学和数学可以没有关系,而只与数据本身相关,其依据的原理是:未能被我们今天观察到的未来事件,通常遵循过去的运行方式发生。这成了自1693年后几个世纪以来人们进行决策的重要的经验原则。从此,依据统计进行预测和依据逻辑推理得到确定性的知识,这二者一起成为了人类两个最重要的知识来源,珀尔在人工智能讨论域下称前者为“无理论科学”,连接主义正是在此基础上取得进展的。当时正值“九年战争”期间,哈雷根据此表,假设18~56岁的人能够拿起武器上战场,根据人口数量来估计战争的兵源数量,并且依据每个年龄段的死亡数量出售保险产品,使国王的收益最大化。自此,预测与推理一样进入了科学研究中。

二、预测与推理的不同作用导致AI发展

推理和预测两者之间存在一些区别,首先推理的目的是为了得到确定性的结论,通过已知事实和规律进行逻辑推导得出更广泛或更深层次的知识。预测的目的是拟定未来可能发生的情况,通过分析现有信息推测可能结果,利用多种多样的方法使已知信息尽可能地收敛于期望的结果。推理依赖于公理、定理和已知事实,其结论的正确性来源于前提条件的正确性。预测依赖于对历史和当前趋势的分析,需要判断各种影响因素并权衡其可能的影响程度。推理能够得出必然成立的结论,预测结果则往往是一个可能范围或多个可能结果,难以确定具体结果,存在一定程度的不确定性。而且推理通常描述的是静态结论,预测结果是针对未来做出的预估,依据后验可以动态修正先验。这也进而导致推理结论能通过逻辑解析求证其真实性,而预测结果需要随时间推移进行验证,看是否符合事实从而成真。其次,推理和预测的使用范围不同,这与本文讨论密切相关。推理适用于任何学科,是普适性思维框架,预测主要用于社会科学和实验科学对未来趋势的研究,近期才略微涉足物理科学。下面就这一点展开详细讨论。

推理可应用于任何学科,只要该学科具有一定的论证框架和逻辑规则,就可以进行推理得出新的理论或是新的定理。预测的使用范围主要在社会科学和实验科学中。社会科学如经济学、政治学等可以根据历史数据和当前趋势来预测社会、经济等方面的未来发展走势。实验科学如天文学可以根据定律预测行星和星体的运动规律,气象学可以根据目前条件预测未来一段时间的天气变化情况。生物学也可以根据细胞和生命规律预测疾病的发展趋势,材料科学可以预测新材料的性能,计算机科学可以预测程序的运行效率等。推理主要用于论证和解释现有知识,不一定涉及未来预测。但预测需要基于目前对规则和趋势的理解,通过一定推理得到可能的未来状态。

更深入地从方法论看,推理和预测在科学研究中也存在不同,这点尤其重要。推理可用于建立理论模型,通过逻辑演绎得出新结论,推理结果的正确与否取决于前提条件,推理结论具有必然性。这为科学理论提供理论支持,也成为1950年代以后至1970年代AI中符号主义路线的信心来源。预测通常需要通过对历史数据进行统计分析,建立数学模型,并考虑可能的影响因素,这为科学实验和实践提供了参考依据。预测得到的结论需要时间证实,有时也可以通过后续观察和验证得到部分证实。与推理结果不同,预测结果带有不确定性因素,但通过重复实验,某些预测也可以取得较高准确率,或者依据经验训练为期望的收敛值,尤其是在大数据辅助下,可以插值补充缺失数据进行预测,或者用复杂的数值模拟和深度神经网络的函数逼近进行预测。有人主张推理和预测方法上有相同点,比如,都需要收集和分析事例资料,了解先前的知识体系;都需要建立一定的逻辑或数学模型并一定程度地抽象描述问题。但预测方法明显表现出了新的特征,例如,建立统计或计算模型,考虑大数量的各种影响因素而不是不多的几个变量表达的公式;给出可能结果范围或多个可能结果,带有概率性;结果取决于模型对复杂因素的权重的把握程度。

推理是我们非常熟悉的科学研究方法,把它和今天人工智能技术主要依赖的统计方法的预测进行比较,就是为了更深入地认识这种预测方法能把AI技术带到何种方向。

从罗森布拉特开创了感知机的分类和模式识别方法以来,AI的文本、图像处理预测都大量依据数据分类、聚类、插值运算或扩散算法,用历史数据(或训练集)来建立统计模型或者数值模拟模型。这些模型通过数据点之间的相关性分析,利用插值和拟合方法给出新的预测值。达特茅斯会议参与者们尤其是明斯基(Marvin Minsky)在《计算几何学》里主张的以推理为主导的符号主义的专家系统出版的第二年,即1971年,就被英国数学家莱特希尔(James Lighthill)报告宣布是非人工智能。继承罗森布莱特方法的学者则以ImageNet库为基准成功开发出了能够精准识别16x16像素的图像的技术,随后将该识别并预测图像的方法用于自然语言处理又获得了进展,直至媒体热切关注的AlphaGo依据大量的围棋棋谱的统计数据战胜人类棋手,预测方法的能力随深度神经网络开始进入公众关注的领域。今天回头追究其原因,是因为相比于复杂的推理过程,预测问题本身通常更容易形式化和量化,比如分类、回归等。这使得数据驱动的连接主义模型表现出强大的能够聚焦于解决“简单”问题逐步积累能力。其次,今天深度学习模型的发展和评价很大程度上被特定的数据集和评测任务所驱动和制约,这些评测任务大多属于感知预测类,缺乏对认知推理能力的综合考核,或者说只集中于数据可大量集中的领域发力,而这些领域正好是统计预测擅长的地方,其实在发展人工智能领域,目前我们有意或无意地忽略了认知中离不开的推理能力的要求。总之,集“解决‘简单’问题逐步积累能力”和“回避预测不擅长的不具备可统计的大量数据领域”这两个根本因素,预测方法在今日成了AI中的主流。尽管希望目前以预测为主的AI方法能带领人类突破尽可能多的未知,但在可见的未来里,随数据枯竭等的到来,推理会以某种可行的方式进入AGI领域。

三、预测方法的不足

对于人类而言,未知域远大于已知,逻辑推理等已经让我们建立起了依据理论扩展认知领域的习惯,但理论的建构过于偶然且太过宝贵,远远满足不了人们对未知的渴求。同时,未知域里的事物未必遵从我们关于过去已知的规律的假设,因此,预测也就存在困难,即便承认作为统计学基础的U.d假设,但因为模型不可能完全、很好地捕捉系统中的所有重要影响因素,最终会导致预测不可靠而得不到推理的理论给出的确定性知识。随着系统复杂性变高,模型难以完全反映实际情况。若一味地为保证不遗漏重要因素,必然增加模型复杂性和计算负担,导致模型不断扩大,最终造成对计算量的大幅增加而不可行。今天的GPT-4已使用了2.5万块H100,能耗和资金投入总会有限度,产出平衡点也会对参数增加进行约束。

哪些才是纯数据中的重要的影响因素?这不但与数据规模和特征不足有关,还与难以建立可靠的统计关系或因果关系密切相关,后面我们将专门就此讨论。数据饥渴和匮乏随着AI训练不久就会到来,它会降低预测能力。预测结果难以量化误差范围,对结果的可信度描述不清,产生误导,也会产生不好的后果。预测结果难以实时更新调整,响应新情况反应力度不足,以及预测应用难成为定制决策的有效参考,缺乏应用驱动的视角,还有预报结果与决策者之间沟通差或决策者难以接受导致结果误导或误用,预测结果难与事后结果对比,缺乏结果改进机制,等等。这些都是预测的不足之处。

2009-2018年,珀尔的努力使因果关系成为现象级焦点,但数据中因果关系的发现固然重要,系统复杂性却造成预测的困难,加上预测方法与应用驱动能力不总是匹配,使得实际在处理因果关系时,需要调整模型、数据、应用三者之间的关系。由于因果关系的基本难题存在,也就是我们总是只能观察到事实或者反事实之一而不能同时观察到二者,于是采用平均因果效应来近似个体因果效应,但面对个体的异质性问题却无法处理,因此很难发现有关个体的因果关系,这使得在因果关系的相关研究中天然设置了一道无法逾越的障碍。珀尔想利用因果关系给“无理论”的预测方法找到一个可信的基础,至少从今天的因果理论现状来看还十分困难。就在几天前,珀尔主张随着依据推理的“有理论科学”和进行预测的“无理论科学”的发展,人类也许会创造出高于二者的元理论,就他这种观点来看至少他本人对于纯数据中因果关系的发现已经产生了动摇。

这样一来,预测的诸多难题至今没有办法解决。这些难题也正是大众对现今的AI技术在接受上存在一些困难的根本原因,换句话说,连结主义依靠预测技术成就了今天的AI技术,也战胜了符号主义,但也天然地束缚住了自己。

不可忽视预测结果难以被大众接受的另一个重要原因,AI在文本、视频等领域因可采集的大量数据使得效果非常优异,但也因此在一定程度上让人质疑目前AI的发展方向是否偏于娱乐。但是,目前数学和逻辑模型都无法完全捕捉和表达人类语言的全部含义,特别是在处理含有丰富语义细节的自然语言文本或视频内容时。更具体来说,人类语言中不仅包含逻辑关系,更包含丰富的隐喻、比喻、语境等语义层面,这对现有模型来说难以完全理解和表达。数据很难在量化数值的形式中完整呈现物理世界中诸如重量、色调、气味等类型的信息。人类情感和心理状态很难用数值压缩而不失真,这也成为模型难以预测人类行为的原因。现有模型在处理包括时间和空间在内的丰富上下文关系时也存在限制。语言之间的多义性和歧义也增加了预测结论的不确定性。如果模型能更好地理解和再现语言中的语用层面和丰富上下文关系,其预测结果很可能会受到更广泛的认可。这也将是未来研究的一个重要方向。

有观点质疑语言的歧义性会影响AI的预测结果,另一方面则有人认为该问题已经被符号逻辑解决。但在广泛的应用领域,符号化并没有完全覆盖。除语言本身的歧义性外,人类智力活动中还包含一些无法通过明确输出来表达的内容,这也给预测计算带来难度。人类在思考和交流中,会采用暗示、隐喻、语用等手段来表达想法,而非一定以直接明确的语句为输出。比如表达同情不用语言直接说出,而用语调和眼神交流,这些很难仅通过语言数据准确捕捉。情绪和态度也往往通过细微表情和肢体语言来传达,但这些很难从文字中读取。思考过程本身就是一个无形的过程,包含推断、联想等步骤,这不能直接从交流中反映出来。在沉思或犹豫时,人可能会选择暂时不给出明确回复,这对模型来说很难处理。艺术和文学创作也需要大量隐喻与象征,难以单纯依靠逻辑关系进行表达。这说明人类智能活动中,存在着广泛的隐而不示区域,这对计算模型的训练数据和评估标准提出了新的挑战,也应成为接下来AI要发展的领域。

四、预测不能建立完备的“世界模型”

早期的阿西莫夫机器人原则,虽然文字上回避了“应当”“必须”等模态词,但本质上是对机器人行为的约束。今天杨·立昆(Yarni Lecun)借世界模型提出了更为全面的理论,主张agent在与世界的交互中通过学习建立世界模型。二者相结合,能形成agent在对世界理解的基础上加以约束后按照人类利益导向展开行动的基本框架。简言之,与世界交互、学习并约束,达成对agent该有的“世界观”的构建。逻辑推理在给定前提下得到确定的结论天然地被用来建立可信的世界模型,模态逻辑尤其擅长约束性规则。但从近70年的AI发展看,推理在方法上应对不了一般原则向复杂具体应用的映射,至少可从今日NLP中的机器翻译中主要以词之间的距离分类、聚类取得成功而不是以语法原则取得成功窥见一斑,原则与应用之间存在的不只是距离遥远,许多领域可能需要的不是“有理论的科学”。那么,依靠预测能够建立起世界模型吗?

预测方法已经被证明能学习,agent也能与环境交互,算法能进行收敛并约束每次计算,本质上预测也能形成agent的世界模型,但过程的复杂性导致非专业的大众不理解,这一点又反作用于学术界最终成为一个需要讨论的问题。但从agent与世界的交互以及agent之间的交互来看,即便感知、采集、数据化后学习以及多个agent之间交互的问题全部能够解决,并且最终使得agent能形成数据化的世界模型,其结果,模型也必然是不完备的,因为从目前来看,在建立世界模型之前,至少存在这几个具体的问题需要解决,而目前依据预测方法发展起来的AI模型是没有将其解决的:

1.暗示:用眼神表示“我们换个地方继续谈”而不直接说出。

2. 隐喻:在聊天中说“刚才网速像拖着铅块”来描述网络很慢。

3. 语用:同事问“今天晚上有什么安排吗”,实际上暗示可以一起吃晚饭。

4. 表达情绪:在听到噩耗时眉头紧锁,用手不自觉地握着衣角来表达难过。

5. 思考过程:看着相册发呆,脑海中回想起以前种种细节但没有明显外部行为。

6. 暂缓回复:朋友提出问题,自己需要时间沉思而没有当场给出答复。

7. 艺术创作:有作家喜欢用鸟代表自由,这在小说中是常用的隐喻手法。

8. 肢体交流:母亲以腿盖住孩子,以隐喻的方式表达母爱。

现实中允许多义、转义、模糊等方法从而通过有限的词汇去表达一个无限丰富的世界,计算技术中的有限性和确定性不允许上述方法存在,Transformer等模型用整数标注词汇,忽略了词汇在语义空间中的真实含义是多重或模糊的。目前,预测计算在建立agent的世界模型时对抽象概念、连续性、过程性概念度量和表达的缺陷一定会限制AI的能力从而构建不完备的模型。价值观上agent对齐人类价值已经有许多研究成果,但agent如何自我认知还是较少讨论的问题,结合以上两点再加上克服了上述缺陷的预测方法建立起来的世界模型,应该才是完整的。具有“三观”的机器人一定会变为人类能接受并共处的机器人。当然,这是AI发展的远期目标。

即便目前AI发展因不能建立完备的世界模型而受限,但目前的AI进展在缩小人与人之间的智力水平方面也将发挥巨大作用,如同大航海造成欧洲人文化进步一样这也将造成人类整体知识能力的提高。曾经很高门槛的编程,现在只需要看看视频教程,看看提示工程(prompt),孩童都能用它(AI)做出惊人的事情。AI必将缩小人类在很多前沿技术领域的差距。

读书推荐

读书导航