“AI对齐”的危险与可能：应以人类的能力与规则为边界

刘永谋、闫宏秀、杨庆峰 2024-04-14 来源：澎湃新闻

【编者按】在过去的2023年，以ChatGPT为代表的大语言模型集中爆发，让各界看到人工智能全新的可能性，期冀与担忧并存。为了防止AI发展脱轨，“对齐”概念又重新获得众多拥趸。然而，何为“对齐”？“对齐”能实现吗？它又是否必需呢？若人机（技）融合是人类未来的一个必选项，那么，价值对齐则可能是导引人机（技）融合走向的指南针。数智技术将价值技术化与技术价值化的双向融合理想样态是技术逻辑与价值逻辑的完美契合，但这种契合应是基于价值轴而校准技术，而非基于技术规制价值。本文收录了中国人民大学国家发展与战略研究院研究员刘永谋，上海交通大学数字化未来与价值研究中心教授闫宏秀，以及复旦大学科技伦理与人类未来研究院教授杨庆峰的文章。三位学者聚焦“AI对齐”这一话题，分析对齐的可能与潜在危险，并提出“AI对齐”应以人类的能力和规则为边界。

AI对齐是一种危险的尝试

刘永谋（中国人民大学国家发展与战略研究院研究员）

OpenAI“宫斗”大戏，让AI“对齐”（alignment）一词不胫而走。好多人认为，奥尔特曼这样的邪恶资本代言人压制坚持对齐的正义科学代言人苏茨克维，我们要站在正义的一方。事实果真如此吗？通过对齐操作，AI发展就能符合人们的需要、不背离人类的意图了？真有这么神奇吗？

质疑AI对齐的可能

何为对齐？它是在机器学习，尤其是大模型技术发展过程中出现的。《人机对齐》一书认为，“如何防止这种灾难性的背离——如何确保这些模型捕捉到我们的规范和价值观，理解我们的意思或意图，最重要的是，以我们想要的方式行事——已成为计算机科学领域最核心、最紧迫的问题之一。这个问题被称为对齐问题（the alignment problem）”。也就是说，对齐意味着让机器学习模型“捕捉”人类的规范或价值观。

“捕捉”与“灌输”相对，此时AI遵循的规范来自机器学习，而非工程师的编程输入。通过大量学习人类行为，AI“搞清楚”人类行为规则，然后按照规则来行事。因此，对齐问题起码可以一分为二，即对齐什么和如何对齐。

在很多人看来，包括“AI发展的有限主义者”（强调AI发展的有限性和受控性），“对齐什么”这一问题无法完全澄清。

首先，人类并没有统一的价值观。生活在不同的国家、地区，不同传统、文化下的不同性别、阶层的人，对同一现象存在不同的价值判断。比如，面对新冠病毒肆虐，有的人认为保全生命最重要，有的人认为自由活动更重要。大模型究竟要学习谁的行动规则呢？

其次，人类的主流价值观不断在变化。比如，一百多年前一夫多妻制在中国流行，现在则属于重婚的犯罪行为。那么，我们要给大模型输入什么时间段的资料以供学习呢？

再次，规则存在应然与实然的偏差。比如，男女平等是社会提倡的价值观，但在现实中性别歧视的现象并不少。如果AI学习真实案例，很可能成为性别歧视主义者。此类问题被称为大模型的代表性问题，在实践中屡见不鲜。

最后，有些AI如机器宠物狗，它应该与宠物狗对齐，而不是与人对齐。否则，它成了狗形人，拥有它并没有养宠物的乐趣。换句话说，不是所有AI均需和人类对齐的。

因此，“对齐什么”问题是“人类、社会和政治问题，机器学习本身无法解决”。对齐什么的问题，本质上是以数据方法或统计方法厘清复杂的人类规则和价值观的问题。

AI对齐的作用非常有限

从根本上说，上述质疑攻讦的是：道德哲学或伦理学未能完全解决的问题，大数据或统计学技术可能彻底解决吗？的确，答案是否定的。但是，如同伦理学多少解决了一些价值观问题，大数据技术对人类规则的学习也不是一点用处都没有。在日常场景中，并非完全厘清人类价值观，行动者（agent）才“知道”如何行动。

在多数时间中，AI只需要以常见方式应对特定场合中的常见状况。在自动驾驶研究中，经常有人以“电车难题”为例来分析。可是，人类驾驶者也极少面对此类高难度决策需要。无论是走“灌输”还是“学习”路线，自动驾驶汽车均可以随机方案或直接刹车加以解决。重要的是承担事故责任，而不是纠结于自动驾驶如何解决“电车难题”。

目前，机器学习模型主要采用模仿和推断两种方式来进行AI对齐。前者即看人类怎么做，AI跟着怎么做。模仿存在许多问题，比如过度模仿，很多人炒菜之前都会把袖子卷起来，AI可能会模仿这个不必要的动作。更重要的是，模仿的情境大致差不多，但不可能绝对一样，起码时间、地点和对象不同。此时，AI需要对人类行为进行某种推断，然后得出如何行动的结论。显然，此类推断很容易出错，因为AI的推断以数据和逻辑为基础，而人类行为则掺杂非理性尤其是情感因素。

因此，有限主义者认为，AI对齐虽不是完全无用，但作用非常有限。

更重要的是，在人类社会中，大量情境应对是不确定的，无法提炼出某种一致性的社会规则。此时，根本就谈不上对齐，也不应该让AI来处理，而应该交给人类来决策。如果让AI不明所以地处理，可能导致严重而不可逆的后果。并且，AI无法对自己的行为担责，最后导致“无人担责”的荒谬情形。

总之，必须牢记：AI对齐非常有限，不可对它期望过高。不少研究者认为，对齐基本上没有什么用，不过是AI产业界抛出的又一冠冕堂皇的幌子。

制定规则必须靠人

在特定场合、特定任务中，无论是灌输还是学习，让AI行动符合人类需求都不难。困难的是所谓“通用AI”，因为无法预知它所“通用”的场景，因而既无法预先“灌输”所有应对规则，又无法让其及时“学习”到可靠的应对规则。正是试图让机器学习模型“通用”，才会出现所谓的AI对齐问题。很多人认为，AI不可能通用，它不过是专用的替代劳动工具。

因此，有限主义者认为，通用AI难以对齐，让AI通用非常危险。显然，它的危险不仅仅在于像ChatGPT一样可能生成错误思想，将人类引入“后真相”的思想混乱中，更在于它与机器人结合起来，很可能导致大量错误、危险甚至无可挽救的行动后果。有人担心超级AI可能统治人类，可能我们更应该担心的是，依赖没有对齐的AI，世界会被搞得一团糟。

进一步思考，机器学习模型总结出人类规则，让机器人按此规则行动，反过来会要求所谓的“AI辅助生存社会”中的人类适应机器的行动。由此，机器规则反倒成了人类规则，人得照着机器的要求活着。因此，“我们必须小心谨慎，不要让这样一个世界成为现实：我们的系统不允许超出它们认知的事情发生，它们实际上是在强制执行自己有局限的理解。”

如果将规则制定的权力完全交给机器，AI向人类对齐，演变成人类向AI看齐，其最终的结果，必然加速“人的机器化”，即人类失去灵性和自主性，日益成为智能机器的某种配件。

技术控制的选择论者认为，无论何时，人类都要努力控制包括AI在内的所有新科技发展，使之有益于人类福祉。如果不确定AI的某一发展能否真正有益，就应该停止和转变此种AI发展进路，此即我所谓的“AI发展的有限主义进路”。按照这一观点，规则制定是人类的专属权利，承担所制定的规则导致的责任和后果，而AI只负责听命于人类，执行人类的指令，而不能让它“擅自”行事。

总之，AI对齐并不是资本与科学、正义与险恶的对峙，而是一种非常危险的尝试。从这个意义上说，OpenAI“宫斗”大戏是AI圈子又一次高质量的“AI宣传术”操作。当大家担忧AI的野蛮生长可能会偏离满足人类需求的目标时，“AI对齐”给公众一个印象：该问题完全可以通过对齐来解决的。

【文章为社会科学报“思想工坊”融媒体原创出品，原载于社会科学报第1888期第6版】

《“人之为人”是价值对齐的基准生命线》

闫宏秀（上海交通大学数字化未来与价值研究中心教授）

数据智能作为大数据和人工智能的融合，其对人类的深度数据化与深度智能化使得数智时代成为了人类社会形态的一个重要特征。基于技术发展为人类带来福祉的宗旨，技术所体现的价值观与人类价值观相一致，即价值对齐（value alignment），是人与机（技）融合所必须面对的一个重要问题。若人机（技）融合是人类未来的一个必选项，那么，价值对齐则可能是导引人机（技）融合走向的指南针。然而，关于技术与非技术的价值对齐、价值对齐的规范性、对齐哪种价值等问题仍存疑虑。价值对齐基准的模糊性是造成上述疑虑的重要原因，且若价值对齐的基准有误，那么，人类未来必将面临巨大的风险。因此，探寻数智时代的价值对齐基准是数智技术发展的锚定桩与哲学对时代问题的应有之思，更是对人类本质及其未来探究的必要条件。

人机（技）融合：价值对齐基准的切入点

无论是控制论创始人诺伯特·维纳（Norbert Wiener）在20世纪在关于自动化的道德问题和技术后果的探讨中所提出的警示，还是人工智能领域的专家斯图尔特·罗素（Stuart J.Russell）等在21世纪关于智能系统决策质量的质疑中，针对“效用函数可能与人类的价值观不完全一致，且这些价值观（充其量）很难确定”，“任何能力足够强的智能系统都倾向于确保自己的持续存在，并获取物理和计算资源——不是为了它们自己，而是为了成功地完成它被分配的任务”的存疑，都是旨在期冀确保人工智能系统的选择和行动所体现的价值观与其所服务的人的价值观一致。易言之，人工智能系统必须与人类价值对齐才能确保人工智能有效发挥作用。

在当下，数智技术的生成性、涌现性、交互性、适应性、拟主体性等特性所带来的价值对齐过程中的越狱、幻觉、“欺骗性对齐”“伪对齐”等价值对齐失常现象备受关注。特别在基于目标导向的价值对齐过程中，多智能体协同所产生的问题引发了技术逻辑与人类诉求之间的断裂，关于三体或多体协同的沟通和协调机制所带来的多主体超逻辑关系随之而至，是否会出现一种新的协同论或者超级对齐已经成为技术专家关注的话题。在我们的日常生活场景中，人机（技）之间的做事逻辑差异、数据逻辑与非数据逻辑之间的契合、价值对齐中的人与机（技）之间的机器思维与人类思维的沟通与理解盲区、机器与机器之间的不兼容等已经成为人机（技）融合正在攻克的难题。

事实上，对价值对齐问题的热议来自机器学习与人类价值观之间的未对齐、对齐担忧、对齐恐惧等，恰如《对齐问题》的作者布莱恩·克里斯汀（Brian Christian）在关于对齐问题的研究中所示，“机器学习表面是技术问题，但越来越多地涉及人类问题”，因此，数智时代的价值对齐不仅是技术价值观与人类价值观念之间的互为生成型问题，更是数据智能价值对齐的顶层逻辑与底层逻辑之间的融贯性问题。基于此，探寻数智时代的价值对齐基准必须以人机（技）融合为切入点。然而，更需要高度警惕的是这种融合所带来的技术逻辑泛滥，特别是在数智化的进程中，伴随技术自主性的日趋增长所形成的技术闭环是否会导致人在技术回路中的脱轨或曰被抽离问题。

人之为人：价值对齐基准探寻的生命线

虽然技术作为一种基础设施是构成数智时代的必不可少的基本要素，价值对齐是通过技术所展开的人类诉求的实现过程，但人类社会的特质恰恰在于人具有价值属性，而并非仅仅是技术。当维纳在《人有人的用处》一书中提出“我是相信人类社会远比蚂蚁社会有用得多；要是把人判定并限制在永远重复执行同一职能的话，我担心，他甚至不是一只好蚂蚁，更不用说是个好人了”之时，他将“人之为人”这一哲学话题赋予了某种技术化的解读。事实上，人类一直在跟上时代的步伐，或者创造一个时代，在时代的进程中留下自己的痕迹。那么，当时代由技术界定的时候，人类该跟上何种步伐呢？此时的“人之为人”这个问题是一道送分题还是一道送命题呢？当下人类对于技术的忧惧使得该题显然不是一道送分题；但与此同时，毫无疑问的是，基于人类对自身的本能性捍卫使得该题更不能是一道送命题。

面对数智时代的到来，人类的生存、生产、生活、生成已经出现了被技术接管的迹象，关于人类命运的悲情预判与超级智能相应的超级对齐研发相映成趣。如，仅仅在2016年，关于替代性制裁的惩罚性罪犯管理量表（Correctional Offender Management Profiling for Alternative Sanctions，简称COMPAS）的争议再次引发了关于技术霸权的热议；数据科学家凯西·奥尼尔（Cathy O’NeiL）基于算法在诸多领域的负面效用将其视为数学杀伤性武器；法学教授阿里尔·扎拉奇（Ariel Ezrachi）和莫里斯·E.斯图克（Maurice E. Stucke）关于“计算机在默许共谋开展的过程中既无惧经济处罚或牢狱之灾，也不会在冲动与愤怒中胡乱行事”的警示等，将价值对齐过程中人被技术逻辑宰制的现象予以了揭示，触发了对人之为人的哲学反思。

人类的生物性缺陷使其需要凭借技术获得生命得以维系的可能性，并以技术重塑着人的本质。在技术化的进程中，自我的延续与重塑同步进行，并以现代人的姿态展示着人之为人的意义。然而，在人类社会的数智化进程中，恰如社会学家克里斯多夫·库克里克（Christoph Kucklic）所揭示：现代人的骄傲是我们能够成为某个人并且能够坚持做这个人。微粒人的骄傲在于一直成为另外一个人，同时不会失去自我。这是一个极其苛刻的态度。同样地，面对价值对齐时，人类若不愿仅仅作为一个技术节点，那么，守护人之为人的本真就应当是探寻价值对齐基准的生命线。

技术向善：价值对齐基准探寻的融合点

数据智能将人类智能与机器进行融合，基于任务完成的价值对齐凸显了技术工具论的有效性，但诸如欺骗性对齐的价值对齐“陷阱”、价值对齐进程中的人类价值观共识的不确定性、价值对齐中的人与机（技）之间的机器思维与人类思维的沟通与理解盲区所形成的技术鸿沟与价值观鸿沟、机器与机器之间的价值对齐不兼容，以及价值对齐进程中的齐一化所带来的价值异化等问题使得技术工具论遭遇重重诘难。基于此，技术工具论的局限性与技术价值论对其的矫正必将带出对这种对齐的哲学审视。

易言之，价值对齐并非仅仅是将技术道德化的实践转化，而是应在超越技术工具论的基础上，对将技术道德化的前提条件进行哲学审视，才能有效破解数智时代的价值对齐问题，通向价值对齐基准的合理探寻。事实上，数智技术将价值技术化与技术价值化双向融合的理想样态是技术逻辑与价值逻辑的完美契合，但这种契合应是基于价值轴而校准技术，而非基于技术规制价值。就基于价值轴而校准技术而言，温德尔·华莱士（Wendell Wallach）、香农·沃伦（Shannon Vallor）、伊森·加布里埃尔（Iason Gabriel）等技术伦理研究者们明确指出“自上而下”和“自下而上”价值对齐路径都存在不足。其中，自上而下的方法面对的问题在于为人工智能预先设计的道德规则之间可能存在冲突，同时何为正确的道德框架本身值得商榷；而自下而上的方法则会遇到由系统学习过程的不透明性与道德偏好的差异性带来的挑战，进而亟需探寻一个更合理的融合点作为价值对齐的基准。

此时，回望技术的本意，古希腊哲学家亚里士多德早就已经将技术与善进行了深度关联。如，他在《尼各马可伦理学》的开篇就明确指出，“每种技艺与研究，同样地，人的每种实践与选择，都以某种善为目的。”就价值对齐而言，从狭义的角度来看，若其仅仅被作为一种技术路径，那么，技术向善就应是技术发展的应有之义；从广义的角度来看，无论对齐哪种价值观，或者与谁对齐，或者如何对齐，技术向善都应是永恒的宗旨。因此，基于上述两个维度，技术向善就是价值对齐基准探寻的一个融合点。

【上海市哲学社会科学规划项目“数智时代的价值对齐研究”（2023BZX001）阶段性研究成果】

【文章为社会科学报“思想工坊”融媒体原创出品，原载于社会科学报第1889期第6版】

对齐：使人工智能以人类能力为边界

杨庆峰（复旦大学科技伦理与人类未来研究院教授）

将对齐问题理解为价值对齐是一个美丽的错误，其实质是人工智能伦理与治理问题推动的一个偶然结果。

随着大模型讨论的深入，很多学者越来越青睐于对齐概念，并且将之作为人工智能治理的重要概念来看待。那么它在什么意义上可以成为AI治理的基本概念呢？我们需要对这一概念目前的使用情况做出分析才能够很好地回应这个问题，而这一切的关键是识别误解和做出正解。

对齐不是强制

一种普遍误解是认为对齐实质是价值对齐。在这种理解之下，对齐需要做的是解决对齐什么、怎么样对齐以及对齐何者的价值等问题。然而，这种误解却存在诸多危害，容易让我们对AI与人类的讨论又回到嵌入陷阱。在多年前，关于道德嵌入问题的讨论，学术界纠缠于何种人类道德观念被嵌入机器以及如何嵌入机器。这一场讨论漫长而令人厌倦，却没有什么结果。

如果将对齐问题理解为价值对齐，我们会重新面对嵌入陷阱。对齐什么样的价值观念、对齐谁的价值观念以及如何对齐等等问题又会散发出阵阵异味。纠正这种看法，我们可以从经验和理论两个层面展开分析。

从经验层面看，对齐是特定机构应对特定问题的当下对策。在人工智能领域，这个问题来自OpenAI公司，它让全世界看到了GPT系列的威力，他们自己也非常担心GPT系列必然会通向通用智能（AGI），最终会导致超级智能的出现。为此，他们成立了超级智能对齐研究中心及其团队。在探索对齐的过程中，虽然ChatGPT的基础算法是transformer，其中最重要的一个机制是基于人类反馈的增强学习（RLHF），从根本上来说，这一算法是谷歌开发的，但OpenAI并没有遵循谷歌老路——基于人类的对齐，而是走出了以弱胜强的对齐新路径。这条路径并不是人机对齐，而是采取了机机对齐的方式。他们希望通过这种方式来防止超级智能的失控。

从理论层面看，对齐与强制并没有任何关系。有些学者认为对齐实质是强制。笔者也曾经用普洛克路斯忒斯床铺意象（Procrustean bed）来说明算法强制。如果从这一点看，人机对齐似乎变成了把机器价值强制塞进人类的价值框架中从而实现所谓的对齐。很显然，这种理解是错误的。因此，对齐绝不是一种强制，使得某物与某物一致。从增强角度理解对齐是一个恰当的选择。人工智能专家李飞飞教授将人工智能与人类的关系描述为增强关系，从她的观点看，人工智能应该增强人类的各种能力，如交互、感知、推理、反思、预测和决策。那么对齐就可以理解为，使人工智能以人类的各种能力为边界，从而不会产生超级智能取代等人类担心的问题。

在科学语境中理解“对齐”

要正确理解对齐必须把这个概念放入科学语境中。将对齐问题理解为价值对齐是一个美丽的错误，其实质是人工智能伦理与治理问题推动的一个偶然结果。如果我们进入到科学活动中有望改变这一点。2023年OpenAI发布了一篇名为《由弱到强泛化：用弱监管发挥强能力》（Weak-to-Strong Generalization:Eliciting Strong Capablitibies With Weak Supervision），大意是目前广泛使用的对齐技术是基于人类反馈的强化学习（RLHF），这种方法广泛依赖人类监管模型的行为，比如一个模型是否执行指令或者生成安全的输出结果。但是这种方法不能很好地实现对超级智能的监管。因此，这篇文章提出了弱机器监管者监管强机器的做法。文章中的插图很有趣，恰好能说明作者思路：传统模式是人类控制机器，在此基础上人类要监管超级智能；新模式是机器监管机器。这才是OpenAI所说的对齐的核心所在。

在这篇文章中，作者尤其强调了对齐和价值问题没有关系。他们针对对齐方案提出一个假设。“不需要解决人类价值问题，在我们能够很好地对齐一个超级研究者模型之前，我们假设我们不需要解决人类价值以及价值整合这一困难的哲学问题，以避免灾难性结果。”这个假设的提出使得我们更加确认了一种认识：将对齐问题误解为价值对齐完全脱离了OpenAI的本意。

对齐本意的指向是，在超级智能失控之前，人工智能研究者应该发展出适合超级智能对齐的方案。他们提出的“由弱到强”就是一个尝试：由弱机器监管超级机器，并且能够实现超级能力。有趣的是，OpenAI这一做法恰好可以在中国古老的智慧观念中找到根据。在中国文化中有着“以弱胜强”的观念，水滴不断滴下，时间久了石头会出现一个洞；水流长时间冲刷石头，会让石头变得圆滑。因此，以弱胜强还是可能的。

对齐是为了应对通用、超级智能

因此，将对齐观念作为人工智能治理的基础概念确立起来，我们需要注意两点。其一不能过度解释，而将对齐问题过度解释为价值对齐很显然是一种表现。如果说，可以利用人工智能增强人类的各种能力，那么对齐则是把握人工智能不致跨越人类能力边界的有效方式。对齐就可以理解为使得人工智能以人类的各种能力为边界，从而不会产生超级智能取代等人类担心的问题。其二，把对齐放入真实的问题中才能够正确地理解这一问题。这一观念的真实语境应该看作通用智能。从当下看，对齐是为了应对通用智能而生，从长远来看，更是应对超级智能的结果。

【本文为科技部科技创新2030——“新一代人工智能”重大项目（2022ZD016013）阶段性成果】

【《社会科学报》总第1888期6版】

读书推荐