“人机对齐”：人类文明又到“生死时刻”？

2024-02-20 08:50 来源：文汇报

　　《人机对齐：如何让人工智能学习人类价值观》 [美]布莱恩·克里斯汀著唐璐译湖南科学技术出版社出版　　■唐山

　　多伦多大学经济学家甘斯希望女儿能照顾小弟弟上厕所，他想出一个“好办法”：每帮小弟弟上一次厕所，女儿可得一块糖果。女儿很快找到窍门：不断给小弟弟喂水，让他多上厕所，以得到更多糖果……

　　甘斯遭遇了典型的“对齐问题”：行动与目标不统一，“需要A却奖励了B”。

　　在人类史上，“对齐问题”一次次带来困扰，随着人工智能（以下简写为AI）出现，“人机对齐”成了难题——AI可打败世界上最好的棋手，我们却不知它是如何做到的。随着人类越来越依赖AI，风险真地可控吗？我们会不会落入科幻短片《战争的最后一天》里的悲惨境地（人类灭绝，AI仍在自动作战）？

　　《人机对齐》是一本不太好读的书，全书分三篇，即“预警”“自主”与“示范”，彼此关联不大，甚至同篇各章间的逻辑关系亦不明显。或因本书旨趣不在于说明“AI已发展到什么地步”，而在于由此引发的思考。

　　从这个意义看，《人机对齐》不只是科普书，更是通识书，人人都有阅读它的必要，它应成为现代常识的组成部分——不了解这些常识，你会被现代社会“开除”。

　　不是技术问题，而是社会问题

　　玩家知道，所有电子游戏都有“暗关”。比如玩《魂斗罗》，可反复打较低级的关，刷分换武器，则过难关会更容易；再如老版《FIFA》，下底传中必进，借此大招，操纵中国队也能拿世界杯……许多“暗关”来自设计失误，不论程序员们怎样小心，也无法完全避免类似失误。

　　随着AI发展，失误变得越来越不可容忍。

　　2015年，来自海地的网络开发者阿尔西内利用谷歌照片软件，在网上分享了自己和亲友的照片，让阿尔西内震惊的是，他们的照片竟被归类为“大猩猩”。谷歌的技术团队迅速响应，可几个小时后，问题依旧，谷歌只好关闭了“大猩猩”这个标签。直到三年后，用谷歌搜大猩猩，仍看不到任何一张照片。

　　软件是怎么“学会”种族主义的？实际上，技术错误从来不只是技术本身的问题。19世纪照相最多的美国人不是林肯、格兰特，而是弗雷德里克·道格拉斯，一位废奴主义者，他发现，照片上的黑人特别难看，因胶片均依白人模特校准，形成化学配方，拍出的黑人则千人一面。

　　解决该问题似乎不难，多找黑人模特即可。同理，增加黑人照片，谷歌软件的识别率会更准确。

　　然而，结果适得其反：IBM用AI开发了招聘软件，输入100份简历，选出5份最好的——几乎都是男性。程序员关闭了性别选项，却无法改变结果。因为AI会通过关联信息，自动将女性排除。比如，它会把“上一年没有工作”的简历标注为不合格，于是所有刚生育的女性均遭拒。类似的标签无所不在，改不胜改。程序员们最后发现，他们面对的不是技术问题，而是社会问题——人类社会处处都有性别标签，通过这些标签，女性总会被辨认出来，被视为缺乏竞争力者。单靠技术，已无法解决。

　　无法突破的“不可能性原理”

　　上世纪80年代，美国司法开始用AI判断囚犯可否假释，2000年时，已有26个州如此进行。研究者发现了其中漏洞：黑人初犯者被评为高风险，但他们不再犯罪的可能性是白人的两倍，白人初犯者反而被评为低风险。

　　这一发现引发舆情激荡，人们纷纷要求去掉该系统的种族标签，结果却发现，落入IBM招聘系统一样的困境——假释系统会通过其他标签，重新进行种族筛选，但如把相关标签全撤掉，AI又会失去判断能力。

　　研究者们发现，一切判断都存在着“不可能性原理”，这在数学上得到了证明：没有标签，就不可能做判断；有标签，又必然有偏见，“原则上，任何风险评分天生都会被批评为有偏见”。

　　AI开发无法绕过两大难题：

　　首先，道德无法客观化。道德选择没有固定标准，会随情境的改变而变，人类常常无法回答“什么是真正重要的”，AI更做不到。

　　其次，精准预测无法减少风险。人类喜欢更精准的预测，从而掉进“预测陷阱”，事实上，造成结果的原因是多元的，预测再精准，也无法影响结果。美国芝加哥市曾列“危险拥枪者”名单，据说他们比其他人死于凶杀案的比例高232倍，即使如此，他们被枪杀的概率也仅有0.7%，如何从1000人中找到这7个人呢？折腾1000人，真能挽救这7个人？在《反对预测》中，作者哈科特写道：男司机易出事故，可是严查男司机，会鼓励女司机变得更鲁莽，车祸率并未下降。

　　不给答案，因为根本给不出答案

　　AI模仿了人脑的工作方式，通过大量案例训练，总结出“经验”，获得判断力。可这些“经验”正确吗？比如一款AI诊病软件，研究者惊讶地发现，它得出的“经验”是：肺病患者如有哮喘病，属低风险。胸痛有好处。

　　心脏病有好处。

　　超过100岁有好处。

　　这些逆天的“经验”，可能来自相关患者属高风险，会被特殊照顾，但AI不知全过程，只知他们经特殊照顾后，痊愈率较高，便认定“有好处”。

　　AI的大多数“错误经验”之所以不可知，是因为它模仿了人类的神经系统，作为人类，我们自己也不知自己有多少“错误经验”，以及它们形成的原理。通过可视化技术，研究者们发现，AI的底层充满荒谬。

　　比如判断“什么是哑铃”，AI会把手臂、肉色的、超现实的图案都算成哑铃，试错后，这些“经验”被否定，但并没消失，而是滞留在底层。人类会情绪失控，我们能模糊地感到，这与底层“经验”相关，那么“把哑铃误认作手臂”会不会带来长期影响？

　　AI正深入生活的方方面面，自动驾驶、医疗、城市管理、战争……谁能保证AI的底层经验不犯错？人类从没真正掌控好自我，引发一次次灾难，我们真能掌控好AI吗？

　　本书第二篇、第三篇将焦点转向AI发展史，描述了研究者们的突破历程，包括从单任务转向多任务，用单一AI在不同游戏中取胜；从外部激励转向AI自我激励；通过模仿、逆强化学习等，使AI更强大……

　　然而，更强大的AI不等于“人机对齐”，AI实际上在“强制执行自己有局限的理解”，它的目的未必是人类的目的。

　　当然，在牛津大学教授博斯特罗姆等激进进化主义者看来，这些都不是问题。他计算出，未来星际文明非常强大，今天耽误的每一秒，都相当于失去将来的100万亿人的生命，每向未来世界前进1%，都等于技术加速1000万年。因此即使AI有风险，也应全力推动。

　　研究者施莱格里斯则说：“如果有一个神奇的按钮，可以把人类变成一样的为幸福而优化的笨蛋，他们会按下它……几年前，我也鼓吹这样做。”但现在，他的看法改变了：“我认为不应该按那个按钮。”

　　对此，《人机对齐》没给出答案，因为根本给不出答案。

　　我们乃至历史，也许都是“AI”

　　虽然本书用大量篇幅在讲述AI发展的细节，但我更喜欢的，还是书中的“跑题”部分——为强化AI，研究者深入研究了人类自身智能的产生过程，得出的见解振聋发聩：我们每个人可能都是世界训练出来的“AI”。

　　人类拥有智能，源头是趋利避害的本能，在多巴胺的简单奖励下，塑造出复杂行为——并不是做对了，多巴胺才奖励快感，而是做新奇的事时，多巴胺才会给奖励。

　　所以，人类喜欢刺激、冒险和挑战。不断尝试，就有了更多试错机会，通过试错，人类智能得以成长。人类生活的世界就是“有效的课程”，它像一个大型游戏。这就可以理解，为什么电子游戏让人难以自拔，因为它比现实世界的奖励更直接。

　　在现实世界中，人在进化，决定成败的核心因素，是“奖励的稀疏性”。比如为了让人类学会飞，让人从悬崖往下跳，不会飞便摔死——这并非聪明的办法。在会飞与不会飞之间，有无数环节，如在每个环节都设置奖励，人类最终就能学会飞；如奖励太稀疏，从不会飞直接跨越到飞，必然失败。正如眼睛，是经四五十次进化才完成的。在书中，一位学者开玩笑说，要么让自己的孩子学会中文，要么就不给饭吃，孩子的母亲明智地拒绝了这个建议。

　　作者本想说明研究者通过改变稀疏性，提高AI能力，却给读者一个全新的看世界的视角：人类文明的本质就是一个奖励结构的故事。沿着这一思路，我们会推演出一个完全不同于以往“思想——行动——改变”的历史解释的结论，推动进步的力量是多元的，不论个体，还是群体，都沿着稀疏性向密集的方向发展，决定历史的关键因是稀疏性，而非想法、技术、制度或人物。

　　由此带来新的认知危机：如果人是受造物，那么自由是什么？

　　在书中，著名思想史学者斯金纳指出，在稀疏性面前，人与老鼠相同。当记者问他：“自由意志还有位置吗？”斯金纳回答：“它还有虚构的位置。”哪怕只为与这句话相遇，《人机对齐》就值得一读。