激化偏见还是广泛赋能？人工智能有答案|界面新闻

文|创瞰巴黎

导读

机器学习算法能够识别规律，因此，即便是最不起眼的偏见，也会影响到整个算法，最终导致偏见的延续和放大。人工智能技术为什么存在偏见问题？本期带您了解机器学习算法的运作机制，弄清其本质，找出避免问题的方法。

一览：

机器学习有三大主流方法：有监督学习、无监督学习、半监督学习。
机器学习算法能够识别规律，因此，即便是最不起眼的偏见，也会影响到整个算法，最终导致偏见的延续和放大。
算法以历史数据为基础发掘规律，以解决当下问题，但容易出现“数据泛化”的问题——总结出过于片面的规律。
人工智能的使用也牵涉到权力的分配：数据使用权等伦理问题可能会不断涌现。
民众应充分利用人工智能技术，以协作的方式实现广泛赋能。

要想解决人工智能技术存在的偏见问题，我们必须首先了解机器学习算法的运作机制，并弄清其本质。法国CEA-List研究所人工智能和机器学习专业博士后Victor Berger表示：“很多人都认为，所有的问题都能在数据集中通过统计学手段找到答案。”

01 三大主流学习方式

“有监督学习”是机器学习中最简单，也是最常见的方法。Berger解释道：“假设一个数据库中存有动物图片，那么有监督学习相当于告诉算法：狗的图片、猫的图片、鸡的图片对应着‘狗’、‘猫’、‘鸡’等名词。此后一旦给算法某个特定的输入（图片），就会得到一个特定的输出（名词）。机器翻译就是典型的有监督学习算法。”

“无监督学习”是第二类算法，也就是说，对于一个给定输入，不告诉算法现成的输出。“以上文的数据库为例，无监督学习指给机器输入一张张动物图片，让算法自主进行统计归纳，从而对输入进行分类。”

“监督算法的数据集发挥着至关重要的作用。”

第三类算法名为“半监督学习”。Berger称：“在前两类学习模式下，代码能够让算法不断自我改进。但在半监督模式下，算法只能分辨出任务完成与否，并不会得知改进方式。此时，影响算法学习能力的将是环境，以及环境对结果作出的反应。”

在上述三种学习模式中，提供给算法的数据集均发挥着至关重要的作用。Berger强调：“机器学习算法擅长识别规律。”因此，即便是最不起眼的偏见，也会影响到整个算法，最终导致偏见的延续和放大。

02 数据泛化

瑞士科创企业Tournesol的联合创始人Lê Nguyên Hoang是一名数学博士，他在人工智能的普及上做出过许多贡献。在他看来，“数据泛化”这一现象在机器学习领域无处不在。“纵观业界和学界，几乎所有人都将焦点放在算法的设计上，很少会有人关注数据的质量。当我们在训练算法时，使用了很多历史数据库，但其中的数据是否经过了仔细审核？从历史数据中总结出泛化、片面的规律，是否真正对社会发展有益？”

为了更好地了解数据泛化，Berger分享了一个业界广为流传的小故事。“为了杜绝性别偏见，一家公司在使用人工智能筛选简历时，抹去了姓名和照片等信息。但随后他们意识到，‘足球’一词成为了算法的关注焦点。” 该公司已经是万般谨慎，但他们没有预料到，训练算法时所使用的那些过往简历中，很多被招募的男性员工都将足球列为了兴趣爱好。所以，在这则故事中，算法不仅没有削弱性别偏见，反而助长了这一现象。Berger解释道：“当前有两种方法可以克服这一挑战：一、花费精力打造质量更高的数据库；二、让算法消除已经形成的偏见。”

但这并不是万全之策。Lê Nguyên Hoang 称：“以内容审核为例，数据的研判取决于我们对言论自由的理解，以及对仇恨言论或虚假信息的判断。可以说，这些问题并没有明确的、放之四海而皆准的答案。如果问题本身牵涉到了技术之外的因素，那么解决方案也理应如此。”

03 反馈循环

算法可能会导致的反馈循环也引发了人们的讨论。Lê Nguyên Hoang指出：“我们需要记住一点——机器学习算法的运作永远是以目的为导向的，如提升内容曝光率、利润、点击率等。”

假设某地区的警察想使用算法来预测最易发生犯罪行为的街区。在Berger看来，算法势必会基于警方的历史数据进行预测，找出逮捕人数最多的街区。但这又回到了之前的问题：历史数据的片面泛化，过度放大过往对未来的预测能力。事实上，算法不仅会对街区的现有治安环境进行定性，还会左右未来该街区的治安决策，如警力增加、视频监控覆盖率扩大，从而进一步加剧执法人员和民众的对立。

“但这一做法可能使人们对激进主义、宗教运动和阴谋论更加深信不疑。”

同样，当用户使用社交媒体和娱乐平台时，算法会基于他们的浏览记录来做相关推荐，以尽可能吸引用户驻足停留，但这可能会演变为系统大力推送宣扬激进主义、教派对立、阴谋论的内容。Lê Nguyên Hoang正在开发一款名为Tournesol的算法以解决上述问题。Tournesol使用的数据库采用了开源模式，基于用户的相互协作建立而成[1]。

04 权力分配

综上所述，人工智能技术不仅牵涉到科学研究和技术应用，还涉及权力的分配问题。美国机器学习应用开发企业Hugging Face 的哲学研究员和高级伦理学家Giada Pistilli指出：“我们必须辨明算法在训练、设计和部署等诸多环节可能产生的各种社会和伦理问题。”

问题究竟有哪些？Giada Pistilli称，这些问题在人工智能技术的发展历程中随处可见。“一旦数据存在偏见，模型训练完毕后便会引发一些伦理方面的思考，比如，相关数据是否会导致刻板印象的产生？特定数据的缺失会带来何种后果？如果数据库中含有侵犯了他人知识产权的图片或数据，那么在使用数据前是否征得了本人的同意？”

但这仅仅是问题的冰山一角。Giada Pistilli 指出：“在算法的开发和部署环节，模型的归属、算法设计人员的选取、设计的目的等疑问都有待解答。此外，模型的使用十分耗能，出于减排的考虑，某些模型是否该舍弃？这也间接证明了只有‘财大气粗’的公司才有能力去投资和使用算法。”

“我们可以将人工智能打造成有效的赋能工具，为各类群体谋福祉。”

所幸，前途并非一片黑暗——人工智能完全有潜力变成一种赋能工具。Giada Pistilli是BigScience项目的成员，该项目旨在开发一个开放的语言模型，共有几千名参与者。在她看来，这样的项目能够极大发挥人工智能的益处。“开发这种专注于单一任务的人工智能模型其实更能因地制宜，因为在此过程中，人人皆可参与，并且可以密切监督该模型的发展。向公众普及这些新技术，并广邀社会各界参与数据库的建立，可以将人工智能打造成有效的赋能工具，为各类群体谋福祉。”

人类能否自信迎接机器学习的重重挑战？答案或许需要你来书写。

文|创瞰巴黎

导读

一览：

机器学习有三大主流方法：有监督学习、无监督学习、半监督学习。
机器学习算法能够识别规律，因此，即便是最不起眼的偏见，也会影响到整个算法，最终导致偏见的延续和放大。
算法以历史数据为基础发掘规律，以解决当下问题，但容易出现“数据泛化”的问题——总结出过于片面的规律。
人工智能的使用也牵涉到权力的分配：数据使用权等伦理问题可能会不断涌现。
民众应充分利用人工智能技术，以协作的方式实现广泛赋能。

01 三大主流学习方式

“监督算法的数据集发挥着至关重要的作用。”

02 数据泛化

03 反馈循环

“但这一做法可能使人们对激进主义、宗教运动和阴谋论更加深信不疑。”

04 权力分配

“我们可以将人工智能打造成有效的赋能工具，为各类群体谋福祉。”

人类能否自信迎接机器学习的重重挑战？答案或许需要你来书写。

历史搜索全部删除

热门搜索

激化偏见还是广泛赋能？人工智能有答案

01 三大主流学习方式

02 数据泛化

03 反馈循环

04 权力分配

评论

激化偏见还是广泛赋能？人工智能有答案

01 三大主流学习方式

02 数据泛化

03 反馈循环

04 权力分配