人工智能时代前沿技术社区

首页 > 大数据 > 热点

算法歧视——大数据折射出人类社会的偏见

训练数据中的人口统计学偏差会导致算法错误

作者: | 2021-08-24 21:24:05

 1629811508678731.png 

算法偏差通常被认为是一个棘手的技术问题。机器学习模型可以对几乎任何模式做出反应——包括那些反映歧视的模式。

模型的设计者可以明确明确地阻止这些工具使用某些类型的信息(例如种族或性别)。尽管如此,相关变量的使用(例如某人的地址)仍然会导致模型长期存在偏差。

消除所有偏见的存在是一项艰巨的任务。尽管人们越来越关注这一问题,但一些最容易解决的问题仍然没有得到解决。

每一个好的模型都依赖于能反映出它试图预测内容的训练数据。这有时可能是一个完整的群体(比如每个被判有罪的人)。但建模者往往不得不满足于非随机样本。

对于像面部识别这样的应用,模型需要来自每个人口统计群体的足够案例来学习如何准确地识别成员。当进行预测时(比如试图从记录的工作面试中预测成功受聘的员工),培训数据中每一组人群的比例应该与人口中的比例相似。

许多企业都会汇编私人培训数据。然而,两个最大的公共图像档案(谷歌开放图像和 ImageNet)共有72.5万张按性别标注的图片,还有2.7万张标记肤色的图片,但这远远不具代表性。在这些来自搜索引擎和图片托管网站的图片中,标记为女性的图片仅为30-40%,标记为深色皮肤的图片仅为5%

性别和种族也极大地影响了人物形象的描绘方式。男性在图片中通常会以熟练工人的形象出现,而女性在图片中大多穿着泳装或内衣。机器学习模型重现了这种模式。一项研究利用 ImageNet 数据库训练了一种图像生成算法,发现它能够生成穿着低胸装或比基尼的年轻女性的面部图片。

同样地,浅色皮肤的图片往往显示的是专业人士(比如心脏病专家)。深色皮肤的图片更多的是说唱歌手、从事“洗衣妇”之类下层工作的人,或者是普通的“路人”。多亏了奥巴马夫妇,深色皮肤图片中“总统”和“第一夫人”的比例才得以被高估。

ImageNet 正在开发一个工具以重新平衡其照片的人口统计信息。私人公司可能会使用不那么偏颇的档案。然而,商业产品确实显示出数据偏倚的迹象。一项针对三个识别照片中人物性别的程序的研究发现,识别深色皮肤女性的错误率要比浅色皮肤男性高得多。

让图像或视频数据更具代表性并不能解决反映现实世界差距的失衡问题,比如深色皮肤的篮球运动员人数众多。但是对于那些试图通过护照检查、避免因安全摄像头而被警察拦下或想步入白人男性经营的行业的人来说,纠正夸大的人口差异肯定会有所帮助。转译自经济学人外刊