文章标题:Drag Queen vs. David Duke: Whose Tweets Are More 'Toxic'?
概括:
社交平台如Facebook, Twitter, 和YouTube都加大投入研发自动过滤有害内容的AI,用于清理诸如歧视性言论、种族歧视言论等等。这类型的AI现阶段主要依赖于对自然语言的分析。作者所带领的研究团队InternetLab对其中一款由谷歌母公司投资的Jigsaw研发的AI科技——Perspecitve进行测试,验证其是否能识别有害内容(the toxicity of text-based content)。
团队选取了两个群体的推特posts作为实验的样本,这两个群体分别是变装皇后(drag queens)和极右政治人物(far-right political figures)。实验结果让人吃惊:变黄皇后群体的内容被标示为“有害言论”的比例高于“极政治人物”,原因在于前者的推特用词中经常出现gay、lesbian、queer、bitch和transvertite。这些词语被识别为“极具危害”,带相关词语的发言也就被视为有毒言论。作者指出,这个算法本身就已经是具有偏见的。另外,作者团队 认为现阶段AI识别有害言论的缺陷在于,这类型技术只会识别字面意思,而不会解读文字的隐含之意。例如,在drag queens群体,“bitch”一词是有特殊含义的,并不如字面那样是指责别人;相比较而言,极右政治人士的推特言论会出现用中性词语来发表种族歧视的言论,AI技术却不会把其标为有害。
基于实验结果,作者担心的是:如果偏见仍然内置于Perspectives及其他相似的言论过滤AI技术,那么少数群体的言论就会因为被视为有害,而在网络上被消掉,这就压制少数群体的言论。