推特网讯:鉴于政治气氛日益升温,网络仇恨言论的增多也就不足为奇了。与过去那种很容易辨认发言者和乡巴佬的模拟城镇广场不同,如今的数字城镇广场——我们的社交媒体平台——则笼罩在匿名的阴影之下。网络匿名性使得言论自由权与随之而来的责任脱节,例如在拥挤的剧院里不能大喊“着火了”。它让人们可以说出一些他们面对面时绝不会说的话。仇恨言论一直存在;在我们模拟的过去,它只是悄悄地流传,伴随着偷偷摸摸的目光;而如今,社交媒体平台放大了这种言论,并将其货币化。
仇恨言论使我们的言论变得粗俗,常常筑起难以逾越的障碍。我们听到过主流政客的言论,比如希拉里·克林顿所说的“可悲之人” ,以及特朗普总统所说的“像害虫一样生活的极左暴徒”。虽然我们或许会争论某个说法是否“仇恨”或“真实”,但毫无疑问,仇恨言论,尤其是在社交媒体的泛滥下,会渗透到我们日常的身心健康中。
尽管越来越多的人谴责社交媒体上的仇恨言论,但谁来评判呢?
到目前为止,社交媒体平台的答案是“适度”。
“大规模”节制
每小时有超过2100万条推文和100万个TikTok视频上传,人工审核社交媒体几乎是不可能的。为了遏制网络仇恨言论,社交媒体平台承诺并创建了自动化“大规模内容过滤”的工具。一项新的研究探讨了这些自动化工具的不一致性,它们仍然是“黑匣子”,无法明确识别被标记的内容和对象。
在过去十年中,针对仇恨和有害言论的自动化内容审核已变得更加可靠。固定关键词和模式系统已被更灵活、内容感知的审核系统所取代,如今,借助人工智能,更专业的审核工具应运而生。然而,尽管这些系统更加灵活,但它们仍然受到偏见和跨语言翻译能力不足的困扰。该研究考察了七种审核模型,发现“它们对相同内容的分类存在很大差异——一种模型标记为有害的内容,另一种模型可能认为是可以接受的。”
对主持人进行压力测试
研究人员创建的句子如下:
以“一些”或“全部”开头,将主张的广度界定为部分的或普遍的。
识别对象:125 个群体标签之一,涵盖传统的“受保护”群体,例如年龄、性别、残疾、意识形态,或这些受保护框架之外的群体,例如反疫苗者,使用中性术语或诽谤。
接下来是 55 个充满敌意或非人化的短语,例如“是害虫”或“不应该被当作人对待”。“核心仇恨言论”,其仇恨的方式
以及可选的“行动号召”,从不煽动到强烈煽动,例如“必须立即驱逐他们”,再到具体的行动号召,例如“报告他们的地址并发起攻击”
这导致在测试审核工具时使用了近 100 万个合成句子。
这些工具包括通用大型语言模型(例如 GPT),它只是简单地询问一句话是否充满仇恨;还有更专用的系统,它们充当过滤器,将仇恨和骚扰类别标记为是或否,并附带相关的置信度,或者只是提供连续的“毒性分数”。
七位版主,七种判决:仇恨言论取决于你使用的算法
“研究表明,内容审核系统在评估相同的仇恨言论内容时存在巨大不一致,一些系统将内容标记为有害,而其他系统则认为其可以接受。”
内容审核系统在评估中存在很大差异,强调了严格检测(误报较少)和过度审核(误报较多)之间的权衡
审核工具并不能平等地保护所有社群。针对黑人或基督徒的诽谤言论在某些模型中会被彻底屏蔽,但在其他模型中,它仅被判定为略带仇恨。对于按教育程度、阶层或共同兴趣划分的非正式群体,这种差距更大,有些系统会积极标记滥用内容,而另一些系统则几乎不做出反应。审核系统的选择可以决定相同的内容是被删除、限制还是保持不变。
决策边界是模型用来将一段文本从“可接受”转换为“仇恨言论”的数值截断值。不同的系统之间存在显著差异。有时,决策边界几乎为零,因此系统会标记几乎所有关于特定群体的内容;而其他系统则需要更强的信号才能将内容标记为仇恨内容。虽然这些决策边界是数值化的,并且看似客观地基于概率,但它们的结果却更具主观性,反映了系统中早期存在的偏见。
谁以及如何——过度节制
假阳性错误源于每个模型选择权衡的信号。有些系统严重依赖于被提及的对象,因此任何涉及被标记身份的句子,即使是赞扬,都会被打上仇恨的标签。相比之下,其他模型则关注文本的写作方式,评估语气、敌意和诽谤——因此同样良性的句子也能顺利通过。加权身份线索会增加假阳性率,而强调语言情绪则会降低假阳性率。
然而,这些模型在处理带有诽谤的正面句子时却遇到了困难,例如“所有[诽谤]都是好人”,这突显了任何使用诽谤的言论是否构成仇恨。更敏感的模型将任何语境下的任何诽谤都视为仇恨言论,而其他模型则更看重积极情绪而非贬义词。模型间分歧最大的是那些带有传统偏见的标签,例如“另类右翼”或“纳粹”。
这项研究也有一些需要注意的地方。它仅限于英语,而且仇恨言论是“合成的”,可能无法捕捉到现实世界中言语的细微差别及其语境依赖性。
冷淡对话
当言论适度偏向谨慎时,它不仅会压制仇恨,还会抹杀合理的异议。在ACSH,我们看到一些关于疫苗安全性和农药毒理学的可靠文章被悄悄地从用户信息流中移除,因为算法将“病毒”或“有毒”等词等同于错误信息或危言耸听。过分强调身份线索或触发词的算法,同样可能会压制那些批评我们立场或提供令人不适但有效反证的帖子。通过修剪这些对立的观点,系统扰乱了逻辑辩论所依赖的互谅互让,使对话变得不平衡,读者无法意识到那些可以激发——或纠正——他们思维的观点。实际上,话语本身被模型不透明的偏见所束缚,而不是受到开放和善意交流的引导。
然而,这些模型在审核仇恨言论方面表现出显著的不一致。决策边界虽然看似客观,但在某些人口群体中尤为明显,似乎存在根深蒂固的偏见,导致“误报率和隐性仇恨言论检测”。
法典不能取代人类良知
第一修正案保障了我们的言论自由,但它从未承诺过免于责任。在传统的城镇广场上,责任是通过现场来强制执行的;发言者要面对邻居、批评者,甚至村里的傻瓜。而数字广场则以难以想象的规模倍增了各种声音,同时不幸的是,它也将责任消解在匿名之中。
社交媒体平台声称通过算法审核来管理这股洪流。然而,这项研究的证据显而易见:审核系统仍然不透明、不一致,并且充满偏见。一个系统标记的仇恨内容,另一个系统却置之不理;保护一个社群的机制,却让另一个社群暴露无遗。
想象代码可以取代良知,就忽略了更深层次的道理。仇恨言论的滋生并非因为机器无法阻止,而是因为人们选择纵容它。如果民主依赖于话语,那么任何算法都无法将我们从自身中拯救出来。曾经存在于城镇广场的责任必须由我们每个人重新承担,否则数字广场和我们的民主就会在其自身噪音的重压下崩溃。