Retrieval Augmented Generation - 2016年08月
A Dictionary-based Approach to Racism Detection in Dutch Social Media
发布时间:2016-08-31
作者:Stéphan Tulkens, Lisa Hilte, Elise Lodewyckx, Ben Verhoeven, Walter Daelemans
中文摘要:
本文提出了一种基于词典的荷兰社交媒体评论中种族主义检测方法。该方法针对从两个可能引发种族主义反应的比利时公共社交媒体网站上收集的评论进行。这些评论由多个标注者标注为种族主义或非种族主义。为了实现这一方法,我们创建了三个语料词典:首先,我们从训练数据中检索可能具有种族主义倾向和更中性的术语,然后通过添加更通用的词汇来减少一些偏差。第二个词典是通过在大型荷兰文本语料库上训练的word2vec模型自动扩展得到的。最后,第三个词典是通过手动过滤掉错误扩展创建的。我们训练了多个支持向量机,使用词典中不同类别中单词的分布作为特征。表现最好的模型使用了手动清理的词典,在由未见过的荷兰评论组成的测试集上,对种族主义类别的F分数达到了0.46。词典的自动化扩展仅略微提高了模型性能,并且这种性能提升在统计上并不显著。虽然扩展词典的覆盖范围有所增加,表明自动添加的词汇确实出现在语料库中,但它们并没有能够对性能产生有意义的积极影响。词典、代码以及请求语料库的流程可在以下网址找到:https://github.com/clips/hades
一句话总结:
本文提出了一种基于词典和机器学习模型的荷兰社交媒体评论种族主义检测方法,通过手动和自动扩展词典来提高检测性能。