In this repository, my Bachelor's thesis in Computer Science written at the University of Turin (Italy).
Bachelor's Thesis in Computer Science: "IntersHate: an Italian corpus to study misogyny and intersectionality on Twitter"
Tesi di Laurea di I livello in Informatica: "IntersHate: un corpus italiano per lo studio di misoginia e intersezionalità in Twitter"
Relatori: Prof.ssa Viviana Patti, Dott. Mirko Lai
Anno Accademico 2019-2020
This thesis contributes to computational linguistics studies. The paper explains the research carried out on online hate speech detection and misogyny on social media concentrating on intersectionality of hate. Given the main focus on the phenomenon of online misogyny, in this study we have developed a corpus-based Twitter data analysis around victims of online hate campaigns selected to study how misogyny and sexism are expressed in texts, intersecting with other categories of hate and social discrimination, such as xenophobia, racism and islamophobia. The study includes the analysis of hatred in Twitter according to targets and events and the process of developing the IntersHate corpus. The latter consists of several phases, from the collection in digital format of linguistic data representative of the debates around the victims of hatred on Twitter, to the annotation of the corpus according to a novel multi-layer scheme designed to assess the presence of intersectional hate. The Twitter data collection and filtering are based on a mixed methodology involving keywords, hashtags and conversational threads concerning the selected debates. The corpus analysis includes the labels distribution analysis on several layers, the analysis and discussion of the inter-annotator agreement and, lastly, an intrinsic and comparative analysis of the linguistic and lexical features of the annotated texts, relying on the HurtLex computational hate lexicon.
Il contributo della tesi si colloca nell’ambito della linguistica computazionale e in particolare l’elaborato descrive la ricerca effettuata sul tema dell’hate speech online e della misoginia nei social media con particolare concentrazione sull’analisi dell’odio intersezionale. Posto il focus sulla misoginia, lo studio è stato condotto mediante l’analisi corpus-based di dati Twitter intorno a vittime di campagne d’odio online selezionate in modo da studiare come la misoginia e il sessismo affiorano nei testi intersecandosi anche con altre categorie d’odio e discriminazione sociale come xenofobia, razzismo e islamofobia. Lo studio comprende l’analisi dell’odio su Twitter in funzione dei target e degli avvenimenti che li coinvolgono e il processo di creazione del corpus IntersHate. Quest’ultimo si compone di diverse fasi, dalla raccolta in formato digitale di dati linguistici rappresentativi dei dibattiti intorno alle vittime dell’odio su Twitter, all’annotazione del corpus secondo un nuovo schema multilivello disegnato per valutare la presenza di odio intersezionale. La collezione e selezione dei dati Twitter si basa su una metodologia mista che coinvolge keyword, hashtag e thread conversazionali riguardanti i dibattiti scelti. L’analisi del corpus include l’analisi della distribuzione delle etichette sui vari livelli, l’analisi e la discussione dell’agreement fra gli annotatori umani e l’analisi intrinseca e comparativa relativa alle caratteristiche lessicali dei testi annotati tramite l’uso del lessico computazionale HurtLex di parole per ferire.