Natural Language Processing für Historiker:innen mit den Python Frameworks Flair und SpaCy

Notebooks zum Workshops

Named Entity Recognition und Word Embeddings sind grundlegende Methoden des Natural Language Processing, die auch für die Digital History von zentraler Bedeutung sind, bislang jedoch noch selten verwendet werden. Die Übung, die als dreitägiger Workshop durchgeführt wird, will das ändern und befasst sich mit den Möglichkeiten, die mit diesen NLP-Methoden einhergehen – insbesondere mit Blick auf deren Gebrauch für die Geschichtswissenschaften. Im Mittelpunkt der Übung steht dabei das gemeinsame Skripten und Experimentieren mit den State-of-the-Art NLP-Bibliotheken Flair und SpaCy.

Workshop vom 2.3. bis 4.3.2022

Zur Datengrundlage

Die Textdaten für den Workshop sind dem Projekt German Political Speeches Corpus entnommen. Ein zip-file mit xml-Dateien ist via Zenodo verfügbar: https://zenodo.org/record/3611246

Reference

Barbaresi, Adrien (2018). "A corpus of German political speeches from the 21st century", Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), European Language Resources Association (ELRA), pp. 792–797. http://purl.org/corpus/german-speeches (BibTeX entry)

Adrien Barbaresi. (2019). German Political Speeches Corpus (Version v4.2019) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.3611246

tillgrallert/workshop-nlp-spacy-flair

Natural Language Processing für Historiker:innen mit den Python Frameworks Flair und SpaCy

Zur Datengrundlage

Reference