/CorUp2DraCor

parse and convert NDR Coronavirus-Update transcripts into DraCor-TEI

Primary LanguagePython

CorUp2DraCor ergibt ausgeschrieben sowas wie: “NDR Coronavirus-Update Podcast Transkripte PDF zu Drama Corpus Project TEI”.

Die als PDFs vorliegenden Transkripte werden zunächst durch das Skript “ndr2CorPo.py” in ein Zwischenformat (JSON) überführt. Das JSON-Datenmodell wurde im Laufe des Seminars “Die Pandemie in Sprache und Text - Corona-Podcasts & Co.” zur gemeinsamen Basis für Auswertungen entwickelt. Mit “CorPo2DraCor.py” findet schließlich die Konversion in das DraCor-TEI-Format statt.


“namespaces_fix.xsl”: Bereitet die Daten für https://github.com/quadrama/DramaNLP auf. (s. Issue1)


Als Grundlage für CorUp2DraCor.py diente ein für das Seminar von Moritz Eßer und Tessa Johnsen geschriebenes Skript, das von mir weitgehend modifiziert wurde: https://github.com/Zadest/PodcastNLP/blob/dev-moritz/pdftotext_ndr.py - für ein schnelles Herunterladen aller Transkripte bietet sich dabei übrigens https://github.com/Zadest/PodcastNLP/blob/dev-moritz/dataCollectorNDR.py an.