Vereinbarungen

es gibt immer nur eine Transkriptionsebene pro Sprecher*in und das ist die tok-Ebene
tok der Interviewerin ist tok_int (speaker INT) -> INT::tok_int
für Interviewee: SPKCode::tok_part; SPKCode bleibt so
die tok-Ebenen sind vom Typ "t", alle anderen Ebenen vom Typ "a"
Korpusnamen nicht als Metadatum setzen (Projektname)
create_ctok erstellt die ctok-Ebene (generische Speaker-Abbreviation PART_CLEAN)
PART_CLEAN::unit ist eine Kopie der ursprünglichen unit-Ebene
tok_part-Token müssen entweder von einer unit-Spanne oder einer exclude-Spanne überspannt werden (es sei denn, es handelt sich um Pausenmarker, die eh gelöscht werden)
ist Letzteres nicht der Fall, lassen sich die getaggten CoNLL-Dateien nicht wieder mit den EXMARaLDA-Dateien zusammenbringen
leere Events (weißes Feld in EXMARaLDA ohne Textwert) bringen den XML-Parser u. U. zum Absturz und sollten daher vermieden werden

MartinKl/pipeschlauch