akskuchi/language-model-asr

Jupyter Notebook

Neural network LMs for ASR

Course: ELEC-E5551 Speech Recognition

Team:

Aditya Kaushik
Eduardo Rosado
Thomas Spilsbury

Literature review

Project plan

Dataset: English Gigaword Corpus

Exploratory data analysis, 4 sections:

Data load, Preprocessing, Basic details
Word clouds, common words
Bigrams, Trigrams, Collocations
Splitting data into model input, expected output

Baseline statistics: