tamil-news-classification

Classification of tamil news headlines - experimental

Data source

The data is scraped from puthiyathalaimurai.com. The model accuracy is little over 60 percent. Though, we use only the headlines of the news. Using the article content or part of it might improve the accuracy.

The filmreviews raw data can be downloaded using dat tool

$ dat clone dat://e95e50d7deb166cf882515f67c3f9454dbeb41fb4c00983af53d5e4462c418c2

Training

$ python main.py train

Testing

Prediction

(torch) ~/projects/text_classification/main$ head ../dataset/text.subword_nmt.txt  | python main.py predict 
Namespace(hpconfig='hpconfig.py', log_filter=None, save_plot=False, show_plot=False, task='predict')
INFO    :anikattu.utilz.initialize_tasks>> loading hyperparameters from hpconfig.py
====================================
99f4a4
====================================
INFO    :__main__.<module>s>> flushing...
INFO    :utilz   .load_datas>> processing file: ('../dataset/text.subword_nmt.txt', '../dataset/label.txt')
processing ('../dataset/text.subword_nmt.txt', '../dataset/label.txt'): 10200it [00:00, 258355.73it/s]
skipped 0 samples
INFO    :utilz   .load_datas>> building input_vocabulary...
INFO    :anikattu.vocab.__init__s>> Constructiong vocabuluary object...
INFO    :anikattu.vocab.__init__s>> number of word in index2word and word2index: 667 and 667
INFO    :anikattu.vocab.__init__s>> Constructiong vocabuluary object...
INFO    :anikattu.vocab.__init__s>> number of word in index2word and word2index: 6 and 6
INFO    :anikattu.dataset.__init__s>> building dataset: ('../dataset/text.subword_nmt.txt', '../dataset/label.txt')
INFO    :anikattu.dataset.__init__s>> build dataset: ('../dataset/text.subword_nmt.txt', '../dataset/label.txt')
INFO    :anikattu.dataset.__init__s>>  trainset size: 8194
INFO    :anikattu.dataset.__init__s>>  testset size: 911
INFO    :anikattu.dataset.__init__s>>  input_vocab size: 667
INFO    :anikattu.dataset.__init__s>>  output_vocab size: 6
INFO    :__main__.<module>s>> dataset size: 8194
INFO    :__main__.<module>s>> vocab: Counter({'tamilnadu': 3115,
         'india': 2263,
         'cinema': 1256,
         'sports': 1057,
         'world': 712,
         'politics': 702})
INFO    :__main__.<module>s>> loaded the old image for the model from :99f4a4/weights/main.pth
**** the model Model(
  (embed): Embedding(667, 300)
  (encode): LSTM(300, 300, bidirectional=True)
  (classify): Linear(in_features=600, out_features=6, bias=True)
)
=========== PREDICTION ==============
?“நேர்மையான கிரிக்கெட்டை விளையாட தென் இந்தியா என்னை தயார்ப்படுத்தியது” - தோனி == sports
?மேகதாது விவகாரம்: தமிழக, கர்நாடகா முதலமைச்சர்களுக்கு நிதின் கட்கரி கடிதம் == india
?உண்மை நிலை தெரியாமல் பதிலளிக்க முடியாது - நடிகர் ரஜினிகாந்த் == cinema
?“தமிழகத்தின் அனுமதி இல்லாமல் மேகதாது அணை கட்ட முடியாது”- நிதின் கட்கரி..! == india
?“பந்துவீச்சாளர்கள் ஐபிஎல் விளையாடலாமா?” - எதிரெதிர் கருத்தில் தோனி, கும்பளே  == sports
?ஜான்சன் அன்ட் ஜான்சன் பவுடரை ஆய்வு செய்ய மத்திய அரசு அறிவுறுத்தல் == india
?தமிழகத்தில் 2 தினங்களுக்கு மழைக்கு வாய்ப்பு : வானிலை மையம் தகவல் == tamilnadu
?சிறுத்தையை கூண்டு வைத்து பிடித்தாலும் பிரச்னை முடியாது ! == tamilnadu
?'நானும்தான் ஆக்சிடெண்டல் பிரைம் மினிஸ்டர்' - தேவகவுடா  == india
?“புல்லட் ரயில் இருக்கட்டும்.. இந்த ரயிலை கவனியுங்கள்” - பிரதமரை விமர்சித்த பாஜக முன்னாள் அமைச்சர் == tamilnadu

Actual labels

(torch) ~/projects/text_classification/main$ head ../dataset/label.txt 
sports
tamilnadu
politics
india
sports
india
tamilnadu
special-news
india
india