Classification of tamil news headlines - experimental
The data is scraped from puthiyathalaimurai.com. The model accuracy is little over 60 percent. Though, we use only the headlines of the news. Using the article content or part of it might improve the accuracy.
The filmreviews raw data can be downloaded using dat tool
$ dat clone dat://e95e50d7deb166cf882515f67c3f9454dbeb41fb4c00983af53d5e4462c418c2
$ python main.py train
(torch) ~/projects/text_classification/main$ head ../dataset/text.subword_nmt.txt | python main.py predict
Namespace(hpconfig='hpconfig.py', log_filter=None, save_plot=False, show_plot=False, task='predict')
INFO :anikattu.utilz.initialize_tasks>> loading hyperparameters from hpconfig.py
====================================
99f4a4
====================================
INFO :__main__.<module>s>> flushing...
INFO :utilz .load_datas>> processing file: ('../dataset/text.subword_nmt.txt', '../dataset/label.txt')
processing ('../dataset/text.subword_nmt.txt', '../dataset/label.txt'): 10200it [00:00, 258355.73it/s]
skipped 0 samples
INFO :utilz .load_datas>> building input_vocabulary...
INFO :anikattu.vocab.__init__s>> Constructiong vocabuluary object...
INFO :anikattu.vocab.__init__s>> number of word in index2word and word2index: 667 and 667
INFO :anikattu.vocab.__init__s>> Constructiong vocabuluary object...
INFO :anikattu.vocab.__init__s>> number of word in index2word and word2index: 6 and 6
INFO :anikattu.dataset.__init__s>> building dataset: ('../dataset/text.subword_nmt.txt', '../dataset/label.txt')
INFO :anikattu.dataset.__init__s>> build dataset: ('../dataset/text.subword_nmt.txt', '../dataset/label.txt')
INFO :anikattu.dataset.__init__s>> trainset size: 8194
INFO :anikattu.dataset.__init__s>> testset size: 911
INFO :anikattu.dataset.__init__s>> input_vocab size: 667
INFO :anikattu.dataset.__init__s>> output_vocab size: 6
INFO :__main__.<module>s>> dataset size: 8194
INFO :__main__.<module>s>> vocab: Counter({'tamilnadu': 3115,
'india': 2263,
'cinema': 1256,
'sports': 1057,
'world': 712,
'politics': 702})
INFO :__main__.<module>s>> loaded the old image for the model from :99f4a4/weights/main.pth
**** the model Model(
(embed): Embedding(667, 300)
(encode): LSTM(300, 300, bidirectional=True)
(classify): Linear(in_features=600, out_features=6, bias=True)
)
=========== PREDICTION ==============
?“நேர்மையான கிரிக்கெட்டை விளையாட தென் இந்தியா என்னை தயார்ப்படுத்தியது” - தோனி == sports
?மேகதாது விவகாரம்: தமிழக, கர்நாடகா முதலமைச்சர்களுக்கு நிதின் கட்கரி கடிதம் == india
?உண்மை நிலை தெரியாமல் பதிலளிக்க முடியாது - நடிகர் ரஜினிகாந்த் == cinema
?“தமிழகத்தின் அனுமதி இல்லாமல் மேகதாது அணை கட்ட முடியாது”- நிதின் கட்கரி..! == india
?“பந்துவீச்சாளர்கள் ஐபிஎல் விளையாடலாமா?” - எதிரெதிர் கருத்தில் தோனி, கும்பளே == sports
?ஜான்சன் அன்ட் ஜான்சன் பவுடரை ஆய்வு செய்ய மத்திய அரசு அறிவுறுத்தல் == india
?தமிழகத்தில் 2 தினங்களுக்கு மழைக்கு வாய்ப்பு : வானிலை மையம் தகவல் == tamilnadu
?சிறுத்தையை கூண்டு வைத்து பிடித்தாலும் பிரச்னை முடியாது ! == tamilnadu
?'நானும்தான் ஆக்சிடெண்டல் பிரைம் மினிஸ்டர்' - தேவகவுடா == india
?“புல்லட் ரயில் இருக்கட்டும்.. இந்த ரயிலை கவனியுங்கள்” - பிரதமரை விமர்சித்த பாஜக முன்னாள் அமைச்சர் == tamilnadu
(torch) ~/projects/text_classification/main$ head ../dataset/label.txt
sports
tamilnadu
politics
india
sports
india
tamilnadu
special-news
india
india