anubhav-chattoraj/indic-tools

Combine equivalent (duplicate) elements together & spaces

Closed this issue · 3 comments

http://anubhav-chattoraj.github.io/indic-tools/devanagari_sorter/ I've sorted a list of verb endings that is based on an OCR I made myself. It does not removes all of the duplicates, because there seem to be at least three kinds of (invisible) spaces, can we kill all kinds of it, please?
Input: https://yadi.sk/i/f84dqpg9bkfCx
Output: https://yadi.sk/i/uOFzy2qqbkfE6

-स्वहि 8 -स्ताम् 8 -साताम् 3 -ष्वहि 3 -ष्व 9 -षित् 1 -षि 3 -षि 8 -षातम् 1 -षातम् 1 -षात 3 -षन्त 6 -षत 1 -षत 3 -वे 3 -वीवहि 3 -वीयथाम् 1 -वीयथाम् 8 -वीथाः 2 -वीत 1 -वीत 7 -वाथाम् 7 -वाताम् 1 -वाताम् 7 -वहि 2 -वहि 1 -वन्तु 3 -वते 3 -वति 3 -वत 3 -वः 3 -वः 1 -व 1 -व 1 -व 1 -व 1 -व 1 -व 1 -युः 2 -युः 1 -युः 1 -युः 1 -याव 3 -याव 1 -यार्न 3 -याम 3 -याम् 1 -याम् 3 -याताम् 11 -यात 2 -यात 2 -यात् 6 -याः 2 -याः 1 -याः 8 -महे 7 -मः 1 -मः 1 -मः 7 -म 1 -म 1 -ध्वे 3 -ध्वम् 12 -धाः 2 -धम् 2 -धः 1 -ध 5 -थाः 3 -थ 1 -ते 1 -तु 1 -ति 1 -ताम् 1 -ताम् 1 -ताम् 1 -ताम् 1 -तम् 1 -तम् 12 -ढ्वम् 2 -ढि 1 -ढि 2 -ठः 1 -ठः 5 -टु 2 -टि 1 -टाम् 4 -टम् 2 -टम् 3 -टः 1 -ट 2 -ट 2 -ट 1 -औसि 1 -औमि 3 -औत् 2 -औ 2 -ओषि 3 -ओमि 1 -ओतु 1 -ओतु 1 -ओति 1 -ओति 3 -ओः 1 -ऐ 3 -ऐ 1 -ऐ 2 -एव 2 -एयुः 2 -एयथाम् 2 -एय 2 -एम 3 -एथाम् 2 -एथाः 2 -एते 3 -एताम् 2 -एतम् 2 -एत 1 -एत् 2 -ए 2 -ए 2 -ए 2 -ए 1 -ए 3 -ए 3 -उहि 7 -उषे 1 -उवे 2 -उवीरन् 3 -उवीय 1 -उवीमहि 1 -उवीध्वम् 1 -उवीथाः 5 -उवाथाम् 6 -उवहे 1 -उवहे 1 -उवहे 1 -उवहि 5 -उवन् 1 -उवत 4 -उव 1 -उव 1 -उव 1 -उयुः 10 -उयाम् 1 -उयाम् 1 -उयातम् 1 -उयातम् 1 -उयातम् 3 -उयातम् 1 -उयात 1 -उयात 5 -उयाः 1 -उयाः 1 -उयाः 1 -उमहे 1 -उमहे 1 -उमहे 5 -उमः 9 -उध्वम् 3 -उध्वम् 7 -उथः 8 -उते 3 -उताम् 3 -उताम् 6 -उतम् 1 -उतम् 6 -उत 3 -उत 1 -उत 3 -उत 3 -उः 3 -उः 3 -ईष्व 3 -ईवहि 3 -ईवहि 3 -ईव 6 -ईयाम 3 -ईयाताम् 3 -ईयाताम् 3 -ईयाताम् 3 -ईयात 3 -ईय 3 -ईय 1 -ईमहे 1 -ईमहि 1 -ईमहि 1 -ईमहि 3 -ईमः 3 -ईध्वम् 3 -ईध्वम् 2 -ईध्वम् 2 -ईथाः 1 -ईथाः 1 -ईथाः 1 -ईथाः 1 -ईथः 1 -ईथ 1 -ईते 1 -ईताम् 1 -ईताम् 1 -ईताम् 1 -ईतम् 1 -ईतम् 1 -ईतः 3 -ईत 3 -ईत 2 -ईत् 13 -इष्म 1 -इष्म 1 -इष्ठाः 2 -इष्टाम् 1 -इष्टम् 4 -इष्ट 1 -इषे 1 -इषे 1 -इषुः 2 -इषि 1 -इषि 1 -इषि 1 -इषाथाम् 1 -इषाथाम् 1 -इषाताम् 1 -इषाताम् 1 -इषम् 1 -इषम् 1 -इषत 1 -इषत 1 -इवहे 1 -इवहे 5 -इर्नहे 1 -इरे 2 -इरे 2 -इमि 2 -इमः 2 -इम 2 -इध्वे 2 -इथाः 1 -इथाः 1 -इथ 1 -इथ 1 -इथ 1 -इतु 1 -इति 5 -इतः 2 -इत 4 -इ 4 -आहि 2 -आसि 2 -आवहै 1 -आवहै 2 -आवहै 2 -आवहि 1 -आवहि 2 -आवः 3 -आव 2 -आव 5 -आव 1 -आव 4 -आयाव 4 -आयातम् 1 -आयात 1 -आयात् 1 -आयाः 2 -आमि 1 -आमि 2 -आमहै 4 -आमहे 2 -आमहि 2 -आमः 1 -आम 3 -आम 3 -आम 1 -आम 1 -आम 5 -आम् 2 -आन्तु 6 -आनि 5 -आथे 4 -आथे 5 -आथाम् 4 -आथाम् 1 -आथाम् 5 -आते 5 -आतु 5 -आताम् 5 -आताम् 5 -आतम् 5 -आत 2 -आत् 3 -आणि 4 -अस्व 5 -अवुः 6 -अवीः 5 -अवाव 2 -अवामहै 2 -अवामहै 1 -अवाम 1 -अवाम 2 -अवानि 1 -अवानि 1 -अवानि 1 -अवल् 4 -अम् 5 -अम् 4 -अन्तु 2 -अन्तु 4 -अन्ति 2 -अन्ति 2 -अन्ति 1 -अन्ति 2 -अन्त 2 -अन् 2 -अन् 1 -अन् 2 -अन् 4 -अध्वम् 2 -अध्वम् 2 -अथुः 2 -अथः 1 -अथः 1 -अथः 2 -अते 1 -अते 1 -अते 1 -अते 1 -अते 1 -अते 1 -अतुः 2 -अतुः 1 -अतु 2 -अताम् 2 -अताम् 1 -अताम् 1 -अताम् 1 -अताम् 1 -अताम् 5 -अतः 1 -अत 1 -अत 1 -अत 3 -अत 2 -अत 1 -अत 3 -अत् 1 -अः 1 -अः 1 -अः 1 -अ 1 -अ 2 -अ 1 -अ 1 -अ 1 -अ 1 -अ 1 - 1 - 2 - 2 - 2 - 1

I guess the planned "ignore spaces" checkbox ( #19 ) will have to ignore all kinds of spaces. Just clicking it would solve your problem.

I was going to suggest a workaround, but then I realized that it would be far too tedious and this is a simple thing to fix. I'll just implement the "ignore spaces" checkbox tomorrow or the day after.

I give you my thanks.

Now that #19 has been implemented, you shouldn't have this problem if you just check the "ignore spaces" box.

However, I can't find any spaces in the input file you've attached. Copy-pasting its contents into the sorter, selecting "combine duplicates" and sorting gives the expected output (i.e., all duplicates combined) even if "ignore spaces" isn't checked.

I'm guessing you attached the wrong file, but either way, I don't think you should have this problem again.