mideind/Tokenizer

Adda mánuð

Closed this issue · 3 comments

Hæ var að fá Keyerror á að það er ekki "maí." með punkti? Er einhver ástæða að það er ekki. Má ég adda því?

Sæll, og takk fyrir ábendinguna! Ertu að fá KeyError í Tokenizer sjálfum eða bara í þínum eigin kóða sem notar þetta mánaðarnafna-dict? Ég bendi á að "maí" er aldrei skammstafaður enda er mánaðanafnið aðeins þrír stafir! Þess vegna vantar þá skammstöfun í listann.

Já, það meikar sens að maí er ekki skammstafað. Er bara að fá þetta úr íslenskri vefsíðu. Þetta er KeyError í eigin dict, en klárlega innblásið af MONTHS dict. í tokenizer. Virðist vera hefð hjá þessari síðu að hafa 3 stafa mánaðarheiti og svo punkt áður en ártalið byrjar. t.d. 16. maí. 2021

Einmitt. En ég held að við breytum þessu ekki hjá okkur, "maí." er villa og ef við settum það inn sem skammstöfun er hætta á að við hættum að þekkja endi málsgreinar sem endar á "maí.", svo sem "Hann á afmæli í maí."