sphinx-polish-wordforms

Polski język trudna język. Na obecną chwilę Sphinx (wersja 2.2.9) nie oferuje żadnego lematyzatora oraz stemmera dla języka polskiego. Sytuacja pewnie szybko się nie zmieni, zatem jesteśmy zmuszeni korzystać z pliku wordforms.

Słownik stworzony został w oparciu o plik sjp-odm-20141029.zip. Pomysł na jego wykorzystanie zaczerpnąłem z bloga allegro.

Plik zawiera wyrazy o długości przynajmniej 2 znaków. Nieistotna jest wielkość liter, a znaki diakrytyczne są usuwane. Ignorowane są również znaki: {-,-, ., '}.

Konfiguracja indeksu powinna wyglądnąć z następujący sposób:

charset_table 	= 0..9, A..Z->a..z, a..z, \
	U+104->a, U+106->c, U+118->e, U+141->l, U+143->n, \
	U+0D3->o, U+15A->s, U+179->z, U+17B->z, U+105->a, \
	U+107->c, U+119->e, U+142->l, U+144->n, U+0F3->o, \
	U+15B->s, U+17A->z, U+17C->z, \
	U+00E9->e, U+00EB->e, U+00FC->u, U+00F6->o # é, ë, ü, ö
min_word_len	= 2
ignore_chars	= U+002D, U+FF0D, U+002E, U+0027 # -, -, . , '
stopwords		= stopwords.txt
wordforms		= wordlist.txt