Python interface to Open Korean Text Processor inspired by KoNLPy
- Python 3+
- Java 8+
pip install open-korean-text-python
openkoreantext.normalize('안녕하세욬ㅋㅋㅋㅋ') # 안녕하세요ㅋㅋㅋ
openkoreantext.pos('대한민국은 민주공화국이다.')
# [ ('대한민국', 'Noun'), ('은', 'Josa'), ('민주공화국', 'Noun'), ('이다', 'Josa'), ('.', 'Punctuation') ]
openkoreantext.morphs('대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.')
# [ '대한민국', '의', '주권', '은', '국민', '에게', '있고', ',', '모든', '권력', '은', '국민', '으로부터', '나온다', '.' ]
openkoreantext.nouns('대한민국은 민주공화국이다.')
# [ '대한민국', '민주공화국' ]
openkoreantext.phrases('불법 토토 신고하는 방법 #포상금', filter_spam=False, include_hashtags=True)
# [ '불법', '불법 토토', '불법 토토 신고', '불법 토토 신고하는 방법', '토토', '신고', '방법', '#포상금' ]
openkoreantext.sentences('대한민국은 민주공화국이다. 대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.')
# [ '대한민국은 민주공화국이다.', '대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.' ]
openkoreantext.add_words_to_dictionary('Noun', [ '앎읾슮', '앎멞릶칾놂' ])
openkoreantext.add_words_to_dictionary('Adverb', '살랑설렁')
Normalizes text
. Returns a normalized text
text
: text to normalize
Tokenizes text
into morphemes and tags their part-of-speech. Returns a list of pairs of morpheme and part-of-speech.
text
: text to tokenizestem
: stem morphemes if True
Extract morphemes from text. Returns a list of morphemes.
text
: text to extract morphemesstem
: stem morphemes if True
Extracts nouns from text
. Returns a list of nouns.
text
: text to extract nouns
Extracts phrases from text
. Returns a list of phrases.
text
: text to extract phrasesfilter_spam
: ignore spam words if Trueinclude_hashtags
: include hashtags if True
Splits text
into sentences. Returns a list of sentences
text
: text to split into sentences
Adds user-defined words
to the dictionary
pos
: part-of-speech of words (Noun, Verb, Adjective, Adverb, Determiner, Exclamation, Josa, Eomi, PreEomi, Conjunction, Modifier, VerbPrefix, Suffix)words
: list of words to add