zeroth-normalizer

Project: Zeroth에서 한국어를 처리할 때 사용된 normalizer코드를 다른 작업에 적용할 수 있도록 외부 모듈로 분리하였습니다.

  • 함수 타입 적용 및 전체 코드 클래스로 분리
  • 클래스 선언에서는 openai/whisperBasicTextNormalizer를 참고했습니다.

Installation

python3 -m pip install zeroth-normalizer

Usage

See also test.py

from zeroth_normalizer import ZerothKoreanNormalizer
normalizer = ZerothKoreanNormalizer()
normalizer('여기에 한국어 텍스트 입력', steps=4)

Examples

원문:    대왕 대비가 대행왕이 예(睿)로써 시호를 삼도록 말했었다고 알리다
step1:   대왕 대비가 대행왕이 예로써 시호를 삼도록 말했었다고 알리다
step2:   대왕 대비가 대행왕이 예로써 시호를 삼도록 말했었다고 알리다
step3:   대왕 대비가 대행왕이 예로써 시호를 삼도록 말했었다고 알리다
step4:   대왕 대비가 대행왕이 예로써 시호를 삼도록 말했었다고 알리다

원문:    한국어 위키백과(영어: Korean Wikipedia)는 한국어로 운영되는 위키백과의 다언어판 가운데 하나로서, 2002년 10월 11일에 시작되었다.
step1:   한국어 위키백과는 한국어로 운영되는 위키백과의 다언어판 가운데 하나로서 , 2002 년 10 월 11 일에 시작되었다.
step2:   한국어 위키백과는 한국어로 운영되는 위키백과의 다언어판 가운데 하나로서, 2002 년 10 월 11 일에 시작되었다.
step3:   한국어 위키백과는 한국어로 운영되는 위키백과의 다언어판 가운데 하나로서, 2002 년 10 월 11 일에 시작되었다.
step4:   한국어 위키백과는 한국어로 운영되는 위키백과의 다언어판 가운데 하나로서 이천 이 년 10 월 11 일에 시작되었다

원문:    공식 문서에는 'Corea' 또는 'Korea'가 혼용되어 사용되었고, 1900년대 초기부터 영어권에서는 'Korea'의 사용 빈도가 높았다.
step1:   공식 문서에는 Corea 또는 Korea 가 혼용되어 사용되었고 , 1900 년대 초기부터 영어권에서는 Korea 의 사용 빈도가 높았다.
step2:   공식 문서에는 Corea 또는 Korea 가 혼용되어 사용되었고, 1900 년대 초기부터 영어권에서는 Korea 의 사용 빈도가 높았다.
step3:   공식 문서에는 Corea 또는 Korea 가 혼용되어 사용되었고, 1900 년대 초기부터 영어권에서는 Korea 의 사용 빈도가 높았다.
step4:   공식 문서에는 Corea 또는 Korea 가 혼용되어 사용되었고 천 구백 년대 초기부터 영어권에서는 Korea 의 사용 빈도가 높았다

원문:      북위 33도~38도, 동경 126~132도에 걸쳐 있어 냉대 동계 소우 기후와 온대 하우 기후, 온난 습윤 기후가 나타난다.
step1:   북위 33 도 ~ 38 도 , 동경 126 ~ 132 도에 걸쳐 있어 냉대 동계 소우 기후와 온대 하우 기후 , 온난 습윤 기후가 나타난다.
step2:   북위 33 도 ~ 38 도 , 동경 126 ~ 132 도에 걸쳐 있어 냉대 동계 소우 기후와 온대 하우 기후 , 온난 습윤 기후가 나타난다.
step3:   북위 33 도 ~ 38 도 , 동경 126 ~ 132 도에 걸쳐 있어 냉대 동계 소우 기후와 온대 하우 기후 , 온난 습윤 기후가 나타난다.
step4:   북위 33 도 ~ 38 도 동경 백 이십 육 ~ 백 삼십 이 도에 걸쳐 있어 냉대 동계 소우 기후와 온대 하우 기후 온난 습윤 기후가 나타난다

원문:    3.1운동
step1:   3.1 운동
step2:   3.1 운동
step3:   3.1 운동
step4:   삼 쩜 일 운동

원문:    평균 기온은 10 ~ 16℃이며, 가장 무더운 달인 8월은 23 ~ 36℃, 5월은 16 ~ 19℃, 10월은 11 ~ 19℃, 가장 추운 달인 1월은 -6 ~ 3℃이다.
step1:   평균 기온은 10 ~ 16 이며 , 가장 무더운 달인 8 월은 23 ~ 36 , 5 월은 16 ~ 19 , 10 월은 11 ~ 19 , 가장 추운 달인 1 월은 - 6 ~ 3 이다.
step2:   평균 기온은 10 ~ 16 이며 , 가장 무더운 달인 8 월은 23 ~ 36 , 5 월은 16 ~ 19 , 10 월은 11 ~ 19 , 가장 추운 달인 1 월은 - 6 ~ 3 이다.
step3:   평균 기온은 10 ~ 16 이며 , 가장 무더운 달인 8 월은 23 ~ 36 , 5 월은 16 ~ 19 , 10 월은 11 ~ 19 , 가장 추운 달인 1 월은 - 6 ~ 3 이다.
step4:   평균 기온은 10 ~ 16 이며 가장 무더운 달인 8 월은 23 ~ 36 5 월은 16 ~ 19 10 월은 11 ~ 19 가장 추운 달인 1 월은 - 6 ~ 3 이다

원문:    예시로서, 만약 크기 n의 모든 입력에 대한 알고리즘에 필요한 시간이 최대 (어떤 n0보다 크지 않은 모든 n에 대하여) 5n^3 + 3n의 식을 가진다면, 이 알고리즘의 점 근적 시간 복잡도는 O(n3)이라고 할 수 있다.
step1:   예시로서 , 만약 크기 n 의 모든 입력에 대한 알고리즘에 필요한 시간이 최대 5 n 3 + 3 n 의 식을 가진다면 , 이 알고리즘의 점근적 시간 복잡도는 O 이라고 할 수  있다.
step2:   예시로서 , 만약 크기 n 의 모든 입력에 대한 알고리즘에 필요한 시간이 최대 5 n 3 + 3 n 의 식을 가진다면 , 이 알고리즘의 점근적 시간 복잡도는 O 이라고 할 수  있다.
step3:   예시로서 , 만약 크기 n 의 모든 입력에 대한 알고리즘에 필요한 시간이 최대 5 n 3 + 3 n 의 식을 가진다면 , 이 알고리즘의 점근적 시간 복잡도는 O 이라고 할 수  있다.
step4:   예시로서 만약 크기 n 의 모든 입력에 대한 알고리즘에 필요한 시간이 최대 5 n 3 + 3 n 의 식을 가진다면 이 알고리즘의 점근적 시간 복잡도는 O 이라고 할 수 있다