ko-nlp/Korpora

Local test code (fetch, load)

lovit opened this issue · 5 comments

lovit commented

Requirements

  • github action 에서 fetch 를 모두 실행시키는 것은 시간이 오래걸리며, kowikitext, namuwikitext 의 경우 사용자가 train data 의 개수를 지정하며 데이터를 로딩합니다.
  • AI Hub, 국립국어원 모두의 말뭉치는 저작권 이슈가 있어 직접 local 에 데이터를 다운받아야 하기에 action 에서 테스트 하기가 곤란합니다.
  • 이러한 상황에서 사용할 수 있도록 local test 용 테스트 코드를 작성합니다.

Output

  • tests/manual.py 에 로컬에서 fetch, load 기능을 테스트하는 파일을 만들어두었습니다.
    python manual.py load_small
    python manual.py load_large
    python manual.py load_modu --root_dir ~/local/Korpora_modu_test
    python manual.py fetch
    
  • 작은 말뭉치 / 큰 말뭉치 / 모두의 말뭉치 / fetch 에 대한 테스트 출력 결과입니다.
  • open subtitles 의 fetch 실패 이유는 여기에 따로 이슈로 정리하였습니다.
lovit commented

(python manual.py load_small)

KoreanChatbotKorpus
    Author : songys@github
    Repository : https://github.com/songys/Chatbot_data
    References :

    Chatbot_data_for_Korean v1.0
      1. 챗봇 트레이닝용 문답 페어 11,876개
      2. 일상다반사 0, 이별(부정) 1, 사랑(긍정) 2로 레이블링
    자세한 내용은 위의 repository를 참고하세요.

Attributes
----------
KoreanChatbot.train: size=11823
  - KoreanChatbot.train.texts : list[str]
  - KoreanChatbot.train.pairs : list[str]
  - KoreanChatbot.train.labels : list[int]


================================================================================

KoreanHateSpeechKorpus
    Authors :
        - Jihyung Moon* (inmoonlight@github)
        - Won Ik Cho* (warnikchow@github)
        - Junbum Lee (beomi@github)
        * equal contribution
    Repository : https://github.com/kocohub/korean-hate-speech
    References :
        - Moon, J., Cho, W. I., & Lee, J. (2020). BEEP! Korean Corpus of Online News
          Comments for Toxic Speech Detection. arXiv preprint arXiv:2005.12503.

    We provide the first human-annotated Korean corpus for toxic speech detection and the large unlabeled corpus.
    The data is comments from the Korean entertainment news aggregation platform.

Attributes
----------
KoreanHateSpeech.train: size=7896
  - KoreanHateSpeech.train.texts : list[str]
  - KoreanHateSpeech.train.titles : list[str]
  - KoreanHateSpeech.train.gender_biases : list[str]
  - KoreanHateSpeech.train.biases : list[str]
  - KoreanHateSpeech.train.hates : list[str]
KoreanHateSpeech.dev: size=471
  - KoreanHateSpeech.dev.texts : list[str]
  - KoreanHateSpeech.dev.titles : list[str]
  - KoreanHateSpeech.dev.gender_biases : list[str]
  - KoreanHateSpeech.dev.biases : list[str]
  - KoreanHateSpeech.dev.hates : list[str]
KoreanHateSpeech.unlabeled: size=2033893
  - KoreanHateSpeech.unlabeled.texts : list[str]
  - KoreanHateSpeech.unlabeled.pairs : list[str]
KoreanHateSpeech.test: size=974
  - KoreanHateSpeech.test.texts : list[str]
  - KoreanHateSpeech.test.pairs : list[str]


================================================================================

KoreanParallelKOENNewsKorpus
    Author : KakaoBrain
    Repository : https://github.com/jungyeul/korean-parallel-corpora
    References :
        - Jungyeul Park, Jeen-Pyo Hong and Jeong-Won Cha (2016) Korean Language Resources for Everyone.
          In Proceedings of the 30th Pacific Asia Conference on Language, Information and Computation
          (PACLIC 30). October 28 - 30, 2016. Seoul, Korea. 
          (https://www.aclweb.org/anthology/Y16-2002/)

Attributes
----------
koennews.train: size=94123
  - koennews.train.texts : list[str]
  - koennews.train.pairs : list[str]
koennews.dev: size=1000
  - koennews.dev.texts : list[str]
  - koennews.dev.pairs : list[str]
koennews.test: size=2000
  - koennews.test.texts : list[str]
  - koennews.test.pairs : list[str]


================================================================================

KoreanPetitionsKorpus
    Author : Hyunjoong Kim lovit@github
    Repository : https://github.com/lovit/petitions_archive
    References :

    청와대 국민청원 게시판의 데이터를 월별로 수집한 것입니다.
    청원은 게시판에 글을 올린 뒤, 한달 간 청원이 진행됩니다.
    수집되는 데이터는 청원종료가 된 이후의 데이터이며, 청원 내 댓글은 수집되지 않습니다.
    단 청원의 동의 개수는 수집됩니다.
    자세한 내용은 위의 repository를 참고하세요.

Attributes
----------
KoreanPetitions.train: size=433631
  - KoreanPetitions.train.texts : list[str]
  - KoreanPetitions.train.categories : list[str]
  - KoreanPetitions.train.num_agrees : list[int]
  - KoreanPetitions.train.begins : list[str]
  - KoreanPetitions.train.ends : list[str]
  - KoreanPetitions.train.titles : list[str]


================================================================================

KorNLIKorpus
    Author : KakaoBrain
    Repository : https://github.com/kakaobrain/KorNLUDatasets
    References :
        - Ham, J., Choe, Y. J., Park, K., Choi, I., & Soh, H. (2020). KorNLI and KorSTS: New Benchmark
           Datasets for Korean Natural Language Understanding. arXiv preprint arXiv:2004.03289.
           (https://arxiv.org/abs/2004.03289)

    This is the dataset repository for our paper
    "KorNLI and KorSTS: New Benchmark Datasets for Korean Natural Language Understanding."
    (https://arxiv.org/abs/2004.03289)
    We introduce KorNLI and KorSTS, which are NLI and STS datasets in Korean.

Attributes
----------
KorNLI.multinli_train: size=392702
  - KorNLI.multinli_train.texts : list[str]
  - KorNLI.multinli_train.pairs : list[str]
  - KorNLI.multinli_train.labels : list[str]
KorNLI.snli_1.0_train: size=550152
  - KorNLI.snli_1.0_train.texts : list[str]
  - KorNLI.snli_1.0_train.pairs : list[str]
  - KorNLI.snli_1.0_train.labels : list[str]
KorNLI.xnli_dev: size=2490
  - KorNLI.xnli_dev.texts : list[str]
  - KorNLI.xnli_dev.pairs : list[str]
  - KorNLI.xnli_dev.labels : list[str]
KorNLI.xnli_test: size=5010
  - KorNLI.xnli_test.texts : list[str]
  - KorNLI.xnli_test.pairs : list[str]
  - KorNLI.xnli_test.labels : list[str]


================================================================================

KorSTSKorpus
    Author : KakaoBrain
    Repository : https://github.com/kakaobrain/KorNLUDatasets
    References :
        - Ham, J., Choe, Y. J., Park, K., Choi, I., & Soh, H. (2020). KorNLI and KorSTS: New Benchmark
           Datasets for Korean Natural Language Understanding. arXiv preprint arXiv:2004.03289.
           (https://arxiv.org/abs/2004.03289)

    This is the dataset repository for our paper
    "KorNLI and KorSTS: New Benchmark Datasets for Korean Natural Language Understanding."
    (https://arxiv.org/abs/2004.03289)
    We introduce KorNLI and KorSTS, which are NLI and STS datasets in Korean.

Attributes
----------
KorSTS.train: size=5749
  - KorSTS.train.texts : list[str]
  - KorSTS.train.pairs : list[str]
  - KorSTS.train.labels : list[str]
  - KorSTS.train.genres : list[str]
  - KorSTS.train.filenames : list[str]
  - KorSTS.train.years : list[str]
KorSTS.dev: size=1500
  - KorSTS.dev.texts : list[str]
  - KorSTS.dev.pairs : list[str]
  - KorSTS.dev.labels : list[str]
  - KorSTS.dev.genres : list[str]
  - KorSTS.dev.filenames : list[str]
  - KorSTS.dev.years : list[str]
KorSTS.test: size=1379
  - KorSTS.test.texts : list[str]
  - KorSTS.test.pairs : list[str]
  - KorSTS.test.labels : list[str]
  - KorSTS.test.genres : list[str]
  - KorSTS.test.filenames : list[str]
  - KorSTS.test.years : list[str]


================================================================================

NaverChangwonNERKorpus
    Author : 네이버 + 창원대
    Repository : https://github.com/naver/nlp-challenge/tree/master/missions/ner
    References : http://air.changwon.ac.kr/?page_id=10

    개체명(Named Entity)은 인명, 기관명, 지명 등과 같이 문장 또는 문서에서 특정한 의미를 가지고 있는 단어 또는 어구를 말합니다.
    이 때문에 개체명은 정보 검색 및 언어 이해를 위한 분석에서 주요한 대상으로 다루어지고 있습니다.
    Data.ly에서는 개체명 코퍼스를 제공하여 연구에 도움을 드리고자 하며, 공개적인 리더보드를 통해 많은 분들의 연구 동향을 논의/공유하고자 합니다.
    제공되는 코퍼스는 Data.ly에서 제작한 것으로, 연구 및 리더보드를 위한 학습으로 사용 가능하며 상업적인 목적으로 사용될 수 없습니다.

Attributes
----------
NaverChangwonNER.train: size=90000
  - NaverChangwonNER.train.texts : list[str]
  - NaverChangwonNER.train.words : list[list]
  - NaverChangwonNER.train.tags : list[list]


================================================================================

NSMCKorpus
    Author : e9t@github
    Repository : https://github.com/e9t/nsmc
    References : www.lucypark.kr/docs/2015-pyconkr/#39

    Naver sentiment movie corpus v1.0
    This is a movie review dataset in the Korean language.
    Reviews were scraped from Naver Movies.

    The dataset construction is based on the method noted in
    [Large movie review dataset][^1] from Maas et al., 2011.

    [^1]: http://ai.stanford.edu/~amaas/data/sentiment/

Attributes
----------
NSMC.train: size=150000
  - NSMC.train.texts : list[str]
  - NSMC.train.labels : list[int]
NSMC.test: size=50000
  - NSMC.test.texts : list[str]
  - NSMC.test.labels : list[int]


================================================================================

QuestionPairKorpus
    Author : songys@github
    Repository : https://github.com/songys/Question_pair
    References :

    질문쌍(Paired Question v.2)
    짝 지어진 두 개의 질문이 같은 질문인지 다른 질문인지 핸드 레이블을 달아둔 데이터
    사랑, 이별, 또는 일상과 같은 주제로 도메인 특정적이지 않음

Attributes
----------
QuestionPair.train: size=6888
  - QuestionPair.train.texts : list[str]
  - QuestionPair.train.pairs : list[str]
  - QuestionPair.train.labels : list[str]
QuestionPair.test: size=688
  - QuestionPair.test.texts : list[str]
  - QuestionPair.test.pairs : list[str]
  - QuestionPair.test.labels : list[str]


================================================================================

OpenSubtitleKorpus
    Author : TRAC (https://trac.edgewall.org/)
    Repository : http://opus.nlpl.eu/OpenSubtitles-v2018.php
    References :
        - P. Lison and J. Tiedemann, 2016, OpenSubtitles2016: Extracting Large Parallel Corpora
          from Movie and TV Subtitles. In Proceedings of the 10th International Conference on
          Language Resources and Evaluation (LREC 2016)

    This is a new collection of translated movie subtitles from http://www.opensubtitles.org/.

    [[ IMPORTANT ]]
    If you use the OpenSubtitle corpus: Please, add a link to http://www.opensubtitles.org/
    to your website and to your reports and publications produced with the data!
    I promised this when I got the data from the providers of that website!

    This is a slightly cleaner version of the subtitle collection using improved sentence alignment
    and better language checking.

    62 languages, 1,782 bitexts
    total number of files: 3,735,070
    total number of tokens: 22.10G
    total number of sentence fragments: 3.35G

    [[ NOTICE ]]
    In original data, the source language is `en` and target language is `ko`. However in Korpora,
    we change the language pair so that source language is `ko` and target language is `en`.

Attributes
----------
OpenSubtitle.train: size=1269683
  - OpenSubtitle.train.texts : list[str]
  - OpenSubtitle.train.pairs : list[str]


================================================================================

Loading AIHub_translation: 100%|██████████| 10/10 [02:30<00:00, 15.10s/it]
AIHubTranslationKorpus
    AI Hub 에서는 학습용 데이터를 제공합니다.

    데이터를 활용하기 위해서는 아래 주소의 홈페이지에서 "AI데이터" 클릭 후,
    이용하려는 데이터마다 직접 신청을 하셔야 합니다.

    https://www.aihub.or.kr/

    AI Hub 학습데이터는 신청 즉시 자동 승인됩니다.
    Korpora>=0.2.0 에서는 로컬에 다운로드 된 말뭉치를 손쉽게 로딩하는 기능만 제공합니다.

    AI Hub 에서 제공하는 번역데이터는 압축파일 또는 엑셀파일 (확장자: xlsx) 형식입니다.
    압축 해제 시 다음의 한글로 파일 이름이 기록되어 있습니다.
    파일 이름을 한글로 기록할 경우 OS 에 따라 예상치 못한 문제들이 발생할 수 있습니다.

    그러므로 각 파일의 이름을 아래처럼 영어로 변경하였다고 가정합니다.

             한글 파일 이름                         영어 파일 이름
        --------------------------------------------------------------
        1_구어체(1)_200226.xlsx         ->  1_spoken(1)_200226.xlsx
        1_구어체(2)_200226.xlsx         ->  1_spoken(2)_200226.xlsx
        2_대화체_200226.xlsx            ->  2_conversation_200226.xlsx
        3_문어체_뉴스(1)_200226.xlsx     ->  3_news(1)_200226.xlsx
        3_문어체_뉴스(2)_200226.xlsx     ->  3_news(2)_200226.xlsx
        3_문어체_뉴스(3)_200226.xlsx     ->  3_news(3)_200226.xlsx
        3_문어체_뉴스(4)_200226.xlsx     ->  3_news(4)_200226.xlsx
        4_문어체_한국문화_200226.xlsx     ->  4_korean_culture_200226.xlsx
        5_문어체_조례_200226.xlsx        ->  5_decree_200226.xlsx
        6_문어체_지자체웹사이트_200226.xlsx ->  6_government_website_200226.xlsx

    위 파일들은 `~/Korpora/AIHub_Translation/` 혹은 `path/to/AIHub_Translation/` 에
    저장되었다고 가정합니다.

    (Korpora 개발진 lovit@github, ratsgo@github)

Attributes
----------
AIHub_translation.train: size=1602418
  - AIHub_translation.train.texts : list[str]
  - AIHub_translation.train.pairs : list[str]


================================================================================

Loading AIHub_spoken_translation: 100%|██████████| 2/2 [00:24<00:00, 12.04s/it]
AIHubSpokenTranslationKorpus
    AI Hub 에서는 학습용 데이터를 제공합니다.

    데이터를 활용하기 위해서는 아래 주소의 홈페이지에서 "AI데이터" 클릭 후,
    이용하려는 데이터마다 직접 신청을 하셔야 합니다.

    https://www.aihub.or.kr/

    AI Hub 학습데이터는 신청 즉시 자동 승인됩니다.
    Korpora>=0.2.0 에서는 로컬에 다운로드 된 말뭉치를 손쉽게 로딩하는 기능만 제공합니다.

    AI Hub 에서 제공하는 번역데이터는 압축파일 또는 엑셀파일 (확장자: xlsx) 형식입니다.
    압축 해제 시 다음의 한글로 파일 이름이 기록되어 있습니다.
    파일 이름을 한글로 기록할 경우 OS 에 따라 예상치 못한 문제들이 발생할 수 있습니다.

    그러므로 각 파일의 이름을 아래처럼 영어로 변경하였다고 가정합니다.

             한글 파일 이름                         영어 파일 이름
        --------------------------------------------------------------
        1_구어체(1)_200226.xlsx         ->  1_spoken(1)_200226.xlsx
        1_구어체(2)_200226.xlsx         ->  1_spoken(2)_200226.xlsx
        2_대화체_200226.xlsx            ->  2_conversation_200226.xlsx
        3_문어체_뉴스(1)_200226.xlsx     ->  3_news(1)_200226.xlsx
        3_문어체_뉴스(2)_200226.xlsx     ->  3_news(2)_200226.xlsx
        3_문어체_뉴스(3)_200226.xlsx     ->  3_news(3)_200226.xlsx
        3_문어체_뉴스(4)_200226.xlsx     ->  3_news(4)_200226.xlsx
        4_문어체_한국문화_200226.xlsx     ->  4_korean_culture_200226.xlsx
        5_문어체_조례_200226.xlsx        ->  5_decree_200226.xlsx
        6_문어체_지자체웹사이트_200226.xlsx ->  6_government_website_200226.xlsx

    위 파일들은 `~/Korpora/AIHub_Translation/` 혹은 `path/to/AIHub_Translation/` 에
    저장되었다고 가정합니다.

    (Korpora 개발진 lovit@github, ratsgo@github)

Attributes
----------
AIHub_spoken_translation.train: size=400000
  - AIHub_spoken_translation.train.texts : list[str]
  - AIHub_spoken_translation.train.pairs : list[str]


================================================================================

Loading AIHub_conversation_translation: 100%|██████████| 1/1 [00:09<00:00,  9.33s/it]
AIHubConversationTranslationKorpus
    AI Hub 에서는 학습용 데이터를 제공합니다.

    데이터를 활용하기 위해서는 아래 주소의 홈페이지에서 "AI데이터" 클릭 후,
    이용하려는 데이터마다 직접 신청을 하셔야 합니다.

    https://www.aihub.or.kr/

    AI Hub 학습데이터는 신청 즉시 자동 승인됩니다.
    Korpora>=0.2.0 에서는 로컬에 다운로드 된 말뭉치를 손쉽게 로딩하는 기능만 제공합니다.

    AI Hub 에서 제공하는 번역데이터는 압축파일 또는 엑셀파일 (확장자: xlsx) 형식입니다.
    압축 해제 시 다음의 한글로 파일 이름이 기록되어 있습니다.
    파일 이름을 한글로 기록할 경우 OS 에 따라 예상치 못한 문제들이 발생할 수 있습니다.

    그러므로 각 파일의 이름을 아래처럼 영어로 변경하였다고 가정합니다.

             한글 파일 이름                         영어 파일 이름
        --------------------------------------------------------------
        1_구어체(1)_200226.xlsx         ->  1_spoken(1)_200226.xlsx
        1_구어체(2)_200226.xlsx         ->  1_spoken(2)_200226.xlsx
        2_대화체_200226.xlsx            ->  2_conversation_200226.xlsx
        3_문어체_뉴스(1)_200226.xlsx     ->  3_news(1)_200226.xlsx
        3_문어체_뉴스(2)_200226.xlsx     ->  3_news(2)_200226.xlsx
        3_문어체_뉴스(3)_200226.xlsx     ->  3_news(3)_200226.xlsx
        3_문어체_뉴스(4)_200226.xlsx     ->  3_news(4)_200226.xlsx
        4_문어체_한국문화_200226.xlsx     ->  4_korean_culture_200226.xlsx
        5_문어체_조례_200226.xlsx        ->  5_decree_200226.xlsx
        6_문어체_지자체웹사이트_200226.xlsx ->  6_government_website_200226.xlsx

    위 파일들은 `~/Korpora/AIHub_Translation/` 혹은 `path/to/AIHub_Translation/` 에
    저장되었다고 가정합니다.

    (Korpora 개발진 lovit@github, ratsgo@github)

Attributes
----------
AIHub_conversation_translation.train: size=100000
  - AIHub_conversation_translation.train.texts : list[str]
  - AIHub_conversation_translation.train.pairs : list[str]


================================================================================

Loading AIHub_news_translation: 100%|██████████| 4/4 [01:37<00:00, 24.25s/it]
AIHubNewsTranslationKorpus
    AI Hub 에서는 학습용 데이터를 제공합니다.

    데이터를 활용하기 위해서는 아래 주소의 홈페이지에서 "AI데이터" 클릭 후,
    이용하려는 데이터마다 직접 신청을 하셔야 합니다.

    https://www.aihub.or.kr/

    AI Hub 학습데이터는 신청 즉시 자동 승인됩니다.
    Korpora>=0.2.0 에서는 로컬에 다운로드 된 말뭉치를 손쉽게 로딩하는 기능만 제공합니다.

    AI Hub 에서 제공하는 번역데이터는 압축파일 또는 엑셀파일 (확장자: xlsx) 형식입니다.
    압축 해제 시 다음의 한글로 파일 이름이 기록되어 있습니다.
    파일 이름을 한글로 기록할 경우 OS 에 따라 예상치 못한 문제들이 발생할 수 있습니다.

    그러므로 각 파일의 이름을 아래처럼 영어로 변경하였다고 가정합니다.

             한글 파일 이름                         영어 파일 이름
        --------------------------------------------------------------
        1_구어체(1)_200226.xlsx         ->  1_spoken(1)_200226.xlsx
        1_구어체(2)_200226.xlsx         ->  1_spoken(2)_200226.xlsx
        2_대화체_200226.xlsx            ->  2_conversation_200226.xlsx
        3_문어체_뉴스(1)_200226.xlsx     ->  3_news(1)_200226.xlsx
        3_문어체_뉴스(2)_200226.xlsx     ->  3_news(2)_200226.xlsx
        3_문어체_뉴스(3)_200226.xlsx     ->  3_news(3)_200226.xlsx
        3_문어체_뉴스(4)_200226.xlsx     ->  3_news(4)_200226.xlsx
        4_문어체_한국문화_200226.xlsx     ->  4_korean_culture_200226.xlsx
        5_문어체_조례_200226.xlsx        ->  5_decree_200226.xlsx
        6_문어체_지자체웹사이트_200226.xlsx ->  6_government_website_200226.xlsx

    위 파일들은 `~/Korpora/AIHub_Translation/` 혹은 `path/to/AIHub_Translation/` 에
    저장되었다고 가정합니다.

    (Korpora 개발진 lovit@github, ratsgo@github)

Attributes
----------
AIHub_news_translation.train: size=801387
  - AIHub_news_translation.train.texts : list[str]
  - AIHub_news_translation.train.pairs : list[str]


================================================================================

Loading AIHub_korean_culture_translation: 100%|██████████| 1/1 [00:06<00:00,  6.84s/it]
AIHubKoreanCultureTranslationKorpus
    AI Hub 에서는 학습용 데이터를 제공합니다.

    데이터를 활용하기 위해서는 아래 주소의 홈페이지에서 "AI데이터" 클릭 후,
    이용하려는 데이터마다 직접 신청을 하셔야 합니다.

    https://www.aihub.or.kr/

    AI Hub 학습데이터는 신청 즉시 자동 승인됩니다.
    Korpora>=0.2.0 에서는 로컬에 다운로드 된 말뭉치를 손쉽게 로딩하는 기능만 제공합니다.

    AI Hub 에서 제공하는 번역데이터는 압축파일 또는 엑셀파일 (확장자: xlsx) 형식입니다.
    압축 해제 시 다음의 한글로 파일 이름이 기록되어 있습니다.
    파일 이름을 한글로 기록할 경우 OS 에 따라 예상치 못한 문제들이 발생할 수 있습니다.

    그러므로 각 파일의 이름을 아래처럼 영어로 변경하였다고 가정합니다.

             한글 파일 이름                         영어 파일 이름
        --------------------------------------------------------------
        1_구어체(1)_200226.xlsx         ->  1_spoken(1)_200226.xlsx
        1_구어체(2)_200226.xlsx         ->  1_spoken(2)_200226.xlsx
        2_대화체_200226.xlsx            ->  2_conversation_200226.xlsx
        3_문어체_뉴스(1)_200226.xlsx     ->  3_news(1)_200226.xlsx
        3_문어체_뉴스(2)_200226.xlsx     ->  3_news(2)_200226.xlsx
        3_문어체_뉴스(3)_200226.xlsx     ->  3_news(3)_200226.xlsx
        3_문어체_뉴스(4)_200226.xlsx     ->  3_news(4)_200226.xlsx
        4_문어체_한국문화_200226.xlsx     ->  4_korean_culture_200226.xlsx
        5_문어체_조례_200226.xlsx        ->  5_decree_200226.xlsx
        6_문어체_지자체웹사이트_200226.xlsx ->  6_government_website_200226.xlsx

    위 파일들은 `~/Korpora/AIHub_Translation/` 혹은 `path/to/AIHub_Translation/` 에
    저장되었다고 가정합니다.

    (Korpora 개발진 lovit@github, ratsgo@github)

Attributes
----------
AIHub_korean_culture_translation.train: size=100646
  - AIHub_korean_culture_translation.train.texts : list[str]
  - AIHub_korean_culture_translation.train.pairs : list[str]


================================================================================

Loading AIHub_decree_translation: 100%|██████████| 1/1 [00:05<00:00,  5.85s/it]
AIHubDecreeTranslationKorpus
    AI Hub 에서는 학습용 데이터를 제공합니다.

    데이터를 활용하기 위해서는 아래 주소의 홈페이지에서 "AI데이터" 클릭 후,
    이용하려는 데이터마다 직접 신청을 하셔야 합니다.

    https://www.aihub.or.kr/

    AI Hub 학습데이터는 신청 즉시 자동 승인됩니다.
    Korpora>=0.2.0 에서는 로컬에 다운로드 된 말뭉치를 손쉽게 로딩하는 기능만 제공합니다.

    AI Hub 에서 제공하는 번역데이터는 압축파일 또는 엑셀파일 (확장자: xlsx) 형식입니다.
    압축 해제 시 다음의 한글로 파일 이름이 기록되어 있습니다.
    파일 이름을 한글로 기록할 경우 OS 에 따라 예상치 못한 문제들이 발생할 수 있습니다.

    그러므로 각 파일의 이름을 아래처럼 영어로 변경하였다고 가정합니다.

             한글 파일 이름                         영어 파일 이름
        --------------------------------------------------------------
        1_구어체(1)_200226.xlsx         ->  1_spoken(1)_200226.xlsx
        1_구어체(2)_200226.xlsx         ->  1_spoken(2)_200226.xlsx
        2_대화체_200226.xlsx            ->  2_conversation_200226.xlsx
        3_문어체_뉴스(1)_200226.xlsx     ->  3_news(1)_200226.xlsx
        3_문어체_뉴스(2)_200226.xlsx     ->  3_news(2)_200226.xlsx
        3_문어체_뉴스(3)_200226.xlsx     ->  3_news(3)_200226.xlsx
        3_문어체_뉴스(4)_200226.xlsx     ->  3_news(4)_200226.xlsx
        4_문어체_한국문화_200226.xlsx     ->  4_korean_culture_200226.xlsx
        5_문어체_조례_200226.xlsx        ->  5_decree_200226.xlsx
        6_문어체_지자체웹사이트_200226.xlsx ->  6_government_website_200226.xlsx

    위 파일들은 `~/Korpora/AIHub_Translation/` 혹은 `path/to/AIHub_Translation/` 에
    저장되었다고 가정합니다.

    (Korpora 개발진 lovit@github, ratsgo@github)

Attributes
----------
AIHub_decree_translation.train: size=100298
  - AIHub_decree_translation.train.texts : list[str]
  - AIHub_decree_translation.train.pairs : list[str]


================================================================================

Loading AIHub_government_website_translation: 100%|██████████| 1/1 [00:06<00:00,  6.12s/it]
AIHubGovernmentWebsiteTranslationKorpus
    AI Hub 에서는 학습용 데이터를 제공합니다.

    데이터를 활용하기 위해서는 아래 주소의 홈페이지에서 "AI데이터" 클릭 후,
    이용하려는 데이터마다 직접 신청을 하셔야 합니다.

    https://www.aihub.or.kr/

    AI Hub 학습데이터는 신청 즉시 자동 승인됩니다.
    Korpora>=0.2.0 에서는 로컬에 다운로드 된 말뭉치를 손쉽게 로딩하는 기능만 제공합니다.

    AI Hub 에서 제공하는 번역데이터는 압축파일 또는 엑셀파일 (확장자: xlsx) 형식입니다.
    압축 해제 시 다음의 한글로 파일 이름이 기록되어 있습니다.
    파일 이름을 한글로 기록할 경우 OS 에 따라 예상치 못한 문제들이 발생할 수 있습니다.

    그러므로 각 파일의 이름을 아래처럼 영어로 변경하였다고 가정합니다.

             한글 파일 이름                         영어 파일 이름
        --------------------------------------------------------------
        1_구어체(1)_200226.xlsx         ->  1_spoken(1)_200226.xlsx
        1_구어체(2)_200226.xlsx         ->  1_spoken(2)_200226.xlsx
        2_대화체_200226.xlsx            ->  2_conversation_200226.xlsx
        3_문어체_뉴스(1)_200226.xlsx     ->  3_news(1)_200226.xlsx
        3_문어체_뉴스(2)_200226.xlsx     ->  3_news(2)_200226.xlsx
        3_문어체_뉴스(3)_200226.xlsx     ->  3_news(3)_200226.xlsx
        3_문어체_뉴스(4)_200226.xlsx     ->  3_news(4)_200226.xlsx
        4_문어체_한국문화_200226.xlsx     ->  4_korean_culture_200226.xlsx
        5_문어체_조례_200226.xlsx        ->  5_decree_200226.xlsx
        6_문어체_지자체웹사이트_200226.xlsx ->  6_government_website_200226.xlsx

    위 파일들은 `~/Korpora/AIHub_Translation/` 혹은 `path/to/AIHub_Translation/` 에
    저장되었다고 가정합니다.

    (Korpora 개발진 lovit@github, ratsgo@github)

Attributes
----------
AIHub_government_website_translation.train: size=100087
  - AIHub_government_website_translation.train.texts : list[str]
  - AIHub_government_website_translation.train.pairs : list[str]
lovit commented

(python manual.py load_large)

    Korpora 는 다른 분들이 연구 목적으로 공유해주신 말뭉치들을
    손쉽게 다운로드, 사용할 수 있는 기능만을 제공합니다.

    말뭉치들을 공유해 주신 분들에게 감사드리며, 각 말뭉치 별 설명과 라이센스를 공유 드립니다.
    해당 말뭉치에 대해 자세히 알고 싶으신 분은 아래의 description 을 참고,
    해당 말뭉치를 연구/상용의 목적으로 이용하실 때에는 아래의 라이센스를 참고해 주시기 바랍니다.

    # Description
    Author : beomi@github
    Repository : https://github.com/Beomi/KcBERT/
    References :

    공개된 한국어 BERT는 대부분 한국어 위키, 뉴스 기사, 책 등 잘 정제된 데이터를 기반으로 학습한 모델입니다.

    한편, 실제로 NSMC와 같은 댓글형 데이터셋은 정제되지 않았고 구어체 특징에 신조어가 많으며,
    오탈자 등 공식적인 글쓰기에서 나타나지 않는 표현들이 빈번하게 등장합니다.

    KcBERT는 위와 같은 특성의 데이터셋에 적용하기 위해, 네이버 뉴스에서 댓글과 대댓글을 수집해,
    토크나이저와 BERT모델을 처음부터 학습한 Pretrained BERT 모델입니다.

    KcBERT는 Huggingface의 Transformers 라이브러리를 통해 간편히 불러와 사용할 수 있습니다.
    (별도의 파일 다운로드가 필요하지 않습니다.)

    # License
    MIT License

[Korpora] Corpus `kcbert` is already installed at ~/Korpora/kcbert/kcbert-train.tar.gzaa
[Korpora] Corpus `kcbert` is already installed at ~/Korpora/kcbert/kcbert-train.tar.gzab
[Korpora] Corpus `kcbert` is already installed at ~/Korpora/kcbert/kcbert-train.tar.gzac
KcBERT text file is large (12G).
If you want to load text in your memory, please insert `yes`
If the `INPUT` is integer, it loads only first `INPUT` sentences
100
KcBERTKorpus
    Author : beomi@github
    Repository : https://github.com/Beomi/KcBERT/
    References :

    공개된 한국어 BERT는 대부분 한국어 위키, 뉴스 기사, 책 등 잘 정제된 데이터를 기반으로 학습한 모델입니다.

    한편, 실제로 NSMC와 같은 댓글형 데이터셋은 정제되지 않았고 구어체 특징에 신조어가 많으며,
    오탈자 등 공식적인 글쓰기에서 나타나지 않는 표현들이 빈번하게 등장합니다.

    KcBERT는 위와 같은 특성의 데이터셋에 적용하기 위해, 네이버 뉴스에서 댓글과 대댓글을 수집해,
    토크나이저와 BERT모델을 처음부터 학습한 Pretrained BERT 모델입니다.

    KcBERT는 Huggingface의 Transformers 라이브러리를 통해 간편히 불러와 사용할 수 있습니다.
    (별도의 파일 다운로드가 필요하지 않습니다.)

Attributes
----------
KcBERT.train: size=100
  - KcBERT.train.texts : list[str]


================================================================================


    Korpora 는 다른 분들이 연구 목적으로 공유해주신 말뭉치들을
    손쉽게 다운로드, 사용할 수 있는 기능만을 제공합니다.

    말뭉치들을 공유해 주신 분들에게 감사드리며, 각 말뭉치 별 설명과 라이센스를 공유 드립니다.
    해당 말뭉치에 대해 자세히 알고 싶으신 분은 아래의 description 을 참고,
    해당 말뭉치를 연구/상용의 목적으로 이용하실 때에는 아래의 라이센스를 참고해 주시기 바랍니다.

    # Description
    Author : Hyunjoong Kim lovit@github
    Repository : https://github.com/lovit/kowikitext
    References :

    한국어 위키피디아의 덤프 데이터를 바탕을 제작한 wikitext 형식의 텍스트 파일입니다.
    학습 및 평가를 위하여 위키페이지 별로 train (99%), dev (0.5%), test (0.5%) 로 나뉘어져있습니다.


    # License
    CC-BY-SA 3.0 which kowiki dump dataset is licensed

[Korpora] Corpus `kowikitext` is already installed at ~/Korpora/kowikitext/kowikitext_20200920.train.zip
[Korpora] Corpus `kowikitext` is already installed at ~/Korpora/kowikitext/kowikitext_20200920.train
[Korpora] Corpus `kowikitext` is already installed at ~/Korpora/kowikitext/kowikitext_20200920.test.zip
[Korpora] Corpus `kowikitext` is already installed at ~/Korpora/kowikitext/kowikitext_20200920.test
[Korpora] Corpus `kowikitext` is already installed at ~/Korpora/kowikitext/kowikitext_20200920.dev.zip
[Korpora] Corpus `kowikitext` is already installed at ~/Korpora/kowikitext/kowikitext_20200920.dev
kowikiText.train text file is large (1.6G).
If you want to load text in your memory, please insert `yes`
If the `INPUT` is integer, it loads only first `INPUT` sentences
100
KowikiTextKorpus
    Author : Hyunjoong Kim lovit@github
    Repository : https://github.com/lovit/kowikitext
    References :

    한국어 위키피디아의 덤프 데이터를 바탕을 제작한 wikitext 형식의 텍스트 파일입니다.
    학습 및 평가를 위하여 위키페이지 별로 train (99%), dev (0.5%), test (0.5%) 로 나뉘어져있습니다.


Attributes
----------
KowikiText.train: size=10
  - KowikiText.train.texts : list[str]
  - KowikiText.train.pairs : list[str]
KowikiText.test: size=17640
  - KowikiText.test.texts : list[str]
  - KowikiText.test.pairs : list[str]
KowikiText.dev: size=17141
  - KowikiText.dev.texts : list[str]
  - KowikiText.dev.pairs : list[str]


================================================================================


    Korpora 는 다른 분들이 연구 목적으로 공유해주신 말뭉치들을
    손쉽게 다운로드, 사용할 수 있는 기능만을 제공합니다.

    말뭉치들을 공유해 주신 분들에게 감사드리며, 각 말뭉치 별 설명과 라이센스를 공유 드립니다.
    해당 말뭉치에 대해 자세히 알고 싶으신 분은 아래의 description 을 참고,
    해당 말뭉치를 연구/상용의 목적으로 이용하실 때에는 아래의 라이센스를 참고해 주시기 바랍니다.

    # Description
    Author : Hyunjoong Kim lovit@github
    Repository : https://github.com/lovit/namuwikitext
    References :

    나무위키의 덤프 데이터를 바탕을 제작한 wikitext 형식의 텍스트 파일입니다.
    학습 및 평가를 위하여 위키페이지 별로 train (99%), dev (0.5%), test (0.5%) 로 나뉘어져있습니다.


    # License
    CC BY-NC-SA 2.0 KR which Namuwiki dump dataset is licensed

[Korpora] Corpus `namuwikitext` is already installed at ~/Korpora/namuwikitext/namuwikitext_20200302.train.zip
[Korpora] Corpus `namuwikitext` is already installed at ~/Korpora/namuwikitext/namuwikitext_20200302.train
[Korpora] Corpus `namuwikitext` is already installed at ~/Korpora/namuwikitext/namuwikitext_20200302.test.zip
[Korpora] Corpus `namuwikitext` is already installed at ~/Korpora/namuwikitext/namuwikitext_20200302.test
[Korpora] Corpus `namuwikitext` is already installed at ~/Korpora/namuwikitext/namuwikitext_20200302.dev.zip
[Korpora] Corpus `namuwikitext` is already installed at ~/Korpora/namuwikitext/namuwikitext_20200302.dev
NamuwikiText.train text file is large (5.3G).
If you want to load text in your memory, please insert `yes`
If the `INPUT` is integer, it loads only first `INPUT` sentences
100
NamuwikiTextKorpus
    Author : Hyunjoong Kim lovit@github
    Repository : https://github.com/lovit/namuwikitext
    References :

    나무위키의 덤프 데이터를 바탕을 제작한 wikitext 형식의 텍스트 파일입니다.
    학습 및 평가를 위하여 위키페이지 별로 train (99%), dev (0.5%), test (0.5%) 로 나뉘어져있습니다.


Attributes
----------
NamuwikiText.train: size=13
  - NamuwikiText.train.texts : list[str]
  - NamuwikiText.train.pairs : list[str]
NamuwikiText.test: size=20276
  - NamuwikiText.test.texts : list[str]
  - NamuwikiText.test.pairs : list[str]
NamuwikiText.dev: size=19778
  - NamuwikiText.dev.texts : list[str]
  - NamuwikiText.dev.pairs : list[str]


================================================================================
lovit commented

테스트를 위하여 Korpora_modu_test 에 모두의 말뭉치 샘플 파일들을 아래처럼 구성하였습니다.

.
├── NIKL_MESSENGER
│   ├── MDRW1900000002.json
│   ├── MDRW1900000003.json
│   ├── MDRW1900000008.json
│   └── MDRW1900000010.json
├── NIKL_MP
│   └── NXMP1902008040.json
├── NIKL_NE
│   └── NXNE1902008030.json
├── NIKL_NEWSPAPER
│   ├── NIRW1900000001.json
│   ├── NIRW1900000002.json
│   ├── NIRW1900000003.json
│   └── NIRW1900000004.json
├── NIKL_SPOKEN
│   ├── SARW1800000001.json
│   ├── SARW1800000002.json
│   ├── SARW1800000003.json
│   └── SARW1800000004.json
├── NIKL_WEB
│   ├── EBRW1903002753.json
│   ├── EBRW1903002754.json
│   ├── EBRW1903002755.json
│   └── EBRW1903002756.json
└── NIKL_WRITTEN
    ├── WARW1800000007.json
    ├── WARW1800000008.json
    ├── WARW1800000013.json
    └── WARW1800000016.json

7 directories, 22 files

(python manual.py load_modu --root_dir ~/local/Korpora_modu_test/

Loading ModuMessenger: 100%|██████████| 4/4 [00:00<00:00, 514.75it/s]
ModuMessengerKorpus
    모두의 말뭉치는 문화체육관광부 산하 국립국어원에서 제공하는 말뭉치로
    총 13 개의 말뭉치로 이뤄져 있습니다.

    해당 말뭉치를 이용하기 위해서는 국립국어원 홈페이지에 가셔서 "회원가입 > 말뭉치 신청 > 승인"의
    과정을 거치셔야 합니다.

    https://corpus.korean.go.kr/#none

    모두의 말뭉치는 승인 후 다운로드 가능 기간 및 횟수 (3회) 에 제한이 있습니다.

    로그인 기능 및 Korpora 패키지에서의 다운로드 기능을 제공하려 하였지만,
    국립국어원에서 위의 이유로 이에 대한 기능은 제공이 불가함을 확인하였습니다.

    Korpora==0.2.0 에서는 "개별 말뭉치 신청 > 승인"이 완료되었다고 가정,
    로컬에 다운로드 된 말뭉치를 손쉽게 로딩하는 기능만 제공합니다

    (Korpora 개발진 lovit@github, ratsgo@github)

Attributes
----------
모두의_메신저_말뭉치(conversation).train: size=4
  - 모두의_메신저_말뭉치(conversation).train.texts : list[Utterance]


================================================================================

Loading ModuMorpheme (NXMP1902008040.json): 100%|██████████| 7265/7265 [00:04<00:00, 1797.57it/s]
ModuMorphemeKorpus
    모두의 말뭉치는 문화체육관광부 산하 국립국어원에서 제공하는 말뭉치로
    총 13 개의 말뭉치로 이뤄져 있습니다.

    해당 말뭉치를 이용하기 위해서는 국립국어원 홈페이지에 가셔서 "회원가입 > 말뭉치 신청 > 승인"의
    과정을 거치셔야 합니다.

    https://corpus.korean.go.kr/#none

    모두의 말뭉치는 승인 후 다운로드 가능 기간 및 횟수 (3회) 에 제한이 있습니다.

    로그인 기능 및 Korpora 패키지에서의 다운로드 기능을 제공하려 하였지만,
    국립국어원에서 위의 이유로 이에 대한 기능은 제공이 불가함을 확인하였습니다.

    Korpora==0.2.0 에서는 "개별 말뭉치 신청 > 승인"이 완료되었다고 가정,
    로컬에 다운로드 된 말뭉치를 손쉽게 로딩하는 기능만 제공합니다

    (Korpora 개발진 lovit@github, ratsgo@github)

Attributes
----------
모두의_형태분석_말뭉치.train: size=150082
  - 모두의_형태분석_말뭉치.train.texts : list[MorphemesExample]


================================================================================

Loading ModuNE (NXNE1902008030.json): 100%|██████████| 7265/7265 [00:02<00:00, 3611.51it/s]
ModuNEKorpus
    모두의 말뭉치는 문화체육관광부 산하 국립국어원에서 제공하는 말뭉치로
    총 13 개의 말뭉치로 이뤄져 있습니다.

    해당 말뭉치를 이용하기 위해서는 국립국어원 홈페이지에 가셔서 "회원가입 > 말뭉치 신청 > 승인"의
    과정을 거치셔야 합니다.

    https://corpus.korean.go.kr/#none

    모두의 말뭉치는 승인 후 다운로드 가능 기간 및 횟수 (3회) 에 제한이 있습니다.

    로그인 기능 및 Korpora 패키지에서의 다운로드 기능을 제공하려 하였지만,
    국립국어원에서 위의 이유로 이에 대한 기능은 제공이 불가함을 확인하였습니다.

    Korpora==0.2.0 에서는 "개별 말뭉치 신청 > 승인"이 완료되었다고 가정,
    로컬에 다운로드 된 말뭉치를 손쉽게 로딩하는 기능만 제공합니다

    (Korpora 개발진 lovit@github, ratsgo@github)

Attributes
----------
모두의_개체명_말뭉치.train: size=150082
  - 모두의_개체명_말뭉치.train.texts : list[NamedEntityExample]


================================================================================

Loading ModuNews: 100%|██████████| 4/4 [00:04<00:00,  1.04s/it]
ModuNewsKorpus
    모두의 말뭉치는 문화체육관광부 산하 국립국어원에서 제공하는 말뭉치로
    총 13 개의 말뭉치로 이뤄져 있습니다.

    해당 말뭉치를 이용하기 위해서는 국립국어원 홈페이지에 가셔서 "회원가입 > 말뭉치 신청 > 승인"의
    과정을 거치셔야 합니다.

    https://corpus.korean.go.kr/#none

    모두의 말뭉치는 승인 후 다운로드 가능 기간 및 횟수 (3회) 에 제한이 있습니다.

    로그인 기능 및 Korpora 패키지에서의 다운로드 기능을 제공하려 하였지만,
    국립국어원에서 위의 이유로 이에 대한 기능은 제공이 불가함을 확인하였습니다.

    Korpora==0.2.0 에서는 "개별 말뭉치 신청 > 승인"이 완료되었다고 가정,
    로컬에 다운로드 된 말뭉치를 손쉽게 로딩하는 기능만 제공합니다

    (Korpora 개발진 lovit@github, ratsgo@github)

Attributes
----------
모두의_뉴스_말뭉치(light).train: size=50232
  - 모두의_뉴스_말뭉치(light).train.texts : list[str]
  - 모두의_뉴스_말뭉치(light).train.titles : list[str]
  - 모두의_뉴스_말뭉치(light).train.document_ids : list[str]


================================================================================

Loading Spoken: 100%|██████████| 4/4 [00:00<00:00, 378.07it/s]
ModuSpokenKorpus
    모두의 말뭉치는 문화체육관광부 산하 국립국어원에서 제공하는 말뭉치로
    총 13 개의 말뭉치로 이뤄져 있습니다.

    해당 말뭉치를 이용하기 위해서는 국립국어원 홈페이지에 가셔서 "회원가입 > 말뭉치 신청 > 승인"의
    과정을 거치셔야 합니다.

    https://corpus.korean.go.kr/#none

    모두의 말뭉치는 승인 후 다운로드 가능 기간 및 횟수 (3회) 에 제한이 있습니다.

    로그인 기능 및 Korpora 패키지에서의 다운로드 기능을 제공하려 하였지만,
    국립국어원에서 위의 이유로 이에 대한 기능은 제공이 불가함을 확인하였습니다.

    Korpora==0.2.0 에서는 "개별 말뭉치 신청 > 승인"이 완료되었다고 가정,
    로컬에 다운로드 된 말뭉치를 손쉽게 로딩하는 기능만 제공합니다

    (Korpora 개발진 lovit@github, ratsgo@github)

Attributes
----------
모두의_구어_말뭉치.train: size=21
  - 모두의_구어_말뭉치.train.texts : list[str]


================================================================================

Loading ModuWeb: 100%|██████████| 4/4 [00:00<00:00, 108.30it/s]
ModuWebKorpus
    모두의 말뭉치는 문화체육관광부 산하 국립국어원에서 제공하는 말뭉치로
    총 13 개의 말뭉치로 이뤄져 있습니다.

    해당 말뭉치를 이용하기 위해서는 국립국어원 홈페이지에 가셔서 "회원가입 > 말뭉치 신청 > 승인"의
    과정을 거치셔야 합니다.

    https://corpus.korean.go.kr/#none

    모두의 말뭉치는 승인 후 다운로드 가능 기간 및 횟수 (3회) 에 제한이 있습니다.

    로그인 기능 및 Korpora 패키지에서의 다운로드 기능을 제공하려 하였지만,
    국립국어원에서 위의 이유로 이에 대한 기능은 제공이 불가함을 확인하였습니다.

    Korpora==0.2.0 에서는 "개별 말뭉치 신청 > 승인"이 완료되었다고 가정,
    로컬에 다운로드 된 말뭉치를 손쉽게 로딩하는 기능만 제공합니다

    (Korpora 개발진 lovit@github, ratsgo@github)

Attributes
----------
모두의_웹_말뭉치.train: size=278
  - 모두의_웹_말뭉치.train.texts : list[str]


================================================================================

Loading Written: 100%|██████████| 4/4 [00:00<00:00, 107.91it/s]
ModuWrittenKorpus
    모두의 말뭉치는 문화체육관광부 산하 국립국어원에서 제공하는 말뭉치로
    총 13 개의 말뭉치로 이뤄져 있습니다.

    해당 말뭉치를 이용하기 위해서는 국립국어원 홈페이지에 가셔서 "회원가입 > 말뭉치 신청 > 승인"의
    과정을 거치셔야 합니다.

    https://corpus.korean.go.kr/#none

    모두의 말뭉치는 승인 후 다운로드 가능 기간 및 횟수 (3회) 에 제한이 있습니다.

    로그인 기능 및 Korpora 패키지에서의 다운로드 기능을 제공하려 하였지만,
    국립국어원에서 위의 이유로 이에 대한 기능은 제공이 불가함을 확인하였습니다.

    Korpora==0.2.0 에서는 "개별 말뭉치 신청 > 승인"이 완료되었다고 가정,
    로컬에 다운로드 된 말뭉치를 손쉽게 로딩하는 기능만 제공합니다

    (Korpora 개발진 lovit@github, ratsgo@github)

Attributes
----------
모두의_문어_말뭉치.train: size=12509
  - 모두의_문어_말뭉치.train.texts : list[str]


================================================================================
lovit commented

(python manual.py fetch)

[Korpora] Corpus `kcbert` is already installed at ~/Korpora/kcbert/kcbert-train.tar.gzaa
[Korpora] Corpus `kcbert` is already installed at ~/Korpora/kcbert/kcbert-train.tar.gzab
[Korpora] Corpus `kcbert` is already installed at ~/Korpora/kcbert/kcbert-train.tar.gzac
[Korpora] Corpus `korean_chatbot_data` is already installed at ~/Korpora/korean_chatbot_data/ChatbotData.csv
[Korpora] Corpus `korean hate speech` is already installed at ~/Korpora/korean_hate_speech/unlabeled/unlabeled_comments_1.txt
[Korpora] Corpus `korean hate speech` is already installed at ~/Korpora/korean_hate_speech/unlabeled/unlabeled_comments_2.txt
[Korpora] Corpus `korean hate speech` is already installed at ~/Korpora/korean_hate_speech/unlabeled/unlabeled_comments_3.txt
[Korpora] Corpus `korean hate speech` is already installed at ~/Korpora/korean_hate_speech/unlabeled/unlabeled_comments_4.txt
[Korpora] Corpus `korean hate speech` is already installed at ~/Korpora/korean_hate_speech/unlabeled/unlabeled_comments_5.txt
[Korpora] Corpus `korean hate speech` is already installed at ~/Korpora/korean_hate_speech/news_title/unlabeled_comments.news_title_1.txt
[Korpora] Corpus `korean hate speech` is already installed at ~/Korpora/korean_hate_speech/news_title/unlabeled_comments.news_title_2.txt
[Korpora] Corpus `korean hate speech` is already installed at ~/Korpora/korean_hate_speech/news_title/unlabeled_comments.news_title_3.txt
[Korpora] Corpus `korean hate speech` is already installed at ~/Korpora/korean_hate_speech/news_title/unlabeled_comments.news_title_4.txt
[Korpora] Corpus `korean hate speech` is already installed at ~/Korpora/korean_hate_speech/news_title/unlabeled_comments.news_title_5.txt
[Korpora] Corpus `korean hate speech` is already installed at ~/Korpora/korean_hate_speech/news_title/dev.news_title.txt
[Korpora] Corpus `korean hate speech` is already installed at ~/Korpora/korean_hate_speech/news_title/test.news_title.txt
[Korpora] Corpus `korean hate speech` is already installed at ~/Korpora/korean_hate_speech/news_title/train.news_title.txt
[Korpora] Corpus `korean hate speech` is already installed at ~/Korpora/korean_hate_speech/labeled/dev.tsv
[Korpora] Corpus `korean hate speech` is already installed at ~/Korpora/korean_hate_speech/labeled/train.tsv
[Korpora] Corpus `korean hate speech` is already installed at ~/Korpora/korean_hate_speech/test.no_label.tsv
[Korpora] Corpus `korean_parallel` is already installed at ~/Korpora/korean_parallel/korean-english-park.train.tar.gz
decompress ~/Korpora/korean_parallel/korean-english-park.train.tar.gz
[Korpora] Corpus `korean_parallel` is already installed at ~/Korpora/korean_parallel/korean-english-park.dev.tar.gz
decompress ~/Korpora/korean_parallel/korean-english-park.dev.tar.gz
[Korpora] Corpus `korean_parallel` is already installed at ~/Korpora/korean_parallel/korean-english-park.test.tar.gz
decompress ~/Korpora/korean_parallel/korean-english-park.test.tar.gz
[Korpora] Corpus `korean_petitions` is already installed at ~/Korpora/korean_petitions/petitions_2017-08
[Korpora] Corpus `korean_petitions` is already installed at ~/Korpora/korean_petitions/petitions_2017-09
[Korpora] Corpus `korean_petitions` is already installed at ~/Korpora/korean_petitions/petitions_2017-10
[Korpora] Corpus `korean_petitions` is already installed at ~/Korpora/korean_petitions/petitions_2017-11
[Korpora] Corpus `korean_petitions` is already installed at ~/Korpora/korean_petitions/petitions_2017-12
[Korpora] Corpus `korean_petitions` is already installed at ~/Korpora/korean_petitions/petitions_2018-01
[Korpora] Corpus `korean_petitions` is already installed at ~/Korpora/korean_petitions/petitions_2018-02
[Korpora] Corpus `korean_petitions` is already installed at ~/Korpora/korean_petitions/petitions_2018-03
[Korpora] Corpus `korean_petitions` is already installed at ~/Korpora/korean_petitions/petitions_2018-04
[Korpora] Corpus `korean_petitions` is already installed at ~/Korpora/korean_petitions/petitions_2018-05
[Korpora] Corpus `korean_petitions` is already installed at ~/Korpora/korean_petitions/petitions_2018-06
[Korpora] Corpus `korean_petitions` is already installed at ~/Korpora/korean_petitions/petitions_2018-07
[Korpora] Corpus `korean_petitions` is already installed at ~/Korpora/korean_petitions/petitions_2018-08
[Korpora] Corpus `korean_petitions` is already installed at ~/Korpora/korean_petitions/petitions_2018-09
[Korpora] Corpus `korean_petitions` is already installed at ~/Korpora/korean_petitions/petitions_2018-10
[Korpora] Corpus `korean_petitions` is already installed at ~/Korpora/korean_petitions/petitions_2018-11
[Korpora] Corpus `korean_petitions` is already installed at ~/Korpora/korean_petitions/petitions_2018-12
[Korpora] Corpus `korean_petitions` is already installed at ~/Korpora/korean_petitions/petitions_2019-01
[Korpora] Corpus `korean_petitions` is already installed at ~/Korpora/korean_petitions/petitions_2019-02
[Korpora] Corpus `korean_petitions` is already installed at ~/Korpora/korean_petitions/petitions_2019-03
[Korpora] Corpus `kornli` is already installed at ~/Korpora/kornli/multinli.train.ko.tsv
[Korpora] Corpus `kornli` is already installed at ~/Korpora/kornli/snli_1.0_train.ko.tsv
[Korpora] Corpus `kornli` is already installed at ~/Korpora/kornli/xnli.dev.ko.tsv
[Korpora] Corpus `kornli` is already installed at ~/Korpora/kornli/xnli.test.ko.tsv
[Korpora] Corpus `korsts` is already installed at ~/Korpora/korsts/sts-train.tsv
[Korpora] Corpus `korsts` is already installed at ~/Korpora/korsts/sts-dev.tsv
[Korpora] Corpus `korsts` is already installed at ~/Korpora/korsts/sts-test.tsv
[Korpora] Corpus `kowikitext` is already installed at ~/Korpora/kowikitext/kowikitext_20200920.train.zip
[Korpora] Corpus `kowikitext` is already installed at ~/Korpora/kowikitext/kowikitext_20200920.train
[Korpora] Corpus `kowikitext` is already installed at ~/Korpora/kowikitext/kowikitext_20200920.test.zip
[Korpora] Corpus `kowikitext` is already installed at ~/Korpora/kowikitext/kowikitext_20200920.test
[Korpora] Corpus `kowikitext` is already installed at ~/Korpora/kowikitext/kowikitext_20200920.dev.zip
[Korpora] Corpus `kowikitext` is already installed at ~/Korpora/kowikitext/kowikitext_20200920.dev
[Korpora] Corpus `namuwikitext` is already installed at ~/Korpora/namuwikitext/namuwikitext_20200302.train.zip
[Korpora] Corpus `namuwikitext` is already installed at ~/Korpora/namuwikitext/namuwikitext_20200302.train
[Korpora] Corpus `namuwikitext` is already installed at ~/Korpora/namuwikitext/namuwikitext_20200302.test.zip
[Korpora] Corpus `namuwikitext` is already installed at ~/Korpora/namuwikitext/namuwikitext_20200302.test
[Korpora] Corpus `namuwikitext` is already installed at ~/Korpora/namuwikitext/namuwikitext_20200302.dev.zip
[Korpora] Corpus `namuwikitext` is already installed at ~/Korpora/namuwikitext/namuwikitext_20200302.dev
[Korpora] Corpus `naver_changwon_ner` is already installed at ~/Korpora/naver_changwon_ner/train_data
[Korpora] Corpus `nsmc` is already installed at ~/Korpora/nsmc/ratings_train.txt
[Korpora] Corpus `nsmc` is already installed at ~/Korpora/nsmc/ratings_test.txt
[Korpora] Corpus `question_pair` is already installed at ~/Korpora/question_pair/kor_pair_train.csv
[Korpora] Corpus `question_pair` is already installed at ~/Korpora/question_pair/kor_pair_test.csv
[Korpora] [open_subtitles] Failed to download. Re-try again
[Korpora] [open_subtitles] error messgae: HTTP Error 503: Service Unavailable
lovit commented

@ratsgo local test code 입니다. 참고바랍니다.