CONTENTS

  • APnlp에 사용되는 다양한 tools.

Custom.

  • list2json : GB단위의 json 데이터 셋(list of dictionary)을 기준 크기에 맞게 쪼개는 함수.
  • uploads_to_s3 : 특정 디렉토리에 있는 파일들을 디렉토리째로 s3로 업로드하는 함수.
  • DatasetFromS3 : s3에서 학습에 사용할 데이터셋을 다운로드하는 클래스.
  • TextPreprocessor : 모델링에 적합한 데이터셋을 만드는 클래스.

Wiki data extractor