boostcampaitech5/level3_nlp_finalproject-nlp-08

[FEAT] 데이터 파이프라인 고도화

mjk0618 opened this issue · 0 comments

Background

  • 크롤러 코드를 고도화하여, 데이터 파이프라인 구축 시 정밀하게 통제할 수 있도록 여러 기능을 추가

Todo

  • 쉘 스크립트를 사용하여 자동화 프로세스 구축
  • 게시물 id를 pickle파일에 저장하고, 새롭게 크롤링을 수행할 때 이미 존재하는 데이터에 대한 id일 경우 크롤링 예외 처리
  • 멀티 쓰레딩, 멀티 프로세싱 적용
  • 코드 리팩토링