/image-download-crawler

Save images with crawling from Radiopaedia

Primary LanguagePython

image-download-crawler

교육 웹 리소스인 Radiopaedia에서 image를 조건에 맞게 자동으로 다운 받을 수 있는 web crawler

Guide

  • store_link.py

    • 목록에 존재하는 CT&MRI tag를 가진 page의 url을 sqlite에 저장
  • data.sqlite

    • store_link.py를 통해 생성되는 sqlite
    • url과 state(NO, ING, YES) 저장
      • state는 크롤링 완료 상태를 나타냄
      • 크롤링이 시작되면 ING, 완료되면 YES, 크롤링 중 비정상 종료시 NO로 돌아온다.
  • store_image.py

    • Thread로 분할하여 속도 향상
    • data.sqlite에서 크롤링 되지 않은 url에 대하여 크롤링 실행
    • 폴더를 세분화 하여 이미지 저장

Functionality

  • 아래 조건에 맞는 사진을 로컬저장소에 저장
    • Lable : CT & MRI
    • File name : Axial

Requirements

  • Fast network speed
  • Python 3.5
  • BeautifulSoup
    • url을 빠르게 크롤링 하기위해 사용
  • Selenium
    • 웹앱을 테스트하는 framework
    • webdriver api를 통해 운영체제에 설치된 chrome 등의 브라우저를 제어
    • js로 렌더링이 완료된 후의 dom 결과물에 대해 접근이 가능
  • sqlite3