/WebCrawler

WebCrawlers: WebCrawlers Using python. There are lots of Master codes for Korean websites such as naver, coupang

Primary LanguageJupyter Notebook

Jupyter notebook 기반의 크롤링 마스터코드입니다.

주로 네이버, 쿠팡 등 한국에서 많이 쓰이는 페이지들로 구성되어있으며 페이지 우회 등 크롤링하기 어려운 페이지에 대한 노하우도 중간중간 담았습니다.

모두 Python으로 작성하였습니다.

정적크롤링의 경우 lxml, bs4로 구성하였으며 속도가 빠른 lxml을 주로 활용하였습니다.

동적크롤링의 경우 selenium을 활용하였습니다.

공공데이터 API 등의 데이터도 다루었으며 이들의 호출부터 전체데이터 구축까지 방법론을 명시하였습니다.

chromedriver의 경우 자신 크롬에 맞는 버전을 설치합니다. (제가 사용한 버전은 91버전입니다.)

chrome설정 -> chrome정보를 가시면 자신의 버전을 확인할 수 있습니다