/Crawling_Study

Primary LanguageJupyter Notebook

크롤링(Crawling) 내용정리

  • request<- url 이용
  • selelnium<- 동적 웹브라우저

*서버 <- 클라이언트 (요청) *서버 -> 클라이언트 (응답)

  • HTML -> <tag/ attribute>

  • HTML 태그

    • div : division 구역을 얼마나차지하는지, 버튼선택시
    • span : *td,tr : 테이블.
    • img : 이미지.
    • a : 링크. 다른데로 연결
    • p : 줄글 길게
  • get : 정보를 가져옴. parameter를 가지고 원하는 거 보안x

  • filter -> url

  • post :

  • print(response.status_code)
  • 200 성공 / 200아니면 실패
  • json <- list와 dict 의 혼합. 중괄호{} 부분은 key로 접근. [] 부분은 index로 접근.

프로젝트에 사용한 크롤링 코드

빅콘테스트 2018

  • 영화진흥위원회 크롤링 : link

동아리 project pilot data

  • 공공데이터 api를 이용한 크롤링 : link