twinstae/tripReviewAnalysisSystem

초기 데이터 획득 자동화

Closed this issue · 1 comments

목적

여행지 별로 리뷰모음 형태로 크롤링해서 모아주세요.

사용자 스토리(이유, 가치)

초기 데이터를 토대로 탐색적 분석과, 머신러닝을 실험해볼 수 있습니다.
초기 데이터를 가지고 탐색적 시각화를 하고, 대량 데이터로 시각화를 자동화할 수 있는지 실험해볼 수 있습니다.

방식, 범위

200위까지 데이터.
트립어드바이저에는 여행자 평가 종합 지표를 이용한 순위가 있습니다. 200위 이하는 리뷰가 너무 적어서 거의 분석할 가치가 없어요.
물론 이러한 즐길거리가 왜 리뷰가 적고, 인지도가 떨어지는지 언젠가는 분석할 필요가 있습니다. 총 여행지가 962개나 되니까요. 하지만 지금 당장은 필요 없습니다.

파일 제목 ex Changdeokgung_Palace Sights & Landmarks_.csv

  1. 즐길거리 이름
  2. 즐길거리 분류

파일 내용(dataframe ↔ csv)
각 행. 리뷰 하나
1열. 리뷰 별점
2열. 리뷰 제목
3열. 리뷰 내용
4열. Date of experience (여행한 시기)

제외. 결측치 이슈 #10 참조
helpful votes 숫자
contributions 숫자 (저장, 공유, 도움이 되어요 누른 수 총 합)
리뷰어 사는 곳

Traveler type은 일단 제외합니다.

주의사항

크롤러에 멈춤을 넣어주세요.
즐길거리 목록 중간에 광고도 있는데 if문으로 걸러주세요.

다음 행동

  • 셀레니움 배우기
    • 리스트에서 페이지 선택하기
    • 리뷰 더 보기 see more
    • 뒤로가기.
    • 다음 리스트 항목 선택
    • 반복
    • 리스트 더 보기 see more
    • 반복
    • 리스트 다음 페이지로 넘어가기
    • 반복
  • 뷰티풀수프 배우기
    • HTML 긁어오기
    • soup 만들기
    • 모든 리뷰의 항목 별 리스트 만들기
    • 리스트 합쳐서 데이터 프레임 만들기
  • 파일시스템
    • 데이터 프레임 csv로 저장하기

목표 달성.
크롤링 함수는 각 반복 단계별로 구현되었습니다.

페이지 넘기기
페이지 읽어오기
즐길거리 읽어오기
리뷰들 읽어오기

각 함수는 필요에 맞게 조정과 개조가 가능합니다.

각각 어떤 데이터를 입력 받아서, 어떤 데이터를 출력하는지 docstring으로 작성해두었습니다.

남은 문제는 새 이슈로 작성.