초기 데이터 획득 자동화
Closed this issue · 1 comments
목적
여행지 별로 리뷰모음 형태로 크롤링해서 모아주세요.
사용자 스토리(이유, 가치)
초기 데이터를 토대로 탐색적 분석과, 머신러닝을 실험해볼 수 있습니다.
초기 데이터를 가지고 탐색적 시각화를 하고, 대량 데이터로 시각화를 자동화할 수 있는지 실험해볼 수 있습니다.
방식, 범위
200위까지 데이터.
트립어드바이저에는 여행자 평가 종합 지표를 이용한 순위가 있습니다. 200위 이하는 리뷰가 너무 적어서 거의 분석할 가치가 없어요.
물론 이러한 즐길거리가 왜 리뷰가 적고, 인지도가 떨어지는지 언젠가는 분석할 필요가 있습니다. 총 여행지가 962개나 되니까요. 하지만 지금 당장은 필요 없습니다.
파일 제목 ex Changdeokgung_Palace Sights & Landmarks_.csv
- 즐길거리 이름
- 즐길거리 분류
파일 내용(dataframe ↔ csv)
각 행. 리뷰 하나
1열. 리뷰 별점
2열. 리뷰 제목
3열. 리뷰 내용
4열. Date of experience (여행한 시기)
제외. 결측치 이슈 #10 참조
helpful votes 숫자
contributions 숫자 (저장, 공유, 도움이 되어요 누른 수 총 합)
리뷰어 사는 곳
Traveler type은 일단 제외합니다.
주의사항
크롤러에 멈춤을 넣어주세요.
즐길거리 목록 중간에 광고도 있는데 if문으로 걸러주세요.
다음 행동
- 셀레니움 배우기
- 리스트에서 페이지 선택하기
- 리뷰 더 보기 see more
- 뒤로가기.
- 다음 리스트 항목 선택
- 반복
- 리스트 더 보기 see more
- 반복
- 리스트 다음 페이지로 넘어가기
- 반복
- 뷰티풀수프 배우기
- HTML 긁어오기
- soup 만들기
- 모든 리뷰의 항목 별 리스트 만들기
- 리스트 합쳐서 데이터 프레임 만들기
- 파일시스템
- 데이터 프레임 csv로 저장하기
목표 달성.
크롤링 함수는 각 반복 단계별로 구현되었습니다.
페이지 넘기기
페이지 읽어오기
즐길거리 읽어오기
리뷰들 읽어오기
각 함수는 필요에 맞게 조정과 개조가 가능합니다.
각각 어떤 데이터를 입력 받아서, 어떤 데이터를 출력하는지 docstring으로 작성해두었습니다.
남은 문제는 새 이슈로 작성.