twinstae/tripReviewAnalysisSystem

helpful, vote, adress 결측치 문제

Closed this issue · 2 comments

초기 데이터를 검토하다가 리뷰가 100개가 채 안 되는 데이터가 많다는 걸 알았습니다. 알고 보니 제가 이런 예외처리 코드를 넣었는데요...

        except IndexError:
            #아무도 helpful이나 vote를 누르지 않은 에러, 무시하고 계속
            continue
        except AttributeError:
            #주소를 공개하지 않는 에러, 무시하고 계속
            continue
        reviews.append(review)

결측값 처리 문제입니다. 결측치를 그냥 무시하고 빼버렸는데, 이게 생각보다 많았던 거죠. 임시로 도움이 됐어요 데이터를 제외해보니, 200개를 뽑으면 164개 정도가 남습니다. 이게 데이터가 많은 경복궁 같은 경우에는 표본을 더 뽑으면 되지만, 데이터가 적은 곳은 또 문제에요.

그래서 결측치를 NA로 두고 모든 데이터를 수집한 뒤에, 결측치를 어떻게 처리할지는 나중에 정하는 게 좋지 않을까 싶습니다.

문제는 이 기능을 또 구현해야 한다는 거죠!

사용자 스토리

결측치를 NA로 처리함으로서 모든 리뷰 데이터를 모으면서도, 결측치를 원하는 방식으로 처리할 수 있습니다.

다음 행동

결측치를 예외처리하면서도 속도가 너무 느려지지 않게... 기능 구현이 필요합니다. 버그는 아니기 때문에 기능 추가로 이슈 제기합니다.

지금 즐길거리 분류 크롤러에서는 결측치가 나올 가능성이 있는 값마다 try except문을 넣고 있는데 번거롭고 느립니다. 대안을 생각해보겠습니다.

완료