/ds_pop_estate_analysis

data science project of population and real estate price regression analysis

Primary LanguageJupyter Notebook

행정구역별 인구이동 동향과 아파트 실거래가의 상관관계 분석

  • 행정구역별로 인구이동 동향을 분석하여 아파트 실거래가 중앙값을 예측
  • 아파트 실거래가 데이터의 경우 국토교통부, 인구이동 데이터의 경우 통계청 마이크로 데이터 통합서비스에서 각각 추출
  • 더 자세한 과정은 파트별로 각각의 ipynb 파일 안에 코멘트 되어 있음

01. 아파트 실거래가 데이터 전처리

  • 필요 칼럼 추출
  • 데이터 오류 수정
  • 행정구역 주소 지역코드로 변경

02. 인구이동 동향 데이터 전처리

  • 데이터 오류 수정
  • (연도, 행정구역)으로 피쳐 임베딩

03. 데이터 통합 전처리

  • 두 데이터셋 사이의 행정구역 지역코드 차이 수정

04. 데이터 통합

  • 아파트 실거래가 데이터도 (연도, 행정구역)으로 피쳐 임베딩 시행
  • 두개의 데이터셋을 하나의 데이터셋으로 통합

05. 초기 선형회귀분석

  • 선형성를 확인하기 위해 아파트 실거래가에 대한 선형회기 분석 시행
  • 결과 그래프로 비선형성을 확인

06. 시계열 클러스터링

  • "수도권"과 "비수도권"으로 나뉘는 실거래가 가격추세의 차이를 확인
  • k-means clustering을 사용하여 자동으로 행정구역 분류

07. 선형회기 분석

  • 06에서 분류된 행정구역별로 아파트 실거래가의 로그에 대한 선형회기 분석 시행
  • 그래프로 성공적인 선형 예측 확인