πŸ‘©β€βš•οΈ Health-Care-Big-Data-Project πŸ‘¨β€βš•οΈ

Overview

  • Organization : POSCO AI BIG DATA ACADEMY
  • Industry : Health
  • Project Title : μ€‘μ¦μ§ˆν™˜ μœ„ν—˜λ„ 예츑 λͺ¨λΈ 개발 및 μœ„ν—˜λ„ μˆ˜μ€€λ³„ 맞좀 의료 μ„œλΉ„μŠ€ 제곡으둜 ν—¬μŠ€μΌ€μ–΄ μ‹œμž₯ 선점
  • Project Description : 2016λ…„ κΈ°μ€€ 건강검진 μˆ˜κ²€μžμ˜ 기본정보(μ„±, μ—°λ ΉλŒ€, μ‹œλ„μ½”λ“œ λ“±)와 검진내역(μ‹ μž₯, μ½œλ ˆμŠ€ν…Œλ‘€, ν˜ˆμƒ‰μ†Œ λ“±) 데이터λ₯Ό ν™œμš©ν•œ μ€‘μ¦μ§ˆν™˜ λ°œλ³‘ μœ„ν—˜μˆ˜μ€€ 예츑 및 κ°œμ„ μ•ˆ λ„μΆœ
  • Author(s) : λ°•κ·œλ™, 곡은비, κΉ€κ·œλ¦¬, 김솑일, λ°•λ³‘μˆ˜, μ΄μˆ˜μ§„
  • Date : 19/11/04 ~ 19/11/15

Dataset

  • health_data.csv : ꡭ가건강검진정보 개인 건강검진 κ²°κ³Ό 데이터 100만 건 쀑 7만 건 랜덀 μΆ”μΆœ
  • cell_img.csv : μ•…μ„±/μ–‘μ„±μ’…μ–‘ 세포 MRI 이미지 데이터
  • hospital_basic_info.csv : μ „κ΅­ μ‹œλ„λ³„ 병원 μœ„μΉ˜ 정보 데이터
  • hospital_medical_sub_spec.csv : 병원 μ§„λ£Œ κ³Όλͺ© 정보 데이터

πŸ“† Timeline

date day note
19/11/04 mon ν—¬μŠ€μΌ€μ–΄ λΉ„μ¦ˆλ‹ˆμŠ€ 상황 뢄석, 좔진배경 μž‘μ„±
19/11/05 tue ν˜„ν™© 및 κ°œμ„ κΈ°νšŒ μž‘μ„±
19/11/06 wed 데이터 μ…‹ 확인, μ›Ή κ΅¬ν˜„ μ‹œμž‘
19/11/07 thur 도메인 지식, λ³€μˆ˜ νŒŒμ•…, νŒŒμƒλ³€μˆ˜ 생성, νƒœλΈ”λ‘œ μ‹œκ°ν™”
19/11/08 fri λ³€μˆ˜ νŒŒμ•… 및 탐색적 뢄석, 좔진배경 μž¬μž‘μ„±, ꡬ글 API 병원 μœ„μΉ˜ 정보 지도 μ‹œκ°ν™”, νƒœλΈ”λ‘œ μ‹œκ°ν™”, μ•” 진단 λͺ¨λΈλ§
19/11/09 sat 탐색적 뢄석 및 μΈμ‚¬μ΄νŠΈ λ„μΆœ
19/11/10 sum 탐색적 뢄석 ν›„ 뢄석 λ°©ν–₯에 λŒ€ν•œ κ³ λ―Ό, 데이터셋 톡합 μ‹œλ„
19/11/11 mon HRA 발견, μ‹¬λ‡Œν˜ˆκ΄€μ§ˆν™˜ μœ„ν—˜λ„ 계산, λŒ€μ‚¬μ¦ν›„κ΅° λͺ¨λΈλ§, μ•” λͺ¨λΈλ§(LR, DT, RF, GB, XGB)
19/11/12 tue μ‹¬λ‡Œν˜ˆκ΄€μ§ˆν™˜ μœ„ν—˜λ„ 계산, λŒ€μ‚¬μ¦ν›„κ΅° λͺ¨λΈλ§, μ•” λͺ¨λΈλ§, 카이제곱 κ²€μ •μœΌλ‘œ 지역별 μ˜λ£ŒμΈν”„λΌ 차이 확인
19/11/13 wed μΉ΄μ΄μ œκ³±κ²€μ •, PPT ꡬ성
19/11/14 thur μ΅œμ’… PPT μ™„μ„±
19/11/15 fri μ΅œμ’… λ°œν‘œ

Notebooks and Analysis

The project includes the following notebooks (data manipulation and analysis):

It is recommended to view the notebooks in the above order to avoid missing out on code explainations.

Tech

The following technologies were used for this part of the project:

  • Python 3
  • iPython Notebooks: For interactive code development and result presentation.
  • Pandas: Python package for data analysis.
  • Matplotlib and Seaborn: Python 2D plotting library.

πŸ—„οΈ Reference

# title source note
1 ꡭ가건강검진 κ±΄κ°•μœ„ν—˜ν‰κ°€ κ°œμ„  μ§ˆλ³‘κ΄€λ¦¬λ³ΈλΆ€ health_data λ³€μˆ˜ μ „μ²˜λ¦¬ μ°Έκ³ , μ‹¬λ‡Œν˜ˆκ΄€μ§ˆν™˜ μœ„ν—˜λ„ 계산
2 κ΅­κ°€μ€‘μ κ°œλ°©λ°μ΄ν„° μ‚¬μš©μž 맀뉴얼(ver4.0) κ΅­λ―Όκ±΄κ°•λ³΄ν—˜κ³΅λ‹¨ λΉ…λ°μ΄ν„°μš΄μ˜μ‹€ health_data λ³€μˆ˜ νŒŒμ•…
3 λŒ€ν•œμ§„λ‹¨κ²€μ‚¬ν•™νšŒ λŒ€ν•œκ²€μ‚¬μ˜ν•™νšŒ 각 μ§ˆλ³‘ 진단 기쀀을 νŒŒμ•…ν•˜μ—¬ νŒŒμƒλ³€μˆ˜ 생성
4 λΌμ΄ν”„μ‹œλ§¨ν‹±μŠ€ λΌμ΄ν”„μ‹œλ§¨ν‹±μŠ€ 데이터 뢄석 ν›„ κ°œμ„ μ•ˆ 수립 μ‹œ μ°Έμ‘°
5 λ©”νŠΈλΌμ΄ν”„ λ©”νŠΈλΌμ΄ν”„ 데이터 뢄석 ν›„ κ°œμ„ μ•ˆ 수립 μ‹œ μ°Έμ‘°
6 직μž₯μ—μ„œμ˜ λ‡ŒΒ·μ‹¬ν˜ˆκ΄€κ³„μ§ˆν™˜ μ˜ˆλ°©μ„ μœ„ν•œ λ°œλ³‘μœ„ν—˜λ„ 평가 및 사후관리지침 ν•œκ΅­μ‚°μ—…μ•ˆμ „λ³΄κ±΄κ³΅λ‹¨ μ‹¬λ‡Œν˜ˆκ΄€μ§ˆν™˜ 예츑 λͺ¨λΈμ„ λ§Œλ“€κΈ° μœ„ν•΄ μ°Έκ³ 
7 일반적으둜 잘 μ•Œλ €μ Έ μžˆλŠ” μ‹¬ν˜ˆκ΄€μ§ˆν™˜μ˜ μœ„ν—˜μΈμž λŒ€ν•œμ‹¬μž₯ν•™νšŒ μ€‘μ¦μ§ˆν™˜μ˜ μ£Όμš” μœ„ν—˜μΈμžμΈ λŒ€μ‚¬μ¦ν›„κ΅° 진단 κΈ°μ€€ μ°Έκ³ 

πŸ”— Appendix

ꡭ가건강검진 κ±΄κ°•μœ„ν—˜ν‰κ°€ κ°œμ„  μ°Έκ³  νŽ˜μ΄μ§€

p.37~64 예츑 λͺ¨ν˜•μ— λŒ€ν•œ μ„€λͺ…
p.82 κΈ°μ‘΄ 예츑 λͺ¨ν˜•
p.100 μƒν™œμŠ΅κ΄€ μš”μΈ μ •μ˜
p.109 μˆ˜κ²€μ—¬λΆ€μ— λ”°λ₯Έ κ±΄κ°•μœ„ν—˜μš”μΈ λ³€ν™”μ—¬λΆ€ 비ꡐ
p.127 (p.144, p.221) HRA 둜직 μˆ˜μ • 및 μ‹œλ²” 적용
p.204 μ„œλΉ„μŠ€ μ˜ˆμ‹œ
p.216 κ²°λ‘  및 λ°œμ „λ°©ν–₯
p.219 슀마트 ν—¬μŠ€μΌ€μ–΄ λΆ„μ•Ό ν™œμš©
p.222 λ³€μˆ˜ μž¬μ •λ¦¬
p.231 κ±΄κ°•μœ„ν—˜μš”μΈ μ•Œμ•„λ³΄κΈ° 평가기쀀
p.233 λ‘œμ§κ³„μ‚° μ˜ˆμ‹œ