/sixat

πŸš– λͺ¨λΉŒλ¦¬ν‹° 데이터 ν™œμš© 데이터 μ—”μ§€λ‹ˆμ–΄λ§ ν”„λ‘œμ νŠΈ 🚘

Primary LanguageJupyter Notebook

Hits

image

Welcome to SIXAT πŸ™‹πŸ»β€β™‚οΈ

문제 μ •μ˜

  • λŒ€μš©λŸ‰ λ°μ΄ν„°μ—μ„œμ˜ 아킀텍쳐λ₯Ό μ„€κ³„ν•˜κ³  νŒŒμ΄ν”„λΌμΈμ„ κ΅¬μΆ•ν•˜λŠ” λͺ©μ μœΌλ‘œμ˜ ν”„λ‘œμ νŠΈμ΄λ‹€.
  • λͺ¨λΉŒλ¦¬ν‹° 데이터λ₯Ό ν™œμš©ν•˜μ—¬ 이동 μ‹œκ°„ ν˜Ήμ€ νƒμ‹œ μš”κΈˆμ„ 예츑 ν•œλ‹€λŠ” 가섀을 μ„Έμ› λ‹€.
  • 무거운 λ¨Έμ‹ λŸ¬λ‹κ³Ό 같은 ν”„λ‘œμ„ΈμŠ€λŠ” μ˜€ν”„λΌμΈ 배치 ν”„λ‘œμ„Έμ‹±μœΌλ‘œ ν•™μŠ΅ν•˜κ³ , 이동 μ‹œκ°„ 및 νƒμ‹œ μš”κΈˆμ€ μ‹€μ‹œκ°„μœΌλ‘œ μ˜ˆμΈ‘ν•˜λŠ” νŒŒμ΄ν”„λΌμΈμ„ λ§Œλ“€ 것이닀.

νŒŒμ΄ν”„λΌμΈ

image

  • ν˜„μž¬λŠ” 슀파크λ₯Ό ν†΅ν•œ λŒ€μš©λŸ‰ 데이터 λΆ„μ‚° 처리 및 μ—μ–΄ν”Œλ‘œμš°λ₯Ό μ΄μš©ν•œ μ˜€μΌ€μŠ€νŠΈλ ˆμ΄μ…˜κΉŒμ§€λ§Œ κ΅¬ν˜„ν–ˆλ‹€.
  • λ°μ΄ν„°λ‘œ λ‰΄μš• TRC 트립 기둝 데이터λ₯Ό μ΄μš©ν•œλ‹€.(맀달 νƒμ‹œμ™€ 리무진 기둝을 λ°œν‘œν•˜λ©°, 10λ…„ μ΄μƒμ˜ νƒμ‹œμ™€ λͺ¨λΉŒλ¦¬ν‹° μ„œλΉ„μŠ€κ°€ κΈ°λ‘λ˜μ–΄ 있고, 맀년 20GB μ •λ„μ˜ 데이터셋이 μŒ“μΈλ‹€.)
  • μˆ˜μ§‘λœ 데이터λ₯Ό 슀파크 SQL을 톡해 ν”„λ¦¬ν”„λ‘œμ„Έμ‹±μ„ μ§„ν–‰ν•˜κ³ , μ •λ¦¬ν•œ λ°μ΄ν„°λ‘œ 슀파크 MLlib을 톡해 λ¨Έμ‹ λŸ¬λ‹ λͺ¨λΈλ§μ„ 진행 ν›„ μ €μž₯ν–ˆλ‹€.
  • 슀파크둜 κ΅¬ν˜„ν•œ λͺ¨λ“  과정을 μžλ™ν™”ν•  수 μžˆλ„λ‘ μ—μ–΄ν”Œλ‘œμš° ν…ŒμŠ€ν¬λ‘œ κ΅¬ν˜„ν•˜μ˜€λ‹€.

쀑간 회고

  • λŒ€μš©λŸ‰μ˜ 데이터λ₯Ό λΉ λ₯΄κ²Œ μ²˜λ¦¬ν•˜λŠ” 기술인 λΆ„μ‚° 처리 μ‹œμŠ€ν…œμ„ 읡히고 μ‹Άμ—ˆλŠ”λ°, 사싀 κ³΅λΆ€ν•˜κΈ° μ „μ—” ꡉμž₯히 벽이 λ†’μ•„ λ³΄μ˜€μ§€λ§Œ κ³΅λΆ€ν•˜κ³  λ³΄λ‹ˆ λ‹€λ£¨λŠ”κ²Œ 생각보닀 κΉŒλ‹€λ‘­μ§€ μ•Šμ•˜κ³ , νŠΈλŸ¬λΈ” μŠˆνŒ…λ„ μ‰½κ²Œ ν•΄κ²°λ˜μ–΄μ„œ ν”„λ‘œμ νŠΈ 자체λ₯Ό 진행함에 ꡉμž₯히 λ§Œμ‘±ν•˜λŠ” 쀑이닀.
  • μ—μ–΄ν”Œλ‘œμš°λ„ λ§ˆμ°¬κ°€μ§€λ‘œ 잘만 닀룬닀면, μŠ€μΌ€μ₯΄λ§μ— μžˆμ–΄μ„œ ν™œμš©λ„κ°€ 높을 것 κ°™λ‹€λŠ” 생각을 ν–ˆλ‹€.
  • μ•žμœΌλ‘œ 카프카와 ν”Œλ§ν¬λ₯Ό 톡해 μ‹€μ‹œκ°„μœΌλ‘œ μ²˜λ¦¬ν•˜λŠ” 것을 진행할텐데, κΈ°λŒ€κ°€ 많이 λœλ‹€.