/BigData-Spark

스파크 활용 빅데이터 처리 연구

Primary LanguageJupyter Notebook

BigDataSpark

빅데이터를 분산 및 병렬 처리하기 위한 대표적 컴퓨팅 플랫폼인 맵리듀스(MapReduce)를 학습하고
실제로 공개용 맵리듀스 플랫폼인 Spark를 이용하여 병렬 알고리즘을 구현하고 빅데이터를 분석하기

  • MapReduce & WordCount
  • Sampling (Simple Random Sampling & Stratified Sampling)
  • Similarity join
  • Similarity join을 이용한 친구 추천 알고리즘
  • PageRank
  • Kmeans & Clustering
  • Block Based Page Rank, 효율적인 페이지랭크 계산 알고리즘
  • Logistic Regression
  • Data Anlaysis & Visualize 다양한 데이터 분석 및 시각화 활용