inzeong/BigData-Spark

스파크 활용 빅데이터 처리 연구

Jupyter Notebook

BigDataSpark

빅데이터를 분산 및 병렬 처리하기 위한 대표적 컴퓨팅 플랫폼인 맵리듀스(MapReduce)를 학습하고
실제로 공개용 맵리듀스 플랫폼인 Spark를 이용하여 병렬 알고리즘을 구현하고 빅데이터를 분석하기

MapReduce & WordCount
Sampling (Simple Random Sampling & Stratified Sampling)
Similarity join
Similarity join을 이용한 친구 추천 알고리즘
PageRank
Kmeans & Clustering
Block Based Page Rank, 효율적인 페이지랭크 계산 알고리즘
Logistic Regression
Data Anlaysis & Visualize 다양한 데이터 분석 및 시각화 활용