Spark_MR_design_patterns

Implementation of MapReduce patterns in Spark Pyspark

Summarization pattern

Filter pattern

Data organization pattern

Join pattern

Dataset: cs stackexcange dataset

Reference: MapReduce Design Patterns, Building Effective Algorithms and Analytics for Hadoop and Other Systems By Donald Miner, Adam Shook

drangons/Spark_MR_design_patterns