/pyspark-recipe-zhcn

pyspark-recipes 中文

Primary LanguagePython

pyspark-recipe-zhcn

Pyspark Basic Useage - PySpark基础使用

spark-基础构架
spark-Rdd编程模型
spark中的RDD操作
spark常见操作和数据持久化
spark数据读取和保存
spark-支持的文件系统和sparkSql

PySpark Core Class - PySpark核心类

pyspark.SparkContext
pyspark.RDD
pyspark.streaming.StreamingContext
pyspark.streaming.DStream
pyspark.sql.SparkSession
pyspark.sql.SQLContext
pyspark.sql.DataFrame

PySpark Operator Step

前言
1-装载数据
2-数据操作-RDD
3-数据操作-Streaming
3-数据操作-DStream
4-数据操作-DataFrame
5-数据操作-SQL
6-MLlib使用
7-数据保存

PySpark ML

线性回归-LinearRegression
逻辑回归-LogisticRegression
随机森林-RandomForests
推荐系统-RecommenderSystems
分类-Clustering