/easySpark

版本spark1.6.2 ;spark RDD, spark Graphx,spark sql&DataFrame, spark ML等扩展实现

Primary LanguageScala

easySpark

1.spark RDD, spark Graphx,spark sql&DataFrame, spark ML等API 操作demo.

2.spark graphx 查找二跳节点的实现。 使用pergal接口实现的寻找二跳节点非常的消耗性能。 本文查找二跳节步骤如下:

/** 步骤一:找邻居 * 1). 每个顶点,将自己的id,发送给自己所有的邻居 * 2). 每个顶点,将收到的所有邻居id,合并为一个List * 3). 对新List进行排序,并和原来的图进行关联,附到顶点之上

  • 步骤二:1. 遍历所有的Triplet,对2个好友的有序好友List进行扫描匹配,数出共同好友数,并将其更新到edge之上 */

3.社区发现算法实现 基于spark graphx 和kmean算法实现社区发现

4.sparkstreaming集成kafka,实现容灾消费 同步消费的offset到zookeeper