/MLDistributed

动手撸各种分布式模式下的ML算法,包括参数服务器,Spark(数据分布式), tensorflow(数据流图)等等

Primary LanguageScala

动手撸各种分布式模式下的分布式机器学习算法:

目前主流的分布式架构包括spark,参数服务器和tensorflow:

1.基于mapreduce模型的spark-mllib,采用数据分布式+同步的模式,缺点是对异步和模型分布式不支持,但是社区完善。

2.基于参数服务器的Multiverso,既可实现数据分布式,也可实现模型分布式,同时支持异步和同步,也可实现大规模的参数更新。

3.基于数据流图的tensorflow,可以和1,2结合组成复杂的分布式机器学习网络。

4.3种模式的区别:

5.各种框架对比图, angel是腾讯开源的参数服务器框架,spark是mapreduce流派的代表,tensorflow和pytorch是数据流图的代表。

参考:《分布式机器学习:算法,理论与实践》刘铁岩



最近更新日期为:2022/1

拒绝白嫖,欢迎star!

笔者组建了个AIOPS技术交流的群,群友遍布硅谷,新加坡,腾讯,阿里,浙大等等,欢迎志同道合的朋友与我联系加入!