Сборка кластера Apache Spark и Apache Hadoop для курсов Анализ Больших данных. Кластер Apache Spark предоставляет доступ к JupyterLab в качестве интерфеса.
Для обучения Apache Spark на языках программирования Scala, Python (PySpark) и R (SparkR) .
!!! Максимально просто, в 3 шага: git clone
, docker-compose up
, использовать!
Пример JupyterLab с Apache Spark:
- Установите Docker и Docker Compose, убедитесь, что версии пододят infra версии
- Инфраструктура кластера
Component | Version |
---|---|
Docker Engine | 1.13.0+ |
Docker Compose | 1.10.0+ |
- Jupyter Kernels и языки программирования
Spark | Hadoop | Scala | Scala Kernel | Python | Python Kernel | R | R Kernel |
---|---|---|---|---|---|---|---|
3.x | 3.2 | 2.12.10 | 0.10.9 | 3.7.3 | 7.19.0 | 3.5.2 | 1.1.1 |
2.x | 2.7 | 2.11.12 | 0.6.0 | 3.7.3 | 7.19.0 | 3.5.2 | 1.1.1 |
- Приложения
Component | Version | Docker Tag |
---|---|---|
Apache Spark | 2.4.0 | 2.4.4 | 3.0.0 | <spark-version> |
JupyterLab | 2.1.4 | 3.0.0 | <jupyterlab-version>-spark-<spark-version> |