/chicago_spark

yandex_practicum_project

Primary LanguageJupyter Notebook

Описание проекта

Проект прогнозирования количества поездок такси по округам города Чикаго (США) с использованием фрэймворка ПиСпарк. Далее некоторые названия будут приводится в киррилице, с учетом сохранения ясности контекста, при необходимости - будут оригинальные названия.

В качестве результата работы по проекту предполагается проведенное исследование в Юпитер-ноутбуке.

Программы, среды и управление.

Папка scripts проекта содержит скрипт для установки и запуска на локальной машине контейнеров с кластером Спарк (сеть, мастер-нода, 4 работника, Юпитер контейнер для разработки).

Инструкция по установке находится там же.

Работа велась в Виндоус 10. В той же папке scripts находятся скрипты для старта, остановки и удаления всего кластера, запускаемые в ПауэрШелл, например, командой .\start_cont.bat. Там же содержится скрипт для вывода информации об установленных виртуальных окружениях и менеджерах пакетов, и для сохранения зависимостей в файл.

Разработка модулей велась в VSCode с установленным плагинами для удаленной разработки (Dev Cotainers, Remote Development) в контейнере Docker, плагин Докер также должен быть установлен.

Подключение ВСКода - к запущенному контейнеру: jupyter_lab

Предполагается разработка в глобальном пространстве (применительно к виртуальным окружениям) контейнера. Т.е. необходимо деактивировать все возможные активные окружения (при их наличии). Используемый менеджер пакетов - Pip. Глобальное пространство контейнера, обозреваемое в терминале ВСКода может не содержать бибиотеку ПиСпарк. Может потребовать установка библиотеки pyspark. В моем случае потребовалось: pip install pyspark==3.4.1

Питон компоненты (архитектура)

Код инструкций питон-программ упакован в модульные файлы в папке ChiSpark, откуда в ноутбук импортируются готовые классы для работы по проекту. Это сделано для сокращения места, занимаего кодом в ноутбуке, а также для возможности в дальнейшем использовать эти модули.