В репозитории приведены примеры использования сервиса AI Cloud для решения ML задач.
Базовые примеры размещены в директории quick-start. Они иллюстрируют процесс обучения моделей одним из указанных способов:
-
Напрямую из Jupyter Server, подключенного к GPU.
Пример доступен по ссылке: Обучение модели в ноутбуке с GPU.
-
Посредством отправки задачи обучения на кластер.
У каждого из этих способов обучения есть свои преимущества. Так при отправке задачи обучения на кластер можно задействовать 1000+ GPU, в случае обучения напрямую из Jupyter Server максимальное количество выделенных GPU — 16. Однако обучение из Jupyter Server на выделенных GPU проще и удобнее для пользователя (не требуется знакомство с библиотекой Horovod). Есть некоторые отличия в плане тарификации. При обучении из Jupyter Server на выделенных GPU взимается оплата до удаления сервера, даже если он не используется. При отправке задачи обучения на кластер пользователь платит за фактическое время исполнения задачи: от старта до окончания обучения.
Дополнительные примеры обучения моделей, доступные для использования:
- В папке pytorch-example рассмотрен пример задачи распределенного обучения Pytorch-модели с двумя типами запуска:
horovod
(стандартный способ) и дополнительный тип запускаpytorch
(он жеPytorch.Distributed
).
- Загрузка/выгрузка данных на S3 в стартовом примере.
- Работа с Rapids, библиотекой, ускоряющей обработку датасетов на GPU.
- С использованием ресурсов кластера Spark. В ноутбуке
Spark_preproc.ipynb
поясняется, как создать SparkSession и SparkContext, загрузить данные на S3 и выполнить препроцессинг этих данных.
В стартовом ноутбуке для AutoML содержится объяснение, как обновить библиотеки autowoe
и lightautoml
, а также как загрузить туториалы из открытых репозиториев на GitHub для знакомства с функционалом библиотек.