В репозитории приведены примеры использования сервиса AI Cloud для решения ML задач.
Базовые примеры размещены в директории quick-start. Они иллюстрируют процесс обучения моделей одним из указанных способов:
-
Напрямую из Jupyter-ноутбука, подключенного к GPU.
Пример доступен по ссылке: Обучение модели в ноутбуке с GPU.
-
Посредством отправки задачи обучения на кластер.
У каждого из этих способов обучения есть свои преимущества. Так при отправке задачи обучения на кластер можно задействовать до 1000 GPU, в случае обучения напрямую из Jupyter-ноутбука максимальное количество выделенных GPU — 16. Однако обучение из Jupyter-ноутбука на выделенных GPU проще и удобнее для пользователя (не требуется знакомство с библиотекой Horovod). Есть некоторые отличия в плане тарификации. При обучении из Jupyter-ноутбука на выделенных GPU взимается оплата до удаления ноутбука, даже если он не используется. При отправке задачи обучения на кластер пользователь платит за фактическое время исполнения задачи: от старта до окончания обучения.
Дополнительные примеры обучения моделей, доступные для использования:
- В папке pytorch-example рассмотрен пример задачи распределенного обучения Pytorch-модели с двумя типами запуска:
horovod
(стандартный способ) и дополнительный тип запускаpytorch
(он жеPytorch.Distributed
).
- Загрузка/выгрузка данных на S3 в стартовом примере.
- Работа с Rapids, библиотекой, ускоряющей обработку датасетов на GPU.