/aicloud-examples

Примеры distributed machine learning с помощью сервиса AICloud

Primary LanguageJupyter NotebookMIT LicenseMIT

Примеры работы с сервисом AI Cloud от SberCloud

В репозитории приведены примеры использования сервиса AI Cloud для решения ML задач.

Model Training (обучение моделей)

Базовые примеры размещены в директории quick-start. Они иллюстрируют процесс обучения моделей одним из указанных способов:

  1. Напрямую из Jupyter-ноутбука, подключенного к GPU.

    Пример доступен по ссылке: Обучение модели в ноутбуке с GPU.

  2. Посредством отправки задачи обучения на кластер.

    Обучение модели через Training Job API.

У каждого из этих способов обучения есть свои преимущества. Так при отправке задачи обучения на кластер можно задействовать до 1000 GPU, в случае обучения напрямую из Jupyter-ноутбука максимальное количество выделенных GPU — 16. Однако обучение из Jupyter-ноутбука на выделенных GPU проще и удобнее для пользователя (не требуется знакомство с библиотекой Horovod). Есть некоторые отличия в плане тарификации. При обучении из Jupyter-ноутбука на выделенных GPU взимается оплата до удаления ноутбука, даже если он не используется. При отправке задачи обучения на кластер пользователь платит за фактическое время исполнения задачи: от старта до окончания обучения.

Дополнительные примеры обучения моделей, доступные для использования:

  • В папке pytorch-example рассмотрен пример задачи распределенного обучения Pytorch-модели с двумя типами запуска: horovod (стандартный способ) и дополнительный тип запуска pytorch (он же Pytorch.Distributed).

Предпроцессинг данных