/dvc-test

Testando uso do dvc

Primary LanguagePython

dvc-test

Projeto para testar uso do DVC com repositório remoto no bucket S3 da AWS.

O objetivo desse projeto não foi construir um modelo robusto de ML realizando análises complexas. Foi exclusivamente para testar o uso de DVC e suas aplicações práticas de construção de pipelines para projetos de ML.

Neste projeto foi construído um pipeline simples de Machine Learning, com 4 estágios, para a classificação do dataset Íris: data_load, data_preprocess, train, test. Cada estágio é responsável por uma etapa diferente e possui suas dependências e saídas de dados monitoradas pelo DVC.

  • data_load: Estágio para ler os dados do dataste Iris, separar inputs de outputs e salvá-los em arquivos csv.

  • data_preprocess: Estágio que separa os dados em treino e teste e aplica o pré processamento de Standardization nos dados. Ao final o estágio salva os dados e o scaler para serem usados na sequência.

  • train: Estágio para treinr o modelo de SVM com os dados de treino, utilizando os parâmetros definidos em params.yaml. Ao final do treinamento o modelo é salvo para uso na etapa de teste.

  • teste: Estágio para testar o modelo criado e salvar as métricas calculadas.

Os estágios são implementados no arquivo dvc.yaml constituindo um pipeline quando se conectam entre si. Nele definimos as dependências, as saídas, os parâmetros e as métricas de cada estágio que serão rastreadas pelo DVC.