Utilizando o Spark para o desenvolvimento de algoritmos de Machine Learning (Regressão Linear e Regressão Logistica) com Java através do HDFS, para o trabalho final do 1º semestre de Infraestrutura de Big Data.
Este primeiro algoritmo, se trata de um algoritmo de Regressão Linear, nele fui capaz de treinar uma base de dados de vendas de jogos e predizer as vendas em milhões de dólares, dos jogos no país do Japão, calculando também o erro quadrático médio.
Utilizei como referência essa base de vendas de jogos do Kaggle: https://www.kaggle.com/datasets/gregorut/videogamesales
Este segundo algoritmo, de Regressão Linear, fui capaz de treinar uma base de dados de cogumelos e predizer o erro quadrático médio da probabilidade dos cogumelos, serem consumíveis ou venenosos.
Utilizei como referência essa base de dados de cogumelos: https://www.kaggle.com/datasets/uciml/mushroom-classification
Este terceiro algoritmo, de Regressão Logística, fui capaz de treinar uma base de dados de cogumelos e utilizando classificador RandomForest, a acurácia e matriz de confusão com e sem PCA e a categorização dos cogumelos.