Regressão Linear e Logistica utilizando o Spark com Java

Link do projeto no meu site

Utilizando o Spark para o desenvolvimento de algoritmos de Machine Learning (Regressão Linear e Regressão Logistica) com Java através do HDFS, para o trabalho final do 1º semestre de Infraestrutura de Big Data.

Regressão Linear com vendas de jogos

Este primeiro algoritmo, se trata de um algoritmo de Regressão Linear, nele fui capaz de treinar uma base de dados de vendas de jogos e predizer as vendas em milhões de dólares, dos jogos no país do Japão, calculando também o erro quadrático médio.

Utilizei como referência essa base de vendas de jogos do Kaggle: https://www.kaggle.com/datasets/gregorut/videogamesales

Regressão Linear com dados de cogumelos

Este segundo algoritmo, de Regressão Linear, fui capaz de treinar uma base de dados de cogumelos e predizer o erro quadrático médio da probabilidade dos cogumelos, serem consumíveis ou venenosos.

Utilizei como referência essa base de dados de cogumelos: https://www.kaggle.com/datasets/uciml/mushroom-classification

Regressão Logistica com dados de cogumelos

Este terceiro algoritmo, de Regressão Logística, fui capaz de treinar uma base de dados de cogumelos e utilizando classificador RandomForest, a acurácia e matriz de confusão com e sem PCA e a categorização dos cogumelos.

alexandremcastro/Java-Spark-Regressao

Regressão Linear e Logistica utilizando o Spark com Java

Regressão Linear com vendas de jogos

Regressão Linear com dados de cogumelos

Regressão Logistica com dados de cogumelos