[PT] Projeto desenvolvido com o propósito de utilizar a grande variedade de bibliotecas Python para realizar a construção de um algoritmo de Machine Learning para a classificação dos sentimentos de frases entre Positivo e Negativo.
[EN] Project developed with the purpose of using a wide variety of Python libraries to build a Machine Learning algorithm for classifying the sentiments of sentences between Positive and Negative.
- Python 3.10
- PIP (Python package manager)
- [PT] Clone o repositório: | [EN] Clone the repository:
git clone git@github.com:jorgezanguettin/machine_learning-sentence_classifier.git
- [PT] Navegue para o diretório do projeto: | [EN] Navigate to the project directory:
cd machine_learning-sentence_classifier
- [PT] Crie um ambiente virtual: | [EN] Create a virtual environment:
python -m venv venv
- [PT] Instale as dependencias: | [EN] Install the dependencies:
pip install -r requirements.txt
[PT]
Para rodar o projeto, basta executar o arquivo main.py, que todo o processo de Machine Learning será executado. Execute-o com o seguinte comando:
python main.py
Ao executar esse comando, os seguintes passos serão executadosÇ
- Preparação dos dados - Utilizando PySpark, são realidos filtros e processamentos nos dados do dataset
- Treino do modelo - Utilizando Scikit Learn e Scipy, o modelo será treinado utilizando o conjunto de dados processado
- Predição de dados - Utilizando o modelo ja treinado e salvo, dados desconhecidos são inseridos para o modelo prever entre as duas classes (Positivo e Negativo).
[EN]
To run the project, simply run the main.py file, which carries out the entire Machine Learning process will be executed. Run it with the following command:
python main.py
When executing this command, the following steps will be performed
- Data preparation - Using PySpark, real filters and processing of the data are performed data set
- Model training - Using Scikit Learn and Scipy, the model will be trained using the set of processed data
- Data prediction - Using the already trained and saved model, unknown data is entered for the model to predict between the two classes (Positive and Negative).