Para esse projeto foram coletadas as notas de alunos participantes do ENEM em 2016 como o objetivo de criar um modelo para prever a nota da prova de matemática. Para isso, foram utilizadas as bibliotecas Python, Pandas, Sklearn e Regression. Além disso., criamos um baseline como ponto de partida da resolução do problema que foi comparado com 3 modelos tree-based para a validação do melhor modelo a empregar.
Neste desafio você aprenderá:
- Python
- Pandas
- Sklearn
- Regression
Você precisará de python 3.6 (ou superior) e do gerenciador de pacotes pip.
O recomendado é você utilizar um ambiente virtual. Para isto, execute os comandos como no exemplo abaixo:
Linux/macos
pip3 install virtualenv
virtualenv ../venv -p python3
source ../venv/bin/activate
pip install -r requirements.txt
Windows
pip3 install virtualenv
virtualenv ..\venv -p python3
..\venv\Scripts\activate
pip install -r requirements.txt
Ao terminar o desafio, você pode sair do ambiente criado com o comando deactivate
O contexto do desafio gira em torno dos resultados do ENEM 2016 (disponíveis no arquivo train.csv). Este arquivo, e apenas ele, deve ser utilizado para todos os desafios. Qualquer dúvida a respeito das colunas, consulte o Dicionário dos Microdados do Enem 2016.
No arquivo test.csv crie um modelo para prever nota da prova de matemática (coluna NU_NOTA_MT
) de quem participou do ENEM 2016.
Salve sua resposta em um arquivo chamado answer.csv com duas colunas: NU_INSCRICAO
e NU_NOTA_MT
.