Neste projeto você implementará análises a partir de um conjunto de dados sobre empregos. Suas implementações serão incorporadas a um aplicativo Web desenvolvido com Flask (um framework web muito popular na comunidade Python). Você também terá a oportunidade de escrever testes para a implementação de uma análise de dados. Por fim, como bônus, você terá o desafio de escrever uma rota e view para um recurso novo usando Flask!
Os dados foram extraídos do site Glassdoor e obtidos através do Kaggle, uma plataforma disponiblizando conjuntos de dados para cientistas de dados.
- Clone o repositório
$ git clone https://github.com/AndersonSilva94/project-job-insights.git
- Entre na pasta do repositório que você acabou de clonar:
$ cd project-job-insights
- Crie o ambiente virtual para o projeto
$ python3 -m venv .venv && source .venv/bin/activate
- Utilizar o terminal interativo do Python.
- Utilizar estruturas condicionais e de repetição.
- Utilizar funções built-in do Python.
- Utilizar tratamento de exceções.
- Realizar a manipulação de arquivos.
- Escrever funções.
- Escrever testes com Pytest.
- Escrever seus próprios módulos e importá-los em outros códigos.
Este repositório já contém um template com a estrutura de diretórios e arquivos:
.
├── README.md
├── dev-requirements.txt
├── requirements.txt
├── src
│ ├── app.py
│ ├── insights.py
│ ├── jobs.csv
│ ├── jobs.py
│ ├── more_insights.py
│ ├── routes_and_views.py
│ ├── sorting.py
│ └── templates
│ ├── base.jinja2
│ ├── includes
│ │ └── nav.jinja2
│ ├── index.jinja2
│ ├── job.jinja2
│ └── list_jobs.jinja2
├── tests
│ ├── __init__.py
│ ├── mocks
│ │ ├── job_1.html
│ │ ├── jobs.csv
│ │ ├── jobs_with_industries.csv
│ │ ├── jobs_with_salaries.csv
│ │ └── jobs_with_types.csv
│ ├── sorting
│ │ ├── conftest.py
│ │ ├── mocks.py
│ │ └── test_sorting.py
│ ├── test_flask_app.py
│ ├── test_insights.py
│ ├── test_jobs.py
│ ├── test_more_insights.py
│ └── test_routes_and_views.py
Na estrutura deste template, você deve implementar as funções necessárias. Novos arquivos e funções podem ser criados conforme a necessidade da sua implementação, porém não remova arquivos já existentes.
Para garantir a qualidade do código, vamos utilizar neste projeto o linter Flake8
.
Assim o código estará alinhado com as boas práticas de desenvolvimento, sendo mais legível
e de fácil manutenção! Para rodá-lo localmente no projeto, execute o comandos abaixo:
python3 -m flake8
Para executar os testes certifique-se de que os seguintes passos foram realizados;
- criar o ambiente virtual
$ python3 -m venv .venv
- ativar o ambiente virtual
$ source .venv/bin/activate
- instalar as dependências no ambiente virtual
$ python3 -m pip install -r dev-requirements.txt
Com o seu ambiente virtual ativo, as dependências serão instaladas neste ambiente. Quando precisar desativar o ambiente virtual, execute o comando "deactivate". Lembre-se de ativar novamente quando voltar a trabalhar no projeto.
O arquivo dev-requirements.txt
contém todas as dependências que serão utilizadas no projeto, ele está agindo como se fosse um package.json
de um projeto Node.js
.
Com esta preparação feita, podemos executar os testes:
Executar os testes
$ python3 -m pytest
O arquivo pyproject.toml
já configura corretamente o pytest. Entretanto, caso você tenha problemas com isso queira explicitamente uma saída completa, o comando é:
python3 -m pytest -s -vv
Caso precise executar apenas um arquivo de testes basta executar o comando:
python3 -m pytest tests/nomedoarquivo.py
Caso precise executar apenas uma função de testes basta executar o comando:
python3 -m pytest -k nome_da_func_de_tests
Se quiser saber mais sobre a instalação de dependências com pip
, veja esse artigo.
Além dos testes com o Pytest, você pode (e vai ser bem bacana) rodar a aplicação flask para visualizar no navegador o resultado do desenvolvimento das funções.
Para isso, digite o comando flask run
, e acesse o site gerado pelo Flask em http://localhost:5000
. No começo do desenvolvimento, você verá que muitas coisas não funcionam, mas conforme você for implementando os requisitos, perceberá que a aplicação web começa a utilizar suas implementações e passa a ganhar vida.
local: src/jobs.py
Para começarmos a processar os dados, devemos antes carregá-los em nossa aplicação. Esta função será responsável por abrir o arquivo CSV e retornar os dados no formato de uma lista de dicionários.
- A função deve receber um path (uma string com o caminho para um arquivo).
- A função deve abrir o arquivo e ler seus conteúdos.
- A função deve tratar o arquivo como CSV.
- A função deve retornar uma lista de dicionários, onde as chaves são os cabeçalhos de cada coluna e os valores correspondem a cada linha.
✍️ Teste manual: abra um terminal Python importando estas funções através do comando python3 -i src/jobs.py
e invoque a função utilizando diferentes paths.
🤖 O que será verificado pelo avaliador:
- A função abre o arquivo passado como parâmetro
- A função retorna uma lista de dicionários
- A função retorna a quantidade correta de itens na lista
- Nos dicionários retornados pela função, as chaves correspondem aos cabeçalhos do arquivo
local: src/insights.py
Agora que temos como carregar os dados, podemos começar a extrair informação deles. Primeiro, vamos identificar quais tipos de empregos existem.
- A função deve receber o path do arquivo csv com os dados.
- A função deve invocar a função
jobs.read
com o path recebido para obter os dados. - A função deve retornar uma lista de valores únicos presentes na coluna
job_type
.
🤖 O que será verificado pelo avaliador:
- A função carrega os dados do arquivo recebido como parâmetro
- A função retorna a quantidade correta de valores
- A função retorna os valores corretos
- A função desconsidera valores vazios
local: src/insights.py
Da mesma forma, agora iremos identificar quais indústrias estão representadas nesse conjunto de dados.
- A função deve obter os dados da mesma forma que o requisito 2.
- A função deve retornar uma lista de valores únicos presentes na coluna
industry
. - A função desconsidera valores vazios
🤖 O que será verificado pelo avaliador:
- A função carrega os dados do arquivo recebido como parâmetro
- A função retorna a quantidade correta de valores
- A função retorna os valores corretos
local: src/insights.py
Os dados apresentam faixas salariais para cada emprego exibido. Vamos agora encontrar o maior valor de todas as faixas.
- A função deve obter os dados da mesma forma que o requisito 2.
- A função deve ignorar os valores ausentes.
- A função deve retornar um valor inteiro com o maior salário presente na coluna
max_salary
.
🤖 O que será verificado pelo avaliador:
- A função carrega os dados do arquivo recebido como parâmetro
- A função retorna o valor correto
local: src/insights.py
Os dados apresentam faixas salariais para cada emprego exibido. Vamos agora encontrar o maior valor de todas as faixas.
- A função deve obter os dados da mesma forma que o requisito 2.
- A função deve ignorar os valores ausentes.
- A função deve retornar um valor inteiro com o menor salário presente na coluna
min_salary
.
🤖 O que será verificado pelo avaliador:
- A função carrega os dados do arquivo recebido como parâmetro
- A função retorna o valor correto
local: src/insights.py
Os empregos estão listados em um aplicativo web. Para permitir que a pessoa usuária possa filtrar os empregos por tipo de emprego, vamos precisar implementar esse filtro.
- A função deve receber uma lista de dicionários
jobs
como primeiro parâmetro. - A função deve receber uma string
job_type
como segundo parâmetro. - A função deve retornar uma lista com todos os empregos onde a coluna
job_type
corresponde ao parâmetrojob_type
.
🤖 O que será verificado pelo avaliador:
- A função retorna a quantidade correta de valores
- A função retorna os valores corretos
- A função retorna os valores na ordem correta
- A função retorna uma lista vazia para
job_types
ausentes nosjobs
recebidos
local: src/insights.py
Do mesmo modo, o aplicativo precisa permitir uma filtragem por indústria. Vamos precisar implementar esse filtro também.
- A função deve receber uma lista de dicionários
jobs
como primeiro parâmetro. - A função deve receber uma string
industry
como segundo parâmetro. - A função deve retornar uma lista de dicionários com todos os empregos onde a coluna
industry
corresponde ao parâmetroindustry
.
🤖 O que será verificado pelo avaliador:
- A função retorna a quantidade correta de valores
- A função retorna os valores corretos
- A função retorna os valores na ordem correta
- A função retorna uma lista vazia para
job_types
ausentes nosjobs
recebidos
local: src/insights.py
O aplicativo vai precisar filtrar os empregos por salário também. Como uma função auxiliar, implemente matches_salary_range
para conferir que o salário procurado está dentro da faixa salarial daquele emprego. Vamos aproveitar também para conferir se a faixa salarial faz sentido -- isto é, se o valor mínimo é menor que o valor máximo.
- A função deve receber um dicionário
job
como primeiro parâmetro, com as chavesmin_salary
emax_salary
. - A função deve receber um inteiro
salary
como segundo parâmetro. - A função deve lançar um erro
ValueError
nos seguintes casos:- alguma das chaves
min_salary
oumax_salary
estão ausentes no dicionário; - alguma das chaves
min_salary
oumax_salary
tem valores não-numéricos; - o valor de
min_salary
é maior que o valor demax_salary
; - o parâmetro
salary
tem valores não-numéricos;
- alguma das chaves
- A função deve retornar
True
se o salário procurado estiver dentro da faixa salarial ouFalse
se não estiver.
🤖 O que será verificado pelo avaliador:
- A função retorna o booleano correto
- A função lança um
ValueError
se o valor demin_salary
for maior que o valor demax_salary
- A função lança um
ValueError
se as chavesmin_salary
oumax_salary
tiverem valores não numéricos - A função lança um
ValueError
se o parâmetrosalary
tiver valor não numérico - A função lança um
ValueError
se as chavesmin_salary
oumax_salary
estiverem ausentes no dicionário
local: src/insights.py
Agora vamos implementar o filtro propriamente dito. Para esta filtragem, podemos usar a função auxiliar implementada no requisito anterior -- tomando o cuidado de descartar os empregos que apresentarem faixas salariais inválidas.
- A função deve receber uma lista de dicionários
jobs
como primeiro parâmetro. - A função deve receber um inteiro
salary
como segundo parâmetro. - A função deve ignorar os empregos com valores inválidos para
min_salary
oumax_salary
. - A função deve retornar uma lista com todos os empregos onde o salário
salary
estiver entre os valores da colunamin_salary
emax_salary
.
🤖 O que será verificado pelo avaliador:
- A função retorna a quantidade correta de valores
- A função retorna os valores corretos
- A função retorna os valores na ordem correta
- Empregos onde as chaves
min_salary
oumax_salary
tiverem valores não numéricos devem ser ignorados - Empregos onde o valor de
min_salary
for maior que o valor demax_salary
devem ser ignorados
local: tests/sorting/test_sorting.py
Por fim, espera-se que a pessoa usuária possa escolher um critério de ordenação para exibir os empregos. Já temos uma implementação para essa ordenação em src/sorting.py
, mas queremos ter certeza de que ela funciona e, principalmente, que não deixará de funcionar conforme vamos implementando novos recursos. Precisamos então escrever um teste!
Esse teste deve se chamar test_sort_by_criteria
e garantir que a função funciona segundo esta especificação:
- A função
sort_by
recebe dois parâmetros:jobs
uma lista de dicionários com os detalhes de cada emprego;criteria
uma string com uma chave para ser usada como critério de ordenação.
- O parâmetro
criteria
deve ter um destes valores:min_salary
,max_salary
,date_posted
- A ordenação para
min_salary
deve ser crescente, mas paramax_salary
oudate_posted
devem ser decrescentes. - Os empregos que não apresentarem um valor válido no campo escolhido para ordenação devem aparecer no final da lista.
📌 O teste da Trybe espera que o seu teste falhe em alguns casos. Nesse caso, o teste terá a saída
XFAIL
(ao invés dePASS
ouFAIL
), e isso significa que o requisito foi atendido ✔️
🤖 O que será verificado pelo avaliador:
- O teste rejeita implementações que aceitam critérios não especificados.
- O teste rejeita implementações que não ordenam corretamente.
- O teste rejeita implementações que não ordenam em ordem crescente quando o critério é
min_salary
. - O teste aprova implementações corretas.
local: src/routes_and_views.py
Para fechar com chave de ouro, que tal testar o quanto você aprendeu de Flask apenas vendo como fizemos as páginas de index
e de jobs
, e tentar criar uma página que irá exibir todas as informações de um job em específico?
- A função deve ser decorada com a rota
/job/<index>
. - A função deve receber um parâmetro
index
. - A função deve chamar a
read
para ter uma lista com todos os jobs. - A função deve chamar a
get_job
, declarada no arquivosrc/more_insights.py
, para selecionar um job específico peloindex
. - A função deve renderizar o template
job.jinja2
, passando um parâmetrojob
contendo o job retornado pelaget_job
.
✍️ Teste manual: após criar a view, cheque se, na página que lista os jobs, aparecem links para jobs específicos nos números que identificam cada job. Ao clicar em um destes links, você deve ser levado a uma página que lista todas as informações do job.
🤖 O que será verificado pelo avaliador:
- A rota
/job/<index>
existe. - A view
job
existe no arquivosrc/routes_and_views.py
, e recebe o parâmetroindex
(e somente ele). - A página de cada um dos jobs deve retornar o status code 200.
- A página de um job específico (escolhido previamente) deve retornar o HTML exato esperado.
⌨️ com 💜 por Anderson Silva (Andy) 😊