- Obtenha o dataset do endereço https://www.w3resource.com/python-exercises/pandas/filter/world_alcohol.csv e realize as seguintes análises (2,5 pontos):
- a) Agrupe os dados por tipo de bebidas
- b) Agrupe os dados por Região e por Ano;
- c) Seção de Contagens: Contar a ocorrência de Regiões, de Países e a soma da coluna de valores por Bebida.
- d) Realize análises estatísticas da coluna dos valores: Média, Moda, Mediana, Estatística Descritiva e Gráfico de comparação dos valores agrupados por tipo de bebida.
- e) Mostre resultados de acordo com alguns critérios:
- I. Mostrar a coluna de bebidas do ano de 1985.
- II. Mostrar a coluna de Região com valores acima de 4.
- (Observação: Cada ponto acima, é uma instrução, basta enviar a instrução/código relativo ao que se pede, devidamente identificado para avaliação.)
- Seja o dataset chamado cursos-prouni.csv que se encontra no endereço Cursos e notas de corte do PROUNI 2018 - Datasets - Brasil.IO. Baixe o arquivo, armazene no seu github** e obtenha os dados a partir desse endereço do github e realize as seguintes análises (2,5 pontos):
- a. Efetuar a limpeza das colunas de notas: onde tiver NaN (Not a Number), substituir por 0,0.
- b. Agrupe os dados pelo grau (Bacharelado, Licenciatura, etc).
- c. Agrupe os dados pelos cursos de Matemática, Medicina e Pedagogia.
- d. Agrupe os dados por Estado e obtenha a média de notas de corte por Estado.
- e. Agrupe os dados pelos cursos Tecnológicos.
- f. Elimine a coluna “cidade_filtro” do dataframe.
- g. Apresente a média das mensalidades dos cursos de Medicina.
- h. Média das notas de corte dos cursos de tempo integral.
- i. Estatística Descritiva das Notas Integral Ampla dos cursos de Bacharelado.
- j. Gráfico comparativo entre o grau dos cursos (Bacharelado, Licenciatura, Tecnologia, etc) pelas Notas Integral de Cotas.
- (*Observação 1: Cada ponto acima é uma instrução, basta enviar a instrução/código relativo ao que se pede, devidamente identificado para avaliação.)
- (**Observação 2: O seu código deverá estar em pleno funcionamento para a correção, portanto, carregar o dataset o seu github é obrigatório e necessário p/ devida correção.)
- Observações:
- Este é o 3º Exercício que irá compor a Nota Final da disciplina ARA0168 e vale 5,0 pontos.
- Exercício será realizado de forma individual.
- Os códigos devem estar no Github e as questões estejam devidamente identificadas. Nome do repositório: NF3-BIG-DATA-Nome até o dia 16/06/2023, às 23:59. Não será aceito após a data especificada de entrega.
- A interpretação e organização das questões faz parte do processo avaliativo. Se as questões não estiverem identificadas, não serão corrigidas.
- Os códigos podem ser feitos na mesma célula do Notebook, porém, cada questão deve estar devidamente identificada (seja no documento ou no código, por comentários).
- Os códigos devem estar funcionando / executando corretamente, sem erros e sem retorno de exceções para ser considerado correto.
- A Nota Final (NF) será composta pela soma das notas obtidas nos exercícios já realizados, sendo esta:
- a. Exercício Nota Final 1 – 05/05 (já realizado): 2,0 pontos
- b. Exercício Nota Final 2 – 19/05 (já realizado): 3,0 pontos
- c. Exercício Nota Final 3 – Até 16/06/2023: 5,0 pontos.
- Exercícios com codificação claramente iguais serão penalizados tendo a nota zerada (0,0).
- Lembrando que a disciplina é de nota final (NF) e a média é de 6,0 pontos. A soma das notas obtidas sendo menor que 6,0 leva a reprovação.