/Python_Analise_Dados

Python Fundamentos Para Análise de Dados

Primary LanguageJupyter Notebook

Python Fundamentos Para Análise de Dados

  1. Aula - Variáveis, Tipos e Estruturas de Dados, Loops, Condicionais, Métodos e Funções, Tratamento de Arquivos, Módulos, Pacotes e Funções Built-in

  2. Orientacao_a_Objetos - Orientação a Objetos

  3. Manipulando_Banco_de_dados_em_python - Manipulando Banco de Dados em Python - SQLite

  4. Python_Com_MondoBD - Trabalhando com Python e MongoDB

  5. Mini_Projeto_1 - Mini Projeto 1 - Guia de Análise Exploratória de Dados com Python, Linguagem SQL e Banco de Dados SQLite

    Neste Mini-Projeto vamos apresentar um guia básico de análise exploratória de dados usando Linguagem Python, Linguagem SQL e Banco de Dados SQLite. Usaremos dados reais disponíveis publicamente, dados sobre filmes no imdb.

    Ao aplicar Análise Exploratória de Dados vamos responder a estas 10 perguntas:

    • 1- Quais São as Categorias de Filmes Mais Comuns no IMDB?

      Distribuição de Títulos
    • 2- Qual o Número de Títulos Por Gênero?

      Número (Percentual) de Titulos Por Gênero
    • 3- Qual a Mediana de Avaliação dos Filmes Por Gênero?

      Mediana de Avaliação Por Gênero
    • 4- Qual a Mediana de Avaliação dos Filmes Em Relação ao Ano de Estréia?

      Mediana de Avaliação dos Filmes Em Relação ao Ano de Estréia
    • 5- Qual o Número de Filmes Avaliados Por Gênero Em Relação ao Ano de Estréia?

      Número de Filmes Avaliados Por Gênero Em Relação ao Ano de Estréia
    • 6- Qual o Filme Com Maior Tempo de Duração? Calcule os Percentis.

      Filme Com Maior Tempo de Duração
    • 7- Qual a Relação Entre Duração e Gênero?

      Relação Entre Duração e Gênero
    • 8- Qual o Número de Filmes Produzidos Por País?

      Número de Filmes Produzidos Por País
    • 9- Quais São os Top 10 Melhores Filmes?

      Top 10 Filmes com a melhor avaliação e mais de 25 mil votos.
    • 10- Quais São os Top 10 Piores Filmes?

      Top 10 Filmes com a pior avaliação e mais de 25 mil votos.
  6. Modulos_Python_para_Analise_de_Dados_Numpy - Módulo Python para Análise de Dados com NumPy

    • Criando Arrays
    • Funções NumPy
    • Criando Matrizes
    • Métodos e Operações
    • Estatística
    • Slicing de Arrays
  7. Modulo_Pandas - Módulo Python para Análise de Dados com Pandas

    • Criando Séries
    • Manipulando Séries
    • Criando Dataframes
    • Dataframes com Pandas e NumPy
    • Dataframes e Arquivos CSV
    • Séries Temporias e Plotting
  8. Modulo_Matplotlib - Módulo Python para Análise de Dados com Matplotlib

    • Visualizando com Matplotlib
    • Construindo Plots
    • Gráficos
    • Pylab
    • Gráficos a Partir do NumPy
    • Gráficos 3D
    • Mapas
  9. Modulo_Computação_Cientifica_SciPy - Para compreender o SciPy é necessário compreender conceitos avançados de Matemática e Estatística, o que está fora do escopo deste treinamento. Caso queira aprender aplicações práticas do pacote em Machine Learning e IA. Esse notebook é apenas para ter uma noção de SciPy. Pois ele é estudado em outra formação.

    • SciPy
    • Scikit-Learn - Como Identificar o Algoritmo de Machine Learning
    • Scikit-Learn - Prevendo o Preço da Pizza
    • Scikit-Learn - O que o Modelo Realmente Aprende?
    • Scikit-Learn - Prevendo o Preço de Casas - Boston Housing
  10. bokeh - Bokeh é uma biblioteca Python para visualização interativa que tem como alvo os navegadores da Web para representação. Esta é a principal diferença entre Bokeh e outras bibliotecas de visualização. Veja a figura abaixo que explica o fluxo de processo sobre como o Bokeh ajuda a apresentar dados a um navegador da Web.

    • Bokeh Gráfico de Barras
    • Bokeh Gráfico Interativo
    • Bokeh Gráfico Iris
    • Bokeh Gráfico de Círculos
    • Bokeh Gráfico com Dados Geofísicos
  11. StatsModels - StatsModels é um pacote Python que fornece um complemento ao scipy para cálculos estatísticos, incluindo estatísticas descritivas e estimativa e inferência para modelos estatísticos.

    • Linear Regression Models
  12. Seaborn - Seaborn é uma biblioteca de visualização de dados Python baseada em matplotlib . Ele fornece uma interface de alto nível para desenhar gráficos estatísticos atraentes e informativos.

    • jointplot
    • lmplot
    • Scatter Plot
    • Density Plot
    • Histograma
    • Box plot
    • Violin Plot
    • Heatmap
    • Clutermap
    • Temas do Seaborn: palplot e tsplot
    • Histogramas com subsets dos dados
    • Diversos plots simultâneos
    • Plot com distribuições marginais
    • Regressão Logística
    • Regressão Linear com Distribuições Marginais
    • Pair Plot
  13. Análise Exploratória de Dados - A análise exploratória de dados (EDA) é usada por cientistas de dados para analisar e investigar conjuntos de dados e resumir suas principais características, muitas vezes usando métodos de visualização de dados. Ela permite determinar a melhor forma de controlar as fontes de dados para obter as respostas que você precisa, tornando mais fácil para os cientistas de dados descobrir padrões, detectar anomalias, testar uma hipótese ou verificar suposições.

    Pesquisa Salarial realizada pelo site freecodecamp com programadores do software nos EUA que frequentam treinamentos Bootcamp.

    • Distribuição de Idade: A maiora dos profissionais que trabalham como programadores de software estão na faixa de idade entre 20 e 30 anos, sendo 25 anos a idade mais frequente.
    • Distribuição de Sexo: A grande maioria dos programadores são do sexo masculino.
    • Distribuição de Interesses: O principal interesse profissional dos programadores é desenvolvimento web (Full-Stack, Front-End e Back-End), seguindo pela área de Data Science.
    • Distribuição de Empregabilidade: A maioria dos programadores trabalha na área de desenvolvimento de softwares e TI, mas outras áreas como finançs e saúde também são significativas.
    • Preferências de Trabalho por Idade: Quais são as preferências de Trabalho por Idade?
    • Realocação por Idade: Qual o objetivo de realocação?
    • Idade x Horas de Aprendizagem: Qual a relação entre idade e horas de aprendizagem?
    • Investimento em Capacitação x Espectativa Salarial: Qual a relação entre investimento em capacitação e expectativa salarial?
  14. Mini-Projeto2 - Analise1 - Mini-Projeto 2 - Análise 01 - Análise Exploratória em Conjunto de Dados do Kaggle.

    Este Mini-Projeto vai demonstrar alguns métodos e técnicas de análise exploratória de dados comuns, usando Python.

    Vamos trabalhar com o dataset de carros usados fornecido pelo Kaggle, pois é um dos conjuntos de dados ideais para a realização de Análise Exploratória de Dados permitindo assim uma melhor compreensão das atividades principais

    Link para o dataset (já fornecido com os notebooks do Mini-Projeto):https://www.kaggle.com/orgesleka/used-cars-database

    Ao aplicar Análise Exploratória de Dados vamos responder as seguintes perguntas:

    • 1- Distribuição de Veículos com base no Ano de Registro:

      Distribuição de Veículos vom base no Ano de Registro.
    • 2- Variação da faixa de preço pelo tipo de veículo:

      Variação da faixa de preço pelo tipo de veículo.
    • 3- Contagem total de veículos à venda conforme o tipo de veículo:

      Contagem total de veículos à venda conforme o tipo de veículo.
  15. Mini-Projeto2 - Analise2 - Análise Exploratória em Conjunto de Dados do Kaggle.

    Ao aplicar Análise Exploratória de Dados vamos responder as seguintes perguntas:

    • 1- Número de veículos pertencentes a cada marca:

      Número de veículos pertencentes a cada marca.
    • 2- Preço médio dos veículos com base no tipo de veículo, bem como no tipo de caixa de câmbio:

      Preço médio dos veículos por tipo de veículo e tipo de caixa de câmbio.
  16. Mini-Projeto2 - Analise3 - Análise Exploratória em Conjunto de Dados do Kaggle.

    Ao aplicar Análise Exploratória de Dados vamos responder as seguintes perguntas:

    • 1- Preço médio do veículo por tipo de combustível e tipo de caixa de câmbio:

      Preço médio do veículo por tipo de combustível e tipo de caixa de câmbio.
    • 2- Potência média de um veículo por tipo de veículo e tipo de caixa de câmbio:

      Potência média de um veículo por tipo de veículo e tipo de caixa de câmbio.
  17. Mini-Projeto2 - Analise4 - Análise Exploratória em Conjunto de Dados do Kaggle.

    Ao aplicar Análise Exploratória de Dados vamos responder as seguintes perguntas:

    • 1- Calcule a média de preço por marca e por veículo:

      Calcule a média de preço por marca e por veículo.
    • 2- Preço médio de um veículo por marca, bem como tipo de veículo:

      Preço médio de um veículo por marca, bem como tipo de veículo.
  18. TensorFlow - TensorFlow é uma biblioteca de código aberto para aprendizado de máquina aplicável a uma ampla variedade de tarefas. É um sistema para criação e treinamento de redes neurais para detectar e decifrar padrões e correlações, análogo à forma como humanos aprendem e raciocinam.

    • Hello World
    • Operações Matemáticas com Tensores
      • Soma
      • Subtração
      • Divisão
      • Multiplicação
    • Usando Variáveis
    • Outras Formas de Criar Tensores
  19. Mini-Projeto3 - Mini-Projeto 3 vamos apresentar a você um Guia de Modelagem Preditiva com Python e TensorFlow. O objetivo é trazer o processo de Machine Learning de ponta a ponta e então mostrar em alto nível cada etapa necessária para construir, treinar, avaliar e fazer previsões com o modelo.

  20. Machine Learning - O machine learning (ML) é o processo pelo qual os computadores desenvolvem o reconhecimento de padrões ou a capacidade de aprender continuamente ou fazer previsões com base em dados, e então, fazer ajustes sem serem especificamente programados para isso.

    • 1- Workflow

      Workflow
    • 2- Training Overview

      Training Overview
    • 3- Confusion Matrix

      Confusion Matrix
  21. Flask - Introdução ao Desenvolvimento Web - Flask: Flask é um pequeno framework web escrito em Python. É classificado como um microframework porque não requer ferramentas ou bibliotecas particulares, mantendo um núcleo simples, porém, extensível.

  22. Web Scraping - A coleta de dados web, ou raspagem web, é uma forma de mineração que permite a extração de dados de sites da web convertendo-os em informação estruturada para posterior análise. O tipo mais básico de coleta é o download manual das páginas, copiando e colando o conteúdo, e isso pode ser feito por qualquer pessoa.

  23. Web Scraping - Expressões Regulares - Expressões regulares são normalmente o meio padrão para limpar e tratar dados nessas ferramentas. Seja extração de partes específicas de textos de páginas html, obtenção de informação sobre dados do Twitter or preparação de dados para mineração de textos – Expressões Regulares são a melhor aposta para resolver todas essas questões.

  24. Web Scraping - Pandas - Web scraping em Python com lxml e pandas.

  25. Mini-Projeto4 - Mini-Projeto 4 Jogando com o Matias - IA Via Browser.

Para treinar o modelo, execute:

python deep_reinforcement_learning.py

Para executar a app, digite:

python app.py