Este repositório foi pensado para quem não sabe programar, mas trabalha ou quer trabalhar com ciência de dados 🙃
Outro repositório bem legal pra isso é o ds-zero 👍
Se você já programa e quer um repo ritmo acelerado, dê uma olhada nesse aqui 😎
Este é um repositório colaborativo, criado pelos alunos do Instituto Metrópole Digital da UFRN.
O autor de cada material está devidamente creditado e agradecido 😉
Existem várias ferramentas disponíveis pensadas para este perfil.
Em geral, elas se dividem entre ferramentas GUI e ferramentas CLI:
- GUI (interface gráfica de usuário): Toda a interação com o usuário é feita de forma gráfica. São programas como o Google Spreadsheets e o Orange3.
- CLI (interface de linha de comando): A interação com o usuário é feita através de uma linguagem de programação. As principais linguagens gratuitas usadas em ciência de dados são Python, R e Julia.
Um alternativa bem legal que combina um pouco dos dois mundos são os notebooks interativos, originalmente do projeto Jupyter e atualmente suportados também pelo Google Colaboratory.
Esse post traz uma discussão sobre as principais linguagens suportadas.
Neste repo, usaremos notebooks com o ecossistema Python e sua biblioteca principal, o Pandas.
Todo o material foi pensado para que você não precise aprender a programar, mas se você quiser aprender, dê uma olhada nesse repositório.
[jonathanjalles] Primeiros passos
[natanlimas] Dataframes como bancos de dados
[kallil12] Análise e apresentação de dados
[mildo] Extração, transformação e carga de dados (ETL)
Os notebooks acima foram originalmente criados pelos autores indicados e posteriormente revisados com a adição de conteúdos de múltiplos autores deste repositório.
Uma das possibilidades que ferramentas CLI abre é trabalhar com múltiplas bases de dados ao mesmo tempo.
Os notebooks abaixo são alguns exemplos de análises que agregam informações espalhadas em múltiplas bases.