A ciência de dados é um campo interdisciplinar que utiliza técnicas, algoritmos e sistemas para extrair insights e conhecimento de dados em diversas formas. Isso envolve a análise de dados brutos para compreender padrões, tendências e relacionamentos que podem ser úteis para a tomada de decisões e resolução de problemas. A ciência de dados combina conhecimento de estatística, matemática, ciência da computação e experiência no assunto para interpretar dados e comunicar resultados de maneira significativa. As aplicações de ciência de dados são diversas e abrangem áreas como saúde, finanças, marketing, ciências sociais, entre outras.
Este repositório tem o foco em ajudar as pessoas quanto ao básico de data science. Aqui terá arquivos que falarão das principais bibliotecas usadas em data science como: numpy, pandas, matplotlib e scikit-learn, para lidar com machine learning. Além disso, terão desafios que envolvem data science e as soluções destes desafios. O objetivo é ser simples e objetivo.
Para usar bem o repositório, siga as ordens abaixo. Ao invés de mexer com uma IDE própria para o python, utilizei o jupyter notebook, que permite a inscrição em markdown. Dentro dos arquivos terão algumas explicações e também exemplos. Como as bibliotecas utilizadas são enormes, botei apenas algumas funções e classes utilizadas! para mais conhecimento e direcionamento, utilize a documentação de cada biblioteca.
OBS: CLICANDO NO NOME ABAIXO, VOCE SERÁ DIRECIONADO AO ARQUIVO DO REPOSITÓRIO E NAO A PÁGINA DA DOCUMENTAÇAO
De onde virão os desafios??? virão do kaggle, que é uma platorma muito utilizadas por cientistas de dados e entusiastas. A plataforma te disponibiliza vários dados do mundo real de forma gratuita, podendo assim ter competições, cursos e principalmente um bloco gigantesco de dados que poderão ser usados para praticar data science.
- Primeiro instale o python no seu computador
- Depois instale o jupyter notebook
- instale o VScode, caso tenha mais facilidade e baixe a extensão do jupyter notebook
Caso não queira ter todo esse trabalho, baixe o anaconda, que é um gerenciador de pacotes que virá com a maioria das ferramentas usadas em data science.