Data Science Machine-Learning Algorithms

Esse repositório foi criado para a disciplina de Tópicos da engenharia de computação na Universidade Federal de Goiás. O principal objetivo é usar algoritmos de data science em um problema envolvendo o mercado financeiro. Para isso, iremos descrever conceitos importantes e apresentar alguns dos algoritmos mais utilizados dessa área.

Conceitos Importantes:

Data Science

Data Science é algo mais abrangente, multidisciplinar que utilizam técnicas de matemática, programação a fim de encontrar padrões em grandes banco de dados e gerar predições precisas além de boas decisões no campo estudado.

Data Mining

Data mining trata-se de retirar informação importante de determinado banco de dados. O principal objetivo da mineração de dados é retirar recursos de banco de dados e transforma-los em algo mais usável. Ou seja, transformar os dados em informação relevante.

IA vs Machine Learning

Inteligência Artificial é um campo da computação o qual tenta imitar o comportamento dos seres humanos. Esta área é composta por diferentes tipos de algoritmos. Por exemplo em um jogo da velha, quando está jogando contra a máquina, existem algoritmos de busca para encontrar o melhor local de posicionar o síbolo. Machine Learning é um conjunto de algoritmos dentro da Inteligência Artificial, a qualf forma de chegar em alguma conclusão é feita com dados coletados. Assim, é como se o algoritmo melhorasse cada vez que errasse e tentasse fazer novamente.

Os algoritmos de Machine Learning são divididos em 4 tipos:

Aprendizado Supervisionado

Esse tipo de algoritmo utiliza labels, marcações, respostas, para diferenciar os dados a serem classificados ou para tentar parametrizar uma função de regressão. Como foi citado, eles são divididos em classificação e regressão

Aprendizado Não supervisionados

Esse tipo de algoritmo não contém labels, ou seja, não tem uma resposta a ser encontrada. Ele é utilizado para encontrar padrões e na maioria das vezes dividir o conjunto de dados. Dessa maneira pode-se reduzir o número de variáveis ou separar os dados em conjuntos distintos.

Algoritmos:

  • Regressão Linear

  • K-Nearest Neighbors

  • Naive Bayes

  • Árvore de Decisão

  • Máquina de Vetores de Suporte

  • Redes Neurais

  • PCA e AutoEncoder

  • K-Means Clustering

  • Agglomerative Clustering

  • DBSCAN (Density-Based Spatial Clustering)

Referências:

GRUS, Joel. Data Science do zero: Primeiras regras com Python PROVOST, Foster; FAWCETT, Tom. Data Science For Business: What you need to know About Data Mining and Data-Analytic Thinking

Autores:

  • João Paulo Pacheco Potenciano
  • Matheus Augusto Monteiro de Godoy