Curso - Modelagem de Bancos de Dados relacionais, Não Relacionais e Data Stores - Data Science Academy
Projeto 1: Design e implementação de Solução de Web Scrapping com Banco de Dados Relacional
📓 Especificações do Projeto
Neste projeto, vamos estudar sobre como extrair dados de milhões de tweets e como salvar os dados em um banco de dados relacional para melhor gerenciamento.
Estudaremos ainda sobre como adicionar restrições ao banco de dados relacional para torná-lo bem estruturado. Depois que os dados são adquiridos e armazenados de forma adequada, o trabalho posterior pode ser tratado com mais eficiência. Nosso trabalho é modelar e implementar o banco de dados para armazenar os tweets de forma estruturada.
🌐 Recursos externos
As APIs do Twitter incluem Searching API, Ads API e Streaming API.
A Searching API nos permite pesquisar tweets específicos. Ads API forneceinformações sobre os anúncios no Twitter. E a Streaming API fornece funcionalidades que nos permitem coletar tweets em tempo real compalavras-chave, ID de usuário ou locais específicos, através de filtros.
A Streaming API pode ser configurada pelo pacote Python Tweepy facilmente. Os dados são retornados em formato JSON, formato que usaremos para carregar os dados em nosso banco de dados.
Mais detalhes sobre as APIs do Twitter aqui: https://developer.twitter.com
🔨 Desenvolvimento e implementação
Neste projeto você deverá, a partir de um dataset de tweets, construir o modelo necessário para armazenamento de dados no banco de dados e posterior análise.
A coleta e armazenamento dos tweets seria trabalho do Engenheiro de Dados e a análise trabalho do Cientista de Dados. Nosso trabalho enquanto Arquitetos de Dados é construir um modelo que facilite o armazenamento e análise de dados.
Enfim, você deverá preparar o modelo do banco de dados que receberá os dados uma vez coletados via API do Twitter por um Engenheiro de Dados.
💻 Tecnologias envolvidas
Oracle PL/SQL
SQL Alchemy
Db Schemma