/twitter_stream_bach_AWS-EMR

Configurando o GLUE JOB AWS para receber cargas streaming em tempo real do Twitter e historico dados brutos alocados em csv usando o AWS EMR

Primary LanguagePython

Configurando o GLUE JOB AWS para receber cargas streaming em tempo real do Twitter e historico dados brutos alocados em csv usando o AWS EMR

Comando para executar no aws emr e na maquina local para fins de teste

Comando para executar no aws emr no campo arguments e tambem comandos para executar no terminal maquina local testes

Codigo para colocar a coluna simbolo e sentimento, no arquivo csv pode converter para qualquer formato os aquivos.

twitteer_eleicoes2018.py

Entrada dos arquivos bruto em csv

twitteer_eleicoes2018_dados_brutos.csv

Codigo para pegar em tempo real tweets e savar em bucket aws

script_para_pegar_dados_do_tweter_na_aws

Passo 1

Glue-job

Passo 2

Glue-job-passo2

Passo 3

Glue-job-passo3

Passo 4

Glue-job-passo4

Passo 5

Glue-job-passo5

Passo 6 a mais importante

O primeiro campo que aparece "key" e para passar o comando o segundo campo "value" e para passar a biblioteca que sera instalada

Glue-job-passo6

Visualização dos detalhes jobs

Glue-job-passo7

Configurando disparador schedule a cada 15 minutos

Glue-job-passo8

Recebendo json do twitter em tempo real a cada 15 minutos

Glue-job-passo9