/AnaliseSentimentoMercadoAcoes

Analise de Sentimento em Tempo Real sobre o Mercado de Ações Brasileiro, utilizando Pyspark e o Classificador Naive Bayes

Primary LanguageJupyter NotebookGNU General Public License v3.0GPL-3.0

Analise de Sentimento em Tempo Real sobre o Mercado de Ações Brasileiro

  • PT/BR:

Este artigo descreve o treinamento de um classificador Naive Bayes, baseado em tweets previamente classificados quanto a sua polaridade, o qual é utilizado para realizar uma análise de sentimento sobre textos gerados em stream, provenientes da rede social Twitter. O objetivo deste estudo é realizar uma análise de sentimento em tempo real, sobre tweets publicados por veículos de notícias especializados no mercado de ações brasileiro. O desenvolvimento do analisador de sentimento requereu 6 fases: armazenamento da base de tweets manualmente rotulados; pré-processamento, utilizando métodos de limpeza do texto, tokenização e remoção de stopwords; aplicação do método Term Frequency–Inverse Document Frequency (TF-IDF); treinamento do classificador; coleta dos novos tweets em streaming e; análise de sentimento em tempo real. Após o desenvolvimento das fases citadas anteriormente, o analisador de sentimento atingiu uma acurácia de 76,8 por cento.

  • EN:

This article describes the training of a Naive Bayes classifier, based on a previously classified base of tweets as to their polarity, which is used to perform a sentiment analysis on texts generated in streams, coming from the social network Twitter. The objective of this study is to carry out an analysis of sentiment in real time, on tweets published by news outlets specialized in the brazilian stock market. The development of the sentiment analyzer required 6 phases: storage of the database of tweets manually labeled; preprocessing, using text cleaning methods, tokenization and stopwords removal; application of the Term Frequency–Inverse Document Frequency (TF-IDF) method; classifier training; collecting new tweets in streaming and; real-time sentiment analysis. After the development of the aforementioned phases, the sentiment analyzer reached an accuracy of 76.8 percent.

Publicações