Agrupamento de Temas no Levantamento Bibliográfico sobre Mineração de Processos

Orientadores: Manoela Kohler e Felipe Borges.


Trabalho apresentado ao curso BI MASTER como pré-requisito para conclusão de curso e obtenção de crédito na disciplina "Projetos de Sistemas Inteligentes de Apoio à Decisão".


Resumo

Esta POC (do inglês Proof Of Concept) visa à aplicação das técnicas de mineração de textos com a tarefa de agrupamento em documentos de artigos científicos contendo informações de título, resumo e palavras-chave sobre "mineração de processos", com pesquisa na base científica Web Of Science (com string de busca "process & mining"). Foram coletados 1969 artigos, com mais de 220 mil tokens. Inicialmente desenvolveu-se uma nuvem de palavras para conhecimento geral dos assuntos e em seguida foram aplicados os algoritmos k-means e uma clusterização hierárquica para agrupar os assuntos. Foram encontrados 15 clusteres diferentes envolvendo grupo de descoberta de processo e mineraçao de processo aplicados na área de saúde e aprendizado. Essa POC auxilia pesquisadores científicos ou até mesmo profissionais do mercado que estão em busca de artigos para descobrir grupos de assuntos no levantamento de trabalhos relacionados sobre o tema a ser explorado. Os levantamentos feitos em sites de busca ou em bases científicas muitas vezes retornam milhares de artigos o que fica inviável para ler e selecionar aqueles que tratam do assunto específico a ser estudado. Muitas exportações dessas bases de artigos retornam informações como área do estudo e até as palavras-chave, porém muitas vezes são vagas, e não se conhece rapidamente o agrupamento de temas.

Abstract

This POC aims at the application of text mining and clustering techniques in scientific articles where information of title, summary and keywords about "process mining" were retrieved from the scientific base Web Of Science (search term: "process & mining"). From this database, 1969 articles were collected, containing more than 220 thousand tokens. Initially, a wordcloud was generated for general knowledge of the subjects and then k-means and a hierarchical cluster algorithm were applied to group the subjects. Fifteen different clusters were found involving a group of process discovery and process mining applied in the area of health and learning. This POC helps scientific researchers or even professionals who are looking for articles to discover groups of subjects in the survey of related works on the topic to be explored. Surveys made on search engines or on scientific databases often return thousands of articles, which makes it impossible for someone to read and select those that deal with the specific subject to be studied. Many exports of these article databases return information such as the study area and even the keywords, but they are often vague, and the grouping of topics is not known in a timely manner.


Matrícula: 191.671.061

Pontifícia Universidade Católica do Rio de Janeiro

Curso de Pós Graduação Business Intelligence Master