/COH-PIAH

Projeto final do curso de Introdução a Ciência da Computação I (Coursera/USP).

Primary LanguagePython

Similaridade entre textos - COH-PIAH

status: Finalizado

Linguagem:

  • Python.

Dependência interna:

  • re.

Objetivos:

  • Familiarizar-se com o módulo "re" utilizando, sobretudo, a função "split";
  • Utilizar e interagir com código escrito por terceiros.

Observações:

  • As funções pré-existentes são:

    • le_assinatura,
    • le_textos,
    • separa_sentencas,
    • separa_frases,
    • separa_palavras,
    • n_palavras_unicas,
    • n_palavras_diferentes.
  • Explicação do Problema:

    • Detecção de autoria. Diferentes pessoas possuem diferentes estilos de escrita; por exemplo, algumas pessoas preferem sentenças mais curtas, outras preferem sentenças mais longas. Utilizando diversas estatísticas do texto, é possível identificar aspectos que funcionam como uma “assinatura” do seu autor e, portanto, é possível detectar se dois textos dados foram escritos por uma mesma pessoa. Ou seja, essa “assinatura” pode ser utilizada para detecção de plágio, evidência forense ou, neste caso, para diagnosticar a grave doença COH-PIAH.

    • Traços linguísticos. Estatísticas para detectar a doença: Tamanho médio de palavra: Média simples do número de caracteres por palavra. Relação Type-Token: Número de palavras diferentes utilizadas em um texto divididas pelo total de palavras. Razão Hapax Legomana: Número de palavras utilizadas uma única vez dividido pelo número total de palavras. Tamanho médio de sentença: Média simples do número de caracteres por sentença. Complexidade de sentença: Média simples do número de frases por sentença. Tamanho médio de frase: Média simples do número de caracteres por frase.