Parser para conversão de um arquivo de email padrão (raw) em arquivo Arff (utilizado pelo WEKA).
O arquivo Arff gerado contém como atributos a frequência de quase todas as palavras dos emails lidos.
Escrevi esse pequeno conversor para auxiliar em meu trabalho de conclusão de curso.
Não há nenhuma restrição ao uso do conversor.
Estude e o utilize da forma que achar melhor.
Para usar o conversor você deve:
1. Compilar o código fonte
javac Mail2Arff.java
2. Ter um conjunto de emails para conversão: você pode baixar um exemplo da internet ou usar uma caixa postal sua (neste caso você precisa fazer o download das mensagens também)
3. Executar o conversor
Criando um Arff genérico
bc. java Mail2Arff “/pasta/com/os/emails/” “/pasta/destino/arquivo.arff”
Criando um Arff para executar algorítmos de Bayes (não inclui no arquivo final atributos do tipo string)
bc. java Mail2Arff “/pasta/com/os/emails/” “/pasta/destino/arquivo.arff” bayes
Dependendo da quantidade de emails o processamento pode levar alguns minutos (com 1500 mensagens ele leva menos de 30seg, com 6000 mensagens ele já leva pouco mais de 1min, em meu computador)
Em seguida você já pode usar o arquivo exportado no WEKA.