/Mail2Arff

A program to convert raw mail message in valid Arff file to use in WEKA

Primary LanguageJava

Mail2Arff – Conversor de arquivo de email em arquivo Arff

Parser para conversão de um arquivo de email padrão (raw) em arquivo Arff (utilizado pelo WEKA).
O arquivo Arff gerado contém como atributos a frequência de quase todas as palavras dos emails lidos.

Escrevi esse pequeno conversor para auxiliar em meu trabalho de conclusão de curso.

Licença

Não há nenhuma restrição ao uso do conversor.
Estude e o utilize da forma que achar melhor.

Autor

Cauan Cabral

Uso

Para usar o conversor você deve:

1. Compilar o código fonte

javac Mail2Arff.java

2. Ter um conjunto de emails para conversão: você pode baixar um exemplo da internet ou usar uma caixa postal sua (neste caso você precisa fazer o download das mensagens também)

3. Executar o conversor

Criando um Arff genérico
bc. java Mail2Arff “/pasta/com/os/emails/” “/pasta/destino/arquivo.arff”

Criando um Arff para executar algorítmos de Bayes (não inclui no arquivo final atributos do tipo string)
bc. java Mail2Arff “/pasta/com/os/emails/” “/pasta/destino/arquivo.arff” bayes

Dependendo da quantidade de emails o processamento pode levar alguns minutos (com 1500 mensagens ele leva menos de 30seg, com 6000 mensagens ele já leva pouco mais de 1min, em meu computador)

Em seguida você já pode usar o arquivo exportado no WEKA.