Tokenizer for Bahasa Indonesia

Kelas Tokenizer akan memecah sekumpulan teks menjadi kalimat dan sekumpulan kalimat menjadi token. Kelas Tokenizer ini merupakan kelas yang saya buat sendiri untuk keperluan skripsi saya.

Instalasi

Sebelumnya pastikan versi java runtime Anda minimal versi 1.7 atau lebih baik 1.8 keatas. Untuk menginstall, tambahkan kode berikut pada berkas pom.xml:

<repositories>
    <repository>
      <id>yusufsyaifudin</id>
      <name>tokenizer-id</name>
      <url>https://github.com/yusufsyaifudin/tokenizer-id/raw/1.0.0/</url>
    </repository>
</repositories>

dan kode berikut pada dependency pom.xml

<dependencies>
    <dependency>
      <groupId>yusufs.nlp</groupId>
      <artifactId>tokenizerid</artifactId>
      <version>1.0.0</version>
      <scope>compile</scope>
    </dependency>
</dependencies>

Penggunaan

Pecah teks menjadi sekumpulan kalimat

String text = "Kalimat satu. Kalimat dua. \"Selamat pagi!\" kata X.";
Tokenizer tokenizer = new Tokenizer();
ArrayList<String> sentences = tokenizer.extractSentence(text);

sehingga variable sentences akan berisi array dengan nilai:

Kalimat satu.
Kalimat dua.
"Selamat pagi!" kata X.

Pecah kalimat menjadi sekumpulan token

String sentence = "\"Selamat pagi!\" kata X.";
Boolean withPunct = true; // apakah tanda baca diikut-sertakan atau tidak
Tokenizer tokenizer = new Tokenizer();
ArrayList<String> tokens = tokenizer.tokenize(sentence, withPunct);

sehingga tokens akan berisi:

"
Selamat
pagi
!
"
kata
X
.

atau dapat juga tokenisasi menjadi string yaitu:

String sentence = "\"Selamat pagi!\" kata X.";
Boolean withPunct = true; // apakah tanda baca diikut-sertakan atau tidak
Tokenizer tokenizer = new Tokenizer();
String tokens = tokenizer.tokenizeToString(sentence, withPunct);

sehingga tokens menjadi " Selamat pagi ! " kata X . dimana setiap token telah dipisah oleh spasi.

Contoh

Contoh penggunaan bisa dilihat pada gist yang saya buat disini https://gist.github.com/yusufsyaifudin/4af421ccf269b11205ac