Kelas Tokenizer akan memecah sekumpulan teks menjadi kalimat dan sekumpulan kalimat menjadi token. Kelas Tokenizer ini merupakan kelas yang saya buat sendiri untuk keperluan skripsi saya.
Sebelumnya pastikan versi java runtime Anda minimal versi 1.7 atau lebih baik 1.8 keatas. Untuk menginstall, tambahkan kode berikut pada berkas pom.xml
:
<repositories>
<repository>
<id>yusufsyaifudin</id>
<name>tokenizer-id</name>
<url>https://github.com/yusufsyaifudin/tokenizer-id/raw/1.0.0/</url>
</repository>
</repositories>
dan kode berikut pada dependency pom.xml
<dependencies>
<dependency>
<groupId>yusufs.nlp</groupId>
<artifactId>tokenizerid</artifactId>
<version>1.0.0</version>
<scope>compile</scope>
</dependency>
</dependencies>
String text = "Kalimat satu. Kalimat dua. \"Selamat pagi!\" kata X.";
Tokenizer tokenizer = new Tokenizer();
ArrayList<String> sentences = tokenizer.extractSentence(text);
sehingga variable sentences
akan berisi array dengan nilai:
Kalimat satu.
Kalimat dua.
"Selamat pagi!" kata X.
String sentence = "\"Selamat pagi!\" kata X.";
Boolean withPunct = true; // apakah tanda baca diikut-sertakan atau tidak
Tokenizer tokenizer = new Tokenizer();
ArrayList<String> tokens = tokenizer.tokenize(sentence, withPunct);
sehingga tokens
akan berisi:
"
Selamat
pagi
!
"
kata
X
.
atau dapat juga tokenisasi menjadi string yaitu:
String sentence = "\"Selamat pagi!\" kata X.";
Boolean withPunct = true; // apakah tanda baca diikut-sertakan atau tidak
Tokenizer tokenizer = new Tokenizer();
String tokens = tokenizer.tokenizeToString(sentence, withPunct);
sehingga tokens
menjadi " Selamat pagi ! " kata X .
dimana setiap token telah dipisah oleh spasi.
Contoh penggunaan bisa dilihat pada gist yang saya buat disini https://gist.github.com/yusufsyaifudin/4af421ccf269b11205ac