練習Lucene的切詞,基於Lucene 6.1 下測試的範例。
- Cjktokenizer 測試lucene本身對CJK(中文日文韓文)下的預設切詞方式。
- CommonAnalyzersDemo 列出lucene一些內建分詞方式。
- DocBoost 對搜尋的文件加上權重,讓Lucene在搜尋時可以調整排序。
- FieldIndex
- HelloLucene
- Ikanalyzer 使用ikanalyzer中文分詞器。
- IndexDoc 對文件作索引並測試hightLight功能。
- loadPdf 使用tika載入PDF
- ParserTxt
- SpellCheck 測試Lucene的拼字檢查功能,給lucene一個詞表,可以給你與你輸入的的字串最接近的詞彙。
- TikaLoadFile 測試tika載入ms-doc 和tike語言偵測功能。