solr4.3 useSmart=false模式下会把词分割成单个字符
Opened this issue · 1 comments
GoogleCodeExporter commented
solr 版本4.3
ik 版本 2012hf1
使用了IKTokenizerFactory接入solr,在useSmart=false模式下会把词分割�
��单个字符,在true下则不会,比如:
-------------------------------------------------------------
solr 右侧Analysis功能中,Field Value为123,分析结果如下:
HTMLSCF text 123
IKT text 123 1 2 3
raw_bytes [31 32 33] [31] [32] [33]
start 0 0 1 2
end 3 1 2 3
type ARABIC CN_WORD CN_WORD CN_WORD
--------------------------------------------------------------
在索引中也有1,2,3这三个字符,很奇怪false模式下会有这种结果,特别是1,2,3的类型是CN_WORD,简单了解过 IK的源码,CN_WORD类型只有在CJKSegment中匹配成词才会得到,求解决方法。
Original issue reported on code.google.com by whp...@gmail.com
on 13 May 2014 at 7:57
GoogleCodeExporter commented
这是我的问题,我接手维护前人的工作,才发现在class文件夹
下有个扩展词库
Original comment by whp...@gmail.com
on 14 May 2014 at 1:34