HanLP Analyzer for ElasticSearch
此分词器基于HanLP,提供了HanLP中大部分的分词方式。
今年一年都在忙其他事,所以插件更新基本一年没有更新,年底更新一波。今年学习了一下ES向量插件(亚马逊设计的那个方式还挺有意思的,重新设计向量索引文件,但文件管理依托于lucene),搞了搞知识图谱(JanusGraph),最近又在弄ES存储计算分离(基于共享存储)
🚩 更新日志:
- 适配Elasticsearch 7.5.1~7.10.2版本,更新HanLP版本至1.7.8,更新日志这次就不在每个release上加了,直接看README(7.5.1重新打包订正)(陆续上传中)
- 修改分词流程,完全采用hankcs提供的hanlp-lucene-plugin进行,详见方法com.hankcs.lucene. SegmentWrapper#next,该类部分代码格式虽然不太优雅,但为了保证和源码基本一致性,代码格式校验做了剔除该文件,请各位改动该文件时,尽量不对该文件进行格式改动
- 修改模型引用方式,模型使用了简单的单例方式引用,防止重复加载,内存溢出
- 修复自定义停用词词典未加载问题
- 分词过程中默认会将空白字符剔除,如果有需要空白字符的场景,请自行更改源码重新编译打包
- 优化部分代码结构,修复部分代码逻辑错误问题
- 工程改为gradle方式部署,重新修改打包请使用
./gradlew assemble
命令,否则可能因本地gradle版本不匹配导致问题 - github release增加MD5校验,若发现MD5值和release包计算得出的不一致,请勿使用,网盘会一直放在那。
- 部分版本因为工作原因可能无法及时更新,请自行打包(一般ES小版本迭代不会有大的改动,只需要更改版本号即可,版本号在gradle.properties中修改)
- 6.x分支是我重新用gradle配置的一个分支,可能和原来的maven版本不一致,请大家谅解(进行中)
- 单测的话,因为分词用到了自定义配置的东西,ES自己的test framework对这个配置加载有些问题,所以目前单测是没有的,大部分测试都是我自己直接部署进行测试的,后续会将测试点和测试项列出来供大家参考
- 目前来说,应该Elasticsearch开源协议更换对该插件无影响,后续未知~~(毕竟插件小众,且非云上提供)
- 在7.6.0版本后复原增加crf分词方式,不再采用CRFSegment,而是采用CRFLexicalAnalyzer进行分词,模型使用类似NLP方式采用单例实现
- 在7.6.0版本后,ES在启动时增加了analyzer校验,所以若没有配置NLP或CRF模型,则启动插件时就不会加载,若要使用两种分词方式,需要添加模型后重启ES
- 若要使用NLP或CRF分词方式,则配置文件hanlp.properties中模型路径配置中的文件名必须和实际名称一致(bin or txt),目前默认配置为data-for-1.7.5.zip(该数据包可在HanLP项目中下载)中的模型路径
- 分支结构重新规范,目前提供更新维护的主要是master、7.x、6.x分支,5.x和2.x因个人精力有限不频繁做更新迭代
最后还是要说,开源不易,有空还是会跟进改动
Plugin version | Branch version |
---|---|
7.x | 7.x |
6.x | 6.x |
安装方式:
方式一
a. 下载对应的release安装包,最新release包可从baidu盘下载(链接:https://pan.baidu.com/s/1mFPNJXgiTPzZeqEjH_zifw 密码:i0o7)
b. 执行如下命令安装,其中PATH为插件包绝对路径:
./bin/elasticsearch-plugin install file://${PATH}
方式二
a. 使用elasticsearch插件脚本安装command如下:
./bin/elasticsearch-plugin install https://github.com/KennFalcon/elasticsearch-analysis-hanlp/releases/download/v6.5.4/elasticsearch-analysis-hanlp-6.5.4.zip
release包中存放的为HanLP源码中默认的分词数据,若要下载完整版数据包,请查看HanLP Release。
数据包目录:ES_HOME/plugins/analysis-hanlp
注:因原版数据包自定义词典部分文件名为中文,这里的hanlp.properties中已修改为英文,请对应修改文件名
注:上述说明中的ES_HOME为自己的ES安装路径,需要绝对路径
在本版本中,增加了词典热更新,修改步骤如下:
a. 在ES_HOME/plugins/analysis-hanlp/data/dictionary/custom目录中新增自定义词典
b. 修改hanlp.properties,修改CustomDictionaryPath,增加自定义词典配置
c. 等待1分钟后,词典自动加载
注:每个节点都需要做上述更改
hanlp: hanlp默认分词
hanlp_standard: 标准分词
hanlp_index: 索引分词
hanlp_nlp: NLP分词
hanlp_crf: CRF分词
hanlp_n_short: N-最短路分词
hanlp_dijkstra: 最短路分词
hanlp_speed: 极速词典分词
POST http://localhost:9200/twitter2/_analyze
{
"text": "美国阿拉斯加州发生8.0级地震",
"tokenizer": "hanlp"
}
{
"tokens" : [
{
"token" : "美国",
"start_offset" : 0,
"end_offset" : 2,
"type" : "nsf",
"position" : 0
},
{
"token" : "阿拉斯加州",
"start_offset" : 0,
"end_offset" : 5,
"type" : "nsf",
"position" : 1
},
{
"token" : "发生",
"start_offset" : 0,
"end_offset" : 2,
"type" : "v",
"position" : 2
},
{
"token" : "8.0",
"start_offset" : 0,
"end_offset" : 3,
"type" : "m",
"position" : 3
},
{
"token" : "级",
"start_offset" : 0,
"end_offset" : 1,
"type" : "q",
"position" : 4
},
{
"token" : "地震",
"start_offset" : 0,
"end_offset" : 2,
"type" : "n",
"position" : 5
}
]
}
配置文件为ES_HOME/config/analysis-hanlp/hanlp-remote.xml
<properties>
<comment>HanLP Analyzer 扩展配置</comment>
<!--用户可以在这里配置远程扩展字典 -->
<entry key="remote_ext_dict">words_location</entry>
<!--用户可以在这里配置远程扩展停止词字典-->
<entry key="remote_ext_stopwords">stop_words_location</entry>
</properties>
其中words_location为URL或者URL+" "+词性,如:
1. http://localhost:8080/mydic
2. http://localhost:8080/mydic nt
第一个样例,是直接配置URL,词典内部每一行代表一个单词,格式遵从[单词] [词性A] [A的频次] [词性B] [B的频次] ... 如果不填词性则表示采用词典的默认词性n。
第二个样例,配置词典URL,同时配置该词典的默认词性nt,当然词典内部同样遵循[单词] [词性A] [A的频次] [词性B] [B的频次] ... 如果不配置词性,则采用默认词性nt。
其中stop_words_location为URL,如:
1. http://localhost:8080/mystopdic
样例直接配置URL,词典内部每一行代表一个单词,不需要配置词性和频次,换行符用 \n 即可。
注意,所有的词典URL是需要满足条件即可完成分词热更新:
-
该 http 请求需要返回两个头部(header),一个是 Last-Modified,一个是 ETag,这两者都是字符串类型,只要有一个发生变化,该插件就会去抓取新的分词进而更新词库。
-
可以配置多个字典路径,中间用英文分号;间隔
-
URL每隔1分钟访问一次
-
保证词典编码UTF-8
HanLP在提供了各类分词方式的基础上,也提供了一系列的分词配置,分词插件也提供了相关的分词配置,我们可以在通过如下配置来自定义自己的分词器:
Config | Elastic version |
---|---|
enable_custom_config | 是否开启自定义配置 |
enable_index_mode | 是否是索引分词 |
enable_number_quantifier_recognize | 是否识别数字和量词 |
enable_custom_dictionary | 是否加载用户词典 |
enable_translated_name_recognize | 是否识别音译人名 |
enable_japanese_name_recognize | 是否识别日本人名 |
enable_organization_recognize | 是否识别机构 |
enable_place_recognize | 是否识别地名 |
enable_name_recognize | 是否识别**人名 |
enable_traditional_chinese_mode | 是否开启繁体中文 |
enable_stop_dictionary | 是否启用停用词 |
enable_part_of_speech_tagging | 是否开启词性标注 |
enable_remote_dict | 是否开启远程词典 |
enable_normalization | 是否执行字符正规化 |
enable_offset | 是否计算偏移量 |
注意: 如果要采用如上配置配置自定义分词,需要设置enable_custom_config为true
例如:
PUT test
{
"settings": {
"analysis": {
"analyzer": {
"my_hanlp_analyzer": {
"tokenizer": "my_hanlp"
}
},
"tokenizer": {
"my_hanlp": {
"type": "hanlp",
"enable_stop_dictionary": true,
"enable_custom_config": true
}
}
}
}
}
POST test/_analyze
{
"text": "美国,|=阿拉斯加州发生8.0级地震",
"analyzer": "my_hanlp_analyzer"
}
结果:
{
"tokens" : [
{
"token" : "美国",
"start_offset" : 0,
"end_offset" : 2,
"type" : "nsf",
"position" : 0
},
{
"token" : ",|=",
"start_offset" : 0,
"end_offset" : 3,
"type" : "w",
"position" : 1
},
{
"token" : "阿拉斯加州",
"start_offset" : 0,
"end_offset" : 5,
"type" : "nsf",
"position" : 2
},
{
"token" : "发生",
"start_offset" : 0,
"end_offset" : 2,
"type" : "v",
"position" : 3
},
{
"token" : "8.0",
"start_offset" : 0,
"end_offset" : 3,
"type" : "m",
"position" : 4
},
{
"token" : "级",
"start_offset" : 0,
"end_offset" : 1,
"type" : "q",
"position" : 5
},
{
"token" : "地震",
"start_offset" : 0,
"end_offset" : 2,
"type" : "n",
"position" : 6
}
]
}