基于 TensorFlow 的通用序列标注算法库(目前包含 BiLSTM+CRF
和 IDCNN+CRF
,更多算法正在持续添加中)实现中文分词(Tokenizer / segmentation)、词性标注(Part Of Speech, POS)和命名实体识别(Named Entity Recognition, NER)等序列标注任务。
- 通用的序列标注:能够解决通用的序列标注问题:分词、词性标注和实体识别仅仅是特例。
- Tag schema free: 你可以选择你想用的任何 Tagset。依赖于 tokenizer_tools 提供的编码、解码功能
- 基于 TensorFlow Estimator: 模型代码很精干,代码量少
- 导出为
SavedModel
模型,可以直接使用 TensorFlow Serving 或者tf.predictor
API 启动
- current TF Metrics is not launch on pypi, but seq2annotation depends on it, so seq2annotation currently can't packaged as python package on pypi