rasa_chinese 是专门针对中文语言的 rasa 组件扩展包。提供了许多针对中文语言的组件。
pip install rasa_chinese
基于 HuggingFace's transformers 的分词组件。
pipeline 使用:
- name: "rasa_chinese.nlu.tokenizers.lm_tokenizer.LanguageModelTokenizer"
tokenizer_url: "http://127.0.0.1:8000/"
NOTE: 需要使用 rasa_chinese_service 作为服务器,在安装 rasa_chinese_service
后 (如何安装见 rasa_chinese_service ),使用
python -m rasa_chinese_service.nlu.tokenizers.lm_tokenizer bert-base-chinese
启动 tokenizer 服务器
基于 MicroTokenizer (https://github.com/howl-anderson/MicroTokenizer) 的分词组件
pipeline 使用:
- name: "rasa_chinese.nlu.tokenizers.MicroTokenizer"
更多组件正在从 1.x 版本移植到 2.x 版本。
将组件的全路径类名放到 config.yaml 中.
例如下面这样:
language: "zh"
pipeline:
- name: "rasa_chinese.nlu.TensorflowNLP"
- name: "rasa_chinese.nlu.BilstmCrfTensorFlowEntityExtractor"
max_steps: 600
- name: "rasa_chinese.nlu.TextCnnTensorFlowClassifier"
max_steps: 600
policies:
- name: MemoizationPolicy
- name: rasa_chinese.core.StackedBilstmTensorFlowPolicy