Ailln/cn2an

识别不要转化的数字

Ailln opened this issue · 2 comments

Ailln commented

1、
输入:原价都是全国统一零售价它是幺三八
输出:原价都是全国统10售价它是138
统一零售价不用转吧
2、
输入:卖到几十块钱
输出:卖到几10块钱
我理解几十块钱也不需要转吧

Originally posted by @mengxifeng in #26 (comment)

Ailln commented

目前我想到的方法有:

  1. 分词。这是一种比较简单的方法,但经过测试,分词有时很难把数字分对。
  2. NER。这种方法比较复杂,有可能要引入类似于 Torch 这样的 600 MB 左右的框架(太大可能会对用户安装造成困难),而且这种方法我还没找到合适的公开数据集...

建议直接用正则处理约数和包含数字的词语