该论文是在OpenTag: Open Attribute Value Extraction from Product Profiles的基础上做的改进。模型结构如下:
- pytorch
- pytorch-transformer
- sklearn
- seqeval
- tqdm
- torchcrf
- data目录下的raw.txt 是全量数据,中文品牌_适用季节.pkl 是从中抽出用来实验的小数据集
- utils下的data_process.py 提供两种获得实验数据的方式,bert分词和不用bert分词,运行 python data_process.py 可以得到 中文品牌_适用季节.pkl
- 想要获取全量数据自己看data_process.py 应该也可以看明白了
- dataset.py 封装了Dataset和DataLoader
- 提供了两个模型,LSTM_CRF.py 做一个baseline
- OpenTag_2019.py 复现的是该论文的模型结构
- python main.py train --batch_size=128 即可运行
- 相应的配置可以更改config.py
- 没有很仔细的去调参,该结果看看就好了。需要注意的是使用bert时,lr应该在2e-5、3e-5等,bert对学习率还是非常敏感的
- 在小量数据集上的实验结果 (中文品牌_适用季节.pkl)