pujx233/HW

实践课作业

Python

数据预处理

提取所需列

观察数据可知对语义影响最大且较好判断的三项为A2、A4和A5，只关注着三列

降噪

很多数据有无关语义的词，例如日期，地名，介词之类，可以通过剔除这些数据来实现降噪

去除单位的地名前缀，且分词，提炼出重点

例如将南京市交通运输局提炼为【交通运输】

每一列取频率高的几个token，默认不多于3个

有些数据项的词组过多，可以保留出高频的几项

计算语义相似度

注意事项

运行环境：python--3.9.7, tensorflow-keras--2.6, bert4keras
先执行pre_process.py得到预处理后的数据，再执行eval.py计算语义相似度
执行pre_process.py时可根据需要通过改变FLAG中项的布尔值来选择运行哪些操作，但需遵从给定顺序
需要先下载模型，由于预训练模型过大，故单独放出链接：[https://open.zhuiyi.ai/releases/nlp/models/zhuiyi/chinese_roformer_L-12_H-768_A-12.zip]