This is our project documention of the 2019 national information security competition
前往:论文
人工标记的数据,耗费了大量的人力,这可能是国内第一份关于虚假招聘且带标签的数据集。
其中初始数据集来源于 58 同城以及智联招聘爬虫,智联招聘由于数据集虚假数目太少(并非是因为难爬,相反很好爬)所以在已经爬取了几万条信息的情况下转而选择了 58 同城。
不过由于网站改版,58 和智联的爬虫代码有一部分接口过时了,所以本仓库没有提供相关代码
查看轻量版: ORFD-Vector
由于本项目为同时对数据的向量和文本分类,使用了 Bert 作为文本编码服务,部署文本分类的环境比较大,故本仓库没有提供文本编码服务(只有一个文本分类的模型),如果需要部署测试文本分类效果可提 issue 或可先查看:部署(相关文件找我自取)
测试:测试向量分类可在安装好环境后直接运行 tests-vec.py 查看运行结果。如果部署好了文本编码服务也可直接运行 tests.py 查看运行结果