ORFD: A Python repository from 0xqq

The Online Recruitment Fraud Detection Platform

This is our project documention of the 2019 national information security competition

前往：论文

地址： Excels 或经过预处理 Datasets

人工标记的数据，耗费了大量的人力，这可能是国内第一份关于虚假招聘且带标签的数据集。

其中初始数据集来源于 58 同城以及智联招聘爬虫，智联招聘由于数据集虚假数目太少（并非是因为难爬，相反很好爬）所以在已经爬取了几万条信息的情况下转而选择了 58 同城。

不过由于网站改版，58 和智联的爬虫代码有一部分接口过时了，所以本仓库没有提供相关代码

查看轻量版: ORFD-Vector

由于本项目为同时对数据的向量和文本分类，使用了 Bert 作为文本编码服务，部署文本分类的环境比较大，故本仓库没有提供文本编码服务（只有一个文本分类的模型），如果需要部署测试文本分类效果可提 issue 或可先查看：部署（相关文件找我自取）

测试：测试向量分类可在安装好环境后直接运行 tests-vec.py 查看运行结果。如果部署好了文本编码服务也可直接运行 tests.py 查看运行结果