###针对各大高校贴吧内烂活儿太多,吧友难以分辨是原创还是首偷,推出本查重程序。
主要思路是使用百度搜索找到相关帖子,再对内容进行查询。
运行环境:
python (推荐3.7+)
requests库
BeautifulSoup库 fuzzywuzzy库
python-Levenshtein(可选,匹配时可提供4-10x的加速,某些特定情况下可能会导致不同的结果)
项目进度:
- 自定义查询帖子数量(会影响运行时间)
- 可以查询到主题帖的回复(虽然很不实用)
- 项目文档(很快就好!!!)
- 前端设计
- 更详细的查重报告