/tieba-wiki

百度贴吧烂活儿查重

Primary LanguagePythonGNU General Public License v3.0GPL-3.0

tieba-wiki:百度贴吧烂活儿查重

###针对各大高校贴吧内烂活儿太多,吧友难以分辨是原创还是首偷,推出本查重程序。
主要思路是使用百度搜索找到相关帖子,再对内容进行查询。


运行环境:

python (推荐3.7+)
requests库
BeautifulSoup库 fuzzywuzzy库
python-Levenshtein(可选,匹配时可提供4-10x的加速,某些特定情况下可能会导致不同的结果)

项目进度:

  • 自定义查询帖子数量(会影响运行时间)
  • 可以查询到主题帖的回复(虽然很不实用)
  • 项目文档(很快就好!!!)
  • 前端设计
  • 更详细的查重报告