/contentcore

爬虫内容处理服务(自用)

Primary LanguagePythonMIT LicenseMIT

以前写的处理爬虫内容的服务包,有些代码也不大记得清了。

大概有以下模块: simhash + bloomfilter redis队列 segment分词