/weibo_kyqz

采集微博的`抗疫求助`超话的内容,希望能有相关的人提供相应的帮助。【因为本人在上海所以就只采集了上海相关的博文】因为本人能力有限不认识相关救助或政府团队,还没有来得及开发相关的网页,更方便有能力的人给提供一些帮助,毕竟救人一命,胜造七级浮屠。疫情期间都不容易,也希望都能相互理解。尽量利用身边的资源帮助更多的人

Primary LanguagePythonMozilla Public License 2.0MPL-2.0

weibo_kyqz

愿景

  • 采集微博的抗疫求助超话的内容,希望能有相关的人提供相应的帮助。【因为本人在上海所以就只采集了上海相关的博文】
  • 因为本人能力有限不认识相关救助或政府团队,还没有来得及开发相关的网页,更方便有能力的人给提供一些帮助,毕竟救人一命,胜造七级浮屠。
  • 疫情期间都不容易,也希望都能相互理解。尽量利用身边的资源帮助更多的人

功能

  • 列表过滤
  • 识别正文中的地址【覆盖省、市、区】相对准确一点
  • 识别正文中的手机号及是否包含手机号【由于是敏感信息建议是使用是否包含手机号】
  • 初步规则打分类标签【如果需要在untils>map_dict.py中修改或添加分类】
  • 等级借鉴标签

软件架构

scrapy数据采集+mongodb存储

安装教程

pip install -i https://pypi.douban.com/simple -r requirements.txt

使用说明

  1. python3.8
  2. mongodb
  3. python run_all_spider.py

参与贡献

  • 数据源采集的是微博的m端,采集的微博的超话
  • 感谢jionlp的作者