/jtyd_python_spider

Primary LanguagePythonMIT LicenseMIT

该项目为 精通有道技术聚合团队 分布式队列爬虫项目。

一、项目环境 1、python3 2、celery4

二、工程结构 1、apps: 1)celery_init.py,celery启动初始化; 2)flask_init.py,fask启动初始化; 3)timer_task.py,flask对外接口实例 celery_init.py flask_init.py timer_task.py

2、browser_interface:浏览器相关接口方法,涉及工厂方法,无头浏览器,requests cookies,代理等

3、celery_tasks: celery 其他分布式任务在这里扩展

4、config 项目相关配置文件

5、db:数据库相关操作方法

6、decorators:异常修饰器

7、feng_huang_net:使用浏览器抓取的一个实例

8、init_classes:一些手动执行的方法,目前大多数为微博抓取相关方法

9、封装的日志方法:logger

10、page_get、page_parse:微博获取、解析方法

11、test、tests:测试相关方法

12、celery_py.py:直接从pycharm 启动celery需要用到的启动脚本

13、jtyd_spider_run.py:flask启动脚本

14、jtyd_spider_run.sh:启动命令集合

15、requirements.txt 需要的lib

16、doc:其他相关文档 1)celery_pycharm启动配置.png 2)jtyd_spider.sql 脚本

三、启动方式 1、安装环境 requirements.txt

2、配置数据库 mysql、mongdb、redies

3、运行脚本启动,参考:jtyd_spider_run.sh:启动命令集合 gunicorn -b :5000 -w 1 -t 120 jtyd_spider_run:app >> service.log 2>&1 & nohup python -m celery worker -l INFO -c 5 -A apps.celery_init.celery -B &