/selenium-lxml-threading-python-

使用selenium获取网页,并使用lxml解析网页,同时实现翻页功能。由于斗鱼数据是变化的(尤其是热度数据),利用threading模块实现定时循环爬取数据,以获取随时间变化的数据。

Primary LanguageJupyter Notebook

selenium-lxml-threading-python爬虫

1.使用selenium获取网页,并使用lxml解析网页,同时实现翻页功能。

2.由于斗鱼数据是变化的(尤其是热度数据),利用threading模块实现定时循环爬取数据,以获取随时间变化的数据。

环境

python3.7 windows10

需要的库

selenium

lxml

threading

time

datetime

openpyxl