/LOLGokSpider

关于爬取opgg的英雄联盟英雄攻略,以及王者荣誉官网及王者营地的王者荣耀英雄攻略。

Primary LanguagePython

爬取内容

可关注微信订阅号 loak 查看实际效果。

  • 实现对LOL官方数据查询网站opgg的数据(白金及以上),主要分析关于最新的英雄强势度胜率登场率排行、所走位置、召唤师技能、技能加点、出门装、神装、鞋子,及天赋加点,可根据英雄别名查询。
  • 实现王者荣耀官方数据爬取:

运行项目

项目实现主要是基于 request、selenium作为爬取工具,pymongo作为操作MongoDB的模块,redis搭建的IP代理池,并将微信订阅号作为数据查询界面。因此实现该项目可参照以下步骤:

以下步骤遇到问题可参照博文 爬虫实战(一)—利用requests、mongo、redis代理池爬取英雄联盟opgg实时英雄数据 ,若有其他问题请联系或提交issue

  • 安装mongodb
  • 安装python3
  • clone本仓库
  • 安装必要模块:
    • 下载虚拟环境模块:pip3 install virtualenv
    • 创建虚拟环境:virtualenv LOLGokSpiderenv
    • 进入虚拟环境并激活:../LOLGokSpiderenv/Script/activite
    • 下载项目必要的模块:pip freeze > requirements.txt -i https://pypi.doubanio.com/simple/ (选择豆瓣源进行下载,速度很快)
  • 搭建IP代理池
    • 可以选择不搭建,但是要修改以下两个文件的内容(gokSelenium.py、opggSpider.py),将爬取代理代码删除即可。
    • 搭建代理池,可使用 jhao104 / proxy_pool 项目的代理池,搭建简单,直接装好redis,基本没什么问题。
  • 运行项目 虚拟环境下直接运行以下代码,使用代理的话,请确保代理池正在运行。
    • 运行LOL爬取 python opggSpider.py
    • 运行王者荣耀爬取 python gokSelenium.py

查看项目效果

可关注微信订阅号 loak 进行实际效果的查看。

想查看自己clone该项目的效果,可适当修改 SpiderUtil/wxMsgUtil.py下主函数代码进行测试。

有问题反馈

在使用中有任何问题,欢迎反馈给我,可以用以下联系方式跟我交流