/LagouSpider

爬取拉勾网数据的爬虫程序

Primary LanguageJupyter Notebook

LagouSpider

使用selenium库对拉勾招聘进行工作信息爬取。

爬取内容

爬取内容 描述
job 工作名称
money 薪资情况
skill 岗位需要的技能
ink 公司名
area 工作地点

使用

在使用前需要安装seleniumpandas,这两个包。

pip install selenium pandas

需要安装相应的浏览器和匹配的浏览器驱动,本程序使用了chrome浏览器,相应内核可以前往ChromeDriver下载对应的版本。

本程序的执行逻辑被封装成了函数spider(search, page, filename):

  • search: 需要搜索的职位信息内容
  • page: 爬取的页数(1页有15条数据)
  • filename: 保存数据的文件名

示例:爬取 java 职位信息的 20 页数据,将爬取到的数据保存在当前目录为 java_data.csv

search = 'java'
page = 20
filename = 'java_data'
spider(search, page, filename)

数据展示