该项目是一个用于爬取特定招聘网站岗位信息,并通过数据可视化展示的应用程序。
该项目的主要目标是通过爬取特定招聘网站的岗位信息,收集有关职位的详细数据,并将其以可视化的形式展示给用户。项目包括一个爬虫程序用于获取岗位信息,并通过一个基于 Flask 的小型网站展示数据可视化图表。
- Python:主要编程语言,用于编写爬虫程序和后端逻辑。
- Flask:轻量级 Web 框架,用于构建数据可视化的网站。
- BeautifulSoup:用于解析 HTML 数据和提取所需的岗位信息。
- wordcloud:用于生成岗位福利和详情的词云图。
-
爬虫程序 spider.py
- 使用爬虫程序从招聘网站获取岗位信息。
- 根据关键词列表构建搜索链接,发送 HTTP 请求并获取搜索结果页面的 HTML 数据。
- 解析 HTML 数据,提取岗位信息并保存到列表中。
- 遍历关键词列表,循环爬取每个关键词的搜索结果页面并保存岗位信息。
- 将岗位信息保存到数据库。
-
数据可视化
- 使用 Flask 构建一个小型网站,展示爬取到的岗位数据的可视化图表。
- 网站包括多个页面,如全国岗位数量分布、岗位要求饼图、学历经验与薪资柱状图、城市与薪资柱状图和福利与详情的词云图。
- 用户可以通过关键词查询来生成特定数据的可视化图像。
- 网站还提供一个表格,使用 DataTable 插件展示数据库中的岗位信息,支持搜索和排序功能。