/51job_flask

Primary LanguageJavaScript

爬虫程序与数据可视化

该项目是一个用于爬取特定招聘网站岗位信息,并通过数据可视化展示的应用程序。

简介

该项目的主要目标是通过爬取特定招聘网站的岗位信息,收集有关职位的详细数据,并将其以可视化的形式展示给用户。项目包括一个爬虫程序用于获取岗位信息,并通过一个基于 Flask 的小型网站展示数据可视化图表。

技术框架

  • Python:主要编程语言,用于编写爬虫程序和后端逻辑。
  • Flask:轻量级 Web 框架,用于构建数据可视化的网站。
  • BeautifulSoup:用于解析 HTML 数据和提取所需的岗位信息。
  • wordcloud:用于生成岗位福利和详情的词云图。

程序流程

  1. 爬虫程序 spider.py

    • 使用爬虫程序从招聘网站获取岗位信息。
    • 根据关键词列表构建搜索链接,发送 HTTP 请求并获取搜索结果页面的 HTML 数据。
    • 解析 HTML 数据,提取岗位信息并保存到列表中。
    • 遍历关键词列表,循环爬取每个关键词的搜索结果页面并保存岗位信息。
    • 将岗位信息保存到数据库。
  2. 数据可视化

    • 使用 Flask 构建一个小型网站,展示爬取到的岗位数据的可视化图表。
    • 网站包括多个页面,如全国岗位数量分布、岗位要求饼图、学历经验与薪资柱状图、城市与薪资柱状图和福利与详情的词云图。
    • 用户可以通过关键词查询来生成特定数据的可视化图像。
    • 网站还提供一个表格,使用 DataTable 插件展示数据库中的岗位信息,支持搜索和排序功能。