/lagou

基于Channel和Goroutine实现的并发版golang爬虫,可以从拉勾网爬取指定岗位的职位内容信息,并支持对IT相关职位进行关键词词频分析排序,更方便的了解到岗位所需要技能。

Primary LanguageGo

lagou

基于Channel和Goroutine实现的并发版golang爬虫,可以从拉勾网爬取指定岗位的职位内容信息,并支持对IT相关职位进行关键词词频分析排序,更方便的了解到岗位所需要技能。使用net/http标准库进行网络请求,方便拓展,可以方便的替换cookie。使用清华大学开放中文词库和基于huichen/sego的分词器进行分词,支持可配置的词过滤,同义替换,支持自定义词典。使用gizak/termui以表格的形式在命令行显示数据并支持分页。不依赖数据库等开发环境,方便使用,包含较为完备的单元测试。

  • 选择岗位 选择岗位

  • 关键词词频排序 关键词词频排序

  • 表格分页 表格分页

  • cookie替换:浏览器打开拉勾网,登录后打开任意一个职位页面,在浏览器开发者工具中找到请求cookie,并用得到的cookie替换params/config.go中的静态变量COOKIE。 cookie替换

运行

go get github.com/shawpo/lagou/...

cd $GOPATH/src/github.com/shawpo/lagou/

go run main.go

更多分析结果截图

  • java关键词词频排序1 java关键词词频排序1

  • java关键词词频排序2 java关键词词频排序2

  • python关键词词频排序 python关键词词频排序

Todos

  • 支持IP代理池,提高爬取速度
  • 添加Web页面,显示词云
  • 支持其他招聘网站,对爬取结果进行整合后分析