/Github_Spider

crawl user information using pygithub

Primary LanguagePython

github用户信息抓取

  • 借助第三方库pyGithub, 抓取github上的用户信息,用于给HR组的同事进行招聘工作。
  • 具体的,算法维护两个队列,一个待爬队列和历史队列。由于用户之间有follower和following的关系,每抓取一个用户,提取出用户的follower和following. 对于这些follower和following, 如果用户在历史队列中则不抓取,否则加入待爬队列
  • 遇到一个问题是,很多用户有很多的follower,如果每抓取一个用户都对其follower和following进行判重,那么待爬队列会爆炸式增长,效率大大降低。采取的一个策略是当待爬队列的长度小于100时,才将新用户加入待爬队列。效率和稳定性都大大提升``