Github_Spider: A Python repository from Johnson0722

github用户信息抓取

借助第三方库pyGithub, 抓取github上的用户信息，用于给HR组的同事进行招聘工作。
具体的，算法维护两个队列，一个待爬队列和历史队列。由于用户之间有follower和following的关系，每抓取一个用户，提取出用户的follower和following. 对于这些follower和following, 如果用户在历史队列中则不抓取，否则加入待爬队列
遇到一个问题是，很多用户有很多的follower，如果每抓取一个用户都对其follower和following进行判重，那么待爬队列会爆炸式增长，效率大大降低。采取的一个策略是当待爬队列的长度小于100时，才将新用户加入待爬队列。效率和稳定性都大大提升``