##2017年4月7日15:13:40
环境:python2.7
小弟第一次写的完整爬虫,放到github,顺便当练练github的手
1:首先坚持可见即可爬(小弟还没有到这种境界)
2: 素拓系统可以看见所有人的学号,姓名,学院,院系,班级信息
3:直接爬就行
4:'grade':'2016' while里面的grade表示年纪. 2016级大概3000页,2015级好像7000多(哭死)
##2017年4月12日13:13:39
昨天无聊的时候再看素拓系统,发觉抓取了很多重复的元素,所以导致了抓取速度十分的慢
然后发觉每个人最少最少都申请了15个素拓左右。所以进行了算法的优化
用一个cnt记录抓到了第几个记录,每到15就取余,然后进行抓取,非15的倍数不进行抓取
然后昨晚试了一下子。大概由原来的20s一页,提高到了3s一页。相当于效率提高了7倍左右。
抓取速率很提高很多。这让我意识到了算法的重要性,所以大家搞好算法啊。
##ps.
1:爬虫效率有点慢,用了几个模块,可用python自带的pip安装
2:直接运行gdufeInformation.py文件就可以了
3:亲测爬一页大概20s(真tm慢)