一键合成北邮人论坛十大&主题帖所有回复头像合影~~
现已支持生成合影时的用户头像去重功能。
未对用户去重的合影如下,每行头像代表了帖子的一页: 上图源自该贴的所有用户头像:你有一个研一小哥哥,请查收~ https://bbs.byr.cn/#!article/Friends/1858656
对用户去重的合影如下,顺序依然是按照回复帖子的顺序: 上图来自:十大合影~ https://bbs.byr.cn/#!article/Picture/3208312
为迎接北邮锦鲤活动,特增加爬取某文章的所有回复用户的id功能,使用方法同爬取文章,运行结束后会在项目根目录下生成all_users_ids_time=爬取时间.txt
,里面包括楼层的序号和用户id的对应关系。一个样例如下:
本爬虫的爬取时间是:2018-10-13 10:02:18
0,wu111137
1,z574690129
2,liangkeng
3,troubadour
4,bloodsmail
5,yqyqyqyqyqy
6,Alison
7,zc199102
8,XingXudong
......
下面的环境请自行安装:
-
python3
-
scrapy
-
PIL
在bbsspider/spiders/const.py中填写你的byr bbs用户名密码。
-
修改bbsspider/spiders/bbsarticle.py中的article_urls为要进行操作的文章地址列表。
-
在本项目根目录(与scrapy.cfg同目录),运行命令:
scrapy crawl article
生成指定帖子的用户合影,并在项目根目录下保存了所有回复id。
在本项目根目录(与scrapy.cfg同目录),运行命令:
scrapy crawl topten
自动把十大的十篇文章爬取,并生成用户合影。
程序运行后,在headImages目录下生成了合影,命名方式为帖子地址结尾的数字。
注:bbsspider/spiders/const.py中removeDuplicate变量控制是否对用户头像去重,当其为True时去重,为False时不去重。默认不去重。爬取的用户id与楼层的对应关系不去重。
-
本项目为业余开发,代码质量不高。大家随便使用,欢迎交流。
-
所有代码都在你自己的本地运行,我不会收集论坛密码~
-
感谢前辈写的论坛爬虫:https://github.com/buptbill220/bbsspider