/hoi3_tieba_crawler

用来爬取现在正被爆吧的百度钢铁雄心3吧的精品贴的python脚本

Primary LanguagePythonThe UnlicenseUnlicense

hoi3_tieba_crawler

用来爬取百度钢铁雄心3吧的精品贴的python脚本

本脚本的百度贴吧发布贴

“钢铁雄心3”是著名的二战模拟游戏“钢铁雄心”系列的第三作。其制作方Paradox Development Studio于2008年8月20日宣布推出这款游戏。并率先于2009年8月7日在北美地区发售。而本游戏在**境内的玩家多通过百度贴吧上的钢铁雄心3吧(下称“钢3吧”)交流各种心得体会。

而在2020年8月,钢3吧被“爆吧”了。

所谓“爆吧”,即是吧外无关人员,有组织地通过宏弹等手段,发布大量引战贴、水贴等内容,目标是夺下贴吧控制权,在其中发布广告等无关帖子,并从中获利。

在那种情况下,作者认为,如果最坏的结果——爆吧团队选上吧主、贴吧沦陷——一旦发生,需要做的最为关键的,就是备份好吧内的精品贴,方便之后迁移到别处。

当时贴吧用户@iN甲午战争 的帖子“关于精品贴及战报贴的保存”引起了作者的兴趣,他提到了可以利用网络爬虫的技术来批量将吧内精品贴保存为本地.pdf文件。正好作者今年刚刚高考结束,正在自学python编程语言,便用这个语言编写了一个粗糙的爬虫整理了所有可以访问的421个精品贴,爬虫结果下载链接,提取码为: whzv

这是我第一个发布的GitHub上的repository。

2021年1月18日更新

此repository已被存档。毕竟这只是自己在上大学前的暑假,在可能是一辈子最清闲的一个夏天,随便找点事情来做的成果。

爬虫结果已发布到releases中。