/Spider

精简化的百度贴吧scrapy爬虫,可爬取指定吧所有帖子的标题和回复,并输出为适合文本训练的格式。

Primary LanguagePython

Spider

精简化的百度贴吧scrapy爬虫,可爬取指定吧所有帖子的标题和回复,并输出为适合文本训练的格式。 启动命令 scrapy runspider tieba.py 输出文件为source.txt 其中每block_size个字符为一行,可自行修改