db 用的 PostgreSQL,自己建库吧,表名用户名能不能改我忘记了。创建表:utils/init_db.py
基本功能:接收指定的 thread_id(帖子id),然后爬取该帖拆开按回复存放到数据库中。
例如要爬取卓明谷版规帖:
帖子地址为 https://bbs.saraba1st.com/2b/thread-334540-1-1.html
则 thread_id 为 334540
两个需要自行设置的配置文件:
- config/config.ini
用于设置数据库配置、用户名及密码信息;
爬虫基于selenium,引擎使用Firefox,需要安装geckodriver。
免窗口模式未测试。另外还有关于检测是否登录入自动登录的偶发性bug未修。
- config/s1_account.ini
用不用随意,用于存储登录网站的用户名/密码。
一些不重要的东西:
UI使用Qt 5 Creator编辑。
docs中的流程图只是个草稿,使用MindMaster编辑。