/spider

Primary LanguageJava

spider

该工程目前实现了爬取B站 优酷视频 腾讯视频的动漫信息列表和动漫更新信息列表并将信息存储到mongodb 中。 bin 目录为程序启动脚本目录。 conf 目录配置mongodb 信息和日志信息 src为源码目录。

在IDE 中直接运行processor包下的类即可执行相应网站数据的爬取

note:单台电脑爬取速度不宜过快,除非使用代理服务器,否则ip容易被拉黑。