WendyMin/scrawl-beautifulsoup

forum, navigable website, shopping website

Python

scrawl-beautifulsoup

Beautiful Soup 4.4.0 文档

Selenium with Python中文翻译文档

论坛

目前实现的功能：

可提取论坛各版块名称、板块内帖子的标题、发帖人、时间，并根据回帖线索串联帖子
可自定义提取的版块名称、版块内爬取深度，以及帖子爬取深度

导航网站

目前实现的功能：

针对网站分类，提取各网站的名称和链接
可以选择所要提取的分类

网购网站

目前实现的功能：

在各商品分类下提取商品名称、价格、评价总数、各类评价数量

有待改进的地方：

有些大分类下的网站格式不同（童装玩具、孕产、用品），用js加载类目，还有些（尤其是后面的分类网页）也不符合查找的格式，无法用<dl class="theme-bd-level2">找出，需要进行对应修改
有些url对中文没有正确编码，无法用urlopen直接打开，需要改进encode,decode函数
在查找累计评论数的时候，没有用WebDriverWait函数，而是直接time.sleep了2秒钟，有待改进

另：

本项目采用Selenium在后台打开无头浏览器进行动态数据的爬取，因此速度相对post表单来说较慢，可以尝试将Selenium改为post，加快爬取速度
可以采用scrapy进行多线程爬取
可以将爬取数据记录到Redis或者其他数据库中

5/2/2017 9:50:30 PM