使用Python3实现的网络爬虫,模块化设计后的1.0版本。
- 设置网页抓取的正则匹配规则,修改main.py中的rules变量:
rules = { 'title':r'<title>(.*)</title>', #匹配豆瓣图书的名称
'keywords':r'<meta name="keywords" content="(.*?)">', #匹配图书的关键词
'intro':r'<div class="intro"><p>(.*?)</p>', #匹配图书的简介
'price':r'定价:</span>(.*?)<br/>'} #匹配图书的定价
- 运行main.py
python3 main.py
- 在窗口程序中设置四个参数,点击“点击抓取”按钮。抓取结果保存在磁盘文件中。参考设置如下:
#url_head = 'http://book.douban.com/subject/'
#start = '4866901'
#end = '4866912'
#file_name = 'finds'
Python 3 GUI库tkinter实现。
根据提供的正则表达式匹配规则,网页地址,页码范围,获取所有匹配的内容,以字典形式返回。
命令行实现,抓取特定股票行情网页的股票数据。
Python 2.7.6 GUI库wx实现。