Some crawlers used in various projects
抓取如下图页面中每一个item的全部信息,存储到给定的outputfile中
python dianpingSiteSpider.py [url] [outputfile]
例如: 综合商场的url = "http://www.dianping.com/search/category/1/20/g119" 商务楼的url = "http://www.dianping.com/search/category/1/80/g26466"
在place.weibo中搜索一个地名,会出现很多搜索结果,每条结果显示了该地点有多少用户check过。
例如,搜索iapm
,返回的结果如下
该爬虫即爬取全部的搜索结果,并存储到指定文件
- 打开浏览器,登陆http://place.weibo.com/,在“审查元素”中找到cookie,如下图:
复制当前cookie的全部内容,替换query_weibodata.py中的
COOKIE
常量,保存即可 - 在terminal中运行
python query_weibodata.py [inputfile] [outputfile]
eg. python crawlers/query_weiboplace.py mall_list.txt result_bigmall.txt 则每次从mall_list.txt中读取每一行keyword,然后请求place.weibo,最后将结果写入result_bigmall.txt文件中
- inputfile的每一行包含了一条需要请求的地名关键字,如"iapm"
- 将结果输出到文件时,代码中所用到的分隔符可能会出现在地点的名称/地址等处,如果遇到解析出错的情况,需手动调整
可以根据site的微博数对所有sites进行排序,提取Top 1000的sites的经纬度坐标并绘图