/BaiduADCrawler

爬取百度搜索首页上的广告信息。从芝麻HTTP代理获取代理ip,以便爬取在不同城市的搜索广告,关键词可以任意设置。可以设置定时抓取并将原始html文件存在本地。解析结果可以以各种形式如csv输出. pom.xml工程

Primary LanguageJavaGNU General Public License v2.0GPL-2.0

如果需要使用芝麻代理,需要在config.properties里加上appKey、neek和pack的值