/xcrawler

Crawler command line tool that can crawl any website

Primary LanguageGoMIT LicenseMIT

xcrawler

Crawler command line tool that can crawl any website.

xcrawler version: 1.0.1
Options:
  -X	debug
  -cs
    	是否开启紧凑输出,多个空格和换行替换为一个
  -d string
    	保存目录,默认当前
  -ep string
    	最后一个参数
  -f string
    	从文件中取url,每行一个
  -hd string
    	设置请求头k1=v1,k2=v2
  -help
    	print help info
  -hf string
    	请求头在此文件
  -hs
    	是否横列输出
  -is string
    	pipe input separeator (default "\t")
  -js string
    	json选择器,多个逗号分隔
  -lsr string
    	100,10 表示每100秒后休息10秒
    	50-100,10-20 表示每50-100秒后息随机休息10-20秒
  -np string
    	下一页的url填充参数的变化规律,多个逗号分隔。
    	+n:表示在上一页参数基础上加n
  -p string
    	初始参数,即第一页url模版的参数,多个逗号分隔
  -pb
    	print body
  -ph
    	print response header
  -pp string
    	此参数只在有管道输入时有效,表示只有第一个管道数据使用这个初始参数,之后的都使用-p的初始参数
  -px string
    	proxy
  -q	是否打引号
  -qh
    	print request header
  -qs
    	选择器的选择项有多个时,每个结果是否打引号
  -r string
    	正则表达式,多个逗号分隔
  -rt int
    	retry count (default 3)
  -s string
    	html选择器,多个逗号分隔
  -sc string
    	停止内容:当内容包含此字符串时停止翻页
  -se
    	当json选择器内容为空时停止翻页
  -sp string
    	一个选择器对应多个结果时的分隔符 (default "\n")
  -sr string
    	10,1 表示每10次请求休息1秒
    	1-10,1-5 表示每1-10次请休息随机1-5秒
  -ss
    	当此页内容与上一页内容相同时停止翻页
  -to int
    	timeout seconds (default 10)
  -tp int
    	总共翻多少页
  -u string
    	url或起始url模版
  -v	show version