Http Парсер файла robots.txt, написанный на nodejs
Парсит файл robots.txt указанного домена и выводит информацию о его содержимом в виде:
{
"Yandex": {
"Allow": [
"/*/*/tree/master",
"/*/*/blob/master"
],
"Disallow": [
"/ekansa/Open-Context-Data",
"/ekansa/opencontext-*"
]
},
"Twitterbot": {
"Allow": [
"/*/*/tree/master",
"/*/*/blob/master"
],
"Disallow": [
"/ekansa/Open-Context-Data",
"/ekansa/opencontext-*"
]
}
}
Если не указан протокол, то по-умолчанию будет использоваться http. Для использования https его нужно указать явно:
Enter domain to parse robots.txt: ya.ru #http
Enter domain to parse robots.txt: http://ya.ru #http
Enter domain to parse robots.txt: https://ya.ru #https
- "node": ">=6.10.1"
git clone https://github.com/LopatkinEvgeniy/robot-parser.git
cd robot-parser
npm start
npm install
npm run lint
npm run test