Site grabber

Программа для извлечения текста публикации из веб-страницы.

Системные требования

Программа загружает веб-страницу по указанному URL.

Обрабатывает данные этой страницы, извлекая текст публикации.

Результат работы программы сохраняется в файл. Имя файла формируется по URL адресу.

Шаг алгоритма	Входные данные	Выходные данные
Загрузка веб-страницы по указанному URL.	URL страницы	HTML-разметка
Находит и распознает полезный контент на странице.	HTML-разметка	HTML-разметка
Очистка контента от HTML-тегов.	HTML-разметка	простой текст
Форматирование текста.	простой текст	простой текст
Сохранение текста в файл.	простой текст	файл на диске

python grabber.py <url>

python grabber.py --print

python grabber.py --help

python grabber.py --version