/test_task_2014

Программа для извлечения текста публикации из веб-страницы.

Primary LanguagePython

Site grabber

Программа для извлечения текста публикации из веб-страницы.

Системные требования

  • Python >= 3.3
  • lxml >= 3.1

Описание программы

Программа загружает веб-страницу по указанному URL.

Обрабатывает данные этой страницы, извлекая текст публикации.

Результат работы программы сохраняется в файл. Имя файла формируется по URL адресу.

Алготим работы программы

# Шаг алгоритма Входные данные Выходные данные
Загрузка веб-страницы по указанному URL. URL страницы HTML-разметка
Находит и распознает полезный контент на странице. HTML-разметка HTML-разметка
Очистка контента от HTML-тегов. HTML-разметка простой текст
Форматирование текста. простой текст простой текст
Сохранение текста в файл. простой текст файл на диске

Программа тестировалась на сайтах

Использование и запуск

python grabber.py <url>

Вывод результата работы программы на экран

python grabber.py --print

Вывод справки

python grabber.py --help

Вывод версии программы

python grabber.py --version