Программа для извлечения текста публикации из веб-страницы.
- Python >= 3.3
- lxml >= 3.1
Программа загружает веб-страницу по указанному URL.
Обрабатывает данные этой страницы, извлекая текст публикации.
Результат работы программы сохраняется в файл. Имя файла формируется по URL адресу.
# | Шаг алгоритма | Входные данные | Выходные данные |
---|---|---|---|
Загрузка веб-страницы по указанному URL. | URL страницы | HTML-разметка | |
Находит и распознает полезный контент на странице. | HTML-разметка | HTML-разметка | |
Очистка контента от HTML-тегов. | HTML-разметка | простой текст | |
Форматирование текста. | простой текст | простой текст | |
Сохранение текста в файл. | простой текст | файл на диске |
- Lenta.ru http://lenta.ru/news/2014/02/21/dark/ -> Результат работы
- Uralweb.ru http://www.uralweb.ru/news/business/421853.html -> Результат работы
- E1.ru http://www.e1.ru/news/spool/news_id-401630-section_id-37.html -> Результат работы
python grabber.py <url>
python grabber.py --print
python grabber.py --help
python grabber.py --version