Извлечь данные с сайта Правительства РФ и превратить их в несколько наборов данных
Opened this issue · 0 comments
ivbeg commented
Цель
Собрать базу открытых данных с сайта правительства, government,ru
Задача
- проинвентаризировать данные на сайте правительства
- написать парсеры и выгрузить данные в форматах CSV и JSON
- загрузить данные в хаб открытых данных http://hubofdata.ru в удобном виде.
Требования
- открытый исходный код в Github под свободной лицензией
- межплатформенный код (возможность запуска на Linux/Windows)
- предусмотреть перенос всех метаданных в CKAN в виде тегов и атрибутов
- переносить все данные в CKAN или на отдельный хостинг (например, в Github)
Данные
- Персональный состав - http://government.ru/gov/ и http://government.ru/office/
- Перечень ведомств - http://government.ru/ministries/
- Комиссии - http://government.ru/agencies/
- Поручения - http://government.ru/orders/
- Телеграммы - http://government.ru/telegrams/
- Анонсы - http://government.ru/announcements/
- Новости - http://government.ru/news/
- Законопроектная деятельность - http://government.ru/sitemap/
Пожелания
- реализация в виде программы командной строки или веб-приложения
- возможность запуска на MacOSX
- использовать скриптовые языки такие как Python, Perl, R и другие.
Оценки трудоёмкости
Задача должна занять не более 1 недели.
Вспомогательные материалы:
- документация API CKAN - http://docs.ckan.org/en/latest/api/index.html
- сайт правительства http://government.ru