infoculture/hubofdata

Извлечь данные с сайта Правительства РФ и превратить их в несколько наборов данных

Opened this issue · 0 comments

ivbeg commented

Цель

Собрать базу открытых данных с сайта правительства, government,ru

Задача

  • проинвентаризировать данные на сайте правительства
  • написать парсеры и выгрузить данные в форматах CSV и JSON
  • загрузить данные в хаб открытых данных http://hubofdata.ru в удобном виде.

Требования

  • открытый исходный код в Github под свободной лицензией
  • межплатформенный код (возможность запуска на Linux/Windows)
  • предусмотреть перенос всех метаданных в CKAN в виде тегов и атрибутов
  • переносить все данные в CKAN или на отдельный хостинг (например, в Github)

Данные

Пожелания

  • реализация в виде программы командной строки или веб-приложения
  • возможность запуска на MacOSX
  • использовать скриптовые языки такие как Python, Perl, R и другие.

Оценки трудоёмкости

Задача должна занять не более 1 недели.

Вспомогательные материалы: