Get Data from MD

Этот проект разработан в рамках бизнес-задачи для автоматизации процесса извлечения и анализа данных из Markdown-файлов и веб-страниц.

Описание

Проект состоит из трех основных файлов:

  1. main.py - скрипт для извлечения данных из Markdown-файла и создания JSON-структуры.
  2. request.py - скрипт для анализа веб-страниц на наличие определенных HTML-элементов.
  3. doc.md - исходный Markdown-файл с данными для обработки.

Функциональность

main.py

Этот скрипт читает doc.md, извлекает из него значения itemprop и создает структурированный JSON-файл _itemprop.json.

Основные функции:

  • Извлечение itemprop значений из текста
  • Разделение содержимого на подразделы
  • Создание JSON-структуры с метаданными и списком подразделов

request.py

Этот скрипт анализирует веб-страницы на наличие определенных HTML-элементов, используя данные из _itemprop.json.

Основные функции:

  • Проверка наличия элементов с определенными itemprop на веб-страницах
  • Категоризация элементов на найденные, скрытые и отсутствующие
  • Генерация HTML-отчета с результатами анализа

Использование

  1. Убедитесь, что у вас установлен Python 3.x.
  2. Установите необходимые зависимости: pip install requests beautifulsoup4
  3. Поместите ваш Markdown-файл в директорию проекта и назовите его doc.md.
  4. Запустите main.py для создания _itemprop.json: python main.py
  5. Отредактируйте BASE_URL в request.py для указания нужного веб-сайта.
  6. Запустите request.py для анализа веб-страниц: python request.py

Результаты

  • main.py создает файл _itemprop.json с извлеченными данными.
  • request.py генерирует HTML-отчет с результатами анализа веб-страниц.

Примечание

Этот проект создан для решения конкретной бизнес-задачи и может потребовать дополнительной настройки для использования в других контекстах.