Этот проект разработан в рамках бизнес-задачи для автоматизации процесса извлечения и анализа данных из Markdown-файлов и веб-страниц.
Проект состоит из трех основных файлов:
main.py
- скрипт для извлечения данных из Markdown-файла и создания JSON-структуры.request.py
- скрипт для анализа веб-страниц на наличие определенных HTML-элементов.doc.md
- исходный Markdown-файл с данными для обработки.
Этот скрипт читает doc.md
, извлекает из него значения itemprop
и создает структурированный JSON-файл _itemprop.json
.
Основные функции:
- Извлечение
itemprop
значений из текста - Разделение содержимого на подразделы
- Создание JSON-структуры с метаданными и списком подразделов
Этот скрипт анализирует веб-страницы на наличие определенных HTML-элементов, используя данные из _itemprop.json
.
Основные функции:
- Проверка наличия элементов с определенными
itemprop
на веб-страницах - Категоризация элементов на найденные, скрытые и отсутствующие
- Генерация HTML-отчета с результатами анализа
- Убедитесь, что у вас установлен Python 3.x.
- Установите необходимые зависимости:
pip install requests beautifulsoup4
- Поместите ваш Markdown-файл в директорию проекта и назовите его
doc.md
. - Запустите
main.py
для создания_itemprop.json
:python main.py
- Отредактируйте
BASE_URL
вrequest.py
для указания нужного веб-сайта. - Запустите
request.py
для анализа веб-страниц:python request.py
main.py
создает файл_itemprop.json
с извлеченными данными.request.py
генерирует HTML-отчет с результатами анализа веб-страниц.
Этот проект создан для решения конкретной бизнес-задачи и может потребовать дополнительной настройки для использования в других контекстах.