/Video-Parser

Скрипт для массовго парсинга ссылок с сайта и скачивания по ним роликов на примере сайта Витте

Primary LanguagePythonGNU General Public License v3.0GPL-3.0

Video-Parser

Скрипт для массового парсинга ссылок с сайта и скачивания по ним роликов на примере сайта Витте.

Video-Parser-Yadisk - этот скрипт автоматизирует процесс скачивания видеороликов с веб-сайта и грузит их сначала на диск компьютера, а затем на Яндекс.Диск.

Video-Parser-Offline - этот скрипт автоматизирует процесс скачивания видеороликов с веб-сайта и грузит их локально на диск компьютера без дальнейшей передачи на Яндекс.Диск.

Описание для Video-Parser-Yadisk: Если вы хотите использовать скрипт для загрузки всех роликов на свой Яндекс.Диск, то потребуется получить свой собственный токен доступа к Яндекс.Диску. Вот как это сделать:

  1. Зарегиструйте скрипт как свое приложения в Яндекс.OAuth:
  2. Перейдите на страницу Яндекс.OAuth по ссылке - https://oauth.yandex.ru/client/new/ ;
  3. Нажмите "Зарегистрировать новое приложение";
  4. Введите любое название приложения и выбирите "Веб-сервисы";
  5. В разделе "Яндекс.Диск REST API" напишите необходимые права доступа: "Доступ к информации о Диске", "Чтение всего Диска", "Запись на весь Диск";
  6. Завершите регистрацию приложения.

Получение Токена:

  1. После регистрации приложения вы получите ID (Client ID) и пароль (Client Secret);
  2. Следуйте инструкциям Яндекса для получения токена;
  3. Токен обычно представляет собой очень длинную строку символов.

Внесения необходимых данных для работы скрипта:

  1. Внесите свой токен в поле "token" вместо '**********';
  2. Внесите свой логин в поле "username" вместо '**********';
  3. Внесите свой пароль в поле "password" вместо '**********';
  4. Можете изменить адрес страницы. Для этого внесите свой адрес в поле "url" вместо ссылки. По умолчанию он скачивает все ролики с вкладки "Вебинары".
  5. Загрузить библиотеки: pip install tqdm beautifulsoup4 selenium heartrate requests yadisk

Затем можно настроить пути сохранения для Яндекс Диска: "from_dir" - откуда качать с компьютера и "to_dir" - куда качать на Яндекс Диск. Можете также указать свой путь для сохранения роликов локально в поле "save_path". По умалчанию это "C:/Video".

Пошаговое описание работы Video-Parser-Yadisk:

  1. Настройка доступа к Яндекс Диску: Скрипт использует токен для аутентификации и работы с Яндекс Диском;
  2. Проверка и создание папки на Яндекс Диске: Скрипт проверяет наличие целевой папки на Яндекс Диске и если папка отсутствует, он создает ее;
  3. Проверка занятости сетевого порта и вклбючение heartrate: Скрипт проверяет, занят ли порт 9999, который необходим для работы heartrate - проверка работы выполнения скрипта, по-умолчанию он закоменчен и если хотите отслеживать работу скрипта, то надо убрать комменатрии в виде "#" перед скриптом;
  4. Создает папку для сохранения роликов, если она не создана;
  5. Автоматизированный вход на сайт: Скрипт использует данные пользователя (логин и пароль) для входа на сайт с помощью Selenium WebDriver;
  6. Получение списка видеороликов: С помощью BeautifulSoup скрипт парсит HTML-код страницы и извлекает с нее ссылки на видеоролики;
  7. Обработка каждого видеоролика: Для каждой ссылки скрипт проверяет, существует ли уже видео на Яндекс Диске. Если существует, то он переходит к следующему ролику;
  8. Скачивание видео: Скрипт скачивает видеоролик по ссылке, если он еще не скачан;
  9. Загрузка видео на Яндекс Диск: После скачивания скрипт загружает видеоролик на Яндекс Диск;
  10. Обработка ошибок: В случае возникновения ошибок во время выполнения скрипт выводит соответствующее сообщение;
  11. Завершение работы: По завершении обработки всех видеороликов скрипт закрывает фоновый браузер.

Описание для Video-Parser-Offline: Здесь те же настройки что и для прошлого скрипта, но без настроек для Яндекс Диска.

Внесения необходимых данных для работы скрипта:

  1. Внесите свой логин в поле "username" вместо '**********';
  2. Внесите свой пароль в поле "password" вместо '**********';
  3. Можете изменить адрес страницы. Для этого внесите свой адрес в поле "url" вместо ссылки. По умолчанию он скачивает все ролики с вкладки "Вебинары".
  4. Загрузить библиотеки: pip install tqdm beautifulsoup4 selenium heartrate requests

Можете также указать свой путь для сохранения роликов локально в поле "save_path". По умалчанию это "C:/Video".

Пошаговое описание работы Video-Parser-Offline:

  1. Проверка занятости сетевого порта и вклбючение heartrate: Скрипт проверяет, занят ли порт 9999, который необходим для работы heartrate - проверка работы выполнения скрипта, по-умолчанию он закоменчен и если хотите отслеживать работу скрипта, то надо убрать комменатрии в виде "#" перед скриптом;
  2. Создает папку для сохранения роликов если она не создана;
  3. Автоматизированный вход на сайт: Скрипт использует данные пользователя (логин и пароль) для входа на сайт с помощью Selenium WebDriver;
  4. Получение списка видеороликов: С помощью BeautifulSoup скрипт парсит HTML-код страницы и извлекает с нее ссылки на видеоролики;
  5. Обработка каждого видеоролика: Для каждой ссылки скрипт проверяет, существует ли уже видео на диске компьютера. Если существует, то он переходит к следующему ролику;
  6. Скачивание видео: Скрипт скачивает видеоролик по ссылке, если он еще не скачан;
  7. Обработка ошибок: В случае возникновения ошибок во время выполнения скрипт выводит соответствующее сообщение;
  8. Завершение работы: По завершении обработки всех видеороликов скрипт закрывает фоновый браузер.