Анализ ВКР российских вузов
Python: 3.9.7
Packages: python -m pip install -r requirements.txt
Сжатые данные:
- спарсить данные с сайта:
python get_diplomas_hse.py --output_path parsed_results/hse_data.json
Примечание: не нашел сборник всех ВКР, только тех, что участвовали в конкурсе научно-исследовательских ВКР
- скачать PDF с описаниями ВКР и сохранить в папку
itmo_nivkr/
(на случай, если ссылка перестала работать, гуглить "ИТМО сборники НИВКР") - извлечь из PDF тексты (сохраняются в папку
itmo_nivkr_txt/
):python extract_texts_from_pdf.py --pdf_folder itmo_nivkr/ --output_folder itmo_nivkr_txt --n_workers 4
- спарсить данные о ВКР:
python get_diplomas_itmo.py --txts_folder itmo_nivkr_txt/ --output_path parsed_results/itmo_data.json
Ноутбук разделен на несколько частей:
- Импорт зависимостей и чтение данных
- Очистка данных, извлечение полей из сырого текста
- Распределение некоторых величин в дипломах (например, количество работ по образовательной программе или по уровню: бакалавриат или магистратура)
- Изменение величин в течение времени (например, как распределялись работы по уровню обучения на протяжении нескольких лет)
- Подсчет работ с упоминанием машинного обучения и близкой тематики (ML, DS, AI)