/AuthorshipAttribution

Курсовая работа по обработке данных

Primary LanguageJupyter Notebook

Атрибуция текста авторством

English version of README

Описание

Курсовая работа по обработке данных.

Строются свёрточные НС с 3мя и 4мя параллельными входными слоями, обрабатывающие триграммную форму предложений.

Ход выполнения скриптов

1 2 3
create_dataset.ipynb dataset_preprocessing.ipynb analysys.ipynb
Create dataset Preprocessing Analysys

Скрипты выплняются полностью последовательно. Первые два не нуждаются в вычислителях мощнее средней рабочей санции (ноутбука, к примеру).

Однако для блока analysys.ipynb необходимы довольно мощные машины, рекомендуется ускоритель GPU (просчёт выполнялся на Kaggle, где с включённым GPU время обучения уже было приемлимым).

Возможные улучшения

  • 4-граммы. Всё же результаты, как показывают применения до этого, будут получше;
  • Увеличение объёма обучающей выборки. Влечёт увеличение затрат на вычислительные мощности.