Внутри каждого скрипта подробные комментарии, объясняющие его работу

В файле "Отчет" - отчет по пройденной практике, содержащий полное объяснение и раскрытие поставленной задачи Некоторые файлы, необходимые для работы алгоритма, содержат информацию, которую запрещено выкладывать в публичный доступ, поэтому тут присутствует их описание, но их самих нет.

файлы, нужные для работы алгоритма:

  • Merge_prices - собирает из базы телефонов мтс с артикулами и кратким описанием телефонов - на данный момент shop_mts_startphones_table.xlsx - и файла с ценами телефонов мтс и их артикулами - iv_recdev_art_tac_price.tsv - один целый файл: краткая информаиця о телефоне, необходимая алгоритма, и его цена
  • PR_curve - строит pr_curve на размеченных (1 - пара совпала, 0 - пара найдена неправильно) вручную парах, выданных алгоритмом и вероятностях их совпадения, выданных random forest
  • random_forest - обученная скриптом обучение_и_оценка модель, готовая к использованию
  • Обучение_и_оценка - файл, учащий random_forest на основе файлa Пары_найденные_в_базе.txt пар, найденных в базе и вручную размеченных + f1_score.
  • Скрипт_для_исп - непосредственно скрипт, применяющий алгоритм к данным
  • Все правила в одном файле all_rules, который используется файлом скрипт_для_исп
  • Два файла с списком цветов на русском - colours_rus.txt и на английском - colours_wiki.txt
  • Пары_найденные_в_базе - файл с списком пар, размеченных и найденных вручную - пары вида "телефон из стороннего интернет-магазина - телефон из базы мтс"
  • Нет_в_базе_МТС.txt - файл с списком телефонов из сторонних интернет-магазинов, которых точно нет базе МТС, может использоваться для разметки
  • shop_mts_with_prices.xlsx - файл, в котором собраны воедино скриптом Merge_prices цены и краткие описния телефонов из интернет-магазина мтс
  • iv_recdev_art_tac_price.tsv - файл, в котором собраны артикулы и цены телефонов из базы мтс
  • Top_match.xlsx - файл, хранящий в себе результаты последнего запсука алгоритма, использующийся в том числе в новых запусках для уменьшения времени работы

Для запуска алгоритма необходимо пользоваться скрипт_для_исп, подставляя, при необходимости, нужные файлы в скрипт для обработки, для переобучения модели скриптом обучение_и_оценка, для правки правил - all_rules