Внутри каждого скрипта подробные комментарии, объясняющие его работу
В файле "Отчет" - отчет по пройденной практике, содержащий полное объяснение и раскрытие поставленной задачи Некоторые файлы, необходимые для работы алгоритма, содержат информацию, которую запрещено выкладывать в публичный доступ, поэтому тут присутствует их описание, но их самих нет.
файлы, нужные для работы алгоритма:
- Merge_prices - собирает из базы телефонов мтс с артикулами и кратким описанием телефонов - на данный момент shop_mts_startphones_table.xlsx - и файла с ценами телефонов мтс и их артикулами - iv_recdev_art_tac_price.tsv - один целый файл: краткая информаиця о телефоне, необходимая алгоритма, и его цена
- PR_curve - строит pr_curve на размеченных (1 - пара совпала, 0 - пара найдена неправильно) вручную парах, выданных алгоритмом и вероятностях их совпадения, выданных random forest
- random_forest - обученная скриптом обучение_и_оценка модель, готовая к использованию
- Обучение_и_оценка - файл, учащий random_forest на основе файлa Пары_найденные_в_базе.txt пар, найденных в базе и вручную размеченных + f1_score.
- Скрипт_для_исп - непосредственно скрипт, применяющий алгоритм к данным
- Все правила в одном файле all_rules, который используется файлом скрипт_для_исп
- Два файла с списком цветов на русском - colours_rus.txt и на английском - colours_wiki.txt
- Пары_найденные_в_базе - файл с списком пар, размеченных и найденных вручную - пары вида "телефон из стороннего интернет-магазина - телефон из базы мтс"
- Нет_в_базе_МТС.txt - файл с списком телефонов из сторонних интернет-магазинов, которых точно нет базе МТС, может использоваться для разметки
- shop_mts_with_prices.xlsx - файл, в котором собраны воедино скриптом Merge_prices цены и краткие описния телефонов из интернет-магазина мтс
- iv_recdev_art_tac_price.tsv - файл, в котором собраны артикулы и цены телефонов из базы мтс
- Top_match.xlsx - файл, хранящий в себе результаты последнего запсука алгоритма, использующийся в том числе в новых запусках для уменьшения времени работы
Для запуска алгоритма необходимо пользоваться скрипт_для_исп, подставляя, при необходимости, нужные файлы в скрипт для обработки, для переобучения модели скриптом обучение_и_оценка, для правки правил - all_rules