boostCampMCH: A Jupyter Notebook repository from mr8bit

boostCamp

Команда - Lambda

Задча - №5 Нетология

в папке notebooks содержать скрипты для работы с модельками и парсинга данными

Этот репозиторий содержит ML+backend составляющую решения.

А вот тут можете найти iOS приложение - https://github.com/godemodegame/boostCamp

В чем смысл? -42

Мы берем репозитории пользователя, скачиваемы их, потом при помощи модели CodeBERTa векторизуем кодес. И при помощи модельник NER вытаскиваем библиотеки которые использует пользователь.

После чего собираем курсы с Udemy и книги по программированию с Ozon. И допом собираем вакансии с hh.ru и Хабра. Чистим даные, и векторизируем при помощи Sentence-Transformer c quora-distilbert-multilingual векторизируем все вакансии и все курсы. И смотрим при помощи косинусной метрики какая книга больше всего подходит вакансии. Для тематического моделирования используем послеодовательность Sentence-Transformer + UMAP + HDBSCAN. И смотрим какая вакансия с кем пересекается После чего смотрим чем владеет пользователь и что есть в предложеном, вычоркиваем что знает пользователь, а что нет. И показываем, то что он не знает.

Инструкция по запуску

Обновим секретный код github что бы получить доступ к репозитриям

Запуск через Docker

docker build -t codeCump . && docker run -it codeCump

Ну а если , что то можно и руками

Создать виртуальное окружение

  virtualenv venv && soruce venv/bin/activate

Установить зависимости

  pip install -r requirements.txt

Запустить приложение

  uvicorn main:app --reload

mr8bit/boostCampMCH

boostCamp

В чем смысл? -42

Инструкция по запуску