Описание

Проект по хакатону Цифровой Прорыв 2024 ЮФО на тему "Поиск музейных предметов". Приложение доступно по адрессу к использованию и регистрации аккаунтов http://yufo.k-lab.su, в силу специфики поставщика услуг хостинга, на текущий момент не рекомендуется использовать SSL (https), поскольку в таком случае не будет рабоать загрузка изображений. Если проект запускается в Вашей среде, то для активации SSL задайте значение FORCE_HTTPS в .env как true.

За статусом работы развернутого решения можно следить в #1

Состав команды

  • Teamlead, ML — Тищенко Дмитрий Александрович
  • ML, Speech — Жданов Александр Сергеевич
  • Fullstack, ML — Вебер Артем-Дариус Алексеевич

Build/Deploy

Backend / Frontend

git clone https://github.com/xLagerFeuer/southhack-museumsearch-2024.git
cd southhack-museumsearch-2024
git checkout back-front
copy .env.dev .env

После чего настройте ваш .env файл

Установка пакетов

composer update
sudo docker-compose up -d

Теперь нужно зайти в контейнер Подключение к контейнеру:

sudo docker exec -it <container_id> bash

Миграции:

php artisan migrate

Публикация хранилища:

php artisan storage:link

Опционально, принудительный запуск очереди:

php artisan schedule:work

Фичи проекта

Векторный поиск

  • Поиск изображений по вектороной базе данных
  • Концепт использования эмбединга изображения и текста совместно для более точного семантического поиска

Стандартизация текста

  • Работа языковой модели для стандартизации текста по шаблону
  • Концепт масштабирования стандартизации текста на большие данные

Классификация

  • Использование в тетрадях EVA02, resnet, Vit'ы для классификации текста

Структура прототипа

Дизайн пайплайна поиска по фото

design photo search pipeline

Дизайн пайплайна обобщения текста

Исследование

Предложение

Реализация поисковой системы экспонатов музея через методы обработки естественного языка (NLP)

Почему только img2text не выход

etrusk kaban meme

Концепт пайплайна обобщения текста

На рабочие данные необходим пайплайн через стандартизацию путем использования данных с соседей, вероятно, в том числе и изображения. concept image text generalization

Концепт масштабирования стандартизации на большие данные

Редуцированный подход, в котором экземпляры ранижируются по ревелантности своих данных concept scaling text gen., part 1

Таким образом, при прохождении от наиболее ревелантным к наименее, мы можем формировать единый формат записи текста. Также можно рассмотреть переобобщение записей после 1 итерации.

concept scalint text gen., part 2

Использованные модели