Кластеризация текстов

Подготовка к запуску

Собираем Docker образ с моделью-векторизатором (переводит текст в embedding'и):

docker build -f e5-large-instruct.Dockerfile -t e5-large-instruct .

Запускаем БД Weaviate для хранения векторов:

docker compose up -d

Устанавливаем python-зависимости:

pip install -r requirenments.txt

Запуск импорта данных в БД

Предварительно необходимо в самом коде реализовать итератор документов document_iterator (простой пример-заглушка уже реализован)

python data_import.py

Запуск кластеризации импортированных в БД данных

python clusterize.py

Экспорт данных в JSON файл из БД

python export.py