Кластеризация текстов

Подготовка к запуску

Собираем Docker образ с моделью-векторизатором (переводит текст в embedding'и):

docker build -f e5-large-instruct.Dockerfile -t e5-large-instruct .

Запускаем БД Weaviate для хранения векторов:

docker compose up -d

Устанавливаем python-зависимости:

pip install -r requirenments.txt

Предварительно необходимо в самом коде реализовать итератор документов document_iterator (простой пример-заглушка уже реализован)

python data_import.py

python clusterize.py

python export.py