Собираем Docker образ с моделью-векторизатором (переводит текст в embedding'и):
docker build -f e5-large-instruct.Dockerfile -t e5-large-instruct .
Запускаем БД Weaviate для хранения векторов:
docker compose up -d
Устанавливаем python-зависимости:
pip install -r requirenments.txt
Предварительно необходимо в самом коде реализовать итератор документов document_iterator
(простой пример-заглушка уже реализован)
python data_import.py
python clusterize.py
python export.py