Подскажите в каком формате тестировались Saiga и Vicuna и будут ли еще какие-либо модели протестированы
Andrew-MK opened this issue · 2 comments
Здравствуйте, спасибо за бенчмарк!
Не получилось найти место в коде, отвечающее за скачивание/запуск тестов Saiga, Vicuna, а из представленного описания не смог разобраться в каком формате они были протестированы - через transformers (load_in_8bit=True?) или в каком то из gguf - q4_1, q5_K ...)?
Нет ли планов добавить в тест следующие модели, которые по отзывам также хорошо русский язык поддерживают:
- OpenChat
- StableBeluga2
- Platypus2
- Orca Mini
... или может быть еще какие-то мне неизвестные, но популярные?
Не получилось найти место в коде, отвечающее за скачивание/запуск тестов Saiga, Vicuna
Такого места в коде действительно нет, я взял данные из репозитория https://github.com/IlyaGusev/rulm/tree/master/self_instruct/data
не смог разобраться в каком формате они были протестированы - через transformers (load_in_8bit=True?) или в каком то из gguf - q4_1, q5_K ...)?
load_in_8bits https://github.com/IlyaGusev/rulm/blob/master/self_instruct/src/infer_saiga.py
Нет ли планов добавить в тест следующие модели,
Есть желание добавить Llama2 Chat. Модели из списка буду иметь в виду
Спасибо за внесение ясности. Было интересно сильно ли gguf и квантование q4_1... q5_k_m... снижают качество. А Llama-Chat в сравнении с Сайгой ранее на MMLU тестировали, выводом авторов того тестирования было то, что дотюн Llama до Сайги сильного прироста в метриках по сравнению с базовой моделью не даёт, интересно подтвердятся ли эти выводы на вашем тестировании. Я на Russian SuperGLUE тестировал маленькие версии некоторых из представленных выше моделей - на некоторых задачах метрики почти вдвое лучше такой же маленькой Сайги получались. Обратите внимание, что для не заточенных под русский язык open-source моделей может понадобится дописать к user или system промпту отвечай на русском языке (ты - русскоязычный ассистент, отвечаешь на русском языке) иначе они могут давать ответы на английском и даже правильных их ответ будет не сравним с эталоном на русском языке.