- Описание на задача
- Github repo
- Статия на Преслав Наков
- Статия на победителите
- Overview на използваните подходи в състезанието
- Размерите на допълнителните датасети трябва да съвпадат с размера на оригиналния.
- Ако огментираме данните, етикетите трябва да са до частите от оригиналния запис, който описват.
- Добре е да се генерират допълнителни данни (превод?)
- Тренирането не трябва да е върху всички документи, защото е небалансирано (да се направи груба подборка).
- Тренировачните данни да са балансирани между положителни и отрицателни примери.