В соревновании предлагается отранжировать комментарии по критерию токсичности. Комментарии с более высокой степенью токсичности должны получать более высокое числовое значение по сравнению с комментариями с более низкой степенью токсичности. В самом соревновании не предоставляется тренировочных данных, поэтому я использую данные с прошлогоднего соревнования
- Очистка данных: удаление лишних символов, ссылок, обработка эмоджи в данных
- Обозначение метрики (Average Agreement) и скедулера
- Инференс модели (ROBERTa), описание модели: Optimizer: AdamW, Loss Function: MarginRankingLoss, Model: roberta-base, Max Epochs: 3 (~35 минут на эпоху), Scheduler: OneCycleLR
- Обучение и валидация