Описание соревнования:

В соревновании предлагается отранжировать комментарии по критерию токсичности. Комментарии с более высокой степенью токсичности должны получать более высокое числовое значение по сравнению с комментариями с более низкой степенью токсичности. В самом соревновании не предоставляется тренировочных данных, поэтому я использую данные с прошлогоднего соревнования

Пайплайн соревнования:

  1. Очистка данных: удаление лишних символов, ссылок, обработка эмоджи в данных
  2. Обозначение метрики (Average Agreement) и скедулера
  3. Инференс модели (ROBERTa), описание модели: Optimizer: AdamW, Loss Function: MarginRankingLoss, Model: roberta-base, Max Epochs: 3 (~35 минут на эпоху), Scheduler: OneCycleLR
  4. Обучение и валидация