RuArg-2022

Соревнование по анализу аргументации

Описание соревнования

Анализ аргументации (argumentation mining) – это область компьютерной лингвистики, в которой исследуются методы извлечения из текстов и классификации аргументов и связей между ними, а также построения аргументационной структуры. Аргумент должен включать утверждение (claim), содержащее позицию (stance) относительно некоторой тематики или объекта, и, по крайней мере, один довод (premise) «за» или «против» этой позиции. Часто «довод» называют «аргументом», когда из контекста ясно, о каком утверждении идет речь.
Существует большое количество работ, посвященных задаче анализа аргументации [1–4]. Также проводятся соревнования [5–7], но, в основном, для английского языка. В соревновании RuArg-2022 впервые предлагается протестировать системы анализа аргументации на материале русского языка.

Из множества задач, возникающих при анализе аргументации, мы выбрали две: определение позиции (stance detection) и классификация доводов (premise classification). В первой задаче необходимо определить точку зрения (позицию) автора текста по отношению к заданному утверждению. Во второй задаче требуется распознать, содержит ли текст доводы «за» или «против» относительно заданного утверждения.

Мы сформулировали три утверждения, касающиеся пандемии COVID-19 (и в целом противоэпидемических мер):

«Вакцинация полезна для общества».
«Введение и соблюдение карантина полезно для общества».
«Ношение масок полезно для общества».

Из социальных сетей была собрана коллекция предложений – комментариев к постам из социальных медиа. В этих предложениях могут содержаться как высказывания, определяющие авторскую позицию относительно заданных утверждений, так и высказывания с доводами «за»/«против» этих утверждений.

Каждое предложение было размечено по позиции и по доводам для всех трех утверждений. Таким образом, каждое предложение имеет шесть меток. Использовались следующие классы (метки):

«за» (2);
«против» (0);
«прочее» (1) (для позиции эта метка объединяет метки «нейтрально», «непонятно» или «и за, и против») / «нет аргумента» (для довода);
«нерелевантно» (-1) (для данного утверждения).

Размеченные предложения были разделены на три корпуса: обучающий, валидационный и тестовый. Сразу после объявления соревнования выкладываются обучающий и валидационный корпуса. Позже будет опубликован тестовый корпус (без разметки).

Постановка задачи: участникам требуется автоматически разметить каждое тестовое предложение по позиции и доводам для каждого утверждения (вакцинация, карантин, маски) отдельно – всего нужно назначить предложению шесть меток. Метки принадлежат множеству из четырех классов (см. выше).

Основной мерой качества в каждой из двух задач является macro F1-score (macro F1_rel-score), усредняемая сначала по трем классам релевантности (класс «нерелевантно» исключается), а затем – по темам. Точнее, используется следующая процедура:

для каждого из трех утверждений рассчитывается метрика F1-score по каждому классу (метке) отдельно;
метрики F1-score усредняются по трем классам из четырех (класс «нерелевантно» не включается) – получается macro F1_rel-score относительно данного утверждения;
метрики macro F1_rel-score по всем трём утверждениям усредняются – получается macro F1_rel-score относительно задачи (определение позиции или классификация доводов)

В итоге будут сформированы две основные метрики macro F1_rel-score – по одной на каждую задачу. По этим метрикам системы участников будут ранжироваться (два отдельных списка). Метрики F1_rel-score по утверждениям и F1-score по отдельным классам будут считаться вспомогательными.

Участники, представившие свое решение на соревновании, могут подать статью на публикацию, которая проходит двойное слепое рецензирование наравне с другими участниками конференции «Диалог» (см. подробнее здесь).

Расписание

21 декабря – публикация обучающего и валидационного корпусов.
4 февраля – публикация неразмеченного тестового корпуса.
20 февраля – окончание приема результатов систем участников.
25 февраля – публикация результатов оценки систем участников.
25 марта – предоставление участниками статей.

Организаторы

Лукашевич Н.В. (МГУ им. М.В. Ломоносова)
Добров Б.В. (МГУ им. М.В. Ломоносова)
Панченко А.И. (Сколтех)
Никишина И.А. (Сколтех)
Котельников Е.В. (ВятГУ)

Ссылки

Источники

Lawrence J., Reed C. Argument Mining: A Survey. Computational Linguistics. 2020. Vol. 45(4). P. 765–818.
Schaefer R., Stede M. Annotation and detection of arguments in tweets. Proceedings of the 7th Workshop on Argument Mining. 2020. P. 53–58.
Trautmann D., Daxenberger J., Stab C., Schütze H., Gurevych I. Fine-Grained Argument Unit Recognition and Classification. 34th AAAI Conference on Artificial Intelligence (AAAI-20). P. 9048–9056.
Vecchi E.M., Falk N., Jundi I., Lapesa G. Towards Argument Mining for Social Good: A Survey. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics. P. 1338–1352.
Bondarenko A., Hagen M., Potthast M., Wachsmuth H., Beloucif M., Biemann C., Panchenko A., Stein B. Touché: First Shared Task on Argument Retrieval. Proceedings of the 42nd European Conference on Information Retrieval (ECIR 2020), 2020. P. 517–523.
Habernal I., Wachsmuth H., Gurevych I., Stein B. The Argument Reasoning Comprehension Task: Identification and Reconstruction of Implicit Warrants. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2018. P. 1930–1940.
Pontiki M., Galanis D., Papageorgiou H., Androutsopoulos I., Manandhar S., AL-Smadi M., Al-Ayyoub M., Zhao Y., Qin B., De Clercq O., Hoste V., Apidianaki M., Tannier X., Loukachevitch N., Kotelnikov E., Bel N., Jiménez-Zafra S.M., Eryiğit G. SemEval-2016 Task 5: Aspect Based Sentiment Analysis. Proceedings of the 10th International Workshop on Semantic Evaluation (SemEval-2016). 2016. P. 19–30.