/ner-uk

Ukranian NER annotation project

Primary LanguageCommon Lisp

NER-анотація українського корпусу

English version

Опис даних

Це друга версія українського NER корпусу. Дані першої версії та документацію ви можете знайти тут

Корпус розмічених даних знаходиться в папці v2.0/data. Всього в корпусі:

  • 560 текстів (train: 391, test: 169)
  • 21_993 сутностей NER
  • 13 типів сутностей
NashiGroshi Bruk Total
ART 319 316 635
DATE 1496 551 2047
DOC 108 34 142
JOB 1344 638 1982
LOC 1380 1620 3000
MISC 102 413 515
MON 897 46 943
ORG 4431 782 5213
PCT 186 77 263
PERIOD 341 255 596
PERS 1820 4415 6235
QUANT 276 106 382
TIME 4 36 40
Total 12704 9289 21993

Первинним джерелом даних є відкритий корпус українських текстів (папка bruk) та тексти видання «Наші гроші» (папка ng). Для кожного обробленого тексту з корпусу наявні два файли:

  • файл з розширенням txt містить токенізовану версію тексту
  • файл з розширенням ann містить NER-анотації до цього тексту у форматі Brat Standoff Format (кожний рядок файлу містить 3 записи, розділені табуляцією: номер анотації, початковий і кінцевий індекс в тексті — у даному випадку, токенізованому — через пробіл, текст сутності)

Анотація виконана принаймні двома анотаторами на кожний текст за наступними правилами, розбіжності в результатах виправлені третім редактором.

Для тренування і валідації моделей рекомендовано використовувати Стандартне розбиття на DEV і TEST набори.

Ми надаємо сконвертовані у формат IOB дані з використанням стандартного розбиття. Під час цієї конвертації ми прибрали вкладені теги.

Репозиторій також містить скрипти для конвертації даних у інші формати.

Ліцензія

Ці дані доступні для використання згідно умов ліцензії "Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License"

Creative Commons License
"Корпус NER-анотацій українських текстів" by lang-uk is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at https://github.com/lang-uk/ner-uk.