Це друга версія українського NER корпусу. Дані першої версії та документацію ви можете знайти тут
Корпус розмічених даних знаходиться в папці v2.0/data
.
Всього в корпусі:
- 560 текстів (train: 391, test: 169)
- 21_993 сутностей NER
- 13 типів сутностей
NashiGroshi | Bruk | Total | |
---|---|---|---|
ART | 319 | 316 | 635 |
DATE | 1496 | 551 | 2047 |
DOC | 108 | 34 | 142 |
JOB | 1344 | 638 | 1982 |
LOC | 1380 | 1620 | 3000 |
MISC | 102 | 413 | 515 |
MON | 897 | 46 | 943 |
ORG | 4431 | 782 | 5213 |
PCT | 186 | 77 | 263 |
PERIOD | 341 | 255 | 596 |
PERS | 1820 | 4415 | 6235 |
QUANT | 276 | 106 | 382 |
TIME | 4 | 36 | 40 |
Total | 12704 | 9289 | 21993 |
Первинним джерелом даних є відкритий корпус українських текстів (папка bruk) та тексти видання «Наші гроші» (папка ng). Для кожного обробленого тексту з корпусу наявні два файли:
- файл з розширенням
txt
містить токенізовану версію тексту - файл з розширенням
ann
містить NER-анотації до цього тексту у форматі Brat Standoff Format (кожний рядок файлу містить 3 записи, розділені табуляцією: номер анотації, початковий і кінцевий індекс в тексті — у даному випадку, токенізованому — через пробіл, текст сутності)
Анотація виконана принаймні двома анотаторами на кожний текст за наступними правилами, розбіжності в результатах виправлені третім редактором.
Для тренування і валідації моделей рекомендовано використовувати Стандартне розбиття на DEV і TEST набори.
Ми надаємо сконвертовані у формат IOB дані з використанням стандартного розбиття. Під час цієї конвертації ми прибрали вкладені теги.
Репозиторій також містить скрипти для конвертації даних у інші формати.
Ці дані доступні для використання згідно умов ліцензії "Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License"
"Корпус NER-анотацій українських текстів" by lang-uk is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at https://github.com/lang-uk/ner-uk.