Version 1.0
Copyright 2021 Anton Karl Ingason, Lilja Björk Stefánsdóttir, Þórunn Arnardóttir, Xindan Xu.
Contact: anton.karl.ingason@gmail.com
License: Creative Commons Attribution 4.0 International (CC BY 4.0; See repository for text)
The Icelandic Specialized Error Corpora are three corpora, the Icelandic L2 Error Corpus, the Icelandic Dyslexia Error Corpus and the Icelandic Child Language Error Corpus. The Icelandic L2 Error Corpus is a collection of texts in modern Icelandic written by learners of Icelandic as a second language. The Icelandic Dyslexia Error Corpus is a collection of texts in modern Icelandic written by native Icelandic speakers who have dyslexia. The Icelandic Child Language Error Corpus is a collection of texts in modern Icelandic written by native Icelandic speakers at the age of 10 to 15. All texts in all three corpora have been annotated for mistakes related to spelling, grammar, and other issues.
The project is funded by the Icelandic Government as a part of the Language Technology Programme for Icelandic 2019–2023 which is described in the following publication:
Anna Björk Nikulásdóttir, Jón Guðnason, Anton Karl Ingason, Hrafn Loftsson, Eiríkur Rögnvaldsson, Einar Freyr Sigurðsson, Steinþór Steingrímsson. 2020. Language Technology Programme for Icelandic 2019–2023. Proceedings of LREC 2020 (https://arxiv.org/pdf/2003.09244.pdf)
Útgáfa 1.0
Copyright 2021 Anton Karl Ingason, Lilja Björk Stefánsdóttir, Þórunn Arnardóttir, Xindan Xu.
Tengiliður: anton.karl.ingason@gmail.com
Leyfi: Creative Commons Attribution 4.0 International (CC BY 4.0; sjá leyfistexta í gagnaskjóðu).
Íslensku sérhæfðu villumáheildirnar eru þrjár talsins, Íslenska L2 villumálheildin, Íslenska lesblinduvillumálheildin og Íslenska barnamálsvillumálheildin. Íslenska L2 villumálheildin er safn texta á nútímaíslensku sem hafa verið skrifaðir af annarsmálshöfum íslensku. Íslenska lesblinduvillumálheildin er safn texta á nútímaíslensku sem hafa verið skrifaðir af móðurmálshöfum íslensku sem eru með lesblindu. Íslenska barnamálsvillumálheildin er safn texta á nútímaíslensku sem hafa verið skrifaðir af móðutmálshöfum íslensku á aldrinum 10–15 ára. Allir textar í öllum þremur villumálheildum hafa verið merktir fyrir villum, t.d. hvað varðar stafsetningu, málfræði og fleira.
Þetta verkefni er fjármagnað af ríkissjóði Íslands sem hluti af Máltækniáætlun fyrir íslensku 2019-2023. Máltækniáætluninni er nánar lýst í eftirfarandi grein:
Anna Björk Nikulásdóttir, Jón Guðnason, Anton Karl Ingason, Hrafn Loftsson, Eiríkur Rögnvaldsson, Einar Freyr Sigurðsson, Steinþór Steingrímsson. 2020. Language Technology Programme for Icelandic 2019–2023. Proceedings of LREC 2020 (https://arxiv.org/pdf/2003.09244.pdf)