kwjp100-varia

To repozytorium zawiera publiczne zbiory danych stworzone na podstawie zrównoważonego Korpusu Współczesnego Języka Polskiego.

W katalogu freqlists znajdują się listy frekwencyjne słów i n-gramów wygenerowanych z KWJP100 oraz jego podkorpusów gatunkowych. Listy można również przeglądać bezpośrednio na stronie, na której znajduje się również dokładniejszy opis danych zawartych na listach.

Katalog KWJP½M zawiera zbiór krótkich próbek wylosowanych z KWJP100 w taki sposób, by każda książka lub tytuł prasowy był w nim reprezentowany w takiej samej proporcji jak w korpusie zrównoważonym. Próbki mają przeciętnie długość 40-60 słów, cały korpus zawiera pół miliona słów tekstowych (od spacji do spacji).