/NLP1

Zadanie pierwsze na Analizę Języka Naturalnego

Primary LanguageJupyter NotebookMIT LicenseMIT

Analiza Języka Naturalnego (NLP) - zadanie 1

Cel

Częściowo w oparciu o dostępne narzędzia i zasoby językowe należy zbudować (a raczej zestawić) program do analizy tekstów w języku polskim napoziomie wyrazów i ich własności gramatycznych. Program powinien podzielić tekst na poszczególne wyrazy i ujednoznacznić ich opis morfo-syntaktyczny.

  1. Zbudowanie tokenizatora (programu do segmentacji tekstu na poziomie wyrazowym). Zakładamy zastosowanie prostego podziału na zdania, np.wybrane znaki interpunkcyjne wyznaczają koniec zdania. Tokenizator powinien odróżniać potencjalne wyrazy języka od innych kategorii tokenów.

  2. Zapoznanie się z analizatorem morfologicznym Morfeusz i zwracanym przez niego tagsetem. Można wykorzystać usługę sieciową CLARIN-PL udostępniającą Morfeusza.2

  3. Zapoznanie się z dostępnymi tagerami morfo-syntaktycznymi dla języka polskiego. Porównanie działania trzech z nich na zbiorze testowym z konkursu PolEval.

  4. Porównanie wpływu działania poszczególnych tagerów jako narzędzi wstępnego przetwarzania na wyniki klasyfikacji tekstów (korpus Wikipedii zCLARN-PL) za pomocą naiwnego algorytmu Bayesowskiego:
    4.1. Gdy do reprezentacji dokumentów są brane pod uwagę tylko rzeczowniki,
    4.2. tylko czasownik,
    4.3. tylko przymiotniki.Należy zaproponować i uzasadnić własny sposób grupowanie klas gramatycznych NKJP do części mowy.

  5. Dodatkowe(dodatkowe punkty) Zbudowanie tagera głosującego w oparciu o połączenie kilku tagerów jednostko