/kot_prj

Research russian chars and words

Primary LanguagePythonGNU Lesser General Public License v2.1LGPL-2.1

kot_prj

Research russian chars and words


Всем привет. Это мой проект исследования русской разговорной речи, которую мы обычно используем в дружеском общении или в переписках в мессенеджерах. Проект реализуется в рамках помощи моему другу, но независим сам по себе.

Все наработки из этого проекта доступны для свободного использования в рамках лицензий используемых фреймоворков. Можете еще и меня упомянуть, если будете где-то это использовать, хотя я сильно в этом сомневаюсь

На данный момент в репозитори: бардак

char_list (based on pickle.dump())

Python list 210 000 случайных чисел, полученных с random.org. Числа в диапазоне кодировки русских строчных букв в ASCII (но это не точно)


kot_prj_formmesgetword.py

В этом файле я получал из архива своих сообщений в ВК слова, разделял их и размечал, удаляя опечатки


word_dict_obscene.txt

Это список слов (в том числе и обсценной лексики), который я получил работая со скриптом выше. Получилось свыше 44 000 словесных единиц


kot_prj_numwordresearch.py

Исследование буквенного состава русского языка. Сначала я смотрел, как распределяются буквы по количеству, полученные на основе массива случайных чисел из char_list (практически равномерно, с наличием шума, что свидетельствует о True Random (но это не точно)), потом смотрел распределение букв в моем списке слов.
Мои результаты оказались похожи на те, что доступны по ссылке: https://pikabu.ru/story/chastota_bukv_v_russkom_yazyike_5430039 (на основе "Полный орфографический словарь русского языка")(анализ буквенных сочетаний пока не проводился).
В этом файле также смотрел, какие слова я нашел в массиве случайных букв из char_list с использованиеvм ru_RU spellchecking dict from LibreOffice (based on enchant module) и с использованием того же метода в совокупности со своим списком слов. Еще их распределение по количеству букв посмотрел.


kot_prj_grnparse.py

Тут я беру свой char_list или прошу массив цифр с random.org и ищу в нём слова, записывая их в файлы word_list_i1reg (ru_RU spellchecking dict) и word_list_i1obscene (ru_RU spellchecking dict + word_dict_obscene.txt). Похожую задачу пытается реализовать мой друг.


desktop/ruslang_desktop (в разработке)

Десктопное приложение для дальнейшей разметки словаря.


В планах:

Написать для разметки словаря десктопное и мобильное приложение, а так же вебсервис. И разметить. Пока не опредился, по каким критериям.