kot_prj
Research russian chars and words
Всем привет. Это мой проект исследования русской разговорной речи, которую мы обычно используем в дружеском общении или в переписках в мессенеджерах. Проект реализуется в рамках помощи моему другу, но независим сам по себе.
Все наработки из этого проекта доступны для свободного использования в рамках лицензий используемых фреймоворков. Можете еще и меня упомянуть, если будете где-то это использовать, хотя я сильно в этом сомневаюсь
бардак
На данный момент в репозитори: char_list (based on pickle.dump())
Python list 210 000 случайных чисел, полученных с random.org. Числа в диапазоне кодировки русских строчных букв в ASCII (но это не точно)
kot_prj_formmesgetword.py
В этом файле я получал из архива своих сообщений в ВК слова, разделял их и размечал, удаляя опечатки
word_dict_obscene.txt
Это список слов (в том числе и обсценной лексики), который я получил работая со скриптом выше. Получилось свыше 44 000 словесных единиц
kot_prj_numwordresearch.py
Исследование буквенного состава русского языка. Сначала я смотрел, как распределяются буквы по количеству, полученные на основе массива случайных чисел из char_list (практически равномерно, с наличием шума, что свидетельствует о True Random (но это не точно)), потом смотрел распределение букв в моем списке слов.
Мои результаты оказались похожи на те, что доступны по ссылке: https://pikabu.ru/story/chastota_bukv_v_russkom_yazyike_5430039 (на основе "Полный орфографический словарь русского языка")(анализ буквенных сочетаний пока не проводился).
В этом файле также смотрел, какие слова я нашел в массиве случайных букв из char_list с использованиеvм ru_RU spellchecking dict from LibreOffice (based on enchant module) и с использованием того же метода в совокупности со своим списком слов. Еще их распределение по количеству букв посмотрел.
kot_prj_grnparse.py
Тут я беру свой char_list или прошу массив цифр с random.org и ищу в нём слова, записывая их в файлы word_list_i1reg (ru_RU spellchecking dict) и word_list_i1obscene (ru_RU spellchecking dict + word_dict_obscene.txt). Похожую задачу пытается реализовать мой друг.
desktop/ruslang_desktop (в разработке)
Десктопное приложение для дальнейшей разметки словаря.
В планах:
Написать для разметки словаря десктопное и мобильное приложение, а так же вебсервис. И разметить. Пока не опредился, по каким критериям.