/language

Frequency analysis of Bulgarian language

Primary Languagesed

Честотен анализ на буквите в два литературни текста на български език

Източници:

Методика

Текстовете на двете литературни прозиведения са свалени от сайта Читанка в plain text формат.

Текстовете са обработени както следва:

  1. Премахнати са всички пунктуационни знаци:
    sed 's/[[:punct:]]//g'
  2. Премахнати са всички цифри:
    sed 's/[[:num:]]//g'
  3. Премахнати са всички интервали:
    sed 's/ //g'
  4. Премахнати са всички табулации:
    sed 's/\t//g'
  5. Премахнати са всички нови редове CR+LF:
    sed 's/^M//g'
  6. Премахнати са всички нови редове:
    sed 's/\n//g'
  7. Главните букви в текстовете са превърнати в редови:
    awk '{print tolower($0)}'

Забележка: Тъй като в текстовете вместо ѝ е използвана буквата й между стъпка 2 и стъпка 3 преброени всички срещания на й между два интрвала (grep -c " й "). Сумата е извадена от общия резултат на й и добавена в общия резултат на и в резултата от общото преброяване на буквите по-късно.

Общия брой на буквите в текста е изчислен така:

wc -c text_p
Броя на всяка буква в текстовете е преброен, след което е изчислен в процент от общия брой букви в съответния текст:
grep -o . text_p | sort | uniq -c | sort -k2 | awk '{c = ($1/1155525)*100; printf "%s %s %.2f\n",$1,$2,c }'
Нанесена е корекцията за ѝ и и (виж забележката по-горе).
С помощта на gnuplot са изчертани графики от резлутатите, използван е скрипта plot

Графика Под игото

Графика Из Рила