language: A sed repository from yradunchev

Честотен анализ на буквите в два литературни текста на български език

Източници:

Методика

Текстовете на двете литературни прозиведения са свалени от сайта Читанка в plain text формат.

Текстовете са обработени както следва:

Премахнати са всички пунктуационни знаци:
```
sed 's/[[:punct:]]//g'
```
Премахнати са всички цифри:
```
sed 's/[[:num:]]//g'
```
Премахнати са всички интервали:
```
sed 's/ //g'
```
Премахнати са всички табулации:
```
sed 's/\t//g'
```
Премахнати са всички нови редове CR+LF:
```
sed 's/^M//g'
```
Премахнати са всички нови редове:
```
sed 's/\n//g'
```
Главните букви в текстовете са превърнати в редови:
```
awk '{print tolower($0)}'
```

Забележка: Тъй като в текстовете вместо ѝ е използвана буквата й между стъпка 2 и стъпка 3 преброени всички срещания на й между два интрвала (grep -c " й "). Сумата е извадена от общия резултат на й и добавена в общия резултат на и в резултата от общото преброяване на буквите по-късно.

Общия брой на буквите в текста е изчислен така:

wc -c text_p

Броя на всяка буква в текстовете е преброен, след което е изчислен в процент от общия брой букви в съответния текст:

grep -o . text_p | sort | uniq -c | sort -k2 | awk '{c = ($1/1155525)*100; printf "%s %s %.2f\n",$1,$2,c }'

Нанесена е корекцията за ѝ и и (виж забележката по-горе).
С помощта на gnuplot са изчертани графики от резлутатите, използван е скрипта plot

yradunchev/language

Честотен анализ на буквите в два литературни текста на български език

Източници:

Методика