https://colab.research.google.com/drive/1VqetexCIkeLH0YkyGspld6YWgILMpuHa?usp=sharing
Видим хорошие показатели качества прочтений для replicate 1 и control. Для
replicate 2 наблюдается очень сильный разброс в качестве прочтений, поэтому для
replicate 2 была проведена обработка с помощью trimmomatic
.
ENCFF000BCI - replicate 2 - trimmed
После фильтрации качество прочтений заметно улучшилось.
Образец | Всего ридов | Уникально выр. | НЕ-уникально выр. | Не выравнилось |
---|---|---|---|---|
ENCFF000BCI | 23311976 | 1012890 (4.34%) | 2897175 (12.43%) | 19401911 |
ENCFF000BCE | 39589029 | 1635458 (4.13%) | 5590864 (14.12%) | 32362707 |
ENCFF000BAU | 84569628 | 3493144 (4.13%) | 9185116 (10.86%) | 71891368 |
Так как выравнивание производилось всего на одну хромосому (14-ю), то выравнились не все прочтения из образцов, а лишь те что могли попасть на данную хромосому. Доля 14-й хромосомы составляет около 3.5% всего генома человека. Процент уникальных выравниваний соответствует этому числу.
Найденных пиков меньше чем в фале для сравнения, так как мы производили поиск только на одной хромосоме. Наблюдаем, что в пересечении пиков заметно меньше, чем в файле для сравнения. Более того при поиске пересечений между полученными пиками и файлом для сравнения мы получаем число большее чем при поиске пересечений между файлом для сравнения и полученными пиками. Это говорит о том, что в среднем на один попавший в пересечение пик из файла сравнения приходятся несколько полученных пиков. Это может происходить из-за особенностей выбора параметров при поиске пиков, например, пороговых значений.
Из распределений мы наблюдаем отрицательную корреляцию присутствия H3K27me3 в сайте начала транскрипции. Можно предположить, что данная гистонная модификация негативно влияет на экспрессию генов, рядом с которыми она находится (википедия). Это наблюдение согласуется с картинкой в задании для случая H3K27me.