Анализ геномных данных Sars-cov2 с использованием преимущественно библиотеки Biopython

Данный проект представляет собой анализ геномных данных Sars-cov2 с использованием библиотеки Biopython. В процессе анализа мы будем использовать различные методы и функции, доступные в этой библиотеке, чтобы получить информацию о геномной последовательности.

Цель проекта

Цель проекта - проанализировать геномную последовательность Sars-cov2, используя библиотеку Biopython. Мы хотим получить информацию о составе нуклеотидов, GC составе, частотах кодонов, а также произвести in silico транскрипцию и трансляцию для получения белковых последовательностей. Также мы будем использовать blast для поиска информации о функциях белков.

Используемые инструменты

Для выполнения данного проекта мы будем использовать следующие инструменты:

  • Python 3
  • Библиотека Biopython

Как использовать проект

  1. Установите Python 3 на свой компьютер, если он еще не установлен.
  2. Установите зависимости для проекта, настройте виртуальное окружение командой make init.
  3. Скачайте геномную последовательность Sars-cov2 в формате FASTA (Или возьмите наш файл covid_sequence.fasta).
  4. Запустите скрипт sars-cov2_analysis.py, указав путь к файлу с геномной последовательностью в качестве аргумента командной строки.
  5. Результаты анализа будут выведены в консоль.

Что мы можем узнать о геномной последовательности

С помощью библиотеки Biopython мы можем получить следующую информацию о геномной последовательности:

  • Частоты встречаемости нуклеотидов A, G, C, T.
  • GC состав.
  • Частоты кодонов.
  • Белковые последовательности, полученные в результате in silico транскрипции и трансляции.
  • Функции белков, найденные с помощью blast.