生物信息学入门最佳实践

首先通过去可视化方法来熟练使用基于linux系统的服务器,在此基础上实践两三个NGS组学数据分析流程,实践过程需要学习获得数据格式,数据库资源等生物信息学背景。基再学习perl/python/R的编程基础,并应用于NGS组学数据分析的下游,个性化分析。

服务器使用

基本配置是8G内存+0.5T硬盘(配置不达标问题也不大),系统可以是ubuntu,centos等linux系统,或者 MAC,或者改进版的Windows系统。

linux系统

基本上不太可能有个人用户用这个系统,略过

MAC系统

如果是苹果电脑,那么非常适合做生物信息学数据分析。需要安装brew,textwranger,filezilla

windows电脑

大多数人都是这个操作系统,如果是Windows10系统,那么开始其内置的ubuntu即可。如果是其它Windows版本,就需要安装虚拟机,在虚拟机里面安装ubuntu,centos等linux系统

对于Windows用户还需要下载安装好 xshell,winscp,everything,notepad++,git或者同等功能的软件。

三系统共用软件

无论是哪种电脑操作系统,都需要安装anaconda,pycharm,R/Rstudio,typora

上面提到的软件的简介和部分网址如下:

去可视化熟悉linux命令

生物信息入门基本知识

数据产生

  • 产生方式
    • arrary
    • genome tiling arrary
    • high throughput sequencing
    • snp arrary
    • protein arrary
  • 数据种类
    • expression profiling
    • genome binding/occupancy profiling
    • genome variation profiling
    • methylation profiling
    • non coding rna profiling
    • protein profiling
    • snp genotyping
  • 二代测序
  • 三代测序
    • PacBio RS
    • Nanopore MinlON

数据存储类型

数据库资源

生物信息统计入门基础

  • 基本概念
  • 统计方法
  • 实现方法
  • 结果可视化
  • 相关软件算法实现

编程基础

生物学基础知识

思维导图

生信技能树大纲

本章节作者:思考问题的熊