/Script-in-PopGenetics

群体遗传学分析中用到的script和skill等

Primary LanguagePythonGNU General Public License v3.0GPL-3.0

Script-in-Bio

一些群体遗传分析中用到的脚本

贡献者

还得学

目录

  • SNP-calling

  • CNV 常用的方法是基于测序深度RD的策略,但是测序深度低的话会影响

    • CNVcaller基于RD
    • CNVnator
    • LUMPY他的分析过程有点繁琐
    • 这个Smoove是对LUMPY的整合,操作简单
    • 当然像结构变异这种大片段变异,还是建议有三代数据,无论是由三代检测出SV,然后用二代进行重新召回,还是都用三代,结果都是比二代数据call要好的多的
  • 群体遗传结构分析

    • ADMIXTURE
      • 不设定bootstrap
      • bootstrap 这个的用意是设定随机数种子,然后进行自举重复,让最后的结果更合理
      • CV计算 用于对自举重复的CV进行计算统计
      • 可视化 这个图我还是很满意的
    • PCA 这里有两种进行PCA的软件,一直用的是GCTA
      • GCTA
      • smartPCA这个软件需要自己给好几个文件,我写了个shell进行生成,肯定比完全按他的流程走方便的
    • Tree 系统发育树的话我们一般用的就是ML或者是NJ了,NJ快,ML准确
      • ML-RAxML,他的运行时间是比IQ-TREE长的
      • ML-IQTREE
      • 用PLINK计算的遗传距离,然后写了个Python脚本生成NJ-MEGA的输入文件.meg,其实就是个遗传距离矩阵
      • NJ-VCF2Dis这个软件试过一次,运行时间也挺长的
  • 选择信号分析

    • FST 这个是没有方向性的,即分析结果看不出是哪个群体受的选择信号
    • XP-EHH 基于单倍型的方法,计算群体间选择信号,越高表示在A受选择,越低表示在B受选择,有方向
    • XP-CLR
    • ln_πratio pi的衍生方法
    • CLR
    • iHS 基于单倍型的方法,计算群体内选择信号
    • 曼哈顿图
  • 变异注释 两种,从建库开始详细记录,看个人喜好

    • ANNOVAR
    • snpEff
    • bedtools软件也是可以的哦,有需要自己学
  • 遗传多样性

    • HO-HE
    • LD只记录了LDdeacy,至于LDblock,一般是在GWAS的时候确定有连锁关系的位点
    • 近交系数 PLINK的het, GCTA的grm,以及基于ROH计算的
  • 基因流,这个就是纯属个人兴趣了,里面的脚本仅用于测试,不过有问题还是可以联系探讨的(包括群体历史等)

  • RNA分析的话,好久之前学的了,先记上

  • 至于[GWAS],等以后用的再学一下吧

一些有用的东西

  • 基因组圈图Circos

    • 可用于绘制变异在染色体上的分布,挺好用的,就是安装有点费劲,需要的依赖包过多
    • https://circos.ca/documentation/images/small/,这个是他的官网,里面有各种图及其绘图配置文件示例
  • 给文件换染色体号,同时他可以过滤没用的染色体,perl脚本换不了开头的contig,需要再转次格式

看都看完了,觉得有用顺手收藏下子呗!!!