Script-in-Bio

一些群体遗传分析中用到的脚本

贡献者

还得学

SNP-calling
- 包括BWA-GATK以及ANGSD
- 写了个BWA-GATK的snakemake流程
CNV 常用的方法是基于测序深度RD的策略，但是测序深度低的话会影响
- CNVcaller基于RD
- CNVnator
- LUMPY他的分析过程有点繁琐
- 这个Smoove是对LUMPY的整合，操作简单
- 当然像结构变异这种大片段变异，还是建议有三代数据，无论是由三代检测出SV，然后用二代进行重新召回，还是都用三代，结果都是比二代数据call要好的多的
群体遗传结构分析
- ADMIXTURE
  - 不设定bootstrap
  - bootstrap 这个的用意是设定随机数种子，然后进行自举重复，让最后的结果更合理
  - CV计算用于对自举重复的CV进行计算统计
  - 可视化这个图我还是很满意的
- PCA 这里有两种进行PCA的软件，一直用的是GCTA
  - GCTA
  - smartPCA这个软件需要自己给好几个文件，我写了个shell进行生成，肯定比完全按他的流程走方便的
- Tree 系统发育树的话我们一般用的就是ML或者是NJ了，NJ快，ML准确
  - ML-RAxML，他的运行时间是比IQ-TREE长的
  - ML-IQTREE
  - 用PLINK计算的遗传距离，然后写了个Python脚本生成NJ-MEGA的输入文件.meg，其实就是个遗传距离矩阵
  - NJ-VCF2Dis这个软件试过一次，运行时间也挺长的
选择信号分析
- FST 这个是没有方向性的，即分析结果看不出是哪个群体受的选择信号
  - ANGSD
  - VCFTOOLS
- XP-EHH 基于单倍型的方法，计算群体间选择信号，越高表示在A受选择，越低表示在B受选择，有方向
- XP-CLR
- ln_πratio pi的衍生方法
- CLR
- iHS 基于单倍型的方法，计算群体内选择信号
- 曼哈顿图
变异注释两种，从建库开始详细记录，看个人喜好
- ANNOVAR
- snpEff
- bedtools软件也是可以的哦，有需要自己学
遗传多样性
- HO-HE
- LD只记录了LDdeacy，至于LDblock，一般是在GWAS的时候确定有连锁关系的位点
- 近交系数 PLINK的het， GCTA的grm，以及基于ROH计算的
基因流，这个就是纯属个人兴趣了，里面的脚本仅用于测试，不过有问题还是可以联系探讨的（包括群体历史等）
RNA分析的话，好久之前学的了，先记上
- 用hisat2 featurecount deseq2进行的差异表达分析
- 利用STAR及GATK进行转录组SNP的calling
- rMAT的可变剪切分析，这个也是粗略的学了一下，毕竟用不上，纯属个人兴趣
至于[GWAS]，等以后用的再学一下吧

一些有用的东西

基因组圈图Circos
- 可用于绘制变异在染色体上的分布，挺好用的，就是安装有点费劲，需要的依赖包过多
- https://circos.ca/documentation/images/small/，这个是他的官网，里面有各种图及其绘图配置文件示例
给文件换染色体号，同时他可以过滤没用的染色体，perl脚本换不了开头的contig，需要再转次格式

Crazzy-Rabbit/Script-in-PopGenetics

Script-in-Bio

贡献者

还得学

目录

一些有用的东西

看都看完了，觉得有用顺手收藏下子呗！！！