/Awesome-Bioinformatics-CN

生物信息学软件,资源和工具库的精选列表

Awesome Bioinformatics Awesome URL Check TOC

生物信息学(英语:bioinformatics)利用应用数学、信息学、统计学和计算机科学的方法研究生物学的问题。--维基百科

本仓库forkhttps://github.com/danielecook/Awesome-Bioinformatics,为其汉化版,同时加上一些笔者在科研/工作中比较好用的生物信息学工具/数据库等。共同学习,共同进步。Help you,Help us。


生物信息学软件,资源和工具库的精选列表。 大多数为命令行,免费或开源工具。 欢迎提交pull request~


软件包套件

软件包套件收录用于特定语言或平台的生物信息学软件包和安装工具。

数据下载

  • GGD - Go Get Data; 命令行下载基因组数据 [ web ]
  • SRA-Explorer - 快速获得SRA下载链接和其它信息 [ web ]

数据压缩

  • Genozip 👍 - 常见基因组文件格式(BAM, CRAM, FASTQ, VCF等)压缩 [ web | paper-2021 ]
  • gtz 👍, 人和未来开发的高性能高压缩效率的工具

数据处理

命令行工具

  • Bioinformatics One Liners - 只一行命令进行生物数据处理
  • BioNode - 模块化和通用的生物信息学工具,Bionode为生物信息学分析工作流提供了可移植的UNIX命令行工具和JavaScript API [ web ]
  • bioSyntax - vim/less/gedit/submie中生物数据格式(SAM, VCF, GTF, FASTA, PDB等)语法高亮 [ paper-2018 | web ]
  • CSVKit - 操作CSV/TAB分割文件的工具 [ web ]
  • csvtk - 另一个跨平台,高效实用的CSV/TSV工具箱 [ web ]
  • datamash - 数据转换和统计 [ web ]
  • easy_qsub - 使用脚本模板快速提交PBS任务,支持多个输入文件
  • GNU Parallel - 在一台多核的机器上并行执行任务的通用并行器,这里是使用GNU cParallel的一些示例。
  • grabix - 随机访问BGZF文件的轻量工具。
  • gsort - 按照指定顺序排序基因文件
  • tabix - 表格数据建立索引 [ paper-2011 ]
  • wormtable - 大型数据集单写多读
  • zindex - 压缩文本文件创建索引
  • jq👍 - 命令行处理JSON文件
  • screen 👍 - 命令行终端切换软件
  • tmux👍 - 终端多路复用器,可以在一个屏幕上创建,访问,控制多个终端。同时可以断开连接并继续在后台运行

二代测序

流程管理

  • BigDataScript - 跨系统脚本语言,用于处理具有不同算力的计算机系统中的大数据流程的跨系统脚本语言 [ paper-2014 | web ]
  • Bpipe - 一种定义流程不同阶段及串联起来的轻量语言 [ web ]
  • Common Workflow Language - 用于描述分析工作流程和工具的规范,从工作站到集群,云和高性能计算(HPC)环境的各种软件和硬件环境中都具有可移植性和可伸缩性 [ web ]
  • Cromwell - 面向科学工作流程的工作流程管理系统 [ web ]
  • Galaxy - 一个流行的开源,基于Web的平台,用于数据密集型生物医学研究。 从数据分析到工作流管理再到可视化工具一站式解决 [ paper-2018 | web ]
  • Nextflow 👍 - 基于UNIX管道概念建模的流畅DSL,简化了以可移植方式编写并行和可扩展管道的过程。 [ paper-2018 | web ]
  • Ruffus - 广泛用于科学和生物信息的计算流程Python库[ paper-2010 | web ]
  • SeqWare - 基于Hadoop Oozie的工作流系统用于云环境中的基因组数据分析 [ paper-2010 | web ]
  • Snakemake👍 - Python中的工作流管理系统,旨在通过提供快速舒适的执行环境来降低创建工作流的复杂性 [ paper-2018 | web ]
  • Workflow Descriptor Language - Broad开发的流程标准(已archived) [ web ]

生信流程

  • Awesome-Pipeline - 流程资源列表
  • Bactopia - 基于Nextflow的细菌基因组分析流程 [ web ]
  • bcbio-nextgen - 已验证可扩展的,社区开发的变异检测,注释,预测,RNA-seq和小RNA分析流程 [ web ]
  • snakepipes👍 - 基于snakemake的流程,包括ChIP-seq,mRNA-seq, noncoding-RNA-seq, ATAC-seq, scRNA-seq,Hi-C,Whole Genome Bisulfite Seq/WGBS [ paper-2019 ]
  • nf-core👍 - 基于Nextflow的社群维护的精选分析流程
  • ngs-preprocess - 基于Nextflow的预处理短/长读长reads流程 [ web ]

格式转化

  • seqmagick - 方便使用Biopython进行文件格式转化 [ web ]
  • bioconvert 👍 - 目前支持45种格式,95种转换[ web ]

序列处理

序列处理包括对原始测序数据去除接头和低质量序列。

  • AfterQC - 对FASTQ数据自动过滤,triming,移除错误和质控[ paper-2017 ],后作者使用C++重新实现,成为
  • fastp 👍 AfterQC作者使用C++重新实现 [ paper 2018]
  • FastQC - 高通量测序数据FASTQ质控工具 [ web ]
  • Fastqp - 基于python的FASTQ和SAM质控工具
  • Fastx Tookit - FASTQ/FASTA 短序列处理工具:去接头,trimming,碱基质量过滤,masking[ web ]
  • MultiQC 👍 - 汇总多个样本的生物信息分析结果到一张报告 [ paper-2016 | web ]
  • SeqFu - 基于Nim的处理FASTA/FASTQ工具集[ paper-2021 | web ]
  • SeqKit - 基于Go的跨平台,超快处理FASTQ/FASTQ文件的工具包[ paper-2016 | web ]
  • Seqtk 👍- 处理FASTA/FASTQ格式中序列的工具箱
  • smof - UNIX-风格的FASTA操作工具

数据分析

以下条目通过引入专门数据库支持可扩展的基因组分析

  • Hail - 可扩展基因组分析(类似pandas?)
  • GLNexus - 群体测序项目中可扩展gVCF合并以及联合变异检测[ paper-2018 ]

序列比对

双序列比对

多序列比对

  • POA - 偏序比对用于多序列比对以及同源序列保守序列[ paper-2002 ]

聚类

表达定量

  • Cufflinks - Cufflinks组装转录本,估计表达风度,RNA-seq样本差异表达和调控分析 [ paper-2010 ]
  • RSEM👍 - RNA-Seq数据基因层次和转录本层次表达定量 [ paper-2011 | web ]

富集分析

变异检测

结构变异检测

BAM文件工具

VCF文件工具

GFF/BED文件工具

变异模拟

  • Bam Surgeon -在已有.bam文件中添加变异,用于变异检测工具测试 [ web ]
  • wgsim - Comes with samtools! - 测序数据模拟 [ web ]

变异注释

Python包

数据

工具

组装

  • SPAdes - SPAdes (St. Petersburg genome assembler) 原核生物基因组组装/分析工具集
  • SKESA - SKESA,微生物基因组序列重头组装。使用保守的启发式方法,在基因组中的重复区域创建断点。 这会生成高质量的序列,而不会显著影响连续性。

长读长测序

组装

  • canu - 单分子序列组装工具,大小基因组均适用
  • flye - 适用repeat graph进行单分子测序重头组装
  • hifiasm - haplotype-resolved de novo assembler for PacBio HiFi reads
  • wtdbg2 - 基于模糊Bruijn graph方法的长读长组装

注释

  • Prokka - 快速进行原核基因组注释,Prokka是微生物基因组注释最常用的工具之一。
  • Bakta - Bakta 是一种用于对细菌基因组和质粒进行快速和标准化注释的工具。 它以 JSON 和生物信息学标准文件格式提供dbxref -rich和 sORF 的注释,用于自动下游分析。
  • Bacannot - 基于Nextflow的细菌基因组注释的流程 [ web ]

可视化

基因组浏览器/基因图

下列工具可用来可视化基因组数据,包括DNA-seq,RNA-seq,ChIP-seq,变异等。

Circos相关

染色体可视化

Venn图

数据库访问

资源

成为一个生物信息学家

其它Awesome Bioinformatics

测序

  • 下一代测序技术 - Elaine Mardis (2014) [1:34:35] - 二代和三代测序技术的综述,以及在癌症研究中的应用
  • Annotated bibliography of *Seq assays - 约100篇论文列表,涉及从转录到可转座因子发现的各种测序技术
  • For all you seq... (PDF) (3456x5471):thumbsup: - Illumina提供的测序远离示意图,涵盖蛋白质相互作用,RNA转录,RNA-protein相互作用,低丰度RNA检测,RNA修饰,RNA结构,DNA重排,低丰度DNA检测,表观遗传学,DNA-蛋白质互作。

RNA-Seq

ChIP-Seq

YouTube频道和播放列表

博客

  • ACGT - Keith Bradnam的博客,主要关于生物学,基因组学以及生物信息学的看法
  • Opiniomics - Mick Watson的博客,主要关于生物信息学,基因组学和生物学
  • Bits of DNA - Lior Pachter的博客,主要关于计算生物学的综述和评论
  • it is NOT junk - Michael Eisen的博客,主要关于基因组学,DNA,进化

其它

在线社区

许可

CC0