/Bioinfomatics

Primary LanguageJupyter Notebook

Bioinfomatics

这是一个用来存放研究生阶段的实验数据,实验代码,各种生物信息学相关的地方,为了为后来者提供方便,同时照顾实验室接下来的学生,因此文档的标注,讲解部分我尽量用中文来阐述。

Feature_representation

这是一个用来存放特征提取程序的地方,特征提取仅限用于 RNA,或者DNA的序列,考虑到很多的fasta文件中可能存在缺失序列片段而采用N填充的情况,因此,本程序也提供了对于程序中拥有N填充情况的特征提取

Classifiers

分类器训练,因为python采用csv格式作为输入文件(不带有标签,且只运用与平衡数据集),因此,读者最后将格式弄成csv格式输入,最后会得到预测评估的文件xls或者xlsx,model,和预测标签跟预测分数值的文件(也以csv格式呈现)

Pipeline

用于存放特征提取,特征选择,分类器训练优化参数一步到位的程序。