/GeneSelect

code and paper for the 13th Chinese Post-Graduate Mathematical Contest in Modeling (problem B)

Primary LanguageMATLAB

2016年全国研究生数学建模竞赛B题 具有遗传性疾病和性状的遗传位点分析

复杂疾病目前正在全球范围流行,极大地影响人类的健康。研究发现,复杂疾病的性状受到多个位点的相互作用影响。目前的全基因组关联分析仅仅解析单个SNP位点对疾病易感性的贡献,单纯依靠这一种策略并不能在寻找复杂疾病的病因上得到根本性的突破。位点组合以及基因-基因相互作用可能是复杂疾病致病的主要因素之一。本文针对某种遗传疾病提供的1000个样本的相关信息,分别建立了预剪枝处理的随机森林模型,多因子交互作用模型和引入主成分分析的改进型随机森林模型,讨论了遗传性状与基因位点的关系。通过Matlab进行建模与仿真,给出了需要讨论的四个问题的解决方案和计算结果,经过数据分析与模型检验,发现该性状差异的确与某些位点相关联,或与包含有多个位点的某些基因相关联。

针对问题一,通过0,1,2的数值编码方式,可以简洁有效的表示位点的碱基对(A,T,C,G) 信息,并便于数据的分析。

针对问题二,在进行单致病SNP检测分析的时候,考虑到预剪枝处理一方面可以有效避免直接使用随机森林法会导致的过度拟合问题,另一方面可以节约计算开销,所以采用了预剪枝处理的随机森林法。利用Gini下降值作为评价指标,得到了该疾病最有可能的几个致病位点。最后将得到的随机森林对预留出的测试集做分类预测,进一步说明了模型的正确性。

针对问题三,在进行多SNP交互作用的检测分析的时候,我们对题目给出的三百组基因及其包含的位点信息,对每个基因求出致病性最强的位点组合,并给出了该位点组合的综合准确率,以此作为基因排序的依据。

针对问题四,我们对10个相关联性状的信息通过主成分分析进行了降维处理。降维之后的结果不符合0-1分布,因此提出了基于方差下降值的改进型随机森林方法,对样本完成了分析,并列举出了致病位点的重要性排名。通过对结果进行等差值抽样,利用MDR法验证了模型的正确性。

Language: Matlab

Author: Zhuo Su, Chongke Wu, Fengyun Li

Date: 09/2016

Add: 313A, aprt2, Dayun Village, Beihang University