ixxmu/mp_duty

文章发表:MMINP-微生物相关代谢物预测工具

ixxmu opened this issue · 1 comments

文章发表:MMINP-微生物相关代谢物预测工具 by YuLabSMU

背景

肠道菌群代谢物作为肠道微生物和宿主之间的连接桥梁,在疾病的诊断和治疗方面具有巨大的潜力,了解微生物衍生代谢物对于揭示肠道微生物在人类健康中的生物学机制至关重要。目前,肠道微生物数据已具有一定规模,代谢物数据则相对缺乏,已有一些研究利用生物信息学工具基于肠道微生物组的不同方面来预测代谢物以进行进一步的分析。虽然这些工具有助于更好地理解肠道微生物群与疾病之间的关系,但大多数工具考虑的都是微生物基因对代谢物的影响以及微生物基因之间的关系,以“一对多”的方式单独为每个代谢物建模,而没有考虑代谢物对微生物基因的影响或代谢物之间的关系,代谢物和微生物实质是“多对多”的互作模式。目前尚缺乏能从整体上考虑代谢物组和微生物组关系的代谢谱预测工具。

主要结果

1.MMINP的开发

我们开发了一个新的微生物相关代谢物预测工具MMINP,利用双向正交偏最小二乘(O2-PLS)算法从整体上捕获训练数据中代谢物组和微生物组之间的关系,构建微生物-代谢物关联模型,构建好的模型可以用于预测类似生境新样本的代谢谱,利用其肠菌数据。MMINP可通过Github(https://github.com/YuLab-SMU/MMINP)或CRAN(https://cran.r-project.org/package=MMINP)获取。    

2.MMINP的分析实例及生物学应用

我们利用一个有配对代谢物数据和肠道微生物数据的IBD数据集来测试MMINP的预测效果,用其中的155个样本的代谢物数据和细菌基因数据训练模型,剩余65个样本作为测试集,用训练好的模型和细菌基因数据来预测测试样本的代谢物数据,并通过与测试样本的测量代谢物数据比较来评估MMINP的预测效果。

用于训练模型的代谢物簇共2794个,其中能注释上代谢物类别的有1444个,最终有2017个(72.1%)代谢物簇被纳入模型,属于模型拟合良好代谢物(WFM),也是新样本中能被预测出来的代谢物(PM),预测出来的代谢物中约61.2%代谢物预测准确。预测准确的代谢物(WPM)中有将近一半是没有注释信息的,意味着这些未知分类的代谢物簇同样可以进入下游的分析环节,有可能成为后续分析和鉴定研究的靶标,或能降低发现新标志物的试错成本。预测良好的代谢物主要属于鞘脂(Sphingolipids)、四吡咯及其衍生物(Tetrapyrroles and derivatives)和有机氮化合物(Organonitrogen compounds)。通过Procrustes分析发现,预测所得代谢谱和测量所得代谢谱具有相似的全局结构。这一结果提示了在不进行代谢组测量的情况下,通过MMINP用微生物数据预测得到的代谢物数据或可用于推断代谢组中与疾病相关的变异。    

为了评估MMINP预测值在揭示疾病相关生物学特征方面的作用,我们使用预测得到的代谢物数据进行了一系列分析。分析发现,无论是疾病组和对照组的整体差异分析,还是组间差异代谢物分析,预测值都能得到和测量值较为一致的结果,两者都能从整体上区分疾病组和对照组,识别出的差异代谢物也高度相似。为了对差异结果进行系统性评估以及找到可以解释潜在机制的线索,我们对差异代谢物簇进行了ORA富集分析,富集上的代谢物类主要与脂质代谢有关。其中,CD组富集上的sphingolipids、very long-chain fatty acids和bile acids,以及对照组富集到的cholesterols、tetrapyrroles和indoles,和过往IBD研究报道一致。    

3.与同类型工具的比较

我们将MMINP和同类型的代谢物预测工具MelonnPan和ENVIM进行了比较,使用相同的训练数据和测试数据。考虑到经MMINP前处理后的数据经一次O2-PLS建模也可以直接用于预测代谢物,同样将其纳入比较。MMINP和MelonnPan出于提高预测准确率的考虑,在建模过程中去除了部分代谢物,而O2-PLS和ENVIM则保留所有代谢物,这一差异也使得O2-PLS和ENVIM能预测出来的代谢物数量更多,大基数情况下预测准确的代谢物也多,MMINP和MelonnPan则预测准确率更高,其中MMINP最高。MMINP和MelonnPan在precision、accuracy和F1 score上也有更佳的表现。    

上述比较中包含了未注释代谢物,我们还比较了只有已知代谢物情况下四种工具的表现。此外,我们还将四种方法应用到了另两个数据集上,用各自三分之二的样本进行建模,用剩余三分之一的样本做测试集。结果仍然是MMINP的预测准确率、precision和F1 score最高,其次是MelonnPan,而O2-PLS和ENVIM则获得了更多的预测代谢物和预测准确的代谢物。

4.训练样本量、样本疾病状态、测量平台和/或前处理方式对于预测结果的影响    

我们构建了不同样本数量的训练集,每种样本数量的训练集各50个,用这些训练集分别构建模型去预测同一测试集,以此来评估训练集样本量大小对于数据驱动型工具预测结果的影响。结果表明,随着训练样本量的增加,MMINP的预测率在一个较高的水平上不断波动且波动范围逐渐变小,MelonnPan的预测率则持续升高,四种方法的预测准确率都在提高,除MelonnPan外当样本量大于50后提升速率变缓,提示相较于其他三种方法,MelonnPan可能需要更多的训练样本来获得较高的预测率和预测准确率。此外,相较于其他三种方法,MMINP的预测准确率、precision和F1 score始终最高。

我们用对照组、CD组和UC组三种不同健康状态的样本分别建模并对其他两组的样本进行预测,以此评估样本健康状态对预测结果的影响。结果发现,对照组模型预测UC组时预测准确的代谢物数量比预测CD组多,CD组模型预测UC组时预测准确的代谢物数量比预测对照组多,UC组模型在预测CD组和对照组时的表现则没有太大差别,可能是因为有近一半的UC患者代谢谱和对照样本差别不大,表明样本的健康状态可以影响到预测结果。    

我们在比较四种预测方法时用到的三个数据集,获得微生物基因数据和/或代谢物数据时使用的测量方式和/或前处理方法不同,我们用它们的模型去相互预测,预测准确的代谢物数量极低。部分可能是因为三个数据集的样本有不同的健康状态,以及相互预测时模型和测试集的共同特征(微生物基因和代谢物)太少。为了排除这部分干扰,我们挑选三个数据集中的对照样本及共有的特征来重新建模和相互预测,结果仍然是只有很少的代谢物能预测准确,表明训练样本和待预测样本的数据来自不同的测量方式和/或前处理方法时对预测结果有影响。

总结和讨论    

我们开发了一个新的微生物相关代谢物预测工具MMINP,能预测相当数量的代谢物,预测得到的代谢物数据能捕获生物学变异,有一定的生物学价值。与已有的数据驱动型代谢物预测工具相比,MMINP预测准确率略有提升。此外,我们评估了训练样本量、样本健康状况、数据测量和/或前处理方式对此类工具预测结果的影响,建议想要获得较好的预测结果,需要用一定数量(最好不小于50)的具有相似健康状态和相同数据处理方式的训练样本构建模型进行预测。最理想的应用场景是在同一研究中选取部分样本同时测量代谢组和宏基因组(或16S等)来构建模型,再利用剩余样本的宏基因组数据预测其代谢物数据,以此确保测量方式和前处理方法完全一致。

鉴于肠道代谢物受肠菌、饮食、宿主代谢等多种因素影响,肠菌对代谢物水平的影响有一定限度,利用微生物数据预测代谢物的方式有着天然的壁垒,要进一步提高预测准确性或许需要更全面的数据及更先进的算法。不过,在缺乏代谢组数据的情况下,使用现有的预测工具利用微生物数据预测代谢物是一种相对经济且有效的方法,可以仅用微生物数据来研究基于群落的代谢物并生成有说服力的假设,用于发现潜在的代谢物标志物,有助于指导实验来研究潜在的重要代谢物以改善人类健康,并为代谢物在微生物群落中的转化应用奠定基础。