(深圳仙湖植物园)
主要结果
数据
对2320名中国香港人(平均年龄54.9岁,48.7%为女性)的粪便样本进行了宏基因组测序,包括9种特征明显的疾病表型。大肠癌(CRC,n = 174)、大肠腺瘤(CA,n = 168)、克罗恩病(CD,n = 200)、溃疡性结肠炎(UC,n = 147)、肠易激综合征(腹泻亚型,IBS-D,n = 145)、肥胖(n = 148)、心血管疾病(CVD,n = 143)、急性COVID-19后综合征(PACS,n = 302)和健康对照(n = 893)。
不同疾病中的共享微生物组特征
通过多元关联分析,这9种疾病与215种细菌分类群在物种水平上共有1061个显著的关联(FDR<0.05)。在这215个物种中,超过94%的物种与两种或两种以上的疾病显著相关,这与以前的工作相一致,即不同的疾病之间共享许多信号。例如,肺炎克雷伯氏菌(Klebsiella pneumoniae),一种特征明显的机会主义病原体,与CD、CRC、IBS-D、肥胖症、PACS和UC呈正相关,而Roseburia intestinalis,一种具有生产丁酸盐特性的益生菌,与这六种疾病表型呈负相关。虽然各种疾病都有共同的微生物特征,但这些发现表明存在着疾病特有的微生物组成。然而,二元分类器是否能捕捉到这些疾病的特异性特征尚不清楚。在不相关的疾病中测试了我们训练的二元模型的特异性,结果显示误诊率很高。这些结果表明,二元分类器未能捕捉到仅基于单一疾病与对照样本的真正疾病特异性特征。
基于粪便微生物组的多类诊断模型的开发
机器学习中涉及两个以上类别的分类任务被称为“多类分类”,它可以有效地考虑到不相关类别的混杂影响。基于2320名香港华人队列,训练了五个机器学习多类分类器(RF、K-近邻(KNN)、多层感知器(MLP)、支持向量机(SVM)和图卷积神经网络(GCN)),使用训练集的物种水平数据(70%的样本与队列的类别比例相同)对不同的疾病进行分类,并从测试集(30%的样本,图1a)展示其最终性能。所有这些模型的平均AUROC为0.67-0.99(四分位数范围,IQR 0.81-0.92),表明基于粪便微生物组的多类疾病分类是可行的。
图1:基于粪便微生物组的机器学习用于多类疾病诊断
其中,RF多类模型对测试集中的不同疾病表型的平均AUROC为0.90-0.99(IQR为0.91-0.94,图1b)。RF模型在测试集中的表现明显优于其他所有模型,并且与训练集的表现相似,表明该分类器的完整性很高。因此,RF多类模型被用于进一步分析。在基于最高Youden’s Index【正确指数,是评价筛查试验真实性的方法,假设其假阴性(漏诊率)和假阳性(误诊率)的危害性同等意义时,即可应用约登指数。约登指数是灵敏度与特异度之和减去1。表示筛检方法发现真正的患者与非患者的总能力。指数越大说明筛查实验的效果越好,真实性越大】的阈值下,RF多类分类器的敏感度为0.81至0.95(IQR 0.87-0.93),对不同疾病的特异性为0.76至0.98(IQR 0.83-0.95),准确性为0.77至0.98(IQR 0.82-0.92,图1c),突出了良好的诊断性能。例如,我们的分类器对CRC的平均AUROC为0.94,敏感度为0.88,特异度为0.85(准确度为0.85,图1b,c);这一性能优于我们训练的二元分类器(CRC对健康,平均AUROC为0.91)和先前发表的CRC诊断模型。使用测试集中的预测概率进行的进一步评估显示,训练有素的分类器对所有一对一分类的平均AUROC为0.94(IQR 0.92-0.98),具有较高的敏感性(IQR 0.88-0.95)和特异性(IQR 0.83-0.94),这支持多类模型分析的性能优于二元模型。
独立数据集上的多类模型验证
然后,整合了来自亚洲、欧洲和北美12个公共数据集的1597个鸟枪粪便宏基因组数据。RF多类分类器在对不同的疾病进行分类时显示出0.69-0.91(IQR 0.79-0.87)的平均AUROC,并普遍优于所有其他模型。来自独立验证队列的这种表现进一步证实了模型在不同人群和地理位置的稳健性和通用性。为了进一步验证模型的准确性,我们选择了60名从COVID-19感染中完全康复的患者。模型显示,将这些受试者分类为健康人的准确率为83.3%(50/60)。这些数据验证了完全康复的COVID-19幸存者(和没有PACS的人)与健康人共享类似的肠道微生物群。此外,我们还在训练数据集中未包括的疾病上测试了我们训练的RF模型,包括肝硬化和以便秘为主的IBS数据集(n = 60)。我们发现,使用我们的RF多类模型有很高的概率,据此不能进行预测,因为它们对大多数受试者来说没有达到相应的阈值(48/60),它们可能被归类为未确定的。而且,每个表型的错误分类率从0%(0/60,CA,CVD,IBS-D,肥胖)到5%(3/60,CD,CRC,PACS),表明模型对队列中的九个表型有很高的特异性和准确性,对不相关的疾病有很低的错误分类风险。
细菌特征和疾病之间的联系
接下来,将对模型贡献最大的50个细菌物种与不同的疾病表型相关联,以确定模型可解释性的线索。这前50个细菌物种在我们的测试集中对不同疾病的平均AUROC为0.88-0.99(IQR 0.90-0.93),而在公共数据集中的平均AUROC为0.67-0.90(IQR 0.78-0.86)。在这50个物种与不同的疾病表型之间共发现了363个明显的关联(香港队列,FDR < 0.05,图2)。
图2:与健康状况或不同疾病表型相关的微生物物种
与健康对照组相比,几乎所有的疾病状态都与来自厚壁菌门或放线菌门的微生物群的丰度明显下降有关(FDR < 0.05),而拟杆菌门的丰度则明显增加(FDR < 0.05)。厚壁菌门/拟杆菌门的比例失衡以前主要在肥胖症和IBD患者中被报道过,但它与其他疾病的关系还没有被报道。尽管如此,这种共享的微生物特征可能作为区分健康和疾病的基础。然后,我们确定了可以对不同疾病进行分类的特定微生物特征(图2)。具体来说,在PACS、UC和CD患者之间,拟杆菌的几个细菌物种的丰度有明显差异。与健康对照组相比,患有PACS的个体显示Bacteroides vulgatus和Bacteroides xylanisolvens的丰度明显增加,而患有UC的受试者则富含Bacteroides ovatus,而患有CD的个体显示Bacteroides uniformis, Bacteroides vulgatus 和Bacteroides xylanisolvens的丰度明显下降。尽管CRC患者和结直肠腺瘤患者的肠道细菌组成相对相似,但与健康对照组相比,CRC患者中Parvimonas micra的丰度明显更高,这与以前的研究结果一致,即Parvimonas micra可作为区分CRC和结直肠腺瘤的标志物。对于其他疾病,微生物组的差异主要由放线菌驱动。患有肥胖症的受试者显示出Actinomyces naeslundii, Actinomyces odontolyticus和Actinomyces oris的增加,而患有IBS-D的受试者显示出Collinsella aerofaciens和Collinsella stercoris的增加。我们进一步将集合的公共数据集中的细菌和表型联系起来,发现许多疾病特定的生物标志物在不同的数据集中是稳定的,如UC的Bacteroides、CRC的Parvimonas micra和肥胖症的Actinomyces。总的来说,这些结果表明,我们的模型可以捕获各种疾病的特异性微生物特征,这可能解释了这种多类分类器的强大诊断性能。
结论
总的来说,这项研究显示,基于粪便微生物组的多类模型用于疾病诊断是可行的。其新颖之处在于高质量的数据集,以及具有高度临床意义的卓越和可重复的机器学习方法。这种多类疾病分类模型具有潜在的临床应用价值,可以作为临床实践中筛查各种疾病或进行疾病风险评估的一种非侵入性方法。研究的结果对潜在的生物标志物的开发也有意义,可以利用确定的多种疾病的共同或特定标志物来预测药物反应和共同治疗策略。这种基于微生物组的非侵入性模型有可能被应用于临床,以补充疾病诊断和治疗反应监测。
参考文献:
Su, Q., Liu, Q., Lau, R.I. et al. Faecal microbiome-based machine learning for multi-class disease diagnosis. Nat Commun 13, 6818 (2022). https://doi.org/10.1038/s41467-022-34405-3