知识中心 - 北京概普生物科技有限公司(GapTech)

孟德尔随机分析

文献解读向阳 ·2022年12月29日 15:27

近年来孟德尔随机化（Mendelian Randomization, MR）逐渐作为因果推断的有效方法流行了起来。如图所示，MR通过引入一个叫做工具变量(Instrumental variables，IVs)的中间变量，来去除混杂因素的干扰，分析工具变量与结局变量之间的关系，工具变量往往是遗传变异。今天就跟着小编一起来看看一篇 2022年10月发表在Frontiers in Nutrition（IF：6.590）上的文章如何使用孟德尔随机化分析，让我们一起解开孟德尔随机化分析研究套路。

研究背景

茶是世界上消费最广泛的饮料之一。茶被认为对健康有多种益处。例如，一些研究表明，茶具有抗癌作用。然而，在流行病学研究中，关于饮茶是否有益于人群健康，特别是对癌症预防有没有作用，还没有达成明确的共识。

孟德尔随机化设计采用遗传变异作为暴露的工具变量(IVs)，可以增强因果推断，最小化残留混杂。因为遗传变异在受孕时是随机分配的，MR受反向因果关系的影响较小，因此一个性状通常与其他性状(也就是潜在的混杂因素或环境因素)无关。因此，作者进行了一项MR研究，以评估茶摄入量与乳腺癌风险的关系。

图2 实验整体设计

结果

工具变量的筛选

作者对UK biobank（UKB）中SNP数据进行了全基因组关联研究(GWAS)分析，确定与饮茶相关的单核苷酸多态性(SNPs)。并使用GWAS根据年龄、性别和前20个主成分对结果进行了调整，排除了其他混杂表型的干扰。作者选择了P<5×10⁻⁸的常染色体双等位SNPs，并进一步以小频率>1%进行质量控制。这里之所以使用P<5×10⁻⁸而不是使用0.05是对P值进行了调整。因为UKB中的样本量很大，往往是几十万计，因此P值往往调整为0.05×10⁻⁶也就是5×10⁻⁸。这些初筛出的SNP之间可能会有连锁不平衡现象，当两个位点的不同等位基因的关联频率高于或低于独立随机关联的条件下的期望频率,这种情况是客观存在的,此时这些工具变量之间相关性就叫连锁不平衡，也就是说这两个等位基因之间是存在关联的。作者使用1000 Genomes Project中的欧洲样本作为参考数据，选取了连锁不平衡r² < 0.01的SNPs，避免SNPs之间关联混杂。他们还使用F-statistics(Fixation indices)检验弱IVs偏倚，F-statistics> 10提示为强遗传IV，从而删除了F-statistics小于10的SNPs，确保IV与茶摄入量强相关。最后，在作者选择了45个与茶叶摄入量密切相关的独立SNPs作为工具变量（IVs）来进行后续分析。

2. Steiger分析结果

孟德尔随机化分析假定工具变量先影响暴露，然后通过暴露影响结局，但这个假定的方向性需要验证， Steiger分析可以分别计算IV对暴露和结局的variance explain，如果结局的variance explain小于暴露，则方向正确。本文作者应用了Steiger分析来判断饮茶与乳腺癌风险之间潜在因果关系的方向。Steiger-MR发现相较于结果（乳腺癌的发生）SNPs更能解释暴露（茶摄入）中的差异(所有P > 0.05)，这说明本研究选用的IV先影响了茶摄入再影响了乳腺癌发生。

3. Power 分析结果

统计功效（power）指的是在原假设为假的情况下，接受备择假设的概率。Power越大，犯第二型错误的概率越小，就更有把握认为结果是显著的。作者使用mRnd方法计算统计功效，计算出解释的表型方差为0.76%，这等于所有有效IV解释的茶叶消费的总表型方差，这个值并不是很高，其实很多研究是不进行Power 分析的，因为得到的结果往往不太好，但本研究还是进行了。在当前样本量下，当估计统计功效为80%时，总体乳腺癌、er阳性乳腺癌和er阴性乳腺癌的OR分别为1.14、1.16和1.28，这个OR值虽然大于1，但并不是很高，也不是很让人满意。

4. 孟德尔随机化分析结果
图三孟德尔随机化分析结果的散点图。(A)整体乳腺癌与饮茶的相关性;(B) ER阳性乳腺癌与饮茶的相关性;(C) ER阴性乳腺癌与饮茶相关性

乳腺癌与饮茶关联的散点图如图3所示，图上的每一个点代表着一个SNP位点，横坐标是SNP对暴露（饮茶）的效应，纵坐标是SNP对结局（乳腺癌发病）的效应。作者不仅对总体乳腺癌进行了分析，还对ER阳与ER阴性乳腺癌患者进行了亚组分析，从图中我们也可以看出饮茶与乳腺癌发生在三组中的关联性都不强。同时从这张图上，我们还能看到，当SNP对BMI的饮茶为0，也就是工具变量的效应（横坐标）为0的时候，结局变量的效应（纵坐标）并不是0，说明了数据内存在水平多效应（简单理解就是存在混杂因素），也就是说作者选择的SNP可能不通过饮茶而通过其他表型影响了乳腺癌发病，这需要进行敏感性分析来排除这些导致偏倚的工具变量，后续研究中患者进行了敏感性分析来校正。图4显示了饮茶对乳腺癌风险的因果影响的估计。作者通过IVW和MR-Egger方法进行Cochran异质性检验，发现饮茶与整体乳腺癌、ER阳性乳腺癌和ER阴性乳腺癌之间存在显著的异质性。但MR-Egger方法饮茶与总体乳腺癌、ER阳性和ER阴性乳腺癌风险之间均无相关性。总之，使用加权中位数、简单中位数和MR-Egger回归方法，作者发现饮茶与ER阳性和ER阴性乳腺癌的发病风险之间没有关联。

5敏感性分析结果

因为同一个SNP可能导致多个表型，也就是说，一个SNP除了与饮茶有关，也可能与性别、吸烟等表型有关，这样就会造成偏倚。作者使用MR-PRESSO排除了潜在的多效SNPs。其中，rs199621380、rs2315024、rs397074（这些均为SNP编号）被排除在乳腺癌整体分析之外；在ER阳性乳腺癌的分析中，rs2315024被排除；rs112476491和rs2315024被排除在ER阴性乳腺癌的分析之外。在这些分析中，作者发现去除异常值前后的估价值没有差异(作者将MR-PRESSO失真试验的P值定为>0.05)。在MR-PRESSO异常值校正分析中，ER阳性和ER阴性乳腺癌的OR分别为1.030 (0.984-1.078,P = 0.2158)、1.050 (0.995-1.109,P = 0.0852)和1.025 (0.361-2.907,P = 0.597)，也就是说校正了异常值后，饮茶与乳腺癌的患病仍然没有相关性。结果表明，使用现有的SNPs作为IVs，饮茶与总体(OR_IVW = 1.029, 95% CI = 0.983-1.077, P = 0.2086)、ER阳性(OR_IVW = 1.050, 95% CI = 0.994-1.109, P = 0.078)和ER阴性乳腺癌风险(OR_IVW = 1.081, 95% CI = 0.990-1.103, P = 0.6513)无关。此外，使用加权中位数、简单中位数和MR-Egger回归方法，作者发现饮茶与总体、ER阳性、以及ER阴性乳腺癌跟无关，在排除了其他混杂因素干扰后，仍有没有显著关系。

图形用户界面, 应用程序, 表格, Excel 描述已自动生成 — 图5饮茶与乳腺癌敏感性分析。在MR-PRESSO法排除了异常SNP后仍然没有相关性。

讨论

本文使用孟德尔随机化分析结合UKB等数据库探讨了饮茶对于乳腺癌发病的影响，虽然发表杂志影响因子并不是很高，但需要注意的是，文章得到的是一个阴性结果，能够发在5分以上的杂志说明这篇文章的想法以及严谨程度都是很过关的。文章首先利用UKB选取了中间变量，随后证明这个中间变量满足孟德尔随机化分析中的三个假设：1.与暴露因素强相关；2.与混杂因素无关；3.工具变量（IVs）是通过暴露因素而不是其他方法影响结局的，这一点作者通过MR-PRESSO检验水平基因多效性进行了证明。总之虽然研究结果不是很让人满意，但研究的设计以及方法是严谨的，值得大家学习。

参考文献：Deng Y, Ge W, Xu H, Zhang J. A Mendelian randomization study of the effect of tea intake on breast cancer. Front Nutr. 2022 Oct 18;9:956969. doi: 10.3389/fnut.2022.956969. PMID: 36330145; PMCID: PMC9623097.