2019年末突如其来的新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19,简称“新冠肺炎”)迅速蔓延,截至2022年1月写稿时,全球新冠肺炎确诊病例已经达到三亿以上,死亡病例达五百多万例,甚至全球每天新增确诊人数仍在百万以上。目前全球已经开展了数量空前的努力来对抗新冠肺炎,其中学术界响应迅速,从病毒的溯源到机理的研究,从流行的预测到临床疫苗药物的研发,全球协作,每天都有新发现,每周都有新进展,科研成果呈井喷式爆发。但面对如何对新冠肺炎进行有效治疗这一问题,目前仍然没有答案。因此,当前科学界急需在疫苗实现大规模免疫之前,找到能够遏制新冠肺炎冲击的治疗方法。考虑到新的治疗性化合物的识别、测试和批准所需的时间较长,许多研究人员将重点放在了对现有药物再利用(drug repurposing,DR)上,来寻找有效的抗COVID-19候选药物。小编今天要和大家分享的就是一篇21年12月刚刚发表在Briefings in Bioinformatics(IF:12.812)杂志上的关于整合多组学数据及网络分析识别抗COVID-19候选药物的文章,其可以说是一篇针对特定疾病整合多组学数据资源进行药物筛选的详细教学。文章内容很丰富,为了方便阅读小编针对文章的主要内容,进行了蓝色文字总结,长话短说,小编带大家一睹为快。
Multi-omics data integration and network-based analysis drives a multiplex drug repurposing approach to a shortlist of candidate drugs against COVID-19
整合多组学数据及网络分析推动多重药物再利用识别抗COVID-19的候选药物
一.数据及方法
1. 数据资源:研究涵盖了转录组、蛋白质组和代谢组等多组学数据集。具体来说包括4个严重急性呼吸系统综合征冠状病毒(SARS-CoV-2)感染的细胞系和3个 COVID-19患者肺部活检组织七个转录组数据。此外,研究也收集了65名COVID-19和健康个体的血清进行了蛋白质组学(SerumP)和代谢组学(SerumM)分析,进一步也使用了一套在Human Protein Atlas (HPA) 获得的336个SARS-CoV-2有关人类蛋白。研究也从IntAct、PHISTO和VirHostNet下载了SARS-CoV-2病原体与宿主之间的PPIs。
2. 多重DR:研究基于转录组学分析、GWAS表型关联分析和病原体宿主相互作用网络分析,来实现多重DR方法,以生成COVID-19重新利用药物的初始列表。
下面小编详细介绍下这三种DR方法:
基于转录组的DR:Connectivity Map, L1000CDS2和L1000FWD是三种不同的基于转录组学计算DR的工具,这些工具使用来自多个人类细胞系的转录表达数据来探索疾病和治疗药物之间的关系。以数据集中得到的异常表达基因作转录组特征,将数据集输入到这三种DR工具中可以预测药物候选列表。同时CRowd extraction expression of Differential signature (CREEDS)基因和药物扰动数据库,CREEDS数据库包含单药物和单基因扰动,也可以从DrugMatrix中提取能够逆转疾病感兴趣基因组表达的药物。
基于全基因组关联分析研究(GWAS)及表型的DR:PhenoScanner能够返回从GWAS catalog和CHARGE等各种在线数据库收集的性状和基因型表型关联。可以将与SARS-CoV-2等相关的强相互作用体输入到PhenoScanner中自动提取与表型相关的基因,用于寻找药物相互作用体,即将这些基因作为药物基因相互作用数据库(Drug Gene Interaction Database, DGIdb)的输入,该数据库整合和展示了来自论文、数据库和网络资源的药物基因相互作用和基因药物信息。
基于病原体网络的DR:主要包括两部分,1)识别病原体和基于分类的距离:可以从DrugBank的多肽靶标数据文件中提取除智人以外的所有生物的NCBI分类ID,然后使用R语言编写的自定义脚本和taxize包对该集合进行过滤,并检索生物体的分类、构建它们的分类树;2)基于分类距离矩阵的DR:假设就分类距离而言,对特定病原体具有直接抑制作用的药物更有可能对密切相关的病原体产生类似的作用。因此,可以通过受同一药物影响的生物体最大距离来捕获这种抗致病性活性,并通过Shannon指数H(即熵)来捕获分类单元间距离的多样性。
3. 多组学数据整合:研究针对来自患者样本的多组学数据集,开发了一种基于网络的多组学数据集成方法。方法主要包括两部分,第一步是数据预处理:将多个来源的数据以列表的形式进行整合,列表包括两列对应基因身份和基因得分。第二步是基因与基因网络与基因优化:计算每个基因的特征得分,称为多源信息增益(MIG),使用R包igraph生成和分析多源信息(Multi-source Information,MI)超级网络,并编译MIG评分。
4. 功能分析与通路community识别:研究使用一种基于通路到通路的网络图驱动的随机游走方法--PathWalks揭示连通通路的community,接着对通路网络的随机游走进行了比值比(OR)分析,并使用R包igraph将OR值大于1的通路可视化为一个网络,突出显示特定的感兴趣通路。
5. CoDRes重新排秩及药物列表联合评分:研究将先前得到的10个列表中的前50个靶向药物输入到计算DR得分的工具CoDReS中,其能够将最初的药物排名(可能是DR得分或先验评分(aS))与分析感兴趣疾病得出的药物功能评分(FS)以及药物结构评分(StS)相结合,研究最终计算了每种药物的综合评分(CoDRes评分)。最后,从每个重新排序的列表中选出前20个药物进行化学结构多样性分析。
6. 化学结构多样性分析与聚类:研究从PubChem,CLUE the Drug Repurposes Hub和文献中搜索并下载了240种药物的结构,并删除了重复条目及没有发现结构的药物和元素(如铜)。然后使用OpenBabel软件将剩余210种药物的结构转换为单个的Structure data file (SDF)库文件,然后将其输入到ChemBioServer 2.0工具中,计算其化学和结构相似性的距离矩阵,并对药物进行聚类。
7. 排秩标准化及筛选:研究将药物根据排秩进行标准化,在除去重复和结构冗余的药物后,在185种药物中选出了最高排名的前65种药物。
8. 与正在进行的临床实验比较:研究从ClinicalTrials.gov网站收集所有与COVID-19相关的临床研究。然后将临床研究报道的小分子药物和从PubChem获得的药物的2D结构(SDF文件)输入到Chembioserver 2.0,以获得相应的Tanimoto距离矩阵。并使用R进行了分析来确定哪些拟议药物在临床试验中具有相同或类似的化合物。
二.研究的主要内容及结果
首先介绍一下该研究的总体流程,如图1所示,研究主要分为五个步骤:1)多组学和蛋白质相互作用(PPI)数据的选择和预处理;2)基于转录组学分析、GWAS表型关联分析和病原体宿主相互作用网络分析,来实现多重DR方法,以生成COVID-19重新利用药物的初始列表;3)多组数据集成:开发“基于网络的多组学数据整合”方法,以整合来自COVID-19患者的多组数据。4)药物重排秩:通过整合网络计算出的疾病关联得分进行药物重排秩;5)药物筛选:计算候选药物的结构相似性,聚类得分最高的化合物来进行药物筛选。表1概括了研究使用的数据,而表2对最终得到的12种候选药物进行了概括。
接下来介绍三个离散型DR方法的应用:基于转录组学的DR方法,针对RNA - seq得到的差异表达基因(DEG)集,使用现有的计算工具进行了一系列DR分析。通过输入由logFC值选择的前150个差异表达基因,作者获得了两个候选列表,一个是DR工具的ensemble,一个是利用CREEDS工具的基于DrugMatrix的再利用特征。GWAS表型关联的DR,研究将对应40个强SARS-CoV-2相互作用体,以及HPA数据库中4个突出的蛋白的共44个基因输入到PhenoScanner数据库,识别与COVID -19相关的基因和与各种表型相关的基因或基因之间的遗传关联。最终,识别出的单核苷酸多态性(SNP)与83个基因相关,然后作者利用这些基因在DGIdb中寻找潜在的药物。按照这种方法,作者最终得到了靶向83个基因的58种药物列表(GW列表)。基于病原体-宿主相互作用网络的DR,作者根据分类距离矩阵识别能够直接针对病原体蛋白的抗病毒化合物,这一过程产生了一份DrugBank化合物列表,并整合函数进行评分,最终得到了药物评分列表(TaxAV)及研究考虑的病原体及其相关药物的分类树(图2)。此外,作者还纳入了病原体和宿主蛋白之间已确定的PPIs,来获得一个关于病原体和人类之间功能相互作用的信息更丰富的评分方案。为此构建了一个病原体-病原体网络,并根据目标病原体与SARS-CoV-2的接近程度进行评分,结果得到一个包含1178个药物的评分列表(列表HPAV)。对于TaxAV和HPAV列表,作者选择了前20的药物进行结构相似度分析。作者也利用这一基础网络进一步筛选靶向宿主蛋白的药物,最终得到了301种药物的列表,并选择了排名前50的药物(列表HPH)进行药物重排秩。
这里介绍一下得到多效药物列表的过程,作者首先整合了来自患者的多组数据,也就是以下数据:(1)分析转录组数据得到的以绝对logFC排序的DEGs列表;(2)分析蛋白质组数据得到的以绝对logFC排序的基因列表;(3)分析代谢组数据得到的以p值排序的基因列表;(4) HPA中与病毒进入相关的宿主蛋白的未排序列表;(5)与SARS-CoV-2相互作用的宿主蛋白的未排序列表。然后作者计算了MIG评分,整合基因特异性信息对每个基因进行特征评分,以及基于共表达、遗传相互作用、物理相互作用和从GeneMANIA中提取的共定位信息得到的基因-基因网络的局部加权度。最终得到了图3所示的集成MI网络以及相关的分数分布。在所有下游功能分析和药物重新排序中,作者都使用了基于MIG评分的基因排序,该评分代表了基因与疾病的综合关联。接着作者使用生成的整合图突出了与COVID-19相关的通路 communities,使用MIG排秩前300的基因创建了一个疾病显著关联基因图,并在这个图的指导下使用PathWalks来游走KEGG的通路-通路网络,其中高频轨迹突出了广泛参与COVID-19通路的communities。使用得到的通路频率,作者仅使用通路网络的拓扑结构对随机游走进行OR分析。OR值>1对应相对访问频率高,因此更有可能感染COVID-19,其中突出的通路communities如图4所示。接下来作者基于计算的与目标疾病的相关性对候选药物进行重新排序,针对宿主蛋白的10个药物列表中的每一个,按照加权标准化得分,对前50个药物进行了CoDReS重新排名。然后作者从每个列表中选择排名前20的CoDReS药物进行进一步分析,并根据化学结构多样等对药物进行筛选。作者使用ChemBioServer 2.0计算了所有候选药物成对组合的结构距离矩阵,通过层次聚类及消除药物列表中的结构冗余,最终生成了一个包含185种药物的列表。最后,作者根据最大标准化排秩 (Max rank)筛选出排名前三分之一的候选药物,共有65个候选药物。
在这一部分,作者进一步对上面得到的65种药物与从clinicaltrials.gov获得的目前正在进行COVID-19相关临床试验的药物进行了比较。结果发现11种得分最高的药物中有5种已经进入临床试验。此外,在正在进行的临床试验中也发现了8种标准化评分低一些的药物。从其余药物中,通过结构相似性分析,作者又识别出两种临床试验中具有相似化合物的药物。在文章的最后一部分,作者介绍了整合药物列表的专家整理和注释结果,针对65种药物的整合列表专家精心挑选出了16种药物(图5)。筛选主要基于以下三个标准:(a)在3期临床试验中药物展示出了抗COVID-19的效能;(b)药物药理证明其能够直接针对冠状分子组件;(c)临床批准的药物已经在文献中证明其有活性分子通路涉及SARS-CoV-2生物学机制。最终挑选的16种药物中有两种符合第一个标准,这两种药物是唯一被证明对COVID-19有效的药物。此外,有六种药物符合第二项标准它们在各种检测中显示对SARS-CoVs有直接作用。另外有九种药物满足第三个标准。研究表明,这些药物可以有效地靶向SARS-CoV-2的复制周期,以及与病毒编码的非结构蛋白(NSPs)生成有关的过程,这些非结构蛋白对病毒复制酶复合物的组装至关重要。这些结果也进一步说明了筛选出的候选药物的准确性。
到这里这篇文章的主要内容就介绍完了,文章整合多来源多组学的数据利用多重DR方法得到了COVID-19候选药物的清单。文章叙述详细,方法清晰,内容丰富,目前,不止新冠肺炎,还有很多复杂疾病同样困扰人类健康,例如同样受到关注的癌症等。这些疾病也有丰富的多组学数据资源,DR方法也同样可以应用到这些疾病数据中,来进行多组学数据整合分析,实现老药新用。
参考文献
Multi-omics data integration and network-based analysis drives a multiplex drug repurposing approach to a shortlist of candidate drugs against COVID-19