从生物医学文献中自动提取关系(RE)对于下游文本挖掘应用于研究和实际中都至关重要。然而,目前的生物医学RE只关注在句子水平上单一类型的相互关系,例如蛋白质-蛋白质互作。小编今天给大家介绍的这篇新发表在BIB上的文章就创新性了提出了一个生物一些关系提取数据集(BioRED),包含多种类型,例如基因/蛋白质,疾病,化学以及他们之间的关系。首先,这篇文章回顾了常用的命名实体识别(NER)和RE数据集。其次,作者介绍了BioRED的方法和性能。此外,作者将每对关系标记为新发现的和经研究已知的。作者使用BERT模型评估BioRED的作用。结果表明,尽管现有的方法可以在NER任务上达到较高的性能但是在RE上的效果不好。BioRED数据集和注释指南:https://ftp.ncbi.nlm.nih.gov/pub/lu/BioRED/
NER/NEL/RE数据集总览
目前,现有的NER/NEL数据集包括的部分物质类别,例如基因,蛋白质,化学物质和疾病等。然而,NER/NEL数据库只关注一种类型的关系。表1为目前已知的NER/NEL数据集。目前,构建包括多种类型的NER/NEL数据集的局限性主要在于,第一,同一篇文章需要进行多次处理,还需要巨大的存储空间来存储标记结果;第二,有些实体的概念比较模糊。
对于RE数据集来说,同样存在一些已有的RE数据集。大多数RE数据集都是从单个句子中提取关系,主要是在句子水平上提取单一类型的关系,只有极少数数据集做到了跨多个句子的关系。表2为目前已知的RE数据集。对于目前的RE数据集来说,大多数句子级的RE数据集没有将实体名称(例如:NCBI Gene ID)链接到外部资源/数据库。而文档级别的RE数据集高度依赖于概念标记。
基于上述局限性作者提出了一种新的生物一些关系提取数据集(BioRED)。首先,作者在PubMed中搜索并标记不同实体之间的关系。通过整理和合并后主要包括六种实体类型,分别为基因,化学物质,疾病,变异,种和细胞系。作者进一步研究了任意两种实体之间的关系,例如<D,G>是<疾病,基因>;<D,C>是<疾病,化学物质>;<G,C>是<基因,化学物质>;<G,G>是<基因,基因>;<D,V>是<疾病,变异>;<C,V>是<化学物质,变异>;<C,C>是<化学物质,化学物质>;<V,V>是<变异,变异>。对于两个以上实体之间的关系将简化为多个关系对。例如,我们将化学药物的共同治疗疾病关系(硼替佐米和地塞米松共同治疗多发性骨髓瘤)简化为三种关系:<硼替佐米,多发性骨髓瘤,治疗>,<地塞米松,多发性骨髓瘤,治疗>,<硼替佐米,地塞米松,共治疗>。本研究主要关注图1A所示的8种关系对,这些关系对之间的生物学意义上的无向相关类型如图1B所示。
其次,注释流程与先前的注释工作保持一致。首先,从现有的几个数据库中随机抽取文章,使用少部分文章数据集来开发作者的注释流程并让注释人员熟悉任务和TeamTat(一种基于Web的注释工具)。根据之前生物医学语料库开发的实践,我们制定了注释指南,并选择了与之前研究一致的PubMed文章。此外,为了加速实体注释,作者将以前的注释与自动预注释结合使用,然后可以根据人类的判断进行编辑。语料库中的每一篇文章都首先由三个具有生物医学信息学背景的注释人员进行注释,以防止手工注释疲劳导致的错误和不完整的注释。如果一个实体或一种关系不能在三个注释者之间达成一致,那么该注释将由另一个具有分子生物学背景的高级注释者进行审查。对于每一种关系,另外两名生物学家根据背景信息来评估它是否是一种新的发现,并做出相应的注释。
第三,对于数据特征来说,BioRED语料库中共包含20419个实体,共注释了6503个关系。新关系占比69%,表3为训练,开发和测试集中实体和关系的数量。作者计算了实体注释,关系注释和新颖性关系注释之间的注释一致性(IAA),分别为97.01%,77.91%和85.01%。图2为不同关系对的分布。
第四,为了评估BioRED语料库的适用性,作者进行了一系列实验评估其性能。表4为评估NER在测试集上的结果。第一次运行使用严格的指标进行评估,第二次运行放宽指标进行评估。BioBERT包含经过良好训练的语言模型相对于BiLSTM可以提取更丰富的特征,从而获得更好的性能。然而,PubMedBERT的性能在基因,变异和细胞系上面的表现优于BioBERT。其原因是BioBERT使用从一般领域文本生成的原始BERT模型词汇表从而会缺乏对生物医学实体的理解。相反的,PubMedBERT使用从生物医学文本从头生成词汇表,其F-score最高。
表5为已有方法分别在实体对,实体对和关系类型以及实体对,关系类型和新颖性在RE上的性能。结果表明,PubMedBERT的性能高于BERT的方法,在第一种模式中,BERT和PubMedBERT的F-score可以达到72%以上。在第二种模式中的最佳性能仅为58.9%,第三个模式的性能下降到47.7%。
此外,作者训练了多个独立的NER和RE模型,每个模型都有一个独立的实体和关系。作者将其使用PubMedBERT进行评估。结果如表6所示,在所有实体或关系上训练的模型表现均较好并且RE数据集的性能提升较高。结果表明,训练具有更多实体或关系的NER/RE模型不仅可以减少资源的使用而且可能获得更好的性能。
结论:
总的来说,作者开发的BioBERD是一个高质量的检索语料库,具有独一无二的新颖注释。BioBERT不仅可以作为生物医学专用NLP工具的基准还可以作为通用领域RE方法开发的基准。此外,BioBERT提出了一种新的NLP任务,对实际应用中的信息提取至关重要。