欧洲自由行费用协会

ACL2017 | 伊利诺伊大学:Life-iNet 一个基于网络的结构化生命科学领域知识探索与分析系统

读芯术 2020-09-15 16:06:16


你和“懂AI”之间,只差了一篇论文


很多读者给芯君后台留言,说看多了相对简单的AI科普和AI方法论,想看点有深度、有厚度、有眼界……以及重口味的专业论文。


为此,在多位AI领域的专家学者的帮助下,我们解读翻译了一组顶会论文。每一篇论文翻译校对完成,芯君和编辑部的老师们都会一起笑到崩溃,当然有的论文我们看得抱头痛哭。


同学们现在看不看得懂没关系,但芯君敢保证,你终有一天会因此爱上一个AI的新世界。


读芯术读者论文交流群,请加小编微信号:zhizhizhuji。等你。

这是读芯术解读的第4篇论文



ACL 2017 System Demonstrations

Life-iNet:一个基于网络的结构化生命科学领域知识探索与分析系统

Life-iNet:A Structured Network-Based Knowledge Exploration and Analytics System for LifeSciences

美国伊利诺伊大学

University of Illinois Urbana-Champaign


【摘要】科学文献搜索引擎已被生命科学家广泛用于寻找与他们研究相关的出版物。然而,生命科学领域的现有搜索引擎(如PubMed)在应用于研究和分析大量文本语料库中的真实知识(例如疾病-基因关联)时具有局限性。这些限制主要是由于真实信息文本的非结构化形式,以及关键字和基于MeSH的词语查询也不能有效地表明实体之间的语义关系。该演示文稿介绍了Life-iNet系统,以解决现有搜索引擎在促进生命科学研究方面的局限性。Life-iNet通过大量背景文档自动构建真实知识的结构化网络,以支持在非结构化文献中有效地研究结构化知识。它还提供了为给定实体类型找到特定实体的功能,并产生假设事实以辅助基于文献的知识发现(例如,药物目标预测)。


1 引言


科学文献是促进生命科学研究的重要资源,是传播新研究成果的主要媒介。然而,尽管大量的生物医学文本信息都可以在网上找到(如出版物在PubMed,百科的文章在维基百科,基因、药物本体论等),有相关的事实性知识的研究和分析,但其只能在研究和分析大量文献中的相关事实知识提供有限支持(Taoet al.,2014),或从现有的事实信息获得新的视点(McDonaldet al., 2005; Riedel and McCallum, 2011)。用户通常使用关键字和医学主题标题(MeSH)术语搜索PubMed,然后依靠谷歌和外部生物医学本体来获取其他信息。然而,这种方法在捕获不同的实体关系(即facts)或确定与感兴趣内容相关的出版物方面可能不起作用。


图1 Life-iNet结构化网络简介


例如,一位对癌症感兴趣的生物学家可能需要检查哪些疾病属于乳腺肿瘤的类别(如乳腺癌)和什么样的基因(例如,BRCA1)和药物(如阿司匹林,Tafinlar)是乳腺癌相关,可能需要一系列的相关文献研究讨论这些疾病-基因的关系。癌症专家,他们可能想了解哪些基因与乳腺肿瘤显著相关(与其它癌症相比),是否存在有潜在乳腺肿瘤实体相关的其他基因,以及是否存在其他的药物也可以治疗乳腺癌。


前人成果和局限性: 在生命科学领域,最近的研究(Ernstet al., 2016; Szklarczyk et al., 2014; Thomas Kim et al., 2008;)依靠与文件相关的生物医学实体信息来支持以实体为中心的文献检索。大多数现有的信息检索系统利用为每篇PubMed文章(Kim等人,2008)手动注释的MeSH术语或文档中自动识别的生物医学实体,捕获实体-文档关联。与传统的基于关键词的系统相比,当前以实体为中心的检索系统可以以更准确的方式识别文档的实体信息并进行索引(以实现有效的文献检索),但是在一个给定的语料库中支持事实知识(即实体及其关系)的勘探和分析上遇到一定挑战,如下所示。


实际结构的缺乏: 大多数现有的以实体为中心的系统,计算两生物医学实体之间的文档/语料级共现统计信息,以捕捉到它们之间的关系,但不能确定一个特定的句子中两实体之间的语义关系类型。例如,在图1中,实体之间的关系应该被归类为CoExpression,geneticinteraction,physicalinteraction,Pathway等。从非结构化的文本语料库中提取类型实体关系能确保:(1)在给定的语料库中进行真实信息的结构化搜索;(2)句子层面的文档细粒度研究;(3)更加精准的实体关系识别。


有限的多样性和覆盖范围: 存在多个生物医学知识库(KBs)(例如,GeneOntology,UniProt,STRING(szklarczyket al.,2014),literome(Poonet al.,2014)),支持搜索和数据挖掘功能。然而,这些KBs都是高度专业化的,只涵盖生命科学中一个相对狭窄的话题(Ernstet al., 2016)。此外,这些KBs(例如,药物、疾病和基因的实体之间)的实体之间存在着有限的相互联系。对生命科学各方面知识概括的观点仍然缺失。此外,许多新出现的实体不包含在目前KBs中,其人工管理过程是耗时且昂贵的。


有限的分析功能: 由于事实结构观念的缺乏,现有检索和研究系统在实体关系分析中仅具备有限分析功能,主要集中在以实体为中心的文献检索(Ernstet al., 2016; Thomas et al., 2012)和研究实体共现规律(Kimet al., 2008)。在实践中,基于事实信息的分析功能(例如,药物疾病目标预测和独特的疾病基因关联识别)是非常可取的。


方法提出: 本文提出了一种新的系统,称为Life-iNet,将非结构化的语料库转化为事实知识的结构化网络,并在构建知识发现网络时支持多种试探和解析函数。Life-iNet自动检测提到文本实体间的词块跨度标注实体的语义类别,并确定检测到的实体之间的各种关系类型的关系。这些相互关联的信息块被集成为一个统一的结构化网络,其中节点代表不同类型的实体,边代表实体之间的不同关系类型的关系(例如图1)。为了解决有限的多样性和覆盖问题,Life-iNet依赖外部知识库提供种子集合(例如,弱监督),并从给定的语料库(例如,使用像科学文献和百科全书文章等多种文本资源)识别额外的实体和关系,以构建一个结构化的网络。通过这样做,我们将现有知识库中的事实信息与从语料库中提取的信息集成起来。为支持分析功能,Life-iNet在结构化网络中实现了关系预测功能,并集成了一个独特的汇总功能,提供洞察分析能力(例如,回答问题,如“哪些基因与GeneDiseaseAssociation关系下给定疾病类型是明显相关的?”)。


图2 Life-iNet的系统架构


为了系统地整合这些想法,Life-iNet利用新颖的信息提取技术(Renet al.,2017,2016a,2015)来实现一个简单网络构建框架(见图2)。特别地,它依赖于弱监督与外部知识库结合(1)检测质量提示(Renet al.,2015),(2)在给定类型层次中使用细粒度实体类型进行标注(Renet al., 2016a),(3)识别实体之间不同类型的关系(Renet al.,2017)。特别是,我们设计专门的损失函数来真实模拟“appropriate”标签,并针对提到实例的具体情况,为训练实例(由远程监督启发产生)删除“falsepositive”标签(Ren et al.,2017,2016a)。通过这样做,我们可以通过使用弱监督,以一种噪声稳健的方式构建特定语料库的信息提取模型。以上所提出的网络构建框架是与领域无关的,可以快速移植到其他学科和科学领域,无需额外的人工标注工作。通过构建的网络,Life-iNet进一步应用关系预测算法(Tanget al.,2015; Bordes et al.,2013)来推断新的实体关系,以及独特的汇总算法(Taoet al., 2016)来找到与查询实体(或给定实体类型)明显相关的其他实体。


贡献: Life-iNet系统的贡献和特点总结如下。


1.一个新的生命科学知识探索与分析系统,可以整合现有的知识库和从大量文献中提取的事实信息。

2.一个简易框架,利用弱监督方法以稳健的方式,利用给定的非结构化文本语料库自动构建一个基于事实知识的结构化网络。

3.具备基于结构化网络的研究和分析能力,促进生命科学研究。


Life-iNet演示系统在会议后将在线公开。


2 Life-iNet系统


在高层次上,Life-iNet由两个主要组件组成:一个结构化的网络构建管道和一个网络探索和分析引擎。前者(即网络构建管道)包括四个功能模块:(1)实体检测,(2)弱监督生成,(3)实体分类,(4)关系提取;而后者(即网络探索和分析引擎)实现网络探索功能,关系预测算法(例如,LINE(Tanget al.,2015))和基于网络的独特的汇总算法(例如,CaseOLAP(Tao et al., 2016)),在构建的网络上运行,以支持不同用户查询的应答。图2显示了其系统架构。功能模块详细介绍如下。


2.1 结构化网络建设


网络构建管道自动从给定语料库(潜在有一定噪音)中,利用弱监督方法提取事实结构(即实体,关系),并将其与现有知识库相结合,构建统一的结构化网络。特别是为了提取高质量的、典型的实体和关系,我们设计了噪声鲁棒的目标函数,以便在从标记数据(从弱监督中启发式获取)构建模型中选择“最合适”的训练标签(Renet al., 2016b,a, 2017)。


数据收集。为了获取网络构建的背景文本语料,我们考虑了两种文本资源,即科学出版物和百科全书文章。对于科学出版物,我们从整个PubMed库收集2600万论文的标题和摘要,并从PubMed中心(PMC)获取220万论文全文内容。对于百科词条,我们从WikipediaHealth Porta收集了62705篇相关文章。为了演示,我们选择了两种相关的重要疾病,即癌症和心脏疾病,形成Life-iNet的背景语料库。表1总结了背景语料库的统计数据。


表1语料库和Life-iNet网络的数据统计


实体检测。Life-iNet中的实体检测模块运行一个数据驱动的文本分割算法SegPhrase(Liuet al.,2015),将高质量的单词/短语提取为实体候选者。SegPhrase使用来自KBs的实体名称作为训练分类器的正例,然后通过经过训练的分类器最大化联合概率来有效地分割语料库。表1显示了语料中被检测出实体的统计数据。


弱监督生成。弱监督(Mintzet al., 2009; Ren et al., 2017, 2016a)利用外部KBs和给定语料库之间的信息重叠自动生成大量的训练数据。典型的工作流程如下:(1)将检测到的实体与KBs中的实体进行映射,(2)向每个实体的实体类型集合分配其KB映射实体的KB类型,(3)向每个实体对的关系类型集,分配与它们的KB映射实体间的KB关系。这样的标签生成过程可能会引入一定噪音(Renet al., 2017)。我们的网络构建管道将噪音标签也纳入训练过程中,以学习有效的提取模型。在Life-iNet中,我们使用公开的KB,UMLS(统一医学语言系统),并用MeSH树结构进一步丰富其实体类型本体。这产生了具有670万特定实体、1000万实体关系、5.6万实体类型和581个关系类型的知识库。表1显示了弱监督的统计数据。


实体分类。实体分类模块基于其当前上下文(例如,句子),为每个不可链接实体(即,不能映射到KB的实体),预测一个在给定实体类型层次下的单一类型路径。Life-iNet采用一个两步的实体分类过程,首先识别每个实体的粗粒度标签(例如疾病,基因,蛋白质,药物,症状),然后将粗粒度标签细化为更细粒度的类型(例如疾病::心脏病::心律失常)。具体来说,我们首先运行ClusType(Renet al., 2015)来预测每个不相关的粗粒度类型标签。然后,使用粗粒度标签作为约束,我们采用AFET(Renet al., 2016a)来估计每个实体的单一类型路径。AFET模拟由弱监督产生的嘈杂候选类型集,以学习不可见实体的预测分类模型。


关系提取。关系提取的任务重点在于确定特定句子中的一对实体之间是否表达了兴趣关系(即给定的关系类型集合),并且如果具体关系被正确表达,我们可以给他们打上合适的关系类型标签。Life-iNet依赖于弱监督关系提取框架,CoType(Renet al., 2017)从文本中提取类型关系。CoType利用从当前上下文的一对实体中提取的各种文本特征,将文本特征和关系类型标签共同嵌入到低维空间中,在该空间中,具有相似语义的对象也相互接近。然后执行最近邻搜索以估计关系类型。


网络构建效果。与最先进(弱监督)信息提取系统的性能比较显示了该方法的有效性(Renet al., 2017)——CoType在关系提取方面,在公共BioInfer语料库(人工标记的生物医学论文)上获得了25%的F1得分的提高,在实体识别和分类中F1值实现了6%的提高。表1总结了构建的结构化网络的统计数据——Life-iNet与弱监督相比,发现了超过250%的事实知识。


2.2 网络探索与分析


网络探索与分析引擎对网络结构及相关文本证据进行了索引,以支持快速探索。它还实现了几种网络挖掘算法,以促进知识发现。


网络探索。对于每个实体ei,我们引用其实体类,以及提及它们的句子

(和文档)。对于每个关系表达,我们索引其句子和关系类型。使用这种数据模型,Life-iNet可以支持多种结构化搜索查询:(1)查找给定实体类型的实体,(2)查找与给定实体(实体类型)具有特定关系的实体,(3)查找与给定实体,实体类型,关系或关系类型相关的论文。我们使用对象的原始出现频率对结果进行排名。


关系预测。我们采用最先进的基于异构网络的关系预测算法LINE(Tanget al., 2015)和TransE(Bordeset al., 2013),发现网络中的新关系。直观的说:如果两个节点在网络中共享相似的邻居,那它们应该是相关的。根据这个想法,基于分布式假设,算法将网络嵌入到低维空间中。如果相关实体词向量间的相似度大于预定义的阈值,则将形成新的边。通过检索两个实体之间的间接路径(如果存在),可以使用现有网络结构被进一步解释预测。


独特的汇总方法。在生物医学领域,一些高知名度的实体可能与许多其他实体同时具备关系。例如,一些基因可能与多种心脏病类型有关。我们希望找到与每种心脏病类型有明显关联的基因。这促使我们采用CaseOLAP(Taoet al., 2016),一种上下文感知的多维汇总算法来产生不同的实体。基本思想是:如果一个实体与目标实体类型的实体相关,而与其他实体类型的实体相对无关,则该实体与目标实体类型有明显的相关性。我们预先计算不同实体类型之间的不同汇总结果,并作为高效用户查询回答的临时结果。


3 演示场景


3.1 关系探索


Life-iNet对提取的事实结构及其支持文档进行索引。我们的演示提供了一个搜索界面(见图3),用户可以输入参数三元组来指定他们想要搜索的实体和关系类型(向用户提供候选类型)。假设生物学家想找到与心肌病相关的基因,他/她可以输入类型基因作为论证1,将心肌病作为论证2,将基因疾病关系作为关系。然后,Life-iNet将开始检索,并形成一个可视化子网以显示不同的心肌病实体(例如,心内膜纤维性软骨瘤,中心神经肌病,Carvajal综合征)及其相关基因实体(例如,TAZ,BIN1,DSC2)。当用户将他/她的鼠标光标移动到子网络中的边缘(或节点)时,Life-iNet将基于预先计算的相关度度量方法,返回与目标关系(或实体)相关支持论文(也与PubMed库链接)的排名列表。请注意,Life-iNet还支持特定实体作为接口中参数1和2的输入。


图3 Life-iNet中关系探索与预测的用户界面截图


3.2 假设关系生成


在生命科学中,一些实体关系(例如,DrugTargetGene,GeneDiseaseAssociation类型)可能不会在现有文献中明确表达。然而,构建的网络中的两个孤立实体之间的间接连接可以暗示它们之间是否存在特定关系。Life-iNet可生成对构建网络新边的高可信度预测,并形成假设实体关系以促进科学研究(例如,发现可把特定基因作为目标的新药物)。我们将这个分析功能整合到我们的关系检索界面中。例如,当在子网络进行基因-心脏病关联搜索时,用户可以点击“显示预测关系”来查看Life-iNet生成的假设关系(在网络中突出显示为虚线)。特别地,Life-iNet提供了使用现存网络结构的预测说明,当用户点击预测边时,两个孤立实体之间的间接路径将被突出显示。因此,用户可以进一步检索与间接路径上的边有关的文件,以获得对假设关系的更好理解。


3.3 独特的实体汇总


Life-iNet为独特的汇总功能提供了一个单独的用户界面(见图4)。在许多情况下,用户需要比较与几种实体类型(例如,不同类型的心脏病)相关的实体集合(例如,蛋白质),以发现与每个实体类型相关的特征实体。例如,她可能想知道哪些基因常常与心律失常相关,但不可能与其他心脏病如心肌病和心脏瓣膜疾病有关。Life-iNet允许用户输入:(1)实体类型来指定目标域(例如心脏病),(2)目标实体类型的几个子类型进行比较(例如,心肌病,心律失常,心脏瓣膜疾病),(3)指定相关实体(例如蛋白质)列表的实体类型,和(4)关系类型(例如与疾病相关的蛋白质)。通过用户输入查询,Life-iNet生成一个结构化表以总结每个实体子类型的不同实体。它还显示了每个实体的独立性得分。用户可以点击每个特征实体来查找与关系相关的文档(类似于基于关系的探索中的用例)。图4显示了心脏病特征汇总的一个例子。


图4独特汇总功能的截图


论文下载链接:

http://www.aclweb.org/anthology/P/P17/P17-4010.pdf


留言 点赞 发个朋友圈

我们一起探讨AI落地的最后一公里


长按识别二维码可添加关注

读芯君爱你