当前位置: 首页 > > 天 方 夜 “谈” 第25期 | EventKG:多语言以事件为中心的时空知识图谱

天 方 夜 “谈” 第25期 | EventKG:多语言以事件为中心的时空知识图谱

发表于:2020-03-18 20:45 作者: 方滨兴班 阅读数(11975人)


参考文献

名称:EventKG: A Multilingual Event-Centric Temporal Knowledge Graph

来源:The Semantic Web. Springer, Cham, 2018.

作者:Simon Gottschalk,Elena Demidova

摘要

一个主要的需求(利用语义分析网页、新闻和社交媒体上的当前和历史事件信息)之一,即是引用知识库(包含了事件和时间关系的复杂表示)的可被使用。现存的知识图谱,比较出名的如BDpedia、YAGO和Wikidata都只重点关注以实体为中心的信息,从而对事件和时间关系上的覆盖和完整性表示很不充分。本文的事件知识图谱说的是一个多语言的以事件为中心的时间知识图谱用来解决上述缺陷。事件知识图谱与超过69万个当前和历史事件和超过230万条从一些大规模知识图谱和半结构化源中抽取出来的时间关系进行协作,通过标准的表示使得它们可被利用。

1、核心思想

动机:以事件为中心的全球重要事件,例如英国退出欧盟、2018年冬奥会和叙利亚国内战争持续不断地在网页、新闻报纸和社交媒体上蔓延。对于语义网、自然语言处理和数字人文科学领域内的各种各样现实世界中的应用来说,快速高效地获取分析大规模的以事件为中心带时间的信息是至关重要的。

传统知识图谱,比如Dbpedia、YAGO和Wikidata,聚焦于以实体为中心的信息,故而不能够有效覆盖到事件与时间之间的关系,对信息的表达不够完整,缺少时间和空间属性。

事件知识图谱采取全局的观点对待事件和时间之间的关系,并且添加了一些额外的属性,例如关系强度、时间流行度和信息来源。

事件知识图谱的主要特征:

  1. 提供事件为中心的信息(包括历史事件和当前事件)和带时间的关系;

  2. 更高的覆盖度和更高的事件表示完整性;

  3. 提供内联信息,为了方便评估关系强度和事件流行度;

  4. 图谱中所有信息都有来源。

相关性:

  1. 与语义网社区相关。我们的社会面对着大量的事件,这些事件跨过语言和社区边界影响着大量的社区。高效地获取以事件为中心的多语言信息对一些科学社区,诸如语义网、自然语言处理和数字人文科学来说是非常重要的。

  2. 与问答应用相关。有了事件知识图谱后,可以很容易提出一些事件相关的问题(如which events related to Bill Clinton happened in Washington in 1980?)和基于排序的问题(如What are the most important events related to Syrian Civil War that took place in Aleppo?)。

  3. 与大事年表生成相关。大事年表的生成是一个活跃的研究领域,主要关注于事件和带时间关系的时间轴生成。 

  4. 在跨文化事件分析中评估事件流行度和关系强度。

  5. 在支持语义网技术应用上的影响。事件知识图谱依赖于开源数据和W3C标准,使得数据对各种各样的应用都可重复使用。

图片.png

图1 简单的事件知识图谱

2、简单的事件知识图谱模型

•sem:Event表示事件 

•sem:Place表示地点 

•sem:Actor表示事件参与者 

•上述三个类都是sem:Core类的子类,它表示所有的实体 

•sem:hasPlace表示事件发生地 

•sem:hasBeginTimeStamp表示事件开始时间 

•sem:hasEndTimeStamp表示事件结束时间 

•rdfs:label标签 

•dcterms:alternative别名

•dcterms:description事件描述

图片.png

图2 改进后的事件知识图谱

3、带时间的关系

•仅在一个特定时间段内有效的关系,包括事件-实体、实体-事件和实体-实体间的关系; 

•事件-实体间的时间关系通常是事件与事件参与者之间的联系 ;

•实体-实体间的时间关系最经典的莫过于婚姻关系。两实体间的时间关系还可间接捕捉到事件的信息,例如一个公司(实体)收购(事件)另一个公司(实体)。 

•但是模型存在两个局限:

  1. 当实体作为主体时,没办法在事件和实体间建立时间关系;

  2. 像婚姻关系不能直接在两个实体之间建立。基于此,模型新添加了一个类eventKG-s:Relation用于连接两个sem:Core实例,一个属性sem:RoleType用于刻画关系。

无直接时间信息的关系

一个关系的时间有效性并不总是被确切地提供,但是我们可以通过参与实体或事件的存在时间估计出来。比如“母亲”关系的时间有效性可以通过孩子的出生日期确定 。

其它事件和实体关系

 •事件之间的关系在系列事件(如夏季奥运会)、包含一些相关事件的季节(运动会)或者与一个话题有关的事件(一场军事冲突中的操作)扮演了重要的角色 

•so:hasSubEvent属性描述子事件关系 

•dbo:previousEvent与dbo:nextEvent描述系列事件的前后关系

4、度量关系强度和事件流行度 

•Who was the most important participant of the event e?(关系强度可以回答这类问题) 

•What are the most popular events related to e?(事件流行度可以回答这类问题) 

•Links:表示一个实体的描述中提到另一个实体的频率。直觉上该因子可以用于评估关系强度和事件流行度。在事件知识图谱中用谓词eventKG-s:links表示维基百科的文章(主体)连接到一个实体(客体)的频度 

•Mentions:表示在外源中提及到的关系数目。直觉上该因子可以用于评估关系强度。在事件知识图谱中,eventKG-s:mentions表示在维基百科同时提到关系主体客体的句子数目

信息来源

1.个体资源的来源。

  1. 事件图谱资源通常直接与引用源中的实体或事件相符合,此时用owl:sameAs属性内联两个资源;

  2. 事件图谱的资源是从一个资源集中抽取的,属性eventKG-s:extractedFrom用于构建事件图谱资源与资源集之间的连接 。

2.引用源的表示。

事件知识图谱和每一个引用源都通过void:Dataset的一个例子表示 。

3.叙述的来源信息

事件图谱中的叙述被表示为一个四元组,包括三元组和一个命名图的URI。通过命名图,事件图谱提供了一个直接的追溯信息来源的方法。

5、结论

论文中提出了一个新的多语言的以事件为中心的知识图谱,融合了时间信息在里面,包括了现在的信息和历史的信息。事件知识图谱最独一无二的特征还是在一个知识图谱里面,融合了他源的结构化和半结构化的多语言的事件表示和时间关系信息。这些信息的提供,有利于评估关系强度和事件热度,并且同时还提供了来源信息。

关于 天 方 夜 “谈”

天方夜谈原意讲不切实际的东西,而这里想要 “脚踏实地”真正弄懂并感受一篇文章的思想。

方班人有自己的浪漫,

我们探讨知识,谈论理想,

采摘科研的繁星,

脚下是星辰大海。

天:代表我们的理想犹如天空般浩荡

方:代表方班

夜:代表代码人的冷静与静谧

谈:代表方班愿与您,就领域内的经典思想和前沿成果“秉烛夜谈”