模型 DMCNN JRNN dbRNN JMEE
发表时间 2015 2016 2018 2018
有无源码 ⭐️96/Java ⭐️105/Python
使用场景 Pipeline/多事件句 Joint/多事件句 Joint/多事件句 Joint/多事件句

image-20200116154351653

1. DMCNN

ACE任务的传统方法事件提取主要依靠精心设计的功能和复杂的功能自然语言处理(NLP)工具。这些传统方法缺乏概括性,占用了大量人力,并且容易出现错误传播和数据稀疏性问题。这个提出了一种新颖的事件提取该方法旨在自动提取词汇级和句子级特征,而无需使用复杂的NLP工具。我们介绍一个单词表示捕获有意义的语义语义规则并采用框架的模型基于卷积神经网络(CNN)捕获句子级别的线索。但是,CNN只能捕获最多句子中的重要信息考虑时可能会错过有价值的事实多事件句子。我们建议动态多池卷积神经网络(DMCNN),根据需要使用动态多池层事件触发器和参数,以保留更重要的信息实验结果表明,我们的方法明显优于其他最新技术方法。

2015_ACL_Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks

(1)创新点
  • 在不使用复杂的NLP工具的情况下自动提取词汇级特征 和句子级特征
  • 提出了DMCNN模型,可以根据事件触发器和参数使用动态多池层来保留更多的关键信息
(2)模型

image-20200109224247817

1.论元角色分类 argument classification
  • 词向量学习
  • Lexical-level 词汇级别特征提取
    • 候选论元/触发词及其前后单词的词向量
  • Sentence-level 句子级别特征提取;
    • 输入特征:
      • Context-word feature(CWF)
      • Position feature(PF)
        • 当前词语和候选论元/触发词之间的相对距离,距离值用向量表示,随机初始化
      • Event-type feature(EF)
        • 当前 trigger 对应的事件类型特征
      • CWF, PF, EF 拼接作为卷积的输入
    • 卷积后,根据 candidate argument 和 predicted trigger 将 feature map 分成三部分,分别对各部分进行最大池化
  • Output 分类输出
    • 拼接词汇级别和句子级别的特征 F=[L, P]
    • O = WF+b 算分,进行 softmax,得到 argument role 的类别
2.触发词分类 Trigger classification
  • Lexical-level
    • 只使用候选触发词和其左右token
  • Sentence-level
    • CWF + PF,PF 只使用候选触发词的位置作为嵌入位置特征
    • 句子由触发词分割成两部分
(3)实验结果

image-20200109225016763

image-20200109225153852

(4)缺点
  • DMCNN 的效果是突破性的,但分两个阶段的预测仍有误差传递的问题,也没有利用好 trigger 和 argument 之间的依赖关系。

2.JRNN

2016_NAACL_Joint Event Extraction via Recurrent Neural Networks

事件提取特别具有挑战性信息提取中的问题。针对该问题的最新模型已将卷积神经网络应用于流水线框架(Chenetal,2015)或通过结构化遵循联合架构具有丰富的本地和全球特征的预测(Li等,2013)。前者能够学习自动隐藏特征表示数据基于单词的连续和广义表示。后者,另一方面,能够减轻流水线方法的错误传播问题和相互依赖关系的利用在事件触发器和参数角色之间离散结构。在这项工作中,我们建议在联合框架中进行事件提取通过双向递归神经网络从而受益于两种模式,以及解决现有方法中固有的问题。我们系统地调查了不同的记忆功能联合模型,并证明所提出的模型在ACE2005数据集上达到了最先进的性能。

(1)创新点
  • 通过 RNN 用联合方法解决事件抽取的问题,继承了 Li (2013) 和 Chen (2015) 的优点,并克服了它们的一些缺陷
    • 用联合方法解决了 无法利用事件触发器和参数角色之间的相互依赖关系 的问题
    • 增加了离散特征
(2)模型

image-20200110101435224

  • 用两个RNN分别正/反向学习一个句子的表示
  • 使用了一个记忆向量(for triggers)与两个记忆矩阵(for arguments)来分别存储triggers/arguments以及两者之间的依赖关系

具体来说,首先把每个词编码为由以下三类 vector 连接而成的向量:

  1. 查预训练的词向量表,获得当前单词的词向量
  2. 当前单词的Entity Type Vector,通过查找 entity type embedding table 获得(当然,完成这一步的前提是要在之前给每个句子中的单词分配一个 entity type,论文里说是沿用了之前论文中的工作);
  3. Dependency Vector。一个0-1值向量,其长度与词在 dependency tree 中可能的关系数相同。这个向量中的第ii个元素的值表示了当前单词与第ii个单词是否在 dependency tree 中存在依赖关系。

Embedding步骤完成后,把这些词向量按顺序喂给双向的RNN,考虑到梯度消失的问题,RNN中使用了GRU units。

Encoding步骤完成后,开始使用获得的 Embedding 结果与 Sentence Embedding 进行 Joint Prediction。具体地,第 $i$ 个预测步会执行以下操作​:

  1. 预测第 $i$ 个单词 $w_i$ 是否是 trigger 以及它的 trigger type,输出预测的结果 $t_i,t_i∈T$。其中 $T$ 是一个预先给定的 trigger type 集合,并加入了一个特殊 type=others,即如果当前单词 $w_i $ 不被认为是一个 trigger,则把这个特殊的type赋给 $w_i $;
  2. 对于当前句子中所有的命名实体 $e_1,…,e_j$,预测该实体对于单词 $w_i $ 的 Argument Role: $a_{ij} $ 。如果该实体不是单词 $w_i$ 的 argument,则同样使用一个特殊的Role Type: $a_{ij} $ = others
  3. 更新当前步的三个记忆矩阵
  • Memory 向量代表的是同一个句子中触发词和论元角色之间的相互关系,$G_i^{trg}$ 代表的是 trigger subtypes 之间的关系,表示在 $i$ 之前已经识别出哪些子事件,比如说句子中检测到了 Die 事件,那么很有可能下面会同时会出现 Attack 事件;

  • $G_i^{arg}$ 代表的是论元角色之间的关系,总结了 entity mention 在过去扮演的 论元角色信息;$G_i^{arg/trg}$ 对应的是 arugment roles 和 trigger subtypes 之间的关系,表示 entity mention 在之前特定 event subtypes 扮演过 argument, $G_i^{arg/trg}[j][t] = 1$ 代表 $e_j$ 在之前的 subtype t 中被认为是 argument。 实验表明, $G_i^{trg}$ 并没有帮助反而会导致整体性能下降,而 $ G_i^{arg/trg}$ 还是很有效的。

(4)缺点
  • 当输入句子包含多个事件时(1/N),JRNN 明显优于其他方法。特别是,JRNN 在触发词识别上 DMCNN 好13.9%,而论元分类的相应改进为 6.5%,从而进一步表明 JRNN 具有记忆功能的好处。在单事件句子(1/1)的表现上,JRNN 在触发词分类上仍然是最好的系统,尽管在论元分类上比 DMCNN 要差一些。

3.dbRNN

2018_AAAI_Jointly Extracting Event Triggers and Arguments by Dependency-Bridge RNN and Tensor-Based Argument Interaction

事件提取在自然语言中起着重要作用处理(NLP)应用程序,包括问题解答和信息检索。传统事件提取依赖大量使用词汇和句法特征,这需要大量的人为工程,并且可能无法推广到其他数据集。另一方面,深度神经网络能够自动学习基础功能,但是现有网络没有充分利用句法关系。在本文中,我们提出了一种新颖的依赖桥递归神经网络(dbRNN)用于事件提取。我们建立模型在递归神经网络上,但通过依赖关系桥加以增强,该依赖关系桥携带语法相关的信息为每个单词建模时。我们同时说明了在RNN中应用树结构和序列结构带来了与仅使用顺序RNN相比,性能要好得多。在此外,我们使用张量层来同时捕获候选参数之间的各种类型的潜在交互,以及识别/分类事件的所有参数。实验表明,与以前的工作相比,我们的方法取得了竞争性结果。

(1)创新点
  • JRNN改进 ,元素的互信息作为影响元素抽取结果的因素。举例说明:在下面的Figure 1中,如果确定了Palestine Hotel 是fired这一触发词的角色,又知道American tank与Palestine Hotel都依赖于动词fired,那么American tank也是一个事件角色的概率就会增加。

    In Baghdad, a cameramam died when an American tank fired on the Palestine Hotel

4.JMEE

2018_EMNLP_Jointly Multiple Events Extraction via Attention-based Graph Information Aggregation

事件提取在自然语言处理中具有实用性。在现实世界中是多个事件的普遍现象存在于同一句子中,其中提取它们比提取单个事件更困难。以前通过顺序建模方法对事件之间的关联进行建模的工作因捕获很长的依赖关系的效率低而遭受很大困扰。在本文中,我们共同提出了一部小说多重事件提取(JMEE)框架通过引入语法来联合提取多个事件触发器和参数快捷弧以增强信息流和基于注意力的图卷积网络模型图信息。实验结果表明,与提出的框架相比,我们提出的框架具有竞争优势使用最先进的方法。

(1)创新点
  • 可以从一个句子中抽取多个Triggers,以此来提升对事件类型判别的准确度

  • 相比较DBRNN的Dependency Bridge,JMEE从另一个角度对句子中的长距离依赖给出了解决方案:

    使用句法上的捷径弧(shotcut arcs)。为了有效使用shotcut arcs,JMEE使用了图卷积网络(GCN)模型来生成每个单词(图中的节点)的向量表示,最后使用self-attention来同时对多个triggers及其arguments进行提取
    
(2)模型

image-20200115210031377

  • JMEE模型框架由以下四个部分构成:

    1. 词向量表示的学习;

    2. 句法GCN的生成,在有shotcut arcs的网络结构中进行卷积操作;

    3. 使用self-attention捕捉多个triggers之间的联系并进行Trigger Classification;

    4. Argument Role Classification

  • 每个单词的词向量由以下部分拼接而成(模型输入包含300维Glove词向量、50维词性向量、50维实体类型标签向量以及50维位置向量):

    1. 使用GloVe预训练的词向量查找表,找到当前词对应的向量表示;
    2. 一个随机初始化的位置标签(表征当前单词所在的位置);
    3. 当前单词之前的一部分单词的位置标签所构成的向量;
    4. 当前词的命名实体类型所对应的向量。

事件抽取论文合集

1.2015_ACL_Event Detection and Domain Adaptation with Convolutional Neural Networks

我们使用卷积神经网络(CNN)研究事件检测问题克服了传统基于特征的方法完成此任务的两个基本限制:复杂特征前阶段丰富功能集和错误传播的工程生成这些功能。实验结果表明,在一般情况下,CNN的性能优于报告的基于特征的系统,而且无需借助大量外部资源。

2.2015_ACL_Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks

ACE任务的传统方法事件提取主要依靠精心设计的功能和复杂的功能自然语言处理(NLP)工具。这些传统方法缺乏概括性,占用了大量人力努力,并且容易出现错误传播和数据稀疏性问题。这个提出了一种新颖的事件提取该方法旨在自动提取词汇级和句子级特征,而无需使用复杂的NLP工具。我们介绍一个单词表示捕获有意义的语义语义规则并采用框架的模型基于卷积神经网络(CNN)捕获句子级别的线索。但是,CNN只能捕获最多句子中的重要信息考虑时可能会错过有价值的事实多事件句子。我们建议动态多池卷积神经网络(DMCNN),根据需要使用动态多池层事件触发器和参数,以保留更重要的信息实验结果表明,我们的方法明显优于其他最新技术方法。

3.2016_ACL_A Language-Independent Neural Network for Event Detection

由于难以对单词语义进行编码,因此事件检测仍然是一个挑战在各种情况下。先前的方法在很大程度上依赖于特定于语言的知识和预先存在的自然语言处理工具。但是,与英语相比,并非所有语言都具有可用的资源和工具。一种更有前景的方法是自动从数据,而无需依赖特定于语言的资源。在这项研究中,我们开发了一种与语言无关的神经网络从特定上下文中捕获序列和块信息,并使用它们来训练事件检测器,适用于多种语言,没有任何手动编码的功能。实验表明这种方法可以为各种语言实现可靠,高效和准确的结果。在ACE2005中事件检测任务,我们的方法获得了73.4%的F评分,平均绝对改善了3.0%与最新技术相比。此外,我们的实验结果对中文和西班牙文。

4.2016_ACL_Leveraging FrameNet to Improve Automatic Event Detection

FrameNet(FN)中定义的帧与ACE事件提取程序中的事件共享高度相似的结构。 ACE中的事件由事件触发器和一组参数组成。类似地,FN中的框架由一个词法单元和一组框架元素组成,它们分别扮演与ACE事件的触发器和自变量相似的角色。除了具有相似的结构外,FN中的许多帧实际上还表示某些类型的事件。上述观察促使我们探索从帧到事件类型是否存在良好的映射,以及是否有可能通过使用FN来改善事件检测。在本文中,我们提出了一种全局推理方法来检测FN中的事件。此外,基于检测到的结果,我们分析了从帧到事件类型的可能映射。最后,我们使用从FN自动检测到的事件,提高了事件检测的性能,并获得了最新的最新结果。

5.2016_EMNLP_Modeling Skip-Grams for Event Detection with Convolutional Neural Networks

卷积神经网络(CNN)具有由于其能够感知事件发生的能力,因此在事件检测方面获得了最高的性能k-gram的基础结构句子。但是,目前基于CNN事件检测器仅对连续k-gram并忽略可能涉及重要结构的非连续kgram用于事件检测。在这项工作中,我们建议改善当前的ED的CNN模型通过引入非连续卷积。我们对两者的系统评价常规设置和域适应设置证明了非连续CNN模型的有效性,从而导致了相对于当前最新系统的显着性能改进。

6.2016_NAACL_Joint Event Extraction via Recurrent Neural Networks

事件提取特别具有挑战性信息提取中的问题。针对该问题的最新模型已将卷积神经网络应用于流水线框架(Chenetal,2015)或通过结构化遵循联合架构具有丰富的本地和全球特征的预测(Li等,2013)。前者能够学习自动隐藏特征表示数据基于单词的连续和广义表示。后者,另一方面,能够减轻流水线方法的错误传播问题和相互依赖关系的利用在事件触发器和参数角色之间离散结构。在这项工作中,我们建议在联合框架中进行事件提取通过双向递归神经网络从而受益于两种模式,以及解决现有方法中固有的问题。我们系统地调查了不同的记忆功能联合模型,并证明所提出的模型在ACE2005数据集上达到了最先进的性能。

7.2016_CCL_Event Extraction via Bidirectional Long Short-Term Memory Tensor Neural Networks

ACE事件提取任务的传统方法通常依赖于复杂的自然语言处理(NLP)工具,精心设计的功能。遭受错误传播的现有工具,需要大量的人力。几乎所有方法不考虑候选参数之间的相互作用而分别提取事件的每个参数。相比之下,我们提出了一种新颖的事件提取方法,旨在自动无需使用复杂的NLP工具即可提取有价值的线索,并同时预测事件的所有参数。在我们的模型中,我们利用基于长短期的上下文感知单词表示模型内存网络(LSTM)可以从纯文本中捕获单词的语义文本。此外,我们提出了一个张量层来探索相互作用在候选参数之间并同时预测所有参数。实验结果表明,我们的方法明显优于其他最新方法。

8.2016_NELL_Joint Extraction of Events and Entities within a Document Context

事件和实体紧密相关;实体通常是事件的参与者或参与者,没有实体的事件很少见。事件和实体的解释在很大程度上取决于上下文。信息提取中的现有工作通常将事件与实体分开建模,并在句子级别执行推断,而忽略文档的其余部分。在本文中,我们提出了一种新颖的方法,该方法可以对事件,实体及其关系的变量之间的依赖关系进行建模,并在文档中对这些变量进行联合推断。目的是允许访问文档级别的上下文信息并促进上下文感知的预测。我们证明了我们的方法大大胜过了最新的事件提取方法以及强大的实体提取基准。

9.2017_ACL_Exploiting Argument Information to Improve Event Detection via Supervised Attention Mechanisms

本文解决了事件检测(ED)的任务,该任务涉及对事件进行识别和分类。我们认为论据为这项任务提供了重要线索,但是在现有的检测方法中,它们要么被完全忽略,要么以间接方式被利用。在这项工作中,我们建议通过有监督的注意力机制为ED明确利用论点信息。具体而言,我们在不同注意策略的监督下系统地研究了提出的模型。实验结果表明,我们的方法先进,并在ACE2005数据集上获得了最佳的F1分数。

10.2017_ACL_Automatically Labeled Data Generation for Large Scale Event Extraction

事件提取的现代模型ACE之类的任务基于监督从小标签上学习事件数据。但是,带有手工标记的培训数据的制作成本昂贵,事件类型的覆盖率较低且大小有限,这使得监督方法很难提取大量事件以获取知识基本人口。为了解决数据标记问题,我们建议自动标记培训数据以通过世界知识和语言知识进行事件提取,可以检测关键论点和触发每种事件类型的单词,并使用它们自动标记文本中的事件。实验结果表明我们的大规模自动标记数据的质量与精心设计的人工标记数据相比具有竞争力。而我们的自动标记的数据可以合并用人类标记的数据,然后改善从这些中学到的模型的性能数据。

由于事件的手动标注的昂贵成本,事件检测遭受数据稀疏和标签不平衡的问题。为了解决这个问题,我们提出了一种新颖的方法相关事件类型之间的信息共享。具体来说,我们雇用一个完全连接的三层人工神经网络作为我们的基本模型提出类型组正则化项,以达到信息共享的目的。我们进行不同配置的实验类型组,实验结果表明信息共享相关事件类型之间的差异显着提高了检测性能。与最新方法相比,我们提出的方法在广泛使用的ACE2005事件评估中获得更好的F1分数数据集。

12.2018_AAAI_Event Detection via Gated Multilingual Attention Mechanism

识别文本中的事件实例在构建NLP应用程序(例如信息提取(IE))中起着至关重要的作用系统。但是,大多数现有方法可用于此任务仅针对特定语言的单语线索,而忽略其他语言提供的大量信息。数据稀缺和单语歧义阻碍了这些单语方法的性能。在本文中,我们提出一种新颖的多语言方法-被称为Gated多语言注意(GMLATT)框架-同时解决两个问题。具体而言,为了缓解数据稀缺问题,我们通过上下文关注机制来利用多语言数据中的一致性信息。除了仅从单语数据中学习之外,这还利用了多语数据中的一致证据。至处理单语歧义问题,我们建议跨语言关注以利用补充信息通过多语言数据传达,这有助于消除歧义。跨语言注意门充当了对其他人提供的线索的信心进行建模的前哨语言并控制各种语言的信息集成。我们已经对ACE2005基准。实验结果表明这种方法明显优于最新方法。

13.2018_AAAI_Graph Convolutional Networks with Argument-Aware Pooling for Event Detection

当前用于事件检测的神经网络模型具有只考虑了句子的顺序表示。在这个领域还没有探索语法表示尽管它们提供了直接链接的有效机制信息上下文中的单词,用于事件检测句子。在这项工作中,我们研究了卷积神经基于依赖树的网络执行事件检测。我们提出了一种新颖的合并方法,该方法依靠实体引用来聚合卷积向量。大量的实验证明了基于依赖的卷积神经网络和基于实体提及的事件检测池化方法的好处。我们实现了广泛使用的数据集具有最新的性能完美和可预测的实体提及。

14.2018_AAAI_Jointly Extracting Event Triggers and Arguments by Dependency-Bridge RNN and Tensor-Based Argument Interaction

事件提取在自然语言中起着重要作用处理(NLP)应用程序,包括问题解答和信息检索。传统事件提取依赖大量使用词汇和句法特征,这需要大量的人为工程,并且可能无法推广到其他数据集。另一方面,深度神经网络能够自动学习基础功能,但是现有网络没有充分利用句法关系。在本文中,我们提出了一种新颖的依赖桥递归神经网络(dbRNN)用于事件提取。我们建立模型在递归神经网络上,但通过依赖关系桥加以增强,该依赖关系桥携带语法相关的信息为每个单词建模时。我们同时说明了在RNN中应用树结构和序列结构带来了与仅使用顺序RNN相比,性能要好得多。在此外,我们使用张量层来同时捕获候选参数之间的各种类型的潜在交互,以及识别/分类事件的所有参数。实验表明,与以前的工作相比,我们的方法取得了竞争性结果。

15.2018_ACL_Self-regualation: Employing a Generative Adversarial Network to Improve Event Detection

由于能够将语义信息编码和映射到高维潜在特征空间,因此神经网络已成功用于在一定程度上检测事件。但是,这样的特征空间很容易被事件检测中固有的虚假特征污染。在本文中,我们提出一种自我调节的学习方法通过利用生成的对抗网络生成虚假特征。在在此基础上,我们采用了循环网络消除假货。详细实验ACE2005和TAC-KBP2015语料库上的数据表明,我们提出的方法是高效且适应性强。

16.2018_ACL_Document Embedding Enhanced Event Detection with Hierarchical and Supervised Attention

文档级信息对于事件检测甚至在句子级也非常重要。在本文中,我们提出新颖的文档嵌入增强Bi-RNN模型,称为DEEB-RNN,用于检测句子中的事件。首先这个模型通过基于层次和监督的基于注意力的RNN,学习面向事件检测的文档嵌入,重点关注事件触发和句子层面的关注那些包含事件的句子。然后使用嵌入的学习文档增强另一个双向RNN模型识别事件触发因素及其类型在句子中。通过实验ACE-2005数据集,我们展示了拟议的有效性和优点通过与DEEB-RNN模型进行比较最先进的方法。

17.2018_ACL_Zero-Shot Transfer Learning for Event Extraction

以前的大多数事件提取研究严重依赖衍生的功能因此,如果没有注释工作,就不能将其应用于新的事件类型。在这项工作中,我们重新审视事件提取和将其建模为接地问题。我们设计可转移的神经架构共同映射事件提及和类型使用结构和成分神经网络进入共享的语义空间,每个事件提及的类型可以在哪里由所有候选类型中最接近的确定。通过利用(1)少量现有事件类型和(2)现有事件的手动注释本体,我们的框架适用于新事件类型,无需其他注解。针对现有事件类型(例如ACE,ERE)和新事件进行实验事件类型(例如FrameNet)演示我们方法的有效性。不带23个新事件的任何手动注释类型,我们的零射框架实现了性能可与由500个事件提及的注释。

18.2018_EMNLP_Jointly Multiple Events Extraction via Attention-based Graph Information Aggregation

事件提取在自然语言处理中具有实用性。在现实世界中是多个事件的普遍现象存在于同一句子中,其中提取它们比提取单个事件更困难。以前通过顺序建模方法对事件之间的关联进行建模的工作因捕获很长的依赖关系的效率低而遭受很大困扰。在本文中,我们共同提出了一部小说多重事件提取(JMEE)框架通过引入语法来联合提取多个事件触发器和参数快捷弧以增强信息流和基于注意力的图卷积网络模型图信息。实验结果表明,与提出的框架相比,我们提出的框架具有竞争优势使用最先进的方法。

19.2018_EMNLP_Collective Event Detection via Hierarchical and Bias Tagging Networks with Gated Multi-level Attention Mechanisms

处理ACE任务的传统方法事件检测主要考虑多重性事件在一个句子作为独立的并使用句子级信息。但是,事件在一个句子中通常是相互依赖的。和句子级信息往往不足以解决某些类型的歧义。事件。本文提出了一部小说。被称为等级和偏差的框架使用门控多级标记网络%注意机制(HBTNGMA)解决*这两个问题同时出现。首先,我们建议一个分层和偏置标记网络,以在一个句子中共同检测多个事件。然后,我们设计了一个门控多层次注意自动提取并动态地融合句级和文档级信息。广泛使用的ACE2005的实验结果数据集显示,我们的方法显著优于其他最先进的方法。

20.2018_EMNLP_Exploiting Contextual Information via Dynamic Memory Network for Event Detection

事件检测的任务涉及对事件触发器进行识别和分类。上下文信息已显示对任务。但是,现有方法利用上下文信息仅处理上下文一次。我们认为上下文可以通过处理上下文更好地利用多次,允许模型执行复杂的推理并生成更好的上下文表示,从而提高整体性能。同时,动态内存网络(DMN)在捕获上下文信息方面已显示出令人鼓舞的功能,并已成功应用于各种任务。根据DMN的多跳机制对上下文进行建模,我们提出触发检测动态记忆网络(TD-DMN)来解决事件检测问题。我们对ACE-2005数据集进行了五重交叉验证,实验结果表明,多跳机制确实可以提高性能,并且与最先进的方法相比,该模型获得了最佳的F1分数。