多跳阅读理解需要搜集多个支持文档中的各个证据,然后利用搜集到的证据,进行多级跳跃的推理过程确认答案。目前图神经网络被大量运用在解决多跳阅读理解问题,针对目前图神经网络相关模型中问题与节点的交互信息提取不充分的问题,提出基于门控思想的改进交互关系提取的多跳阅读理解模型。首先,将支持文档中与候选答案或问题中实体完全一致的词作为实体图节点,将同一段落中的不同实体相连,不同段落中的同一实体相连成边构建实体图。然后,对提取的实体进行信息编码处理,并通过图卷积网络模拟推理过程。最后,利用改进的交互关系提取模型,将推理过后的数据与原始节点进行信息对比与聚合,保留更有效的交互信息进行结果预测。在WikiHop数据集中进行实验验证,结果表明改进交互关系提取方法取得了更好的效果。 Multi-hop reading comprehension needs leaping reasoning over multiple supporting documents to obtain the correct answer. Graph neural network is widely used to solve the problem of multi hop reading comprehension. Aiming at the insufficient extraction of interactive information between problems and nodes in the current graph neural network related models, the multi hop reading comprehension model based on improved interactive relationship extraction based on gating mechanism is proposed. Firstly, take the entities in the supporting document that are equal to the entities in the candidate set or question as the entity graph nodes, connect different entities in the same paragraph and the same entity in different paragraphs as edges to construct the entity graph. Then, embedding the graph nodes, and using graph convolution network to reason. Finally, the improved interactive relationship extraction model is used to compare and aggregate the information with the original graph nodes, and retain more effective interactive information for result prediction. The WikiHop experimental results show that the improved interactive relationship extraction method has achieved better results.
多跳阅读理解需要搜集多个支持文档中的各个证据,然后利用搜集到的证据,进行多级跳跃的推理过程确认答案。目前图神经网络被大量运用在解决多跳阅读理解问题,针对目前图神经网络相关模型中问题与节点的交互信息提取不充分的问题,提出基于门控思想的改进交互关系提取的多跳阅读理解模型。首先,将支持文档中与候选答案或问题中实体完全一致的词作为实体图节点,将同一段落中的不同实体相连,不同段落中的同一实体相连成边构建实体图。然后,对提取的实体进行信息编码处理,并通过图卷积网络模拟推理过程。最后,利用改进的交互关系提取模型,将推理过后的数据与原始节点进行信息对比与聚合,保留更有效的交互信息进行结果预测。在WikiHop数据集中进行实验验证,结果表明改进交互关系提取方法取得了更好的效果。
多跳阅读理解,门控机制,注意力机制
Zoujie He1, Nisuo Du1,2, Zhi Ouyang1,2
1School of Mathematics and Statistics, Guizhou University, Guiyang Guizhou
2Guizhou Big Data Academy, Guizhou University, Guiyang Guizhou
Received: Mar. 17th, 2022; accepted: Apr. 29th, 2022; published: May 5th, 2022
Multi-hop reading comprehension needs leaping reasoning over multiple supporting documents to obtain the correct answer. Graph neural network is widely used to solve the problem of multi hop reading comprehension. Aiming at the insufficient extraction of interactive information between problems and nodes in the current graph neural network related models, the multi hop reading comprehension model based on improved interactive relationship extraction based on gating mechanism is proposed. Firstly, take the entities in the supporting document that are equal to the entities in the candidate set or question as the entity graph nodes, connect different entities in the same paragraph and the same entity in different paragraphs as edges to construct the entity graph. Then, embedding the graph nodes, and using graph convolution network to reason. Finally, the improved interactive relationship extraction model is used to compare and aggregate the information with the original graph nodes, and retain more effective interactive information for result prediction. The WikiHop experimental results show that the improved interactive relationship extraction method has achieved better results.
Keywords:Multi-Hop Reading Comprehension, Gate Mechanism, Attention Mechanism
Copyright © 2022 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
机器阅读理解(Machine Reading Comprehension, MRC)是一项旨在让机器根据给定的上下文文档回问题,以此来测试机器理解自然语言程度的任务。
随着BERT [
多跳机器阅读理解(Multi-hop MRC)就是由问题推导出答案需要进行多次推理的阅读理解。为解决多跳机器阅读理解问题,需要搜集支持文档中的多处证据,然后利用搜集到的证据,进行多级跳跃的推理过程确认答案。解决多跳阅读理解问题过程中,人们为了得到更多有效的推理信息需要捕捉到文档中的关键实体词,从而推理出实体间递进的逻辑推理信息。这对于机器来说,存在着极大的难度以及挑战性。
多跳阅读理解的传统模型主要是将单跳阅读理解的模型应用到多跳阅读理解的多个段落中,对每个段落进行分析并抽取可能答案,最后通过比较分析得到可能性最大的答案。例如,Seo等人 [
针对传统深度学习模型不能有效的提取文档中所存在的逻辑推理关系的问题,还需要一种可以很好的提取推理实体间联系的模型。有学者 [
综上所述,针对问题与节点的交互信息提取不充分的问题,提出基于门控思想的改进交互关系提取的多跳阅读理解模型。在提取实体图中节点与问题句子交互信息的传统方法中,吸收门控思想中自适应的调整权重信息的思想,通过与其他模型对比实验验证模型的有效性。
模型如图1所示包括5个模块,分别为:1) 图构建模块,2) 多级特征提取模块,3) GCN多跳推理模块,4) 交互信息提取模块,5) 输出预测模块。
基于Entity-GCN提出的实体图构建方法,通过字符串匹配的方法提在支持文档中提取与候选答案完全一致的字段作为候选答案节点。根据Welbl等人分析,数据集是沿着可能的推理链生成候选答案,在支持文档中包含了问题相关的实体。通过提取支持文档中与问题实体一致的字段得到一组问题相关节点。图中边的定义是将同一段落中的不同实体相连成边和将不同段落中的同一实体相连成边。
通过使用ELMo对所有的节点的信息进行编码,得到具有支持文档上下文语义的实体节点编码信息,从而使图中各个节点不仅包含实体本身具有的编码信息,还包含支持文档中各句子间的逻辑关联信息。此外,通过使用GloVe捕捉单词之间一些语义特性,以此来丰富节点的语义表示信息。
图1. 模型框架图
由于每个图节点中实体包含的单词数量长度不一,为保持特征信息向量长度的一致性,对每个节点中的特征向量都进行平均化操作,最后将不同编码平均的节点特征向量进行拼接,得到每个节点最终的表示向量:
d n o d e = c o n c a t ( m e a n ( n e l m o ) , m e a n ( n g l o v e ) ) (1)
不同于平均池化操作获取节点特征信息的方式,本模型通过双向LSTM模块提取整个问题句的特征信息,该模块可以更好的提取问题句双向的语义依赖信息。最终的问题句信息表示向量为:
d q u e r y = B i L S T M ( c o n c a t ( q e l m o , q g l o v e ) ) (2)
根据多级特征嵌入模块编码后的特征向量,得到图节点的原始向量。由于每个节点都会与多个节点相连,因此要求节点有选择性地获取相邻节点的信息,在进行信息传递时可以在实体图中传递最为相关的信息,所以模型采用门控机制的关系图卷积神经网络(Gate-RGCN)来进行多跳推理。
在关系图神经网络中,按照公式(3)进行节点之间的信息聚合,其中 u i ( l + 1 ) 表示第i个节点在第 l + 1 层的更新信息, σ ( ⋅ ) 表示 sigmoid激活函数, N i r 表示第i个节点在第r种边关系下所有邻居节点的集合,R表示第i个节点与其邻居节点的邻接关系矩阵, c i , r 为正则化常量, w r ( l ) 代表在l层的邻接关系权重矩阵, w 0 l 是固定的初始化关系矩阵, h j ( l ) 表示第j个节点在第l层的隐藏状态。
u i ( l + 1 ) = σ ( ∑ r ∈ R ∑ j ∈ N i r 1 c i , r W r ( l ) h j ( l ) + W 0 ( l ) h j ( l ) ) (3)
门控机制会有选择性在聚合邻居节点的信息,本模型由公式(4)通过门控机制更新关系矩阵,其中 f g a t e ( ⋅ ) 表示关系向量进行线性转换得到各关系向量的权重,经由sigmoid函数标准化后用于更新下一层节点i的隐藏状态。最终使用了Gate-RGCN节点传递信息如公式(5)得到最终的节点隐藏层状态,其中⊙表示哈达马积。
w i ( l ) = σ ( f g a t e ( c o n c a t ( u i ( l ) , h i ( l ) ) ) ) (4)
h i ( l + 1 ) = w i ( l ) ⊙ tanh ( u i ( l ) ) + ( 1 − w i ( l ) ) ⊙ h i ( l ) (5)
传统GCN只能根据相邻节点的聚合信息来更新中心节点,但在信息传播的过程中存在着大量的无关信息,使用带有门控机制的GCN会有选择性地传播更新信息,适当的保留了中心节点的原始状态信息。
传统模型在提取问题与节点的交互信息时往往采用双向注意力机制。例如,Cao等人在Entity-GCN模型中引入了双向注意力流模块提出双向注意力图神经模型(BAG),由初始节点特征向量 H r a w ,经过Gate-RGCN推理得到的最终的输出向量 H l ,计算出问题对于节点的注意力 A q 2 n ,以及节点对于问题的注意力 A n 2 q 。然后将注意力与原始节点进行拼接运算得到在最终的注意力流输出。
A F = c o n c a t ( H r a w , A n 2 q , H r a w ⊙ A n 2 q , H n ⊙ A q 2 n ) (6)
双向注意力流模型并不能充分的提取节点与问题的交互信息。双向注意力流的输出 AF 中直接将注意力与原始节点信息进行哈达马积运算后拼接,输出中还存在着大量的无关信息。
根据Seo等人在机器阅读理解的任务中对双向注意力进行测试,发现的N2Q注意力更加重要的结论。在得到节点对于问题的注意力 A n 2 q 和原始节点向量 H r a w 的表示技术上,计算二者的门控权重关系 w A H 。
w A H = σ ( f g a t e ( c o n c a t ( H r a w , A n 2 q ) ) ) (7)
不同于门控机制中将两者的信息相加得到最终输出的方式,本模型定义来一种全新的门控更新单元。
f i n t e r = c o n c a t ( w A H ⊙ H r a w , ( 1 − w A H ) ⊙ A n 2 q , w A H ∗ A n 2 q ) (8)
最终经过与问题对于节点的注意力 A q 2 n 聚合,输入至预测模块,进行最后的答案预测。
f ^ = c o n c a t ( f i n t e r , A q 2 n ⊙ H r a w ) (9)
通过将交互信息提取模块的最终输出经过两层全连接神经网络的转换之后,得到图中每个节点作为答案的概率值。由于答案选择是一个单项选择问题,本模型选择softmax交叉熵损失作为模型的损失函数,即:
p ( x i ) = e x i ∑ j = 1 k e x j (10)
L o s s = − ∑ i = 1 k y i log ( p i ) (11)
其中 y i 表示样本i的标签,正类为1,负类为0。 p i 表示样本i预测为正的概率。
根据以上模型概述,本实验采取在QAngaroo发布的WikiHop数据集上进行验证。WikiHop数据集是需要在多个支持文档中进行多跳推理的多跳阅读理解数据集。每个WikiHop的数据样本包含一个问题 Q,多个支持文档 S i ( i = 1 , 2 , ⋯ , N ) 以及多个候选答案 C j ( i = 1 , 2 , ⋯ , M ) 。支持文档中来源于WIKIREADING,其中包含支持推理过程的正例文档和与问题无关的负例文档,候选答案可能是一个单词或者是一个词组。模型需要根据给定的支持文档进行推理,在所有的候选答案中选出最终的正确答案。WikiHop数据集中,训练集数据共有43,738个样本,验证集共5129个。
实验环境:操作系统为Ubuntu18.04,CUDA版本为CUDA10.0,深度学习框架TensorFlow版本为tensorflow-gpu-13.1,GPU为2块GTX Titan Xp,内存为125G。
为了验证模型在WikiHop数据集上的有效性,需要对模型的各个参数进行调整。实验过程中,尝试了多种不同的超参数组合。例如:多跳层数(4, 5, 6),学习率(0.00005, 0.00002, 0.00001),最大答案长度(200, 300, 400, 450),hidden-size (300, 528, 768)等。根据实验结果,最后选择的最优参数组合见表1。
参数 | 参考值 |
---|---|
hops | 5 |
learning-rate | 2e−4 |
optimization | Adam |
node-num | 500 |
query-num | 25 |
hidden-size | 1024 |
epoch | 30 |
表1. 超参数设置
为了显示本模型的有效性,本研究选取以下多种模型进行对比实验,将实验结果与本研究提出的模型做了比较。对比模型的简要说明如下。
基于注意力机制提取段落与问题交互信息的模型(BiDAF [
在训练集上训练且在验证集及测试集中评定,实验结果见表2,评价指标为准确率。
模型名称 | 验证集(%) | 测试集(%) | |
---|---|---|---|
基于注意力机制 | BiDAF | 49.7 | 42.9 |
基于RNN | Coref-GRU | 56.0 | 52.3 |
EPAr | 67.2 | 69.1 | |
基于图神经网络 | Entity-GCN | 67.2 | 69.1 |
BAG | 66.5 | 69.0 | |
MHQA-GRN | 62.5 | 65.4 | |
本模型 | 67.3 | 69.1 |
表2. 模型性能比较
从表中显示的结果可以看到,与基于图神经网络的模型比较,在验证集中的准确率取得最优水平,说明本模型在不损失泛化能力的基础上,节点与问题的交互信息方面取得了较大的提升。与非图神经网络的模型相比,本模型也为最优模型,这表明了本模型在有效提取问题与答案实体的交互关系基础上,也可以很好的提取实体在段落中的表示信息。通过上述的对比表明使用基于门控思想的改进交互关系提取的模型,可以有效提取节点与问题的交互信息,以此提升了模型预测的准确率。
为了证明本模型各模块的有效性,在WikiHop验证集中进行了消融实验,结果见表3。
Models | 验证集(%) | Δ (%) | |
---|---|---|---|
本模型 | 67.3 | - | |
(a) 去除改进交互信息 提取模块 | 66.04 | −1.26 | |
(b) 去除ELMo | 60.02 | −7.28 | |
(c) 调整GCN层数 | 4-hops | 66.52 | −0.78 |
6-hops | 66.40 | −0.90 |
表3. 消融实验
(a) 实验去除了本模型的改进交互信息提取模块,可以看到在验证集中准确率下降了1.26%,这证明了本模型在提取问题与实体交互信息的有效性。(b) 实验去除ELMo提取的及节点表示信息,模型准确率下降7.28%,证明了ELMo提取的节点语义表示信息是模型的关键。(c) 实验中将GCN的层级分别调整为如图2所示的2~6层,由图中数据可见,使用Gate-RGCN进行推理时准确率先随着层数的增加而提升,这证明了使用Gate-RGCN推理的有效性。而后因为更多的层数引入了噪声,导致后续准确率的下降,得到最佳的层数为5层。
图2. GCN层数对比
机器阅读理解是自然语言处理中一项具有挑战性的任务。针对现有图神经模型存在节点与问题交互信息提取不充分的问题,提出了一种新的多跳阅读理解模型。首先,采用基于匹配的实体提取方法从支撑文档中提取与候选答案或问题中实体一致的字段作为节点构建实体图。然后通过对图节点进行ELMo及GloVe多级编码后使用Gate-RGCN进行多跳推理。最后根据全新的交互信息提取模型计算节点与问题的交互信息,并进行最终答案预测。通过与已发布模型的实验结果进行比较,表明模型在单模型上比绝大多数模型效果更好。
但是由于本模型中提取的问题相关节点与候选答案节点相互独立,在构建的实体图中存在着较多的未连通的子图,所以模型在图神经推理时还存在信息交互不够充分的问题,需要进一步设计连通更多的图节点的实体图进行图神经推理。
何奏捷,杜逆索,欧阳智. 基于门控思想的改进交互关系提取的多跳阅读理解研究Research on Multi-Hop Reading Comprehension Based on Improved Interaction Extraction with Gate Mechanism[J]. 运筹与模糊学, 2022, 12(02): 169-176. https://doi.org/10.12677/ORF.2022.122016