随着深度学习的不断发展和广泛应用,计算机视觉的许多领域也得到了长足的进步,例如在图像分类、对象检测、图像分割等任务中的表现。视觉关系检测(VRD)是计算机视觉的重要任务,旨在识别图像中物体之间的关系或相互作用,这对于理解图像及视觉世界都很重要,VRD也是计算机视觉技术应用研究的关键环节。与一般的物体检测任务相比,VRD不仅需要预测每个物体的类别和轨迹,还需要预测物体之间的关系,研究人员已经针对改任务提出了很多办法,特别在近年来基于深度神经网络的发展的深度学习也有所突破。本文介绍了VRD任务的内容,深度学习基本方法,VRD的传统方法和基于深度学习模型的一些分类和框架及其VRD在计算机视觉领域的应用。 With the continuous development and wide application of deep learning, many fields of computer vision have also made great progress, such as performance in image classification, object detection, image segmentation and other tasks. Visual relationship detection (VRD) is an important task for computer vision, aiming to recognize relations or interactions between objects in an image, which is important for understanding images even the visual world. Compared with the general object detection task, VRD requires not only to predict the categories and trajectories of each object, but also to predict the relationship between objects. Researchers have proposed to tackle this problem especially with the development of deep neural networks in recent years. In this survey, we provide a comprehensive review of VRD in computer vision and some categorization and frameworks of deep learning models for VRD with its applications.
随着深度学习的不断发展和广泛应用,计算机视觉的许多领域也得到了长足的进步,例如在图像分类、对象检测、图像分割等任务中的表现。视觉关系检测(VRD)是计算机视觉的重要任务,旨在识别图像中物体之间的关系或相互作用,这对于理解图像及视觉世界都很重要,VRD也是计算机视觉技术应用研究的关键环节。与一般的物体检测任务相比,VRD不仅需要预测每个物体的类别和轨迹,还需要预测物体之间的关系,研究人员已经针对改任务提出了很多办法,特别在近年来基于深度神经网络的发展的深度学习也有所突破。本文介绍了VRD任务的内容,深度学习基本方法,VRD的传统方法和基于深度学习模型的一些分类和框架及其VRD在计算机视觉领域的应用。
计算机视觉,深度学习,神经网络,视觉关系检测
Jingjing Tang1, Jing Huang2, Aiye Shi1, Lili Zhang1, Lizhong Xu1
1College of Computer and Information, Hohai University, Nanjing Jiangsu
2Business School, Hohai University, Nanjing Jiangsu
Received: Jul. 1st, 2022; accepted: Jul. 12th, 2022; published: Jul. 25th, 2022
With the continuous development and wide application of deep learning, many fields of computer vision have also made great progress, such as performance in image classification, object detection, image segmentation and other tasks. Visual relationship detection (VRD) is an important task for computer vision, aiming to recognize relations or interactions between objects in an image, which is important for understanding images even the visual world. Compared with the general object detection task, VRD requires not only to predict the categories and trajectories of each object, but also to predict the relationship between objects. Researchers have proposed to tackle this problem especially with the development of deep neural networks in recent years. In this survey, we provide a comprehensive review of VRD in computer vision and some categorization and frameworks of deep learning models for VRD with its applications.
Keywords:Computer Vision, Deep Learning, Neural Networks, Visual Relationship Detection
Copyright © 2022 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
人脑是由109~1011个细胞极其大约1015突触互相连接高度复杂的脑网络,通过视觉、触觉、嗅觉和听觉感知外部事物的信息,其中视觉信息是主要来源,基于人类视觉仿生学的计算机视觉认知技术是现实世界应用的体现。到目前为止,视觉认知技术主要包括目标检测 [
VRD是对图像中成对物体的预测,它是计算机视觉中的重要任务之一,对于理解图形,连接图像和文本具有重要意义。视觉认知技术使计算机能够理解真实世界,与计算机科学与技术、人工智能等在许多领域的实际应用有关,如模式识别、图像处理等,也与视觉关系处理密切相关。视觉关系检测如图1所示,从输入图像中得到物体及其关系,获取更丰富的图像信息,达到更深层次的图像理解。
图1. 图像中的视觉关系检测
VRD是一种中级视觉任务,可以从低级视觉任务(物体检测和识别)中获取信息,并有助于高级视觉任务(例如VQA,看图说话,视觉推理等)。在VRD研究的早期阶段,因为图像中的物体可能没有正确定位,给定物体之间的关系可能没有完全标记。此外,物体关系可以通过多种方式指定,数据集中物体相互关系包括几何关系、语义关系、从属关系和其他关系,它们的外观会发生很大变化,而且关系的分布比物体的分布长得多。很难为所有可能的关系获得足够的示例训练,导致在VRD的早期作品中只发现了少数关系。随着技术和人工智能的不断发展,特别是与深度学习的融合,VRD的技术改进正在突飞猛进。由于其丰富的特征表示,深度学习近年来已成为研究热点,并被广泛用于多种任务,也包括视觉相关的应用,例如:识别、医学图像分割、姿态估计、看图说话、视频描述生成、图像风格迁移、以及跨模态检索等。基于深度学习的视觉关系检测方法也得到了发展,具有不同的模型、相应的目标函数和算法。除了VRD中的物体检测外,还通过条件随机场(CRF)网络,关系检测网络(RePN),视觉转化嵌入(VTransE)网络 [
由于科学的快速发展和信息技术的不断变化,基于深度学习的VRD理论研究和实践创造不断涌现。本文对深度学习在视觉关系检测中的研究进展进行文献综述,介绍视觉关系检测的研究现状,深度学习基本模型,视觉关系检测方法及其应用。
随着计算机视觉领域的不断发展,对图像语义的理解变得越来越重要,但是直接从图像中学习完整的高级语义难度较大。视觉关系检测可以提高计算机对图像更深层次的理解,更好地支持高层次语义信息的计算机视觉任务,已经引起越来越多的关注。在早期视觉关系研究中,是以改善对象检测性能为目的,只引入了对象对之间的共同关系,例如位置和大小的比较。应用Max-Margin Learning [
图像中物体关系识别的目的是根据计算机识别的物体类型来学习和识别物体之间的语义关系,物体关系通常以〈主语–谓词–宾语〉的三元组形式表示。主语和宾语都是物体的类型,谓词表示两者之间的语义关系 [
为了实现大规模的视觉关系检测,Cewu Lu等人(2016) [
1986年,Rina Dechter首次将术语“深度学习”(DL)引入机器学习(ML) [
深度学习通常与人工神经网络有关,以下介绍常用的深度神经网络,但要注意其有泛化能力弱、表达能力弱、没有注意力机制、过度依赖训练数据等缺陷。
CNN,也称为 ConvNets,是多层神经网络,主要用于图像处理和目标检测。Yann LeCun 等人(1989) [
图2. LeNet-5结构图
CNN是图像处理和理解中最有效和适应性最强的模型,它能够适应图像的结构,通过结构重组和减少权值将特征抽取功能融合进多层感知器,自动的从图像中抽取出丰富的相关特性,能同时进行图像特征提取和分类。除了用于图像任务外,CNN也可以处理具有局部空间相关性的数据,例如语音和自然语言等等。为了满足处理大规模数据的要求,CNN模型加深了网络层数,随之产生了庞大的存储和计算量,还需要非常强大的处理器(如CPU、GPU)支持,近年来CNN模型在算法层面上追求降低功耗,实现轻量化网络是进一步研究的方向。最常见的CNN架构除了LeNet-5,还包括AlexNet、VGGNet、GoogLeNet、ZFNet、ResNet、DenseNet、NASNet等等。
二十世纪八十年代和九十年代神经生物学的探索中,研究人员发现大脑反应回路的兴奋和抑制受到大脑α节律(α-rhythm)调节和影响,并在α-运动神经(α-motoneurones)中形成循环反馈系统 [
SRN中循环层的输出在下次作为该层输入的一部分被延迟,然后输出被发送到网络的后续层,同时SRN是一个由输入层、隐藏层和输出层组成的三层连接神经网络,其基本结构如图3所示。
图3. 简单循环网络结构
RNN使模型上一个时间步长中生成的结果能够用作下一个时间步长的输入的一部分,并影响下一个时间步长的输出,即所谓的序列信息。根据时间轴,RNN可以平滑扩展如图4所示。
图4. 简单循环网络时间线展开图
图4中循环神经网络的计算方法可以公式化为
O t = g ( V ⋅ S t ) (1)
S t = f ( U ⋅ X t + W ⋅ S t − 1 ) (2)
其中,向量 X t , S t 和 O t 分别表示输入层、隐藏层和输出层的当前值,而 S t − 1 表示隐藏层的先前值。U是从输入层到隐藏层的权重矩阵,V是从隐藏层到输出层的权重矩阵。RNN的隐藏层的值不仅取决于当前输入 X t ,还取决于隐藏层的先前值,W是用作当前输入的隐藏层先前值的权重矩阵。
RNN可以学习以自然有效的方式混合顺序和并行信息处理的程序,因此它可以用于以下任务中:在一对一映射中将单个输入映射到单个输出,例如,图像分类;单个输入以一对多关系映射到一系列输出,例如,看图说话;单个输出由一系列输入产生,例如,情绪分析(多个单词的二进制输出);一组输入产生一组输出,例如,视频分类(将视频拆分为帧并单独标记每个帧)。
Ian Goodfellow等人(2014) [
图5. 生成对抗网络模型的常规设计
为了学习生成器对数据x的分布 p g ,他们将输入噪声变量的先验表示为 p z ( z ) ,然后将到数据空间的映射表示为 G ( z ; θ g ) ,其中可微函数G由具有参数的多层感知器 θ g 表示。第二个多层感知器 D ( x ; θ d ) 被定义为那些输出单个标量的感知器。 D ( x ) 表示来自数据x而不是 p g 的概率,D和G使用值函数 V ( D , G ) 计算极小极大,该过程可由公式(3)所示
min G max D V ( D , G ) = E x ∼ p d a t a ( x ) [ log D ( x ) ] + E z ∼ p z ( z ) [ log ( 1 − D ( G ( z ) ) ) ] (3)
实际操作中使用迭代的数值方法来实现以上过程,但是在训练的内部循环中优化D在计算上无法实现,并且出现在有限的数据集上会导致过度拟合的问题,所以采用在优化D的k个步骤和优化G的一个步骤之间进行交替,使得G变化足够慢,将D保持在接近其最优解的位置 [
图神经网络(GNN)是在图域上运行深度学习的方法,由于其令人信服的性能,GNN最近已成为一种广泛应用的图形分析方法。Alessandro Sperduti等人(1997)首次将神经网络用于有向无环图 [
图形是一种对一组对象(节点)与其关系(边)进行建模的数据结构,通常,图形表示为 G = ( V , E ) ,即顶点或节点V和边E的集合。让 v i ∈ V 来表示一个节点, e i j = ( v i , v j ) ∈ E 表示一条边 v i 指向另一边 v j 。图G的邻接矩阵 是顶点 v i 与顶点 v j 之间的边数 a i j 的集合,表示为 A = A ( G ) = ( a i j ) n × n 。图可以有节点属性X,其中 X ∈ R n × d 节点特征矩阵表示 x v ∈ R d 节点的特征向量v。同时,一个图可以有边属性 X e ,其中 X e ∈ R m × c 是一个边特征矩阵,表示 X v , u e ∈ R c 一个边的特征向量 ( v , u ) 。
有向图是所有边从一个节点定向到另一个节点的图形。无向图被认为是有向图的一种特例,其中如果连接了两个节点,则存在一对具有反方向的边。当且仅当邻接矩阵是对称的时,图才是无向的。时空图是一种属性图,其中节点属性随时间动态变化。时空图定义为 G ( t ) = ( V , E , X ( t ) ) X ( t ) ∈ R n × d [
GNN的输入是图,并有多层图卷积和激活函数等各种操作,最终得到图中每个节点的表示,以方便节点分类、链接预测、图和子图生成等任务。图神经网络分为四类:递归图神经网络(RecGNNs),卷积图神经网络(Con-vGNNs),图自动编码器(GAEs)和时空图神经网络(STGNNs)。
日常生活中,人们看到一个场景时会关注其中的显著区域,并快速处理这些区域。为了模仿人类视觉系统的这一特点,注意力机制被引入了计算机视觉。注意力机制是将注意力转移到图像中最重要的区域,同时忽略不相关部分的方法。这种注意机制可以看作是基于输入图像特征的动态权重调整过程。注意力机制的发展可以大致分为四个阶段:
第1阶段采用RNN来构建注意力,一种代表性的方法是RAM;第2阶段明确预测了重要区域,一种代表性的方法是STN;第3阶段隐式完成了注意力过程,一个代表性的方法是SENet;第4阶段使用自注意力方法。注意力机制过程可表述为
A t t e n t i o n = f ( g ( x ) , x ) (4)
其中 g ( x ) 表示产生注意力,这与注意待识别区域的过程相对应。 f ( g ( x ) , x ) 是指基于与处理关键区域和获取信息一致的注意力 g ( x ) 来处理输入x。一般来说,上述公式可以集中体现大多数注意力机制,包括自注意力 [
Q , K , V = Linear ( x ) (5)
g ( x ) = Softmax ( Q K ) (6)
f ( g ( x ) , x ) = g ( x ) V (7)
对于SE, g ( x ) , f ( g ( x ) , x ) 可以写为
g ( x ) = Sigmoid ( MLP ( GAP ( x ) ) ) (8)
f ( g ( x ) , x ) = g ( x ) x (9)
计算机视觉领域中注意力机制分为以下几种:通道注意力,空间注意力,时间注意力、分支注意力,通道和空间混合注意力和空间和时间混合注意力。
视觉关系检测常用的方法主要分为两种。一是以关系三元组作为检测的基本单位,把每个关系三元组作为一个范畴来训练分类器。这种方法的缺点是需要训练的类别太多,而且训练数据往往不足且分布不均匀,因此很难训练出一个好的分类器。二是将对象分类和关系分类分开,训练两种分类器。一个分类器实现对象的分类,即判断主语和宾语,另一个分类器实现关系的分类,即判断预测。这种方法克服了前一种方法的缺点,但对分类器进行训练以判断关系往往很困难。在同一关系中,主语和宾语可以不同,不同场景中图像外观可能差异很大。
在目标检测任务中,在不同的场景中,要检测的某种物体的特定形状可能会有很大不同。这种被检测物体差异很大的现象,会使物体检测器难以训练。但是,如果不将对象用作检测的基本单元,而是将视觉短语用作检测的基本单元,则可以有效地改善此问题。在视觉短语中,组成元素的外观变化通常相对较小,因此更容易训练探测器。以同一视觉短语〈人–驾驶–汽车〉为例,在不同的图片中具有相对一致的外观。
在视觉关系检测的任务中,Mohammad Amin Sadeghi等人(2011) [
视觉关系检测的建模过程可以是检测由主语、谓词和宾语形成的关系三元组,这样可以更准确地模拟视觉关系,但关系三元组的多样性导致模型参数空间的扩展很多,现有的数据集难以满足模型的训练要求,而且数据集中一直存在长尾分布问题,增加了该模型的训练难度。为了更加充分利用图像训练数据,采用语言知识来标准化预测结果。
获取语言知识的方法有两种,一种是通过计算训练集中标记信息的条件概率P (PRED|sub, obj)来获取语言知识,另一种是从外部知识库(如百度百科全书,维基百科全书等)获取语言知识。前者由于数据集大小限制,只能收集少部分知识,无法显著改善模型效果。后者从互联网知识库的公共文本中捕获外部语言知识,可以有效缓解长尾分布问题。外部知识库涵盖大量常用词的统计数据,这些词可用于描述主题、对象和对象之间的关系。由于外部知识库更新频率高,它包含训练数据所没有的组合形式,而且覆盖范围更广,知识更一般,这样会产生噪音很大的问题。
Ruichi Yu等人(2017) [
由于无法提供足够数量的训练样本用来训练数据集中所有的关系,相关研究工作将要预测的关系控制在一定范围内。在视觉关系检测的任务中,可以将语言模块添加到视觉模块中,从而引入一种先验的语言知识 [
f ( R ( i , k , j ) , W ) = w k T [ word 2 vec ( t i ) , word 2 vec ( t j ) ] + b k (10)
其中,word2vec()表示转换函数,并且 t j 是第j个物体类别的单词。 W = { { w 1 , b 1 } , ⋯ , { w k , b k } } 是一组谓词。
Dai Bo等人(2017) [
q r = σ ( W r x r + W r s q s + W r o q o ) (11)
其中 σ 表示激活函数, W r s = φ r s ( r , s ) 表示捕获关系谓词r和主语类别s之间统计关系的潜力, W r o = φ r o ( r , o ) 表示捕获关系谓词r和对象类别o之间统计关系的潜力。 x r 表示合并封闭框的外观和空间配置的压缩对要素。s和o的生成采用类似的方法,更新后的概率向量可以由下式表示
q ′ s = σ ( W a x s + W s r q r + W s o q o ) (12)
q ′ r = σ ( W r x r + W r s q s + W r o q o ) (13)
q ′ 0 = σ ( W a x o + W o s q s + W o r q r ) (14)
DR-Net是通过将这种迭代更新过程展开到具有一系列计算层(即这些更新公式)的网络中来实现的。先验和后验统计将利用大规模关系检测中的词嵌入,以及语言先验已被用作许多方法中的基本组件,在对象和关系之间可以进一步利用结构化关联。
为了学习丰富多样的关系,特别是近年来随着深度学习的发展,学者们提出了大量基于DNN的视觉关系检测方法。Cewu Lu等人(2016) [
关系是指对象和谓词的组合,对于 N个对象和K个谓词,学习脱节关系的复杂性是 O ( N 2 K ) 。但是,由于相关对象,谓词的外观会发生了巨大变化。TransE由低维向量 s , p 和 o 分别表示〈主语–谓词–宾语〉, s + p ≈ o 表示关系成立时关系的平移,否则由 s + p ≠ o 表示。Zhang Hanwang等人(2017) [
要将特征空间投影到关系空间,矩阵 W s 和 W o 由VTransE 学习。当 x s , x o ∈ ℝ M 表示主体和宾语的M维特征时, s 和 o 可以分别重写为 s = W s x s 和 o = W o x o 。因此,视觉转化可以表述为
W s x s + t p ≈ W o x o (15)
其中 t p ∈ ℝ r ( r ≪ M ) 表示要学习的关系平移向量。损失函数定义为
L r e l = ∑ ( s , p , o ) ∈ R − log softmax ( t p T ( W o x o − W s x s ) ) (16)
其中softmax通过p计算。在更快速区域的卷积神经网络之后设计了一个特征提取层,以整合对象和关系之间的知识转移,包括类概率、位置(即边界框的坐标和比例)以及感兴趣区域(ROI)视觉特征。TransE在对关系数据进行建模方面非常有效,可以应用于社交网络分析和推荐系统。
常识知识帮助人类推理视觉关系,因此它可以用来提炼物体和关系的特征。通过从训练注释(内部)和公开可用的文本(例如维基百科(外部))中获得知识,然后计算给定的〈subject, object〉对。这些知识被提炼成深度学习模型,并在师生知识提炼框架中进行训练,使用T-Net和S-Net分别代表教师和学生网络。构建T-Net后,其优化函数定义为T-Net和S-Net预测分布的KL散度为
min t ∈ T KL ( t ( Y ) | | s ϕ ( Y | X ) ) − λ E t [ L ( X , Y ) ] (17)
其中 t ( · ) 和 s Φ ( · ) 分别表示T-Net和S-Net的预测;Φ是S-Net的参数集;并且 L ( · ) 是一个约束函数。 λ 是一个平衡项。
在文献 [
注意力机制被引入计算机视觉,目的是模仿人类视觉系统的元素,该元素可以自然有效地发现复杂情况下的显著区域,它们在包括视觉连接识别的许多视觉任务中取得了巨大的成功。由Bohan Zhuang等人(2017) [
x ^ 0 = Att ( f , S ) = ReLU ( f ⋅ Emb ( S ) ) (18)
y ^ 0 = Att ( f , O ) = ReLU ( f ⋅ Emb ( O ) ) (19)
其中, Emb ( ⋅ ) 将实体嵌入到C-维语义空间中, f 表示从图像中提取的特征映射, ReLU ( ⋅ ) 是经过校正的线性单位运算符, x ^ 0 , y ^ 0 分别表示只使用实体对主语和宾语的初始注意。
为了理解参考表达式,Wang Peng等人(2019) [
注意力机制基于关注基本部分而不是整个图像。软注意力已经以上述基于注意力的方式得到解决,但其他注意力模型还需进一步发展。
由于单个类别中的谓词样本明显不同,因此已利用具有目标成本和损失函数的多个线索来减少关系的模糊性。对于短语定位和关系检测,已经使用了语言和视觉线索的集合,以及专门的成本函数 [
L ( x ) = ∑ r ∈ R ∑ r ′ ∈ R ′ [ Δ ( r , r ′ ) + Φ ( x , r ′ ) − Φ ( x , r ) ] + (20)
其中x是输入图像, r = ( s , p , o ) 是关系实例, R = ( s , p , o ) | ( s , o ) ∈ P ∧ p / ∉ P s , o 表示一个图像中存在的可视关系, R ′ = ( s ′ , p ′ , o ′ ) | ( s ′ , p ′ , o ′ ) | ( s ′ , o ′ ) ∈ P ∧ p ′ / ∉ P s ′ , o ′ 并且是未注释的关系实例。 [ ⋅ ] + = max ( 0 , ⋅ ) 工作以保留正极部分。 Δ ( ⋅ , ⋅ ) 是一个边距函数,用于测量视觉关系检测的不完整性,定义为
Δ ( r , r ′ ) = Δ ( s , p , o , s ′ , p ′ , o ′ ) = 1 + P ( p | c s , c o ) − P ( p ′ | c s ′ , c o ′ ) (21)
其中 c s 和 c o 表示主语和宾语的类别。Φ是一个用于测量x和r之间兼容性的函数:
Φ ( x , r ) = Φ ( x , s , p , o ) = W p T f ( x , s , o ) (22)
其中 w p 表示要学习的第p个谓词的参数。该框架旨在使关系共生更容易,并解决注释不完整的问题。
Zhu Yaohui等人(2017) [
损失函数的设计对学习模态的训练技术有巨大的影响,并且根据成本和损失方面,模态将用于各种视觉交互。
深度强化学习的目标是学习最佳或接近最优的策略,以最大化从即时奖励中获得的“奖励功能”。为了捕捉关系和特征之间的全局语义相互依赖性,Liang Xiaodan等人(2017) [
MnihVolodymyr等人(2013) [
在处理了VRD的任务之后,研究人员试图理解在生成过程中为提高性能而做的所有工作,我们现在将探索其不同的应用。
场景图被提出以更清晰和有组织的方式表达图像属性和对象连接,通过显式建模对象,它们的属性以及它们与其他对象的关系来捕获视觉场景的综合语义 [
图6. 场景图生成示例 [
场景图是一种描述场景内容的图形数据结构,它对对象实例、对象属性以及对象之间的关系进行编码。给定一组对象类 C 、一组属性类型 A 和一组关系类型 R ,我们将场景图G定义为元组 G = ( O , E ) ,其中 O = ( o q , ⋯ , o n ) 是一组对象, E ⊆ O × R × O 是一组边。每个对象的形式为 o i = ( c i , A i ) ,其中 c i ∈ C 是对象的类, A i ⊆ A 是对象的属性。
Justin Johnson等人(2015) [
γ * = arg max γ ∏ o ∈ O P ( o | γ 0 ) ∏ ( o , r , 0 ′ ) ∈ E P ( γ 0 , γ 0 ′ | o , γ , o ′ ) (23)
其中 P ( o | γ 0 ) 用于测量 γ 0 和o之间的一致性,而 P ( o | γ 0 ) P ( γ 0 , γ 0 ′ | o , γ , o ′ ) 用于模拟位置框对 ( γ 0 , γ 0 ′ ) 表示元组 ( o , γ , o ′ ) 的程度。可以用下式提取特征以编码相对位置和比例:
f ( γ 0 , γ 0 ′ ) = ( ( x − x ′ ) / w , ( y − y ′ ) / h , w ′ / w , h ′ / h ) (24)
其中 γ 0 = ( x , y , w , h ) 和 γ 0 ′ = ( x ′ , y ′ , w ′ , h ′ ) 表示位置框的坐标。
场景图已被用作语义图像检索查询,以模拟对象对之间的多种交互模式。CRF模型旨在对场景图所有可能接地的分布进行建模。文献 [
为了比较两个图中的虚拟子结构,定义了一个这些关系图之间的核,应用于场景建模问题,例如查找相似场景,相关性反馈和基于上下文的模型搜索。在文献 [
理解人与物体之间的交互是视觉分类的基本问题之一,也是详细场景理解的重要一步。人与物体交互(HOI)检测致力于定位人和对象,以及识别它们之间的复杂交互。HOI是一种特殊的视觉关系,其中谓词始终表示动作。Georgia Gkioxari等人(2018) [
VQA包括自然语言处理和计算机视觉,这被称为多模态任务。通过在VQA中输入模型的图像,基于该图像的相关问题的正确答案将是输出。图7是视觉问答的示例。
图7. 视觉问答的示例(来源:visualqa.org)
VQA是在图像内容中进行搜索和推理,图8显示了VQA的过程。
图8. 视觉问答过程
如图8所示,系统首先要检测到图像中的物体,对物体和场景进行分类、识别,对于问题还必须检测出物体之间的关系,进行常识性推理和可能性的知识推理。因此,VQA也将在图像理解方面受益于VRD。
VQA始终被视为一个分类问题,表述为
a ^ = arg max a ∈ Ω p ( a | Q , I ; Θ ) (25)
其中 a ^ 代表最可能的答案,Q表示一个问题,是表示I一个模型参数的相关图像, Θ 是候选答案的集合。
Zhou Su等人(2018) [
VQA的主要目标是根据输入图像和问题,计算机输出符合自然语言规则的合理答案,因此,用户需要对图像的内容,问题的含义和意图以及相关的常识有一定的了解。短期记忆 [
深度学习自提出以来,一直是图域中计算机学习问题的关键和实用方法,尤其近年来深度学习得到了广泛应用和快速增长,促进了大数据向大模型的转变,但在计算机视觉领域中仍然存在一些不适合深度学习的难题,如3D建模、视频处理和场景理解等,需要以后进一步深入研究。在深度学习和视觉关系检测的融合进程中,先后开发出许多优于传统的方法和模型,需要在视觉关系检测的应用场景中验证和完善,寻找出性能优越、简易快捷视觉关系检测新方法和新技术;不断增加视觉关系检测的数据规模来提升深度学习的性能;扩展和优化全视野、3D视觉领域等视觉关系检测的深度学习模型。
本文得到国家自然科学基金(No. 51979085)资助。
汤婧婧,黄 晶,石爱业,张丽丽,徐立中. 基于深度学习的视觉关系检测方法及应用Method and Application of Visual Relationship Detection Based on Deep Learning[J]. 图像与信号处理, 2022, 11(03): 144-161. https://doi.org/10.12677/JISP.2022.113016