随着大规模视频的迅猛发展,视频理解受到了广泛的关注,为了填补视频特征与视频理解之间的语义鸿沟,本文提出了一种基于知识图谱的视频语义分析流程,采用了随机漫步方法对视频语义标签信息进行共生性概率的量化,研究了基于知识图谱的视频语义推理技术,相关的实验结果证明了知识图谱方法能有效提高视频语义分析的准确度,构建后的多层次视频语义模型支持在视频分类、视频标注及视频摘要等方面的应用,对媒体语义中的信息组织和知识管理有一定的指导意义。 Video understanding has attracted much research attention especially since the recent availability of large-scale video benchmarks. In order to fill up the semantic gap between video features and understanding, this paper puts forward a video semantic analysis process based on knowledge graph, and adopts random walk to quantify semantic consistency between semantic labels. Then video semantic reasoning based-on knowledge graph is studied. The experimental results prove that knowledge graph can improve semantic understanding effectively. Finally, a constructed multilevel video semantic model supports applications in video classifying, video labeling and video ab-stract, which has some guiding significance for information organization and knowledge management of media semantic.
邓莉琼*,吴吉祥,张丽
空军通信士官学校,辽宁 大连
收稿日期:2019年8月6日;录用日期:2019年8月19日;发布日期:2019年8月26日
随着大规模视频的迅猛发展,视频理解受到了广泛的关注,为了填补视频特征与视频理解之间的语义鸿沟,本文提出了一种基于知识图谱的视频语义分析流程,采用了随机漫步方法对视频语义标签信息进行共生性概率的量化,研究了基于知识图谱的视频语义推理技术,相关的实验结果证明了知识图谱方法能有效提高视频语义分析的准确度,构建后的多层次视频语义模型支持在视频分类、视频标注及视频摘要等方面的应用,对媒体语义中的信息组织和知识管理有一定的指导意义。
关键词 :知识图谱,视频,分类,语义分析
Copyright © 2019 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
在移动互联网、大数据的时代背景下,互联网上的视频数据呈现爆发式增长,由于其内容具有易复制、易分发、难管理、难监控等特性,视频语义内容的有效管理成为了近年来的研究热点。语义鸿沟的存在导致了计算机自动描述视频语义准确率低的问题,针对这一问题,本文提出了基于知识图谱的视频语义分析技术,重点关注视频语义的分析描述研究,知识图谱作为一种智能、高效的知识组织方式,能够帮助用户迅速、准确地查询到自己需要的信息,在增进信息的组织、管理和理解领域具有巨大的应用潜力,是对视频视觉语义理解的一个行之有效的途径。本文将知识图谱技术用于构建视频的语义框架之中,将语义关系融入到特征提取中,有效的弥补语义鸿沟,为视频语义理解提供有效的支撑,该方向的研究具有较高的应用价值和现实意义,可广泛应用于视频检索、人机交互、智能安防等。
视频理解在计算机视觉领域是研究热点问题,随着近年来一些大型视频数据集标准(Sports-1M/YFCC-100M/Youtube-8M)的公布以及深度学习和神经网络技术在视频特征提取的运用,视频理解技术得到了巨大的发展。视频分类技术可以分为基于帧层次和基于视频层次两种。在基于帧层次,典型的有DBoF [
虽然视频特征提取的准确度有了较大的提高,但语义鸿沟的问题依然存在,面对海量的视频信息,人们期望以更加智能的方式组织图像资源。知识图谱技术的出现使得信息可以在语义层面上进行整合,这种语义层次的关联技术能够为视频的语义分析研判提供强有力的支撑 [
图1. (a) 小孩拿话筒,(b) 动物园老虎
知识图谱即为用图对知识和知识间关系进行建模。图节点表示知识的概念或实体,图边表示概念或实体间关系,众多节点和边构成的图即可对知识进行完整而清晰的描述。它们力求通过将知识进行更加有序、有机的组织,对用户提供更加智能的访问接口,使用户可以更加快速、准确地访问自己需要的知识信息,并进行一定的知识挖掘和智能决策。例如将图1所示的视频特征建立为图2的知识图谱,通过节点之间的关系能够更好的帮助理解视频的语义内容。近年来已经有不少将知识图谱应用于视频等多媒体领域 [
图2. 视频语义的知识图谱关系示例
针对视频的语义分析,本文所提出的基于知识图谱的视频语义分析流程图如图3所示。
如图3所示,输入一个待分析的视频后,首先从关键视频帧中提取出视频特征和音频特征;然后将这些帧向量特征输入到基于帧的建模或基于视频的建模中,生成最终的知识图谱向量,并输入到分类器中。
该分析框架有两个优势,首先,该框架可适用于目前所有的视频分类算法,包括深度学习和浅层学习等模型,因而具有较高的灵活性;其次,在机器学习的框架中融入了知识图谱的构建,用语义内容之间的关联性填补了视频语义鸿沟,从而提高了准确度。
图3. 基于知识图谱的视频语义分析框架
本文通过对输入的视频帧序列提取视频的3类特征,包括空间特征(基于VGG16、AlexNet的fc7层特征)、视频特征(DT特征),然后对于可进行融合的特征进行前期融合,再通过一个特征选择器,该特征选择器的作用为选择提取到的及前期融合后得到的特征的组合作为DBoF、LSTM等描述模型的输入。
空间特征:本文使用预训练的模型提取视频帧序列图像的空间特征,因为近年来CNN在图像分类、目标检测、图像语义分割等领域取得了一系列突破性的研究成果 [
视频特征:与单独的图片描述问题不同的是,视频帧之间具有时间上的关联性,故而在对视频进行分析时很有必要进行视频的时间上的特征提取。本文使用文献 [
当提取出视频的特征之后,本文利用知识图谱来进一步表示视频里的语义关系 [
本文将语义共生性矩阵定义为S,S为一个L × L的矩阵,L表示的是视频内所有语义实体标签的个数,Sij表示的是语义标签i和语义标签j之间的语义共生性,需要指出的是,两个语义标签之间既可以有直接的联系(如东北虎和动物园),也可以有间接的联系(如东北虎–动物园–人–房屋),两个语义标签之间的联系可能存在多条不同的路径,如果路径越多并且路径距离越短,则表示这两个语义标签之间的语义共生性越强。为了更好的描述和定义该知识图谱中的距离,本文采用随机漫步的方法 [
u = ( 1 − c ) A u + c r
式中A是标准化后的图G的邻接矩阵,c是跳到另外一个节点的概率,本文将其设为0.15,r是初始的标注节点权重。
通过计算从一个语义标签Si到达另一个语义标签Sj的概率Rij来描述这两个语义标签的共生性,概率Rij越高则表示这两个语义标签之间的路径越到,他们之间的语义共生度Sij则越高:
S i j = S j i = R i j R j i
最后,为了提高计算效率,本文利用KNN (K-nearest neighbor)算法对矩阵S进行缩减,即如果Sij是第i行或者第j列最大的前K个单元,则标签i和j被认为是KNN,这样一样可以在减少计算量的同时保留具有最大共生关系的语义标签。
为了剔除冗余信息,首先需要进行实体对齐与消歧。实体对齐是知识图谱构建以及更新过程中的重要工作之一,通过实体对齐,同一个知识图谱内部的实体得到了精简,可以实现知识图谱之间的链接与合并,从而实现构建一个更大规模,服务范围更广泛的知识图谱系统。
实体对齐是对于物理世界中的同一个对象,要识别出它在不同语言,不同地域,不同数据源或者是同一个数据源下不同的表示形式,然后用一个全局唯一的编号来表征。实体对齐算法设计的主要思路是根据具体的知识图谱的特点和处理方法,利用不同的实体识别技术,具体有使用传统概率模型的方法、以及使用机器学习的方法,来完成实体对齐任务。实体消歧是专门用于解决同名实体产生歧义问题的技术。通过实体消歧,就可以根据当前的语境,准确建立实体链接。同义关系是指在概念层面上相同或相似的实体。同义关系抽取的目标是寻找那些字面不同但是指代同一概念、实体或属性的术语 [
知识推理是在知识图谱上进行数据挖掘,使知识图谱不断完善的重要手段,主要包括三个方面:第一,线索挖掘;第二,关系推理;第三,关系预测。线索挖掘是指对于知识图谱中原来并没有关系的实体或概念,挖掘出它们之间的关系或关系模式,英文称为Storytelling。线索挖掘是对于在知识图谱构建过程中没有关联起来的实体进行相关性推理的过程,涉及到的处理方法主要有对于图的各种操作,比如查找子图、查找连通分支等。
随着知识图谱中实体规模的不断扩大,知识图谱中实体的关联,作为知识图谱补全的重要环节,将变得愈来愈重要。同时,由于对实体关联的高效性要求变得愈来愈高,以及知识图谱建设造成的不一致和噪声的干扰,实体关联的任务也会变得越来越复杂,需要研究出更加高效、更具抗噪声能力的实体关联线索挖掘方法 [
关系推理是指根据知识图谱中已有的实体之间的关系推断出实体之间潜在的关系。例如基于规则:“父亲的父亲是爷爷”。然后根据已有的实体之间的关系,这里是康熙对于雍正的关系是父亲和雍正对于乾隆的关系是父亲,推断出康熙对于乾隆的关系是爷爷。基于规则的方法,目前常用的方法是机器学习中的归纳逻辑编程技术,包括基于一阶Horn子句的方法或一阶归纳逻辑(FOIL)。
为了检验基于知识图谱的视频语义分析方法的有效性,本文以视频分类为任务进行实验,实验所用的视频数据是标准视频库YouTube-8M,评价标准采用的平均精度均值MAP和命中率HIT,比较对象现有的三种视频特征分类的方法AoFF,DBoF和LSTM,这三个模型的是实现是基于Google实现(https://github.com/google/youtube-8m),实验在这三个模型的基础上比较了没有融入知识图谱的分类结果和本文所提出的融入了知识图谱的分类方法KGS (Knowledge Graph Semantic),比较结果如表1所示。
从表1的结果中能看出,融入了知识图谱视频语义的分类结果有效的提高了分类准确度,MAP平均提高了1.7%,HIT平均提高了1.6%,这一结果证明了基于知识图谱的方法在填补语义鸿沟的有效性。
AoFF | DBoF | LSTM | ||||
---|---|---|---|---|---|---|
MAP | HIT | MAP | HIT | MAP | HIT | |
— | 0.370 | 0.846 | 0.287 | 0.834 | 0.279 | 0.838 |
KGS | 0.383 | 0.849 | 0.302 | 0.846 | 0.295 | 0.856 |
表1. 视频分类结果的比较
利用知识图谱所表达的视频语义内容信息可以对视频语义内容进行深层次的挖掘,除了视频分类外还可以用于视频摘要、视频标注基于语义的视频检索和视频关联分析等。
视频摘要,主要目的是对视频在内容上进行压缩,使用户能够在短时间内浏览完一段视频内容而不遗漏重要信息。视频标注是对视频内容标注上有用的文本信息,以帮助用户更好的理解视频内容。基于知识图谱建立的视频语义能够更好体现视频各语义标签之间的关联性,形成结构性语义,对于辅助生成视频摘要内容和对视频进行语义标注具有更强的语义表达作用,利用知识图谱技术在一定程度上克服了自然语言的歧义性,把经过梳理、总结的知识提供给用户,更加清晰、动态的方式展现了各种概念之间的联系。
基于语义的检索对于克服图像信息中的语义鸿沟具有重要的作用,基于知识图谱生成的图像语义框架可以更好的服务于语义检索领域,这是由于与传统的基于关键字匹配的搜索引擎工作原理不同的是,知识图谱利用概念、实体的匹配度返回给用户与搜索相关的更全面的知识体系。
语义检索是基于之前的语义组织体系,实现知识关联和概念语义检索的智能化检索方式。知识图谱中的语义检索包含两类核心任务:一是利用相关性在知识库中找到相应的实体;二是在此基础上根据实体的类别、关系及相关性等信息找到关联的实体 [
语义关联分析的基本任务是根据主题、形式、自然属性、社会属性等,链接具有相似语义信息的图像等视觉媒体,在各种跨媒体关联类型中最关键的是关联数据模型。以知识图谱作为基础构建数据模型,能够更好地实现传统数据模型所不能支持的多种智能分析,时空关联分析、逻辑关联分析、语义相似性搜索、数据世系管理与分析、数据溯源与核查等,提升各种多媒体信息之间的关联分析能力。
本文所提出的基于知识图谱的视频语义分析方法可以增强对视频语义的理解,填补视觉特征与内容之间的语义鸿沟,具有重大的价值和研究意义。目前利用知识图谱实现对视频等视觉媒体的语义分析研究还处于初级阶段,仍然存在很多的挑战和难题需要解决,例如知识图谱推理规则的学习等。知识图谱在知识组织和展现上体现出来的优势是非常显著的,在未来的多媒体语义分析领域将扮演越来越重要的角色。
邓莉琼,吴吉祥,张 丽. 从视频到语义:基于知识图谱的视频语义分析技术From Video to Semantic: Video Semantic Analysis Technology Based on Knowledge Graph[J]. 计算机科学与应用, 2019, 09(08): 1584-1590. https://doi.org/10.12677/CSA.2019.98178