Service Science and Management
Vol.05 No.01(2016), Article ID:16874,8 pages
10.12677/SSEM.2016.51003

Distance Learning Applied in Structure Concept Management Ontology Model

Guoying He1, Wei Gao2

1School of Economy & Management, Yunnan Normal University, Kunming Yunnan

2School of Information, Yunnan Normal University, Kunming Yunnan

Received: Jan. 8th, 2016; accepted: Jan. 26th, 2016; published: Jan. 29th, 2016

Copyright © 2016 by authors and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

http://creativecommons.org/licenses/by/4.0/

ABSTRACT

As a structured data model, ontology has been widely used in various fields of science. In management, ontology model is a tool for information retrieving and semantic query expanding. In this paper, we present an ontology learning algorithm based on distance learning method, and the framework is obtained by means of eigenvalues calculation. Through two simulation experiments, we verify the effectiveness of the new ontology algorithm.

Keywords:Ontology, Ontology Similarity Measuring, Ontology Mapping, Distance Learning

距离学习在结构化概念管理本体模型中的应用

何国英1,高炜2

1云南师范大学经济与管理学院,云南 昆明

2云南师范大学信息学院,云南 昆明

收稿日期:2016年1月8日;录用日期:2016年1月26日;发布日期:2016年1月29日

摘 要

本体作为一种结构化数据模型,已经被广泛应用在各个科学领域。在管理学中,本科作为一种信息检索模型用于信息的语义查询和扩张。本文给出一种基于距离学习的本体学习算法,利用特征值优化方法得到计算模型。通过两个仿真实验来验证新本体算法的有效性。

关键词 :本体,相似度计算,本体映射,距离学习

1. 引言

本体一词最初起源于哲学领域,用于表述事物之间的本质必然关联。之后,本体作为一个数据管理模型应用于计算机领域。进入本世纪之后,本体已经成为集数据管理、存储、计算、检索为一体的工具。在管理学中,为了有效地对海量数据进行管理,需要其管理模型能拥有结构化表示数据的能力,从而,本体开始应用于数据管理领域,其相关技术在近几年得到了长足的发展,各种本体算法孕育而生(见[1] -[10] )。此外,借于其强大的数据管理功能,本体被应用于其他学科领域,比如教育学、心理学、生物学、化学等等。

一般地,用用O表示一个本体,用一个图来该本体对应的数据结构。在管理学中,本体利用其自身结构化特征为用于提供查询服务。在具体的工程应用中,数据查询是本体这一数据管理模型的主要功能。从这一角度来说,在本体上的各种应用算法,其核心和本质是对存储的概念进行相似度计算,进而知道它们之间的联系。

近年来,通过学习方法得到本体算法已经成为研究的热点。[2] 提出了基于对偶理论的本体稀疏向量学习算法;[3] 模糊本体中的模糊相似度计算;[4] 给出了基于MLS方法的本体学习算法;[5] 提出基于梯度下降策略的本体稀疏向量学习算法;[6] 在多重分割框架下提出无限推荐本体算法;[7] 利用控制论方法提出新本体相似度计算和本体映射优化算法;[8] 得到基于TLP经验模型的本体学习算法;[9] 将信号逼近的方法应用于本体相似度计算和本体映射中,得到相应的算法;[10] 在k-部排序框架下给出基于AUC标准的本体算法。

本文提出基于距离学习的本体相似度计算和本体映射算法,其算法主要是利用特征值优化技术。

2. 本体学习算法框架

在本体管理模型中,每个概念对应本体图中的一个顶点。为了将本体算法融入到学习框架中,需要对这些概念进行预处理,即对每个顶点而言,用一个向量来表示这个顶点对应概念的所有信息。在不引起混淆的情况下,符号同时表示顶点和它对应的向量。因此在本文中,表示顶点对应概念信息的向量用该顶点v来表示,不再使用标准向量的粗体。在整个学习过程中,使用如下两个集合作为样本集,其实S是相似顶点对构成的集合,D是不相似顶点对构成的集合:

,

.

而顶点之间的距离则用如下公式进行计算:

(1)

其中M是一个半正定对称矩阵。根据公式(1),距离学习的实质是学习得到文矩阵M。对任意自然数n,设。设是对称p阶矩阵空间,为正定对称p阶矩阵空间。设任意,空间上的内积可以表示为,其中表示矩阵的迹。用表示标准欧式空间下的泛数。由n个本体样本点构成的样本集合记为,其中是顶点对应的标记。记,则由(1)可知。若属于相似集合对,则设,并将记为

在学习过程中,我们希望相似的顶点对,它们的距离尽可能的小;而不相似的顶点对,它们的距离尽可能的大。进而可以如下表示:

(2)

采用对最小平方距离进行最大化的方法,(2)又可以化为

(3)

,则(3)又可以写成

(4)

可见,(4)是一个典型的半正定规划(semi-definite programming,简称SDP),其等价于

(5)

3. 主要本体学习算法描述

下面我们给出本文主要本体学习策略。对任意,记的最大特征值。设为不相似对的个数,它的单纯形则为

.

。设是可逆的,则(4)等价于

. (6)

更进一步,可以表示成如下特征值优化问题:

.

如果设三元组表示为相似,但不相似,并设为这样的三元组的集合。重新记。则本体算法问题又可以重新写为如下形式:

(7)

其中是平衡参数。通过计算可知,上述(7)又等价于

.

类似地,设。假设可逆,则上述本体问题(7)又等价于

(8)

其中向量表示其所有分量都是1。设表示向量的最大元素,则(7)可以表示为广义特征值优化问题如下:

.

事实上,由(6)可知本体问题可看成

.(9)

为解答本体问题(9),引入光滑参数,并定义

.

下面我们使用光滑逼近的思想来解(9):

输入:光滑参数,阈值,步长序列

初始化:满足

做如下循环

,

其中为矩阵的最大特征值。

;

,则退出循环;

输出:阶矩阵

可知道,如果步长序列满足,则有

另外一个解答本体优化问题(8)的思路可以表述如下。先设

.

这样一来,(8)等价于

.

用如下的函数来逼近

.

其梯度为

,

.

其具体逼近方法为:

输入:光滑参数,阈值,步长序列

初始化:满足

做如下循环

;

,则退出循环;

输出:阶矩阵和松弛变量

利用以上两种策略,都可以得到顶点对应向量之间距离计算公式,进而间接确定顶点对应概念之间的相似度。

4. 实验

本节中,我们将验证以上得到的本体算法对本体相似度计算和本体映射的有效。为此,将本文学习算法应用于生物学GO本体和物理教育学本体,前者验证算法对相似度计算的效率,后者验证算法对本体映射构建是否有效。

4.1. 本体相似度实验

GO本体构建于http://www.geneontology.Org网站,它将一些生物基因概念集合在一起进行管理,方便用户查找信息。因此,GO本体可以看成一个数据库,图1可见该本体的大致结构,其图形可以表示为一棵树,所有概念分成“molecular function”,“biological process”和“cellular component”三个部分。实验的过程是利用本文得到的算法在GO本体上进行概念顶点之间的距离计算,距离越小则表示相似度越大;反之,距离越大则表示相似度越小。因为这样得到的相似度是相对的,所以实验结构可以使用P@N[11] 平均准确率来判定它的优劣。为了有所比较,将如下以下三类本体学习算法也同时作用于GO本体:基于传统回归学习模型的本体算法[12] 、基于快速排序的学习模型的本体算法[13] 和基于一般本体排序学习方法的本体算法[14] 。取N = 3,5,10,其P@N准确率对比可参考表1

Table 1. Part of data

表1. 部分实验数据

Figure 1. GO ontology O1

图1. GO本体O1

根据取N = 3,5,10时表1中的P@N准确率数据分析对比可知,利用特征值优化得到的距离计算方法可以用于本体相似度计算,并且对GO本体而言,其效率要高于另外三种使用的方法。

4.2. 本体映射实验

接下来,需要验证本文使用特征值优化方法的距离计算模型是否对多个本体之间映射的构建有效。借助物理教育学本体O2和O3,其结构可参考图2图3。由于是本体映射,因此此次距离计算只在不同本体之间进行。同理,距离越小说明相似度越高,距离越大说明相似度越小。而最后本体映射的构建是在相似度计算的基础上进行的。即对于某一个顶点而言,返回在另一个本体中与之相似的顶点集合作为映射值。算法得到的是相对相似度,因此实验准确率同样采用P@N准确率来判断。为了和其他算法的结果进行对比,我们还是将上一个实验中用过的三类算法作用于物理教育学本体O2和O3:基于传统回归学习模型的本体算法、基于快速排序的学习模型的本体算法和基于一般本体排序学习方法的本体算法。由于本次实验中本体顶点数量较少,因此只取N = 1,3,5。表2中显示了部分实验结果。

表2的数据可知,在取N = 1,3,5的情况下,本文特征值优化得到的距离计算模型在物理学教育本体上构建本体映射的效率要高于其他使用的三种方法。

5. 结束语

本体的本质是一个概念集合。在管理学中,为了对概念进行有效管理,需要将其结构化存储和表示,

Figure 2. Education ontology O2

图2. 教育学本体O2

Figure 3. Education ontology O3

图3. 教育学本体O3

Table 2. Part of data

表2. 部分实验数据

因而本体作为一种方法和工具被广泛应用于大数据相关概念管理中。而用户则需要知道这些概念之间的相互联系,因而在本体上进行相似度计算时本体应用的核心内容。本文利用特征值优化得到距离学习方法,并将其用在本体相似度计算和本体映射中。第四节中所示的两个实验表明,新算法是可行的并且是有效的。

基金项目

国家自然科学青年基金资助项目(11401519)。

文章引用

何国英,高 炜. 距离学习在结构化概念管理本体模型中的应用
Distance Learning Applied in Structure Concept Management Ontology Model[J]. 服务科学和管理, 2016, 05(01): 18-25. http://dx.doi.org/10.12677/SSEM.2016.51003

参考文献 (References)

  1. 1. 何国英, 高炜. 基于AJAX和CSS技术的教师在线评价系统设计[J]. 昆明学院学报, 2013, 35(6): 109-111.

  2. 2. 高炜. 基于对偶理论的本体稀疏向量学习算法[J]. 云南师范大学学报(自然科学版), 2015, 35(4): 46-50.

  3. 3. 赵白露, 高炜. 模糊本体中的模糊相似度计算[J]. 重庆工商大学学报(自然科学版), 2014, 31(9): 60-62.

  4. 4. 何国英, 高炜. 基于MLS方法的本体算法[J]. 红河学院学报, 2015, 13(5): 14-16.

  5. 5. Gao, W., Wu, J.Z. and Zhu, L.L. (2015) Ontology Optimization Strategies for Sparse Vector Learning Using Gradient Descent Tricks. Journal of Com-putational Information Systems, 11, 6393-6402.

  6. 6. Gao, W., Zhu, L.L. and Guo, Y. (2015) Multi-Dividing Infinite Push Ontology Algorithm. Engineering Letters, 23, 132-139.

  7. 7. Yu, X., Wu, J.Z. and Gao, W. (2015) A New On-tology Optimization Algorithm for Similarity Measuring and Ontology Mapping in Multi-Dividing Setting. Journal of Computational Information Systems, 11, 3297-3305.

  8. 8. 何国英, 高炜. 基于TLP经验模型的本体学习算法[J]. 大理学院学报, 2015, 13(12): 11-14.

  9. 9. Gao, Y. and Gao, W. (2015) Ontology Similarity Measuring and Ontology Mapping Algorithms Based on Fused Lasso Signal Approximator. American Journal of Circuits, Systems and Signal Processing, 1, 14-19.

  10. 10. Gao, Y., Gao, W. and Liang, L. (2013) A New k-Partite Ranking Learning Algorithm Based on AUC Metric and Application in Ontology. Scientific Journal of Computer Science, 3, 136-144.

  11. 11. Craswell, N. and Hawking, D. (2003) Overview of the TREC 2003 Web Track. Proceedings of the Twelfth Text Retrieval Conference, Gaithersburg, NIST Special Publication, 78-92.

  12. 12. Gao, Y. and Gao, W. (2012) Ontology Similarity Measure and Ontology Mapping via Learning Optimization Similarity Function. International Journal of Machine Learning and Computing, 2, 107-112. http://dx.doi.org/10.7763/IJMLC.2012.V2.97

  13. 13. Huang, X., Xu, T., Gao, W. and Jia, Z. (2011) Ontology Si-milarity Measure and Ontology Mapping via Fast Ranking Method. International Journal of Applied Physics and Ma-thematics, 1, 54-59. http://dx.doi.org/10.7763/ijapm.2011.v1.11

  14. 14. 王雅玡, 高炜, 张云港, 高云. 基于排序学习方法的本体相似度计算[C]. 3rd International Conference on Computational Intelligence and Industrial Application (PACIIA), 2010, 武汉, 20-23.

期刊菜单