设为首页 加入收藏

Hans Journal of Data Mining
Vol.2 No.1(2012), Article ID:447,5 pages DOI:10.4236/hjdm.2012.21001

Recognization of Blood Odor Based on Stepwise Discrimination Analysis*

Chengsheng Long, Xin Wang, Dehua Wu#, Huidong Zhang, Jingning Qiang

Nanjing Police Dog Research Institute of Public Security Ministry, Nanjing

Email: {#jqswdh, longchengsheng}@163.com

Received: Nov. 4th, 2011; revised: Dec. 8th, 2011; accepted: Dec. 15th, 2011.

ABSTRACT:

A model for recognization of blood odor based on stepwise discrimination analysis was established and the features come from the chromatographs of blood samples. The model was described in detail and its code was compiled by means of Matlab. The human blood and animal blood samples were used to train and test the model, which detailed the usage of the model. The results demonstrated that samples from different species could be distinguished.

Keywords: Pattern Recognization; Blood Odor; Stepwise Discrimination Analysis; Matlab

基于逐步判别分析的血液气味识别*

龙成生,王  辛,吴德华#,张汇东,强京宁

公安部南京警犬研究所,南京

Email: {#jqswdh, longchengsheng}@163.com

摘 要:

本文以血液气味色谱为基础,利用逐步判别分析法建立了血液气味识别模型,并对血液气味识别模型的建立进行了详细描述。以Matlab为计算工具,编写了血液气味识别模型的代码。以人体血液与犬、鸡的血液为例,讨论了血液气味识别模型的使用方法。血液气味识别模型能够正确区分人体血液与动物血液。

收稿日期:2011年11月4日;修回日期:2011年12月8号;录用日期:2011年12月15日

关键词:模式识别;血液气味;逐步判别分析;Matlab

1. 引言

血液气味是血迹搜索犬作业的物质基础。在命案快速侦破中,血迹搜索犬发挥了快速、便捷、准确定位等特殊作用[1,2]。在犯罪现场进行血迹搜索和血迹气味追踪时,血迹搜索犬能迅速找出现场血迹走向和附有血液气味的物证如凶器、血衣等。在血迹搜索犬的训练和使用中,血迹气味的质量是影响血迹搜索犬作业结果的关键[3,4]。有文献报道,人体血液气味与个体的健康状况[5]和所处环境[6]有密切关系。因此,血液气味的化学组成分析,可以揭示血迹气味的本质特征,有利于进一步提高血迹搜索犬的训练使用水平,提供血迹搜索犬进行气味作业的科学依据。

血迹搜索犬区分人体血液与其它血液的具体化学成分仍不清楚。但是可以肯定,这些化学成分在不同类别血液气味中存在差异性。研究这种差异性有利于扩大血迹搜索犬的应用范围,也为犬的气味识别机理的研究提供参考。模式识别(Pattern Recognition)是通过对表征事物或现象的各种形式数值、文字和逻辑关系信息进行处理和分析,达到对事物或现象进行描述、辨认、分类和解释的一个过程[7]。除了图像处理[8]、语音系统、文字识别等领域外,模式识别技术也被广泛应用于医学[9]、化学[10]、生物学[11]、食品[12]等领域。

本文以血液气味样品色谱图为基础,利用逐步判别分析方法建立了血液气味识别模型,并以Matlab软件为计算工具编写了相关代码。利用建立的血液气味识别模型对不同来源的血液样品进行了识别,得到了较好结果。

2. 基于逐步判别分析的模式识别

逐步判别的基本思想:每一步选一个判别能力最显著的自变量进入判别函数,而且在每次选变量之前都对已经进入判别函数的诸变量逐个检验其显著性,如果发现有某个变量由于新变量的引入而变得不重要,即在判别函数中判别能力不显著时,就剔除这个变量,直到差别函数中包含的所有变量判别能力都显著时为止,其实施过程如图1所示。

3. 血液气味识别模型

3.1. 变量集的建立

在血液气味色谱图中,每一个色谱峰代表一个化合物,每个化合物都有特定的保留时间。血液气味识别模型的变量来自色谱图的保留时间和峰面积。

Figure 1. Stepwise discriminant analysis process

图1. 逐步判别分析流程图

3.2. 特征向量选择

逐步判别分析过程已经包括特征向量优化过程。当然,我们可以根据经验选择待选变量作为自变量集,也可以去除明显的非特征变量。

3.3. 逐步判别分析过程(计算过程[13])

设变量数据为xigk,它表示第g类第k个样品第i个变量的数值。

1) 计算分类均值和总均值

, , 式中i = 1, 2, , m,表示第i个变量; g = 1, 2, , G,表示第g类;ng表示第g类的样品数量;N = n1 + n2 + n3 + + nG,表示样品总数量。

2) 计算组内协方差矩阵W和总协方差矩阵T:

,式中m表示变量个数,

,式中m表示变量个数,

3) 逐步计算

假设已计算l步(包括l = 0),判别函数中引入了L个变量,则第l + 1步的计算内容如下:

a) 计算全部变量的判别能力。若xi是未选变量,则;若xi是已选变量,则,其中表示第l步计算的结果。

b) 在已选变量中考虑剔除可能存在的最不显著的变量从已选变量中寻找最大的,即最小的F值,将最大的记为并作F检验:,若(为给定值),则把xr从判别函数中剔除出去,其后的计算见第c)步;若,则改为考虑从未选变量中选出最显著的变量,这时从未选变量中寻找最小的,即最大的F值,将最小的记为并作F检验:

,若,则把xr引入判别函数,其后计算见第c)步。

c) 不论xr是选入还是剔除,都有相同的计算公式:

至此,第l + 1步计算结束,其后重复(1) ~ (3)进行下一步计算。在既不能剔除已选变量也无法引入新变量的情况下,逐步计算结束。

4) 计算判别系数

假设引入了L个变量,并且得到,则判别系数的计算为:

, ,

判别函数为:

, pg为第g类的先验概率。

5) 判别分类

设试样x = (x1, x2, xm)并将之代入判别函数可得若,则把x归为第g*类。

上述过程利用Matlab (Version 7.0.0.19920 (R14))进行计算,算法中仅使用了Matlab的基本功能函数。

4. 实例分析

利用上述血液气味识别模型,对我们的实验数据进行了分析。样品分为两大类,人体血液气味和动物血液气味。以10个人体血液气味样品(类别0)和10个动物血液气味样品(类别1)作为训练集,对该模型进行了训练,再用训练好的模型对其它8个样品(类别1)进行识别。具体过程如下:

4.1. 数据预处理

依据我们实验室的研究结果,我们选择了9个化合物作为变量,将各化合物的峰面积除以这些化合物的面积之和,得到各化合物的相对峰面积,数据如表1所示。

Table 1. Data of training and test samples

表1. 训练集与测试集数据

Table 2. Result of training and test

表2. 训练与测试结果

4.2. 模型训练

训练基本参数为:先验概率p1 = p2 = 0.5,变量数m = 9,类别数G = 2,样品总数N = 20,n1 = n2 =1 0。无论是选入新变量还是剔除已选变量,均设为4.0。训练完成后,三个变量x2、x6和x9构成特征向量。类别1和类别2的判别函数分别为:

y1 = ln(10/20) – 228.2864 + 486.9481x2 + 664.0131x6 + 498.0996x9

y2 = ln(10/20) – 0.0191 + 4.3028x2 + 6.3263x6 + 4.2214x9

4.3. 样品识别

用训练好的模型对测试样品进行识别,其结果如表2所示。编号1至10为人血样品(类别1),编号11至20为动物血液样品(类别2),编号21至28为测试样品。所有训练集(编号1至20)样品都被正确归类;在测试集中,27号样品被错误归类。

结果表明,在28个样品中(20个训练样品,8个测试样品),有一个样品(编号27)被归类错误,错误率为3.6%。导致27号样品错误分类的原因可能是训练样品数量不足。训练样品数量的增加可以优化判别函数,从而减小错误率。在实际应用过程中,或进行深入研究时,可以增加样品数量获得更精确的结果。

5. 结论

利用逐步判别分析方法能很好地识别来源不同的血液样品的色谱图,从而达到识别血液样品的目的。在实际应用当中,增加训练集样本量可以提高血液气味识别模型的识别能力;也可以利用血液气味识别模型选择优化特征向量,对血液气味进行更深一步的研究。此外,模型筛选的特征向量对应一组特定的化合物。这些化合物对后续研究很有价值。

参考文献 (References)

[1]       温贤章, 范晓杰, 牛焕民. 血迹犬在现场工作中的应用与研究[A]. 第十三次全国养犬学术研讨会论文集[C], 北京: 中国畜牧兽医学会, 2009: 593-596.

[2]       李维福. 搜索微量血迹气味训练可行性探讨[J]. 中国工作犬业, 2011, 2: 24-25.

[3]       刘凤义. 犬在血迹搜索训练中的要点[J]. 中国工作犬业, 2010, 4: 21.

[4]       董继霖. 浅谈血迹搜索犬的训练及使用[J]. 中国工作犬业, 2011, 27(2): 26-28.

[5]       G. Horvath, H. Andersson and G. Paulsson. Characteristic odour in the blood reveals ovarian carcinoma. BMC Cancer, 2010, 10(1): 643.

[6]       Y. S. Lin, P. P. Egeghy and S. M. Rappaport. Relationships between levels of volatile organic compounds in air and blood from the general population. Journal of Exposure Science & Environmental Epidemiology, 2008, 18(4): 421-429.

[7]       张学工. 模式识别[M]. 北京: 清大学出版社, 2010.

[8]       Y. Wen, L. H. He and P. F. Shi. Face recognition using difference vector plus KPCA. Digital Signal Processing, 2012, 22(1): 140-146.

[9]       A. Daemen, D. Timmerman, T. Van Den Bosch, et al. Improved modeling of clinical data with kernel methods. Artificial Intelligence in Medicine[URL], 2011. http://www.sciencedirect.com/science/article/pii/S0933365711001448#FCANote

[10]    D. S. Cao, Y. Z. Liang, Q. S. Xu, et al. Exploring nonlinear relationships in chemical data using kernel-based methods. Chemometrics and Intelligent Laboratory Systems, 2011, 107(1): 106-115.

[11]    W. Ye and R. T. Robbins. Stepwise and canonical discriminant analysis of longidorus species (nematoda: Longidoridae) from arkansas. Journal of Nematology, 2004, 36(4): 449-456.

[12]    C. Simo, P. J. Martin-Alvarez, C. Barbas, et al. Application of stepwise discriminant analysis to classify commercial orange juices using chiral micellar electrokinetic chromatography-laser induced fluorescence data of amino acids. Electrophoresis, 2004, 16(25): 2885-2891.

[13]    许禄, 邵学广. 化学计量学方法(第二版)[M]. 北京: 科学出版社, 2004.

NOTES

*资助信息:公安部应用创新项目(2011YYCXNJJQ164)。

#通讯作者。

期刊菜单