设为首页 加入收藏 期刊导航 网站地图
  • 首页
  • 期刊
    • 数学与物理
    • 地球与环境
    • 信息通讯
    • 经济与管理
    • 生命科学
    • 工程技术
    • 医药卫生
    • 人文社科
    • 化学与材料
  • 会议
  • 合作
  • 新闻
  • 我们
  • 招聘
  • 千人智库
  • 我要投搞
  • 办刊

期刊菜单

  • ●领域
  • ●编委
  • ●投稿须知
  • ●最新文章
  • ●检索
  • ●投稿

文章导航

  • ●Abstract
  • ●Full-Text PDF
  • ●Full-Text HTML
  • ●Full-Text ePUB
  • ●Linked References
  • ●How to Cite this Article
Software Engineering and Applications 软件工程与应用, 2013, 2, 86-89
http://dx.doi.org/10.12677/sea.2013.24015 Published Online August 2013 (http://www.hanspub.org/journal/sea.html)
Visualization Model of Packet Measurement about
DNA Sequences
Qinxian Bu, Zhijie Zheng
School of Software, Yunnan University, Kunming
Email: bqxian@126.com, conjugatesys@gmail.com
Received: Jun. 20th, 2013; revised: Jul. 4th, 2013; accepted: Jul. 16th, 2013
Copyright © 2013 Qinxian Bu, Zhijie Zheng. This is an open access article distributed under the Creative Commons Attribution License, which per-
mits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.
Abstract: The generation and detection of random sequences play an important role in the application of Cryptography.
With the successful implementation of human genome project, using the random sequence detection tool to process DNA
sequences has a special significance. Based on the natural randomness of DNA sequences, this paper proposes a visuali-
zation model to display spatial distribution of measurement features of DNA sequences by using conjugate maps. The
model can provide a reference for the in-depth visualization study of DNA sequences on random measurement features.
Keywords: DNA Sequences; Packet Measurement; Conjugate Maps
DNA 密码序列分组测量可视化模型
卜琴仙,郑智捷
云南大学软件学院,昆明
Email: bqxian@126.com, conjugatesys@gmail.com
收稿日期:2013 年6月20 日;修回日期:2013 年7月4日;录用日期:2013 年7月16 日
摘 要:随机序列生成和检测在密码学应用中发挥着重要作用,随着人类基因组计划的成功实施,应用随机序
列检测工具处理 DNA 序列具有特殊意义。利用 DNA 序列本身具有的天然随机性,本文用共轭测量图示方法,
提出了一种展现 DNA 序列测量特征空间分布的可视化模型,该模型能为深入解析 DNA 序列随机性测量特征的
可视化研究提供参考。
关键词:DNA 序列;分组测量;共轭图
1. 引言
由于随机序列可产生不可预知的数字串[1],因此
被广泛应用于移动通信[2]、密码安全[3]、环境仿真[4]
等多种与密码生成与检测相关的领域。而现代 DNA
序列的研究表明:同源染色体上等位基因间的相互分
离与非同源染色体上非等位基因间的自由组合,互不
干扰,各自独立分配到配子中去,形成这种线状的排
列分布是随机的,因此 DNA 序列具有天然的随机特
性。
DNA 序列是遗传信息的载体,可以用 A、T、C、
G四个字符组成的字符串来表示。由于 DNA 序列数
据庞大,研究人员很难直接得到 DNA 序列的信息,
因此需要使用辅助工具来进行研究[5]。借鉴李清平[6]
等人针对元胞自动机序列提出的密码技术中检测随
机序列的可视化模型,建立了一套展现 DNA 序列分
组测量特征分布的可视化模型,为 DNA 序列测量及
随机序列的可视化研究提供参考。
Copyright © 2013 Hanspub
86
DNA 密码序列分组测量可视化模型
2. 模型和方法
本文建立的模型包括 2个核心模块:测量模块和
可视化模块。处理过程是把一段长的 DNA 序列分成
等长的若干段,分别计算每段中各个碱基的测度得到
测度序列,最后用二维共轭图方法来展示测度序列的
分布特征。该模型的工作流程如图1所示。
2.1. 测量模块
在这个模块中,用概率统计方法将 DNA 序列转
换成测度序列。
模块的输入:长度为 M的DNA序列及每组的长
度m;
模块的输出:M/m 组测度序列;
模块的处理:以 m个碱基为一组,用归一化的概
率统计方法分别计算每组测量参数的测度值,直到将
整条 DNA 序列划分统计完为止,处理过程如图 2所示。
令

1, 2,,,iiM

m

为DNA 序列不同组的编
号,本文使用的测量参数如表1所示。令
,则 Nj(i)表示在序列的第 i段中,碱基
j的总数目;同理 NA+T(i)与NC+G(i)分别表示在序列的
第i段中,碱基 A与碱基 T的数目之和及碱基 C与碱
基G的数目之和。碱基j对应的测度值用

A,C, T,Gj


i
Pj
来表
示,同理碱基 A + T、C + G对应的测度值分别用

A+T
i
P、

C+G
i
P

来表示,各个测度值的计算方
法如表 2所示。
2.2. 可视化模块
不同于 Poincare方法仅基于一组测度序列构造基
概率计算 可视化 图示结果DNA序列 测度序列
Figure 1. The flow diagram of DNA sequence visualization
图1. DNA序列可视化流程图
第1段 第2段 …… 第i段 第M/m段
……
序列总长度为M
统计每一段的概率测度:A%,C%,T% ,G%,……
{A%},{C%},{T% },{G%},……
Figure 2. The packet processing diagram of DNA sequences
图2. DNA序列分组处理示意图
Table 1. The types of measurement parameters
表1. 测量参数类型
碱基类型 参数类型 总数目
A NA(i)
T NT(i)
C NC(i)
G NG(i)
A + T NA+T (i)
C + G NC+G(i)
N = NA(i) + NT(i) + NC(i) + NG(i)
N0(i) = NA+T(i) = NA(i) + NT(i)
N1(i) = NC+G(i) = NC(i) + NG(i)
N = N0 + N1
Table 2. The value of probability measurements
表2. 测量参数的测度值
概率测度 测度值


A
i
P NA(i)/N0(i)


T
i
P NT(i)/N0(i)


C
i
P NC(i)/N1(i)


G
i
P NG(i)/N1(i)


A+T
i
P NA+T(i)/m


C+G
i
P NC+G(i)/m
于不同距离参数的图示[6],本文选择两组测度序列来
构造二维共轭图示,由于实施的测量方法具有同时给
出多组测度序列的能力,因此,本文提出的图示方法
能展示更为精细的测量特征分布[6]。表 2列出该模型
的6种测量参数,在进行二维可视化时,共有 2
615C

种选择,在本文中选择其中的几种组合进行展示。
模块的输入:表 2中的两个概率测度序列;
模块的输出:相应的图示化结果;
模块的处理:选定将要展示的测度组合,逐一展
示这组测度组合在各个段中的分布,直至将所有段即
M/m 段处理完为止,每段中的一组测度组合对应图示
中的一个点。这样就得到了整条序列的测量特征分布。
通过可视化模块的工作,最终形成了一系列图例
组合。这些结果能直观地显示 DNA 序列测量特征的
空间分布信息,为深入研究 DNA 序列以及随机数的
特征空间分布提供方便。
3. 可视化结果及分析
3.1. 可视化结果
本文选用两组 DNA 序列作为实例:一组是水稻
Copyright © 2013 Hanspub 87
DNA 密码序列分组测量可视化模型
Copyright © 2013 Hanspub
88
的值域从0.00~1.00 变为 0.12~0.70,纵坐标的值域从
0.00~1.00 变为0.15~0.83。
属种基因组中从 224150~224326 共176 个碱基组成的
DNA 序列片段[7];另一组是玉米基因组中一段具有转
位特性的长度为 376 bp 的独立 DNA 序列[8]。为了更
好地分析分组长度对 DNA 序列可视化结果的影响,
选用
 

A, G
ii
PP、
 
两个测度组
合的结果图示进行比较。同时考虑到图示结果的易读
性,每个图均有图名,命名规则是:“序列分组长度 +
序列简写名称 + 基础序列概率统计计算方法 + 可
视化的维度模型”。DNA 序列简写名称与原始名称的
对应关系如表 3所示,实例的可视化结果如图 3和图
4所示。
随着分组长度的增大,横纵坐标的值域范围缩
小,两个子序列完全相同的可能性减少,导致坐标中
点与点之间完全重合的可能性减小,这时空间点的分
布是 DNA 序列信息的完全表达,此时易于进行序列
的差异性分析。

ATA,
ii
PP
当分组长度为30 时,比较图 3中水稻序列和玉
米序列的点分布,可以得到:水稻序列中碱基 G的含
量高于玉米序列中的含量,这为进一步分析水稻序列
和玉米序列的性状差异原因提供依据。
通过以上分析可知:概率计算方法的特点以及不
同DNA序列本身的属性差异形成了图示的分布特征。
从测量可视化的角度,在设定分组长度的时候,需要
综合考虑信息丢失以及分组的实用性两个因素来得
到适合的描述参数。
3.2. 结果分析
可视化结果显示:1) 随着分组长度的增大,相对
应的散点数会减少,并且点与点之间越呈聚集的趋
势;2) 随着分组长度的增大,不同序列的空间分布越
具有差异性。 Table 3. The relationship between abbreviated name and
original name of DNA sequences
以图 3为例,当分组长度分别为 9、15、30 时:
水稻序列在该模型下得到的空间点数分别为 17、11、
5,并且横坐标的值域从 0.20~1.00变为 0.35~0.64,纵
坐标的值域从0.00~1.00 变为 0.44~0.82;玉米序列在
该模型下得到的空间点数分别为32、25、12,横坐标
表3. DNA序列的简写名称与原始序列的对应关系
简写名称 所代表的序列 GenBank索引号 物种名称
OR2402ORSiTEMT02400002 6979318 水稻
ZR5911 ZRSiTEMT05900011 16225215 玉米
0.0 0.20.4 0.6 0.81.0 x:A
 
0.0
0.2
0.4
0.6
0.8
1.0
y:G
 
9OR2402
归

0.0 0.2 0.40.6 0.81.0 x:A0.0
0.2
0.4
0.6
0.8
1.0
y:G
 
15OR2402
归

0.00.2 0.4 0.6 0.81.0x:A0.0
0.2
0.4
0.6
0.8
1.0
y:G
 
30OR2402
归

0.0 0.2 0.40.6 0.8 1.0x:A
 

0.0 0.2 0.40.6 0.8 1.0x:A0.0
0.2
0.4
0.6
0.8
1.0
y:G
 
15 ZR5911
归

0.0 0.2 0.40.60.81.0x: A0.0
0.2
0.4
0.6
0.8
1.0
y:G
 
30ZR5911
归

1.0
y:G
 
9ZR5911
归
0.0
0.2
0.4
0.6
0.8
Figure 3. The results of different length by using the measurement combination of






,
ii
PAPG
: the first represents oryza sequence, the
second line represents maize sequence
图3.
 

,
ii
PAPG

测度组合不同分组长度的可视化结果:其中第一行表征水稻序列,第二行表征玉米序列
DNA 密码序列分组测量可视化模型
0.0 0.2 0.4 0.60.8 1.0 x:A
 
0.0
0.2
0.4
0.6
0.8
1.0
y
:A
 
T
 
9OR2402
归

0.0 0.20.4 0.60.8 1.0x:A0.0
0.2
0.4
0.6
0.8
1.0
y
:A
 
T
 
15 OR2402
归

0.0 0.20.4 0.60.8 1.0x:A0.0
0.2
0.4
0.6
0.8
1.0
y
:A
 
T
 
30 OR2402
归

0.0 0.2 0.4 0.60.8 1.0 x:A
 
0.0
0.2
0.4
0.6
0.8
1.0
y
:A
 
T
 
9 ZR5911
归

0.0 0.2 0.4 0.60.8 1.0 x:A0.0
0.2
0.4
0.6
0.8
1.0
y
:A
 
T
 
15Z R5911
归

0.0 0.20.4 0.60.81.0 x:A0.0
0.2
0.4
0.6
0.8
1.0
y
:A
 
T
 
30ZR5911
归

Figure 4. The results of different length by using the measurement combination of






,
ii
PPAAT: the first represents oryza sequences,
the second line represents maize sequence
图4.
 

,
ii
PPAAT


测度组合不同分组长度的可视化结果:其中第一行表征水稻序列,第二行表征玉米序列
4. 总结
本文建立了用于展现 DNA 序列分组测量特征分
布的可视化模型,一方面能为 DNA 序列的分组研究
提供参考,达到了简化不同 DNA 序列差异性分析的
目的,另一方面能为随机密码序列的可视化研究提供
借鉴。进一步的工作将集中在以下两个方面:1) 优化
算法,使可视化结果尽可能地展示 DNA 序列的精细
特性;2) 以具体应用为切入点,运用建立的模型解决
实际问题。
5. 致谢
感谢云南大学软件学院、云南省软件工程重点实
验室信息安全基金及云南省海外高层次人才项目对
本课题的支持。
参考文献 (References)
[1] 梁帆, 张秀龙, 郑智捷. 利用随机性测试方法对特征分布图
示的分类和评判[A]. 2010年亚太青年通信与技术学术会议论
文集[C]. 昆明, 2010: P78-P82.
[2] 陈顺林, 杨万全, 董庆蓉. m序列在移动通信扰码中的应用与
仿真[J]. 现代电子技术, 2002, 3: 27-29.
[3] B. Schneier. Secrets & lies: Digital security in networked world.
John Wiley & Sons, Hoboken, 2000: 85-101.
[4] 杨睿. 论伪随机序列及其应用[J]. 沈阳工程学院学 报(自然科
学报 ), 2009, 5(2): 166-168.
[5] 石龙. 一种 DNA 序列的 2D 图形表示[J]. 科技信息, 2009, 1: 480-
483.
[6] Q. P. Li, Z. J. Zheng. Spatial distributions for measures of ran-
dom sequences using 2D conjugate maps. Proceedings of Asia-
Pacific Youth Conference on Communication (APYCC) (ISTP),
Kunming, 2010, 64-69.
[7] R. Tarchini, P. Biddle, R. Wineland, S. Tingey and A. Rafalski.
The complete sequence of 340 kb of DNA around the rice Adh1-
adh2 region reveals interrupted colinearity with maize chromo-
some 4. Plant Cell, 2000, 12(3): 381-391.
[8] X. Zhang, C. Feschotte, Q. Zhang, N. Jiang, W. B. Eggleston
and S. R. Wessler. P instability factor: An active maize transpo-
son system asso ci at ed with the amplification of tourist- like MITEs
and a new super family of transposases. Proceedings of the Na-
tional Academy of Sciences of the United States of America,
2011, 98(22): 12572-12577.
Copyright © 2013 Hanspub 89

版权所有:汉斯出版社 (Hans Publishers) Copyright © 2012 Hans Publishers Inc. All rights reserved.