随机序列生成和检测在密码学应用中发挥着重要作用,随着人类基因组计划的成功实施,应用随机序列检测工具处理DNA序列具有特殊意义。利用DNA序列本身具有的天然随机性,本文用共轭测量图示方法,提出了一种展现DNA序列测量特征空间分布的可视化模型,该模型能为深入解析DNA序列随机性测量特征的可视化研究提供参考。<br/>The generation and detection of random sequences play an important role in the application of Cryptography. With the successful implementation of human genome project, using the random sequence detection tool to process DNA sequences has a special significance. Based on the natural randomness of DNA sequences, this paper proposes a visuali- zation model to display spatial distribution of measurement features of DNA sequences by using conjugate maps. The model can provide a reference for the in-depth visualization study of DNA sequences on random measurement features.
由于随机序列可产生不可预知的数字串[
DNA序列是遗传信息的载体,可以用A、T、C、G四个字符组成的字符串来表示。由于DNA序列数据庞大,研究人员很难直接得到DNA序列的信息,因此需要使用辅助工具来进行研究[
本文建立的模型包括2个核心模块:测量模块和可视化模块。处理过程是把一段长的DNA序列分成等长的若干段,分别计算每段中各个碱基的测度得到测度序列,最后用二维共轭图方法来展示测度序列的分布特征。该模型的工作流程如图1所示。
在这个模块中,用概率统计方法将DNA序列转换成测度序列。
模块的输入:长度为M的DNA序列及每组的长度m;
模块的输出:M/m组测度序列;
模块的处理:以m个碱基为一组,用归一化的概率统计方法分别计算每组测量参数的测度值,直到将整条DNA序列划分统计完为止,处理过程如图2所示。
令为DNA序列不同组的编号,本文使用的测量参数如表1所示。令,则Nj(i)表示在序列的第i段中,碱基j的总数目;同理NA+T(i)与NC+G(i)分别表示在序列的第i段中,碱基A与碱基T的数目之和及碱基C与碱基G的数目之和。碱基j对应的测度值用来表示,同理碱基A + T、C + G对应的测度值分别用、来表示,各个测度值的计算方法如表2所示。
不同于Poincare方法仅基于一组测度序列构造基
图1. DNA序列可视化流程图
图2. DNA序列分组处理示意图
表1. 测量参数类型
表2. 测量参数的测度值
于不同距离参数的图示[
模块的输入:表2中的两个概率测度序列;
模块的输出:相应的图示化结果;
模块的处理:选定将要展示的测度组合,逐一展示这组测度组合在各个段中的分布,直至将所有段即M/m段处理完为止,每段中的一组测度组合对应图示中的一个点。这样就得到了整条序列的测量特征分布。
通过可视化模块的工作,最终形成了一系列图例组合。这些结果能直观地显示DNA序列测量特征的空间分布信息,为深入研究DNA序列以及随机数的特征空间分布提供方便。
本文选用两组DNA序列作为实例:一组是水稻属种基因组中从224150~224326共176个碱基组成的DNA序列片段[
可视化结果显示:1) 随着分组长度的增大,相对应的散点数会减少,并且点与点之间越呈聚集的趋势;2) 随着分组长度的增大,不同序列的空间分布越具有差异性。
以图3为例,当分组长度分别为9、15、30时:水稻序列在该模型下得到的空间点数分别为17、11、5,并且横坐标的值域从0.20~1.00变为0.35~0.64,纵坐标的值域从0.00~1.00变为0.44~0.82;玉米序列在该模型下得到的空间点数分别为32、25、12,横坐标的值域从0.00~1.00变为0.12~0.70,纵坐标的值域从0.00~1.00变为0.15~0.83。
随着分组长度的增大,横纵坐标的值域范围缩小,两个子序列完全相同的可能性减少,导致坐标中点与点之间完全重合的可能性减小,这时空间点的分布是DNA序列信息的完全表达,此时易于进行序列的差异性分析。
当分组长度为30时,比较图3中水稻序列和玉米序列的点分布,可以得到:水稻序列中碱基G的含量高于玉米序列中的含量,这为进一步分析水稻序列和玉米序列的性状差异原因提供依据。
通过以上分析可知:概率计算方法的特点以及不同DNA序列本身的属性差异形成了图示的分布特征。从测量可视化的角度,在设定分组长度的时候,需要综合考虑信息丢失以及分组的实用性两个因素来得到适合的描述参数。
表3. DNA序列的简写名称与原始序列的对应关系
图3.测度组合不同分组长度的可视化结果:其中第一行表征水稻序列,第二行表征玉米序列
图4.测度组合不同分组长度的可视化结果:其中第一行表征水稻序列,第二行表征玉米序列
本文建立了用于展现DNA序列分组测量特征分布的可视化模型,一方面能为DNA序列的分组研究提供参考,达到了简化不同DNA序列差异性分析的目的,另一方面能为随机密码序列的可视化研究提供借鉴。进一步的工作将集中在以下两个方面:1) 优化算法,使可视化结果尽可能地展示DNA序列的精细特性;2) 以具体应用为切入点,运用建立的模型解决实际问题。
感谢云南大学软件学院、云南省软件工程重点实验室信息安全基金及云南省海外高层次人才项目对本课题的支持。
[
[
[
[
[
[
[
[