Hans Journal of Computational Biology
Vol. 08  No. 03 ( 2018 ), Article ID: 26879 , 9 pages
10.12677/HJCB.2018.83007

The Difference Analysis of Histone Modifications in Cancer Cell Line HepG2 and Normal Cell Line Hepatocyte

Yuxian Liu1, Qianzhong Li1,2*

1Laboratory of Theoretical Biophysics, School of Physical Science and Technology, Inner Mongolia University, Hohhot Inner Mongolia

2The State Key Laboratory of Reproductive Regulation and Breeding of Grassland Livestock, Inner Mongolia University, Hohhot Inner Mongolia

Received: Aug. 31st, 2018; accepted: Sep. 13th, 2018; published: Sep. 20th, 2018

ABSTRACT

Liver cancer is a malignant tumor with high cancer morbidity and mortality in the world. More and more studies have found that the histone modifications (HMs) have an important impact on the occurrence of cancer. In order to understand the changes of HMs in liver cancer, we calculate the distribution patterns of eleven HMs in the promoter region for two kinds of cell lines, and analyze the correlation between HM and gene expression, and the correlation between HMs. The results show that there are two kinds of distribution patterns of HMs in promoter region, and the HMs values are generally higher in cancer cell line than in normal cell line. The results indicate that the Spearman correlation between H3K9me3 and gene expression is different in two kinds of cell lines, and the trends of distributions of HMs and correlation are consistent. By analyzing the HMs in highly and lowly expressed genes of two kinds of cell lines, it is found that the difference of HMs is remarkable in highly expressed genes. These results indicate that the analysis of changes for HMs is significant for the study of liver cancer.

Keywords:Liver Cancer, Histone Modifications, Gene Expression

肝癌细胞系与正常细胞系中的组蛋白修饰差异分析

刘育仙1,李前忠1,2*

1内蒙古大学物理科学与技术学院理论生物物理实验室,内蒙古 呼和浩特

2内蒙古大学草原家畜生殖调控与繁育国家重点实验室,内蒙古 呼和浩特

收稿日期:2018年8月31日;录用日期:2018年9月13日;发布日期:2018年9月20日

摘 要

肝癌是全世界癌症发病率和死亡率都非常高的恶性肿瘤,越来越多的研究发现表观修饰对癌症的发生有重要的影响。为了了解肝癌中组蛋白修饰发生了哪些变化,我们统计了肝癌细胞系HepG2和正常细胞系hepatocyte中的11种组蛋白修饰在启动子区域的组蛋白修饰分布模式,并分析了启动子区域组蛋白修饰和基因表达,以及组蛋白修饰之间的相关性。结果表明这11种组蛋白修饰在启动子区域主要有两种分布模式,癌症细胞系中的组蛋白修饰值普遍比正常细胞系中高;组蛋白修饰与基因表达的Spearman相关性分析表明,H3K9me3在两种细胞系中与基因表达呈相反的相关性,而且发现相关性分布与组蛋白修饰分布趋势一致。通过对两种细胞系高低表达基因上的组蛋白修饰分析,发现高表达基因中组蛋白修饰差异更显著。这些结果表明,分析组蛋白修饰的变化对肝癌的研究具有一定的意义。

关键词 :肝癌,组蛋白修饰,基因表达

Copyright © 2018 by authors and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

http://creativecommons.org/licenses/by/4.0/

1. 引言

肝细胞癌(Hepatocellular carcinoma,简称:HCC)是最常见的原发性肝脏恶性肿瘤,是全世界癌症死亡的最主要原因 [1]。肝癌在亚洲和非洲国家发病率非常高,近年来发病率在西方国家也迅速增加 [2]。由于HCC晚期患者不适合根治性肝切除和肝移植,即使患者接受了手术切除,高复发率也是导致肝癌患者5年生存率差的主要原因 [3][4]。肝癌的发展是一个复杂的过程,越来越多的证据表明,除遗传因素以外,表观遗传学的改变也对肝癌的发生产生了重要的影响 [5][6]。因此了解表观遗传学改变的潜在机制,对于发现高效的新疗法是至关重要的。

表观遗传学是指DNA序列没有发生改变但基因表达发生了变化,并且这种变化是可逆和可遗传的,主要包括DNA甲基化和组蛋白修饰(乙酰化、甲基化、磷酸化、泛素化等)等调控机制。组蛋白修饰是核心组蛋白朝向外部的N端尾巴在相关酶的修饰下,加上或去掉相关基团发生的修饰变化,如组蛋白甲基化、乙酰化、磷酸化、泛素化、腺苷酸化、ADP糖基化等修饰。目前研究最广泛的主要是组蛋白甲基化和乙酰化。已有研究报道,组蛋白乙酰化主要富集在启动子区域,激活基因的转录 [7][8]。而组蛋白甲基化与基因的激活或抑制有关,这与修饰的组蛋白残基有关。例如,组蛋白3赖氨酸4的3甲基化(H3K4me3)一般在转录起始位点附近富集,来激活基因转录 [9][10]。组蛋白3赖氨酸27的3甲基化(H3K27me3)一般与基因的抑制有关 [11][12]。组蛋白3赖氨酸9的三甲基化(H3K9me3)则与易染色质和基因沉默有关 [13]。而在肝癌中有关组蛋白修饰理论分析的报道还比较少,因此我们对肝癌细胞与正常细胞中的组蛋白修饰进行了研究。

本文统计了人类肝癌细胞与正常肝细胞的11种组蛋白修饰在启动子区域80个区间的修饰值,由此得到了这两种类型细胞中启动子区域的组蛋白修饰分布;计算了组蛋白修饰在这些区间上与基因表达的相关性,得到了组蛋白修饰在整个启动子区域的相关性分布以及两种细胞中相关性的异同;讨论了组蛋白修饰分布与相关性分布之间的关系以及它们在两种细胞中的区别,并计算了组蛋白修饰两两之间的相关性;最后我们又进一步对两种细胞中的高低表达基因上的组蛋白修饰进行了分析。

2. 数据和方法

2.1. 数据来源及预处理

本研究分别选取了人类肝癌细胞系(HepG2)以及正常肝细胞系(hepatocyte)共有的所有组蛋白修饰数据,总共有11种(H3K9me3、H3K4me3、H3K27me3、H2AFZ、H3K4me1、H3K36me3、H3K4me2、H3K27ac、H3K79me2、H3K9ac、H4K20me1),数据来源于ENCODE (https://www.encodeproject.org/)数据库,下载的为bed格式的数据;我们还从该数据库下载了这两种细胞系对应的基因表达RNA-seq数据,数据也为bed格式,我们用bedtools将这两种数据转换为bam格式,便于后续分析。

本研究所使用的人类参考基因组注释文件下载自UCSC数据库 (http://genome.ucsc.edu/cgi-bin/hgTables)。对于本研究中所使用的参考基因组数据,预处理过程为:首先,将数据中的非编码RNA (以NR开头)全部去除;然后对具有相同转录起始位点的基因去重复,随机保留一个;最后,对基因名去重复,只保留一个。经过初步处理,最终剩余19,157个基因,这些基因作为后续分析的基因。

2.2. 组蛋白修饰值和基因表达值的计算

我们选取人类参考基因的转录起始位点(TSS)上下游2000 bp作为启动子区域,并将TSS上下游每50 bp划分为一个区间,这样启动子区域共分为80个bin。我们用Python语言编程将组蛋白修饰数据落入这些区间。然后根据公式(1)计算每个区间上的组蛋白修饰值(HMs values),这样就可以分别得到在启动子区域80个区间上的组蛋白修饰值。

V HM = n bin × 10 9 n read × 50 (1)

其中 V HM 是组蛋白修饰值, n bin 为落入某区间内的组蛋白修饰read数, n read 为组蛋白修饰的所有read数,50为每个区间的长度。

我们根据RPKM (Reads Per Kilobases per Million reads)的定义来计算基因表达值 [14]。

2.3. 相关性分析

2.3.1. 组蛋白修饰与基因表达的相关性

为了说明启动子区域组蛋白修饰与基因表达之间的相关性,我们分别计算了这两种细胞中11种组蛋白修饰在80个区间上的组蛋白修饰值与基因表达值之间的皮尔森(Pearson)相关系数,即 log 2 ( HMsvalues + 0.01 ) ij log 2 ( RPKM + 0.01 ) 之间的Pearson相关性,其中i代表11种组蛋白修饰中的某种,j为80个区间上的某个区间,为了消除对数无意义的情况,所以我们加了假计数0.01。

2.3.2. 组蛋白修饰之间的相关性分析

由于组蛋白修饰之间存在共修饰现象,组蛋白共修饰可能对基因表达造成影响,为了探究组蛋白修饰之间的关系,我们用R语言计算了每两个组蛋白修饰之间的Spearman相关性,得到一个11 × 11的相关系数矩阵。Spearman相关系数值介于−1~1之间,正的表示正相关,负的表示负相关,相关系数的绝对值越大表示组蛋白修饰之间的相关性越强。然后我们将这个Spearman相关系数矩阵输入R语言中用heatmaps绘图,结果即以热图的形式展示。

2.4. 高低表达基因的划分

我们将两种细胞的基因表达值按照从高到低的顺序排序,选取表达值高的前百分之十作为高表达基因,将两种细胞中表达值为0的基因作为低表达基因。这样正常细胞中得到高表达基因1915个,低表达基因2922个;癌症细胞中得到高表达基因1915个,低表达基因5352个。

3. 结果和讨论

3.1. 组蛋白修饰在两种细胞启动子区域的分布

我们首先对正常细胞和癌症细胞中所有基因在启动子区域的11种组蛋白修饰进行分析,经过计算作出启动子区域的组蛋白修饰分布图(图1)。从图中可以看出,在启动子区域11种组蛋白修饰的分布模式主要为两种类型,大部分分布模式成双峰分布(H3K9ac、H3K27ac、H3K4me2、H3K27me3、H3K4me3、H2AFZ、H3K4me1、H3K9me3),另一种分布模式为非双峰分布(H4K20me1、H3K36me3、H3K79me2),这11种组蛋白修饰分布的峰谷基本都位于转录起始位点。通过比较正常与癌症两种细胞中的组蛋白修饰分布,发现这11种组蛋白修饰基本都是在癌症细胞中比正常细胞中分布高,只有H2AFZ和H3K9me3这两种组蛋白修饰是正常细胞中比癌症细胞中分布高,表明这两种修饰可能起到了抑制性修饰的作用,这一点在相关的文献中也有类似报道。

3.2. 组蛋白修饰与基因表达的相关性分析

计算RPKM值与11种组蛋白修饰在80个区间上的Pearson相关系数,并将两种细胞启动子区域组蛋白修饰与基因表达的相关性结果绘制曲线图(图2),图中纵坐标为相关系数。从图中可以看到,H3K9ac、H3K27ac、H3K4me2、H3K4me3、H2AFZ、H4K20me1、H3K36me3、H3K79me2、H3K4me1这9种组蛋白修饰与基因表达的Pearson相关系数为正,并且基本都是癌症细胞中相关性比正常细胞中高,只有H2AFZ和H4K20me1是正常细胞中比癌症细胞中相关性高,H3K4me1是在转录起始位点上下游附近正常细胞比癌症细胞相关性高,远离转录起始位点的部分相反,是癌症细胞中比正常细胞中相关性高。而H3K27me3与基因表达的Pearson相关系数为负(相关系数r值都小于0),并且是正常细胞中比癌症细胞中相关性高,说明H3K27me3对基因表达起到了抑制作用,并且在正常细胞中抑制性比在癌症细胞中抑制性强一些。H3K9me3与基因表达的相关性却是在正常细胞中呈正相关,在癌症细胞中呈负相关,表明在正常细胞中对基因表达起到了促进作用,而在癌症细胞中对基因表达起到了抑制作用,也就是说组蛋白修饰对基因表达的角色变化,可能对癌症的发生起到了一定的作用。

我们选取正常细胞与癌症细胞中组蛋白修饰与基因表达的皮尔森相关系数在所有区间的最大值作图(图3)。可以看出正常细胞中相关性普遍比癌症细胞中低,除了H4K20me1和H2AFZ这两种组蛋白在正常细胞中比癌症细胞中相关性高,H3K4me3呈正相关、H3K27me3呈负相关与相关的研究结果一致 [9][11]。而H3K9me3在正常细胞与癌症细胞中相关性差别最大,在正常细胞中为正相关,而在癌症细胞中为负相关,表明这种组蛋白修饰可能在正常细胞中促进基因表达,而在癌症细胞中抑制基因表达。H3K36me3组蛋白修饰在正常与癌症细胞中,虽然都为正相关,但是在正常细胞中相关性比较低,而在癌症细胞中相关性相对比较强,两者差距比较大。

为了探究转录起始位点上下游组蛋白修饰与基因表达的相关性分布和组蛋白修饰分布之间的关系,我们作了曲线图(图4),可以看出在启动子区域相关系数和组蛋白的分布走势基本相同,且大部分遵循组

Figure 1. The curve of distribution of histone modifications in all genes

图1. 所有基因的组蛋白修饰值分布

Figure 2. The curve of Pearson correlation between gene expression and histone modifications

图2. 每种组蛋白修饰与基因表达的皮尔森相关系数图

Figure 3. The column chart of Pearson correlation between gene expression and histone modifications

图3. 组蛋白修饰与基因表达的皮尔森相关系数柱形图

注:图中绿色为正常细胞,红色为癌症细胞,每种颜色中颜色较深的曲线为相关性分布曲线其对应右侧的纵坐标,颜色较浅的曲线为组蛋白修饰分布曲线其对应的为左侧的纵坐标

Figure 4. The relationship between the distribution of histone modifications and Pearson correlation

图4. 组蛋白修饰分布与皮尔森相关系数的分布之间的关系

蛋白修饰值越高的细胞对应的相关性也比较大;除了H3K27me3、H4K20me、H3K4me1这三种相反,它们的组蛋白修饰值越高,对应的相关性却比较低。

3.3. 组蛋白修饰之间的相关性

组蛋白之间的共修饰可能会影响基因的表达,因此我们探究了组蛋白修饰与组蛋白修饰之间的相关性,分别作了两种细胞中的组蛋白修饰之间的Spearman相关系数热图(图5)。从正常细胞的相关系数热图可以看出,在正常细胞中有三组正相关性非常强的组蛋白修饰簇,分别是H2AFZ、H3K27ac、H3K9ac、H3K4me3、H3K4me2这5个组蛋白修饰之间Spearman相关性大于0.81,H3K27me3、H3K9me3、H3K36me3这3个组蛋白修饰之间Spearman相关性大于0.89,H4K20me1和H3K79me2这两个组蛋白修饰之间的Spearman相关性大于0.9;而H3K9me3与H3K27ac、H2AFZ、H3K9ac之间的组蛋白修饰Spearman相关性小于−0.52,H3K79me2和H2AFZ之间的Spearman相关性小于−0.53,H3K27me3与H2AFZ、H3K27ac之间的Spearman相关性小于−0.54,这三组分别构成负相关的功能簇。从癌症细胞的相关系数热图可以看出:H3K4me3、H3K27ac、H3K9ac、H3K27me3、H3K4me2之间的Spearman相关系数大于0.86,H2AFZ与H3K27ac、H3K4me3之间的Spearman相关系数大于0.79,H4K20me1和H3K79me2、H3K36me3之间的Spearman相关系数大于0.68,这三组构成正相关性强的组蛋白修饰功能簇;而H3K4me1与H3K4me3、H3K27ac、H3K9ac之间的Spearman相关性小于−0.64,H2AFZ和H3K4me1之间的Spearman相关性小于−0.61,这两组分别构成负相关的功能簇。可以看出,两种细胞的组蛋白共修饰并不相同,表明组蛋白修饰之间的变化可能也是导致肝癌发生的原因。

3.4. 高低表达基因上的组蛋白修饰分析

由于细胞中每种基因的表达水平都不相同,前面虽然对所有基因进行了总体分析,但可能会掩盖掉一些信息,因此,我们进一步将所有基因划分为高低表达基因,并对高低表达这两类基因进行分析。

为了从整体上说明在启动子区域高低表达基因上的组蛋白修饰水平,我们计算了高低表达基因在所有区间归一化的组蛋白修饰平均值,并将两种细胞高低表达基因的组蛋白修饰平均值作了对比,结果见表1。从表格看出,在正常细胞中H3K9ac、H3K4me2、H3K27ac这三种组蛋白修饰明显在高表达基因(High)中比低表达基因(Low)中修饰值高,这可能与它们是激活性修饰有关;而组蛋白修饰H3K27me3则在低表达基因中比高表达基因中修饰值高,这可能与它是抑制性修饰有关。在癌症细胞中,组蛋白修饰H3K9ac、

Figure 5. The heat maps of Spearman correlation between histone modifications

图5. 组蛋白修饰之间的Spearman相关系数热图

Table 1. The average of histone modifications in highly and lowly expressed genes

表1. 高低表达基因中组蛋白修饰的平均值

注:高低表达基因中组蛋白修饰平均水平差异显著大于三倍的用加粗表示,高表达基因比低表达基因平均修饰水平低的用红色来表示。

H3K4me3、H3K36me3、H3K4me2、H3K79me2、H3K27ac在高表达基因中比低表达基因中修饰值高(可能都为激活性修饰),并且与正常细胞相比差异更显著。组蛋白修饰H3K27me3和H3K9me3在低表达基因中比高表达基因中修饰值高,这可能与这两种组蛋白修饰是抑制性修饰有关。比较发现这些激活性修饰在两种细胞中都是高表达基因中修饰值比低表达基因中修饰值高,只是在癌细胞中激活性作用更强。H3K9me3在两细胞中修饰值都不高,但癌细胞低表达基因中却高于高表达基因,这可能与它是抑制性修饰有关。从癌症细胞和正常细胞的高表达基因与高表达基因(H/H),低表达基因与低表达基因的比(L/L),看出低表达基因上组蛋白修饰值在两种细胞中差异并不显著,而高表达基因上的组蛋白修饰H3K4me3、H3K36me3、H3K79me2、H3K27ac在两种细胞中差异非常显著,表明肝癌的发生可能与高表达基因中这些激活性修饰的明显增加有关。

4. 结论

本文主要研究了肝癌细胞与正常细胞的组蛋白修饰的区别。我们通过计算11种组蛋白修饰在两种细胞启动子区域80个区间上的组蛋白修饰值,得到了组蛋白修饰在启动子区域的分布,发现存在两种组蛋白修饰模式,并且发现组蛋白修饰值在癌症细胞中普遍增高。计算了组蛋白修饰值与基因表达值RPKM之间的Pearson相关性,发现大部分相关性为正值,只有H3K27me3为负值,而H3K9me3在两种细胞中的相关性正负不同。通过计算组蛋白修饰之间的Spearman相关性,我们发现两种细胞中有不同的组蛋白修饰功能簇。最后我们又对两种细胞高低表达基因上的组蛋白修饰平均水平进行了分析,发现高表达基因上的组蛋白修饰在两种细胞中差异非常显著,说明高表达基因上组蛋白修饰的变化可能对肝癌的发生产生了更大的影响。

致谢

感谢国家自然科学基金(批准号:31460234、31870838和11747315)对本论文的支持。

文章引用

刘育仙,李前忠. 肝癌细胞系与正常细胞系中的组蛋白修饰差异分析
The Difference Analysis of Histone Modifications in Cancer Cell Line HepG2 and Normal Cell Line Hepatocyte[J]. 计算生物学, 2018, 08(03): 49-57. https://doi.org/10.12677/HJCB.2018.83007

参考文献

  1. 1. Newell, P., Villanueva, A. and Llovet, J.M. (2008) Molecular Targeted Therapies in Hepatocellular Carcinoma: From Pre-Clinical Models to Clinical Trials. Journal of Hepatology, 49, 1-5. https://doi.org/10.1016/j.jhep.2008.04.006

  2. 2. Elserag, H.B. and Rudolph, K.L. (2007) Hepatocellular Carcinoma: Epidemiology and Molecular Carcinogenesis. Gastroenterology, 132, 2557-2576. https://doi.org/10.1053/j.gastro.2007.04.061

  3. 3. Bosch, F.X., Ribes, J., Díaz, M. and Cléries, R. (2004). Primary Liver Cancer: Worldwide Incidence and Trends. Gastroenterology, 127, S5-S16. https://doi.org/10.1053/j.gastro.2004.09.011

  4. 4. Jemal, A., Bray, F., Center, M.M., Ferlay, J., Ward, E. and Forman, D. (2011) Global Cancer Statistics. CA: A Cancer Journal for Clinicians, 61, 69-90. https://doi.org/10.3322/caac.20107

  5. 5. Nishida, N. and Goel, A. (2011) Genetic and Epigenetic Signatures in Human Hepatocellular Carcinoma: A Systematic Review. Current Genomics, 12, 130-137. https://doi.org/10.2174/138920211795564359

  6. 6. Gao, W., Kondo, Y., Shen, L., Shimizu, Y., Sano, T., Yamao, K., et al. (2008) Variable DNA Methylation Patterns Associated with Progression of Disease in Hepatocellular Carcinomas. Carcinogenesis, 29, 1901-1910. https://doi.org/10.1093/carcin/bgn170

  7. 7. Dion, M.F., Altschuler, S.J., Wu, L.F. and Rando, O.J. (2005) Genomic Characterization Reveals a Simple Histone H4 Acetylation Code. Proceedings of the National Academy of Sciences, 102, 5501-5506. https://doi.org/10.1073/pnas.0500136102

  8. 8. Roh, T.Y., Cuddapah, S. and Zhao, K. (2005) Active Chromatin Domains Are Defined by Acetylation Islands Revealed by Genome-Wide Mapping. Genes & Development, 19, 542-552. https://doi.org/10.1101/gad.1272505

  9. 9. Santos-Rosa, H., Schneider, R., Bannister, A.J., Sherriff, J., Bernstein, B.E., Emre, N.T., et al. (2002) Active Genes Are Tri-Methylated at K4 of Histone H3. Nature, 419, 407. https://doi.org/10.1038/nature01080

  10. 10. Bernstein, B.E., Humphrey, E.L., Erlich, R.L., Schneider, R., Bouman, P., Liu, J.S., et al. (2002) Methylation of Histone H3 Lys 4 in Coding Regions of Active Genes. Proceedings of the National Academy of Sciences, 99, 8695-8700. https://doi.org/10.1073/pnas.082249499

  11. 11. Kuzmichev, A., Nishioka, K., Erdjument-Bromage, H., Tempst, P. and Reinberg, D. (2002) Histone Methyltransferase Activity Associated with a Human Multiprotein Complex Containing the Enhancer of Zeste Protein. Genes & Development, 16, 2893-2905. https://doi.org/10.1101/gad.1035902

  12. 12. Cao, R., Wang, L., Wang, H., Xia, L., Erdjument-Bromage, H., Tempst, P., et al. (2002) Role of Histone H3 Lysine 27 Methylation in Polycomb-Group Silencing. Science, 298, 1039-1043. https://doi.org/10.1126/science.1076997

  13. 13. Mann, D.A. (2014) Epigenetics in Liver Disease. Hepatology, 60, 1418-1425. https://doi.org/10.1002/hep.27131

  14. 14. Mortazavi, A., Williams, B.A., McCue, K., Schaeffer, L. and Wold, B. (2008) Mapping and Quantifying Mammalian Transcriptomes by RNA-Seq. Nature Methods, 5, 621. https://doi.org/10.1038/nmeth.1226

NOTES

*通讯作者。

期刊菜单