引言
基因是指携带有遗传信息的DNA序列,基因通过指导蛋白质的合成来表达自己所携带的遗传信息,从而控制生物个体的性状表现.真核基因在基因表达调控的过程中起主要作用的元件包括顺式作用元件和反式作用因子.反式作用因子是指一系列影响基因转录的调节蛋白;顺式作用元件则指在基因的旁侧存在的一类可以调控基因表达的核酸序列,这些调控元件包括启动子、增强子、终止子、沉默子和隔离子等.启动子可以和决定转录开始的转录因子产生相互作用,控制基因表达的起始时间和表达程度.增强子是DNA上一小段可与反式作用因子结合的区域,与蛋白质结合之后,基因的转录作用将会加强.增强子可能位于基因上游,也可能位于下游.且不一定接近所要作用的基因,甚至不一定与基因位于同一染色体.终止子位于基因编码区下游,是能够终止RNA转录的特殊DNA序列.沉默子是一种负性调控元件,位于结构基因附近,是能抑制该基因转录的DNA序列.真核生物的基因组较原核生物复杂,基因的表达调控十分精细.真核生物的染色体由一系列结构与功能独立的单元组成,各个单元的基因表达情况各不相同,各单元间的结构称为边界元件,它使一侧的基因免受另一侧调控元件的影响,这就是限定染色质转录功能区的染色质隔离子.染色质隔离子不同于增强子和沉默子,本身对基因的表达强度没有直接增强或者减弱的效应.它是染色体上相邻转录功能区的边界序列,使基因的表达免受邻近区域的调控元件的作用.与增强子和沉默子相似的是,隔离子也通过与之相结合的蛋白质来发挥作用.在拟南芥、线虫和果蝇等这些物种里,基因基本是均匀分布的.但是,在哺乳动物的基因组中,基因不是随机分布的.管家基因和组织特异性基因共同聚集在一起.在染色体上有基因成簇存在的区域,也有大片的区域只有“无用DNA”存在.这些聚集在一起的基因共同参与相同的生化路径,它们具有相近的表达水平或者表达模式.临近的基因之所以有相近的表达水平,是因为他们共享了相同的基因表达调控单元.染色质隔离子作为边界元件,能够使得基因表达免受临近区域调控元件的调节作用.那么,隔离子两侧的基因在表达过程中是否彼此完全互不影响?我们以人类基因组为研究对象,以隔离子两侧临近基因的表达水平为切入点,分析了隔离子两侧临近基因的共表达趋势.
1材料和方法
1.1研究材料
1.1.1人类基因组数据
源自NCBI的人类基因组数据库包含基因所在的染色体、基因起点、基因终点和所在正负链等信息.该数据库包含了22条常染色体和两条性染色体.我们只选取22条常染色体上的基因数据,去除原始数据库中的假基因等不适宜本研究的数据后,最终筛选得到32609个基因数据信息.
1.1.2隔离子数据
选取了Ziebarth等2013年构建的人类隔离子数据库CTCFBSDB 2.0.数据文件中共包含34418个隔离子,经过初步筛选,数据库中保留了34063个隔离子.数据文件中的每一个隔离子信息都显示了与隔离子相邻的基因.有些隔离子标注了5`和3`端的相邻基因;有些只标注了5`端相邻基因;有些只标注了3`端相邻基因;有些隔离子两侧没有相邻基因标注.我们根据以上与隔离子相邻基因的标注信息,将隔离子分为四组.每组隔离子的总量和位于常染色体隔离子的数量见表1.因为我们将分析隔离子两侧基因共表达关系,因此在隔离子两侧均有基因标注的第一组数据被保留.文中提到的隔离子两侧临近基因指的是与隔离子相邻的5`和3`端基因,这两个基因作为基因对,进行共表达研究.
1.2研究方法
1.2.1基因表达水平
基因表达是从DNA到mRNA再到蛋白质的过程,基因表达水平可以通过该基因转录的mRNA含量来衡量.在转录过程中,参与转录的RNA聚合酶和一些辅助因子起主要作用.在真核生物的三种RNA聚合酶中,又以RNA聚合酶Ⅱ(PolII)的作用最大,编码蛋白质基因的转录受到该RNA聚合酶的调控.因此我们将依据转录区域PolII的平均含量衡量基因的表达水平.下载PolII数据。在PolII数据库的基础上,通过以下三步实现对基因表达水平的计算.(1)整理原始数据库中以核小体为单位的PolII在染色体上的位置信息,该数据库共包含1988891个核小体PolII数据.(2)整合该数据库和人基因组数据库,明确某一基因转录区范围内PolII数据信息,即筛选位于基因转录区域内的核小体PolII数据.(3)计算每一基因转录区域内的核小体PolII数据平均值,即该基因的表达水平.经过上述三个步骤,我们共计算了24935个基因的表达水平.
1.2.2相关分析
研究两个变量的关系可以采用回归和相关的分析统计方法.如果两个变量间关系属于因果关系,一般采用回归来研究.如果两个变量是平行关系,则采用相关方法来研究.在相关分析中,两个变量没有自变量和因变量的区别.相关分析只能研究两个变量之间相关程度和性质.因为隔离子两侧临近基因表达水平的关系是平行的,不存在一个随另一个变化的情况.因此,应用Pearson相关分析来研究两个基因表达水平之间的关系是适宜的.
2结果
2.1隔离子两侧临近基因表达水平的相关性
在将人基因数据库和隔离子数据库整合之后,共筛选出两侧都有临近基因而且基因名字没有重复的隔离子3729个.然后,将基因表达数据信息以相同基因名称为基准融合到该数据库中.此时,该数据库中每条记录信息包括隔离子起始和终止点、隔离子两侧临近基因的名称、两侧基因所在链的信息(“+”链还是“-”链)、基因的表达水平以及基因的长度等.因为基因的转录方向都是5`→3`,所以位于正链的基因(数据库中该基因的标注为“+”)的转录方向与位于负链基因(数据库中该基因的标注为“-”)转录方向正好相反.为了研究隔离子两侧临近基因表达水平的相关性,首先按照隔离子两侧临近基因的转录方向(基因所在链是“+”或者“-”),将隔离子分为四种:“++”(1063个)、“+-”(667个)、“-+”(928个)和“--”(1071个).其中“++”和“--”隔离子两侧临近基因转录方向相同;“+-”和“-+”隔离子两侧临近基因转录方向相反.然后,针对每一种隔离子,根据隔离子5`端基因的表达水平,又将隔离子分成五类:类1(表达水平最高)、类2(表达水平较高)、类3(表达水平居中)、类4(表达水平较低)和类5(表达水平最低).对于每种隔离子,在依据5`端基因的表达水平分成五类的基础上,计算每一类与同一隔离子临近的3`端基因的表达水平.图1至图4中的每一图显示了依据5`端基因表达水平构建的五类隔离子临近的3`端基因的表达水平.在柱状图中,深色图柱表示5`端基因表达水平;浅色图柱表示3`端基因表达水平.
图1和图4显示,随着隔离子5`端基因表达水平的降低,3`端基因的表达水平同样减低.而图2和图3显示,随着隔离子5`端基因表达水平的降低,3`端基因的表达水平没有显示出相对明显的变化趋势.表2从相关系数的角度表明了隔离子两侧基因表达的相关关系.当隔离子两侧基因同时位于“+”链,皮尔逊相关系数(Pearson Correlation Coefficient,PCC)为0.289;当隔离子两侧基因同时位于“-”链,皮尔逊相关系数为0.199;当隔离子两侧临近基因位于不同链时,表达水平的相关性不显着.可见,隔离子两侧临近基因转录方向相同时,表达水平呈现显着的正相关;转录方向相反时,表达水平没有显着的关联性.同时,我们根据隔离子3`端基因的表达水平进行了类似的工作,得到的结论相同.
2.2隔离子每侧临近基因的长度与表达水平的关联关系
Raghava等的研究显示,酵母基因长度和表达水平是反关联的.基因越短表达水平越高;基因越长表达水平越低.那么人类隔离子每一侧临近基因表达水平与该基因长度之间的关系是否也符合这一规律?
表3显示,不论是与隔离子临近的5`端基因还是3`端基因,表达水平和基因长度之间都是负相关的.即基因越长,表达水平越低;基因越短,表达水平越高.这一研究结果与文献报道的关于基因表达水平与长度关系的结果吻合.按照转录方向分成的四类中,每一类的5`基因和3`基因的表达水平和基因长度都是负相关,这种基因长度与表达水平的负相关不会因为隔离子的存在和基因自身的转录方向而改变.
2.3隔离子两侧基因长度的关联性
进一步分析了隔离子两侧临近基因的基因长度之间的关联,见表4.发现隔离子两侧的基因同时位于“+”链时,基因长度之间的皮尔逊相关系数为0.713;隔离子两侧的基因同时位于“-”链时,基因长度之间的皮尔逊相关系数为0.570;隔离子两侧的基因位于不同链时,基因长度之间的皮尔逊相关系数接近0.1.这说明基因转录方向相同时,隔离子两侧的基因长度关联强,否则关联性弱;两侧临近基因同时位于“+”链时,它们之间的关联性最强.
3讨论
真核染色质由功能独立的结构域组成,结构域中存在边界复合物即隔离子,它可以阻断增强子激活位于其邻近结构域内的启动子,从而抑制不正确的增强子和启动子之间的相互作用.这就是说,隔离子在生物体内的实际功能是既可以作为染色质的结构组分,又可以起到转录调控作用.在基因转录的过程中,相邻的基因可能被定位于染色质的同一区域,而有更多的机会分享一样的启动子或者调节元件而被共调节或者共表达.分析隔离子两侧临近基因的共表达趋势后发现,隔离子每一侧的基因长度和表达水平之间是反关联关系,这一关系不受临近的隔离子的影响.并且,隔离子两侧临近基因同时位于正链或者负链时,或者说基因的转录方向相同时,隔离子两侧基因表达水平的相关性较强.否则,表达水平关联不显着.这一研究结果并没有显示出隔离子对于与之相邻的基因表达具有屏障作用.如果隔离子能够发挥屏障作用,那么不论隔离子两侧的基因转录方向如何,它们的表达水平之间应该没有显着的相关性或相关性很弱.人类隔离子可能大多数发挥了增强子阻断作用.West等的研究显示,根据作用方式的不同,可将隔离子分为两类,即起增强子阻断作用的隔离子和起屏障作用的隔离子.目前发现的大多隔离子为起增强子阻断作用的隔离子,可以作为染色质结构组分和转录调控因子.起屏障作用的隔离子主要在酵母中发现的.如果大多数隔离子发挥了增强子阻断作用,那么转录方向相同的与隔离子临近的两个基因可能共享启动子.在这样一个启动子存在的情况下,与该启动子相互作用的增强子可能位于隔离子的同侧,使得隔离子发挥不了增强子阻断作用,所以隔离子两侧临近基因表达水平相关.我们的研究结果已经显示,转录方向相同的基因表达水平正关联显着.而转录方向相反的基因的转录受到隔离子两侧两个位置不同的启动子的调控,这两个启动子一个靠近隔离子,一个远离隔离子.虽然增强子对于启动子的作用不具有专一性,但是增强子的位置比较灵活,可以位于基因上游或者下游.因为上述原因,所以这类隔离子有更大的可能性位于启动子和增强子之间,发挥自身对于隔离子两侧邻近基因的表达调控作用.我们的研究结果显示,隔离子两侧转录方向相反的基因,表达水平相关性不显着.说明对于这两个基因,隔离子可能发挥了它的增强子阻断作用.
参考文献:
[1]Spilianakis C,Lalioti M,Town T,et al.Interchromosomal associations between alternatively expressed loci[J].Nature,2005,435(7042):637-645.
[2] 朱玉贤.分子生物学[M].北京:高等教育出版社,2008:90-92.
[3]West A G,Gaszner M,Felsenfeld G.Insulators:many functions,many mechanisms[J].Genes Dev,2002,16:271-288.
[4]Emily J K,Pamela K G.Genomic insulators:connecting properties to mechanism[J].Curr Opin Cell Biol,2003,15:259-265.
[5]Bo Z,Xin L.The Progress in the Study of Chromatin Insulator[J].Hereditas,2004,26(4):551-555.
[6]Hurst L D,Pal C,Lercher M J.The evolutionary dynamics of eukaryotic gene order[J].Nat Rev Genet,2004,5(4):299-310.
[7]Lee J M,Sonnhammer E L.Genomic Gene Clustering Analysis of Pathways in Eukaryotes[J].Genome Res,2003,13(5):875-882.
[8]Kruglyak S,Tang H.Regulation of adjacent yeast genes[J].Trends Genet,2000,16(3):109-111.
[9]Ziebarth J D,Bhattacharya A,Cui Y.CTCFBSDB 2.0:a database for CTCF-binding sites and genome organiza-tion[J].Nucleic Acids Res,2013,41(D1):88-94.
[10]Barski A,Cuddapah S,Cui K,et al.High-resolution profiling of histone methylations in the human[J].Cell,2007,129:823-837.
[11]杜荣骞.生物统计学[M].北京:高等教育出版社,2009:223-226.
[12]Raghava G P,Han J H.Correlation and prediction of gene expression level from amino acid and dipeptide compo-sition of its protein[J].BMC Bioinformatics,2005,6:59.
[13]Butler J E,Kadonaga J T.Enhancer-promoter specificity mediatedby DPE or TATA core promoter motifs[J].GeneDev,2001,15:2515-2519.